• Principal
  • Notícia
  • Perguntas e respostas: como o Pew Research Center identificou bots no Twitter

Perguntas e respostas: como o Pew Research Center identificou bots no Twitter

Os bots fazem parte da vida no Twitter, mas determinar o quão difundidos eles são pode ser complicado.


Um estudo recente do Pew Research Center explorou o papel dos bots no compartilhamento de links no Twitter. O estudo examinou 1,2 milhão de links tweetados - coletados no verão de 2017 - para medir quantos vieram de contas de bot suspeitas. O resultado: cerca de dois terços (66%) dos links tuitados que o Centro examinou foram compartilhados por bots suspeitos ou contas automatizadas que podem gerar ou distribuir conteúdo sem supervisão humana direta.

Como qualquer estudo de bots no Twitter, a análise primeiro precisava responder a uma pergunta fundamental: quais contas são bots e quais não são? Neste Q&A, Stefan Wojcik, um cientista social computacional do Centro e um dos autores do relatório, explica como ele e seus colegas navegaram nesta questão. Você também pode assistir a este vídeo explicativo com Wojcik para saber mais sobre a metodologia do estudo.

Como você pode determinar se uma conta do Twitter é uma pessoa ou um bot?

Stefan Wojcik, cientista social computacional do Pew Research Center

É um desafio. É um campo em expansão e sempre há um certo grau de incerteza. Mas a melhor maneira é observar o que uma conta específica está fazendo. Que tipo de conteúdo está compartilhando? Os tweets transmitem mensagens que parecem humanas? Que outras contas isso segue? A conta tweetou a cada cinco minutos durante toda a sua vida útil?

Você pode criar uma lista de características como essas para tentar determinar se uma conta é um bot ou não. Claro, seria muito demorado tentar observar essas características para 140.000 contas diferentes do Twitter (aproximadamente o número de contas incluídas no estudo). Uma abordagem mais prática é chegar a um conjunto de dados razoavelmente grande de contas que são bots e não bots, e então usar um sistema de aprendizado de máquina para 'aprender' os padrões que caracterizam contas de bot e humanas. Com esses padrões em mãos, você pode usá-los para classificar um número muito maior de contas.


Investigamos diferentes sistemas de aprendizado de máquina que foram testados publicamente. Com base em sua aplicação bem-sucedida em pesquisas anteriores e em nossos próprios testes, selecionamos um sistema chamado Botômetro.



O que é botômetro e como funciona?

Bots na Twittersfera

Leia o relatório do Pew Research Center sobre contas automatizadas e Twitter.


Botometer é um sistema de aprendizado de máquina desenvolvido por pesquisadores da University of Southern California e da Indiana University. O sistema foi treinado para reconhecer o comportamento do bot com base em padrões em um conjunto de dados de mais de 30.000 contas que foram verificadas pela primeira vez por pesquisadores humanos como bots ou não bots. O botômetro 'lê' mais de mil características diferentes, ou 'recursos', para cada conta e, em seguida, atribui à conta uma pontuação entre 0 e 1. Quanto maior a pontuação, maior a probabilidade de a conta ser automatizada. A ferramenta foi usada em vários estudos acadêmicos e outras pesquisas independentes.

Em seu estudo, você definiu uma pontuação de botômetro de 0,43 como o limite entre uma conta não automatizada e uma automatizada. Como você chegou a esse limite?

Como outros fizeram no passado, precisávamos dizer se uma conta poderia ser razoavelmente suspeita de usar automação - ser um 'bot'. Portanto, definimos um limite, que selecionamos de forma a minimizar dois tipos diferentes de erro. Usar uma pontuação de botômetro muito alta significaria classificar incorretamente muitos bots como contas humanas - também conhecido como falso negativo. Por outro lado, se tivéssemos definido um limite muito baixo, teríamos rotulado incorretamente muitas contas humanas como bots - um falso positivo.


Qual tipo de erro é 'pior'? É uma pergunta complicada e a resposta depende do que você deseja realizar. Queríamos a visão mais precisa de 10.000 pés da prevalência de bots que compartilham links no Twitter, por isso definimos o limite de uma forma que maximizasse a precisão.

Usar uma pontuação de botômetro muito alta significaria classificar incorretamente muitos bots como contas humanas - também conhecido como falso negativo. Por outro lado, se tivéssemos definido um limite muito baixo, teríamos rotulado incorretamente muitas contas humanas como bots - um falso positivo.
Stefan Wojcik

Fizemos isso conduzindo uma análise humana de um subconjunto das contas do Twitter em nosso estudo e, em seguida, usando os resultados para determinar qual limite do botômetro minimizaria a parcela de falsos positivos e falsos negativos na amostra maior.

Esta análise, que é informada por julgamentos humanos, é uma alternativa à escolha de um limite arbitrário, o que os desenvolvedores do Botometer explicitamente desencorajam. Nossos testes eventualmente nos levaram a estabelecer uma pontuação limite de 0,43, que é semelhante ao que a própria equipe do Botômetro encontrou para maximizar a precisão para uma grande amostra.


Também voltamos e olhamos as contas que o Twitter havia suspendido como parte de seus esforços para melhorar a plataforma desde que coletamos nossos dados. Descobrimos que contas suspeitas de serem bots foram suspensas por taxas mais altas do que contas que identificamos como humanas.

Não existem algumas contas do Twitter que estão acima do seu limite, mas estãonãobots? E algumas contas não estão abaixo do seu limite, masestãobots?

Sim, existem alguns. Várias pessoas que leram nosso estudo apontaram isso depois de testar suas próprias contas do Twitter em relação ao nosso limite. Mas é importante lembrar que calibramos esse limite para obter uma estimativa média da função geral dos bots na produção de links tweetados, não para determinar seIndividualcontas eram bots. Se esse fosse nosso objetivo, poderíamos ter usado um método diferente, um que se concentrasse mais em minimizar falsos positivos.

O erro de medição é uma parte natural do aprendizado de máquina e da medição científica de forma mais ampla. Pesquisas, por exemplo, também apresentam erros de medição que podem resultar de perguntas mal formuladas ou respondentes desatentos, além do erro de amostragem mais familiar. Portanto, não é surpreendente ver falsos positivos ou falsos negativos ao usar este sistema.

Muitas contas institucionais do Twitter - como as de organizações de notícias que tuitam vários links para o mesmo artigo todos os dias - podem demonstrar comportamento semelhante ao de um bot, embora não sejam bots. Como seu estudo explica esses tipos de relatos?

Reconhecemos isso como um problema potencial. Se contas institucionais fossem responsáveis ​​por uma quantidade substancial de links tweetados, então nossa compreensão do comportamento do bot poderia ser muito diferente. Portanto, realizamos um teste para ver qual impacto - se houver - essas contas 'verificadas' podem ter tido. Removemos contas verificadas que foram classificadas como contas de bot e refizemos nossa análise. Descobrimos que as porcentagens de links tweetados postados por bots eram praticamente as mesmas, com ou sem contas verificadas. Isso nos deu confiança de que nossos resultados não foram impulsionados principalmente por essas contas institucionais verificadas.

Quais conclusões sobre o aprendizado de máquina em geral surgiram desse projeto?

O aprendizado de máquina pode ser uma ferramenta valiosa para pesquisa. Pode ser especialmente útil ao examinar grandes quantidades de dados de mídia social ou outros dados de rastreamento digital na web. Na verdade, nos últimos anos, o Pew Research Center expandiu sua pesquisa usando o aprendizado de máquina.

Também sabemos que o aprendizado de máquina é um campo em crescimento e que sempre há um grau de incerteza sobre o funcionamento de abordagens específicas. Sentimos que a melhor forma de usar esta ferramenta é ser transparente nas decisões que tomamos, ser aberto sobre a possibilidade de erros e ter cuidado ao interpretar nossas descobertas. Estamos ansiosos para contribuir com os avanços feitos no processamento de linguagem natural, estatística aplicada e aprendizado de máquina, e esperamos explorar suas vantagens e limitações.