Bots na Twittersfera

CORREÇÃO (abril de 2018): No relatório original, as palavras 'liberais' e 'conservadores' foram invertidas em uma frase. Foi corrigido para dizer: 'Os bots suspeitos compartilham aproximadamente 41% dos links para sites políticos compartilhados principalmente porliberaise 44% dos links para sites políticos compartilhados principalmente porconservadores- uma diferença que não é estatisticamente significativa '. Em outra frase, a palavra 'conservadores' foi usada erroneamente no lugar de 'liberais'. Foi corrigido para ler, 'Em contraste, estima-se que contas automatizadas compartilhem 41% dos links para sites políticos com públicos compostos principalmente porliberais, e 44% daqueles compostos principalmente de conservadores '. Essas correções não mudam a conclusão de que as contas automatizadas no estudo não mostraram evidências de um 'viés político' liberal ou conservador em seu comportamento geral de compartilhamento de links.


A palavra 'substancialmente' também foi removida da seguinte frase: 'Links associados ao próprio Twitter são compartilhados por contas de bot suspeitas cerca de 50% do tempo - uma parcela substancialmente menor do que as outras categorias primárias de conteúdo analisadas'. O valor de 50% ésubstancialmentemenor do que apenas cinco das seis categorias. Esta correção não altera materialmente a análise do relatório.

O papel dos chamados 'bots' de mídia social - contas automatizadas capazes de postar conteúdo ou interagir com outros usuários sem envolvimento humano direto - tem sido objeto de muito escrutínio e atenção nos últimos anos. Essas contas podem desempenhar um papel valioso no ecossistema de mídia social, respondendo a perguntas sobre uma variedade de tópicos em tempo real ou fornecendo atualizações automatizadas sobre notícias ou eventos. Ao mesmo tempo, eles também podem ser usados ​​para tentar alterar as percepções do discurso político nas redes sociais, espalhar desinformação ou manipular sistemas de classificação e revisão online. Como a mídia social alcançou uma posição cada vez mais proeminente no ambiente geral de notícias e informações, os bots foram varridos no debate mais amplo sobre a mudança dos hábitos de notícias dos americanos, o teor do discurso online e a prevalência de 'notícias falsas' online.


No contexto dessas discussões contínuas sobre o papel e a natureza dos bots, o Pew Research Center se propôs a entender melhor como muitos dos links compartilhados no Twitter - a maioria dos quais se referem a um site fora da própria plataforma - estão sendo promovidos por bots em vez de humanos. Para fazer isso, o Centro usou uma lista de 2.315 dos sites mais populares1e examinou os cerca de 1,2 milhão de tweets (enviados por usuários do idioma inglês) que incluíam links para esses sites durante um período de cerca de seis semanas no verão de 2017. Os resultados ilustram o papel generalizado que as contas automatizadas desempenham na disseminação de links para uma ampla gama de sites de destaque sites no Twitter.

Como este estudo define um bot do Twitter?

Em termos gerais, os bots do Twitter são contas que podem postar conteúdo ou interagir com outros usuários de maneira automatizada e sem intervenção humana direta.

Os bots são usados ​​para muitos propósitos. Este estudo se concentra em um tipo específico de comportamento de bot: bots que tweetam ou retuitam links para conteúdo na web. Em outras palavras, são bots que postam ou promovem sites específicos ou outro conteúdo online.



Muitos bots não se identificam como bots, então este estudo usa uma ferramenta chamada Botometer para estimar a proporção de links do Twitter para sites populares na web que são postados por contas automatizadas ou parcialmente automatizadas. Um estudo sugere que o botômetro é cerca de 86% preciso, e o Pew Resesarch Center conduziu seus próprios testes de validação independentes do sistema botômetro. Para reconhecer a possibilidade de classificação incorreta, usamos o termo 'bots suspeitos' ao longo deste relatório. Para obter detalhes sobre como o botômetro funciona, consulte a metodologia.


Entre as principais descobertas desta pesquisa:

  • De todos os links tweetados2 3para sites populares, 66% são compartilhados por contas com características comuns entre 'bots' automatizados, ao invés de usuários humanos.
  • Entre os sites de notícias populares e de eventos atuais, 66% dos links tuitados são feitos por bots suspeitos - idêntico à média geral. A participação de links tweetados por bots é ainda maior entre certos tipos de sites de notícias. Por exemplo, cerca de 89% dos links tuitados para sites populares de agregação que compilam histórias da web são postados por bots.
  • Um número relativamente pequeno de bots altamente ativos é responsável por uma parcela significativa de links para sites de notícias e mídia importantes. Esta análise descobriu que as 500 contas de bot suspeitas mais ativas são responsáveis ​​por 22% dos links tuitados para sites populares de notícias e eventos atuais durante o período em que este estudo foi conduzido. Em comparação, os 500 usuários humanos mais ativos são responsáveis ​​por uma parcela muito menor (cerca de 6%) dos links tweetados para esses canais.
  • O estudo não encontrou evidências de que contas automatizadas atualmente tenham um 'viés político' liberal ou conservador em seu comportamento geral de compartilhamento de links. Isso emerge de uma análise do subconjunto de sites de notícias que contêm material de orientação política. Os bots suspeitos compartilham cerca de 41% dos links para sites políticos compartilhados principalmente por liberais e 44% dos links para sites políticos compartilhados principalmente por conservadores - uma diferença que não é estatisticamente significativa. Em contraste, os bots suspeitos compartilham de 57% a 66% dos links de sites de notícias e eventos atuais compartilhados principalmente por um público humano centrista ou ideologicamente misto.

Exemplos de bots do Twitter em ação

Os bots podem ser usados ​​para uma ampla variedade de propósitos. Aqui estão alguns exemplos de bots que realizam várias tarefas no Twitter:


  • O Netflix Bot (@netflix_bot) tuíta automaticamente quando um novo conteúdo é adicionado ao serviço de streaming online.
  • Grammar Police (@_grammar_) é um bot que identifica tweets gramaticalmente incorretos e oferece sugestões para o uso correto
  • Museum Bot (@museumbot) posta imagens aleatórias do Metropolitan Museum of Art
  • O CNN Breaking News Bot (@attention_cnn) é uma conta não oficial que envia um alerta sempre que a CNN afirma ter notícias de última hora
  • O 4th Down Bot do New York Times (@ NYT4thDownBot) é um bot que fornece análises ao vivo da NFL.
  • PowerPost do Washington Post (@PowerPost) é um bot que fornece notícias sobre tomadores de decisão em Washington.

Essas descobertas são baseadas em uma análise de uma amostra aleatória de cerca de 1,2 milhão de tweets de usuários do idioma inglês contendo links para sites populares no período de 27 de julho a 11 de setembro de 2017.4Para construir a lista de sites populares usados ​​nesta análise, o Centro identificou quase 3.000 dos sites mais compartilhados durante os primeiros 18 dias do período de estudo e os codificou com base em uma variedade de características.5Após remover links inativos, duplicados ou direcionados a sites sem informações suficientes para classificar seu conteúdo, os pesquisadores chegaram a uma lista de 2.315 sites.

Primeiro, esses sites foram categorizados em seis grupos de tópicos diferentes com base em sua área de enfoque principal. Os agrupamentos de tópicos incluíram: conteúdo adulto, esportes, celebridades, produtos ou serviços comerciais, organizações ou grupos e notícias e eventos atuais. Para comparação com essas categorias primárias, os pesquisadores colocaram links que redirecionavam para o conteúdo do próprio Twitter em uma categoria separada.

Em segundo lugar, os sites categorizados como tendo um amplo foco em notícias e eventos atuais (no total, 925 sites atenderam a esses critérios) foram subsequentemente codificados com base em três critérios adicionais:

  • Se a maioria do conteúdo do site consistiu em material agregado ou republicado produzido por outros sites ou publicações;
  • Se o site incluía uma seção de política e / ou histórias políticas com destaque nas manchetes; e
  • Se o site tinha uma página de contato (uma característica que pode servir como um proxy para saber se um site oferece aos leitores a capacidade de enviar comentários e feedback).

Terceiro, o Centro identificou um subconjunto adicional de sites de notícias e eventos atuais que apresentavam histórias políticas ou uma seção de política e que atendiam principalmente ao público dos EUA. Cada um desses sites de notícias e eventos atuais de orientação política foi classificado como tendo principalmente um público liberal, um público conservador ou um público misto.6

A próxima etapa foi examinar cada link tweetado para esses sites e tentar determinar se o link foi postado em uma conta automatizada. Para identificar os bots, o Centro utilizou uma ferramenta conhecida como 'Botômetro', desenvolvida por pesquisadores da University of Southern California e da Indiana University. Agora em sua segunda encarnação, o Botometer estima a probabilidade de que qualquer conta seja automatizada ou não com base em uma série de critérios, incluindo a idade da conta, a frequência com que ela publica e as características de sua rede de seguidores, entre outros fatores. As contas estimadas como tendo uma probabilidade relativamente alta de serem automatizadas com base nos testes do sistema Botometer do Pew Research Center foram classificadas como bots para os fins desta análise.7

Coletivamente, a coleta de dados, a codificação do site e a análise de detecção de bot descritos acima fornecem uma resposta à seguinte pergunta de pesquisa:Qual proporção de links tuitados para sites populares são postados por contas automatizadas, em vez de usuários humanos?


Esta pesquisa é parte de uma série de relatórios do Pew Research Center examinando o ambiente de informação nas redes sociais e as formas como os usuários se envolvem nesses espaços digitais. Estudos anteriores documentaram a natureza e as fontes de tweets sobre notícias de imigração, as maneiras como as notícias são compartilhadas nas redes sociais em um Congresso polarizado, o grau em que as informações científicas nas redes sociais são compartilhadas e confiáveis, o papel das redes sociais no contexto mais amplo de assédio online, como as principais questões sociais, como relações raciais, atuam nessas plataformas e os padrões de como diferentes grupos se organizam no Twitter.

É importante observar que as contas de bot nem sempre se identificam claramente como tal em seus perfis, e qualquer sistema de classificação de bot inevitavelmente apresenta algum risco de erro. O sistema Botometer foi documentado e validado em uma série de publicações acadêmicas, e pesquisadores do Centro conduziram uma série de medidas de validação independentes de seus resultados.8No entanto, algumas contas humanas podem ser classificadas incorretamente como automatizadas, enquanto algumas contas automatizadas podem ser classificadas incorretamente como genuínas. Portanto, há um certo grau de incerteza nessas estimativas da parcela de tráfego por contas de bot suspeitas.

Além disso, a análise descrita neste relatório é baseada em um subconjunto de tweets coletados durante um período de tempo específico. Não é uma análise de todos os sites ou de todas as propriedades de mídia, mas sim uma análise de sites populares e meios de comunicação medidos pelo número de links postados no Twitter para seu conteúdo. Esta análise não visa avaliar se esses links estavam sendo compartilhados por bots 'bons' ou 'ruins', ou se esses bots são controlados de dentro ou de fora dos Estados Unidos. Também não buscou avaliar o alcance dos tweets em questão ou para determinar quantos usuários humanos viram, clicaram ou se envolveram com o conteúdo gerado por bot.

Mais detalhes sobre nosso esforço de classificação de bots podem ser encontrados na metodologia deste relatório.

A atividade de conta automatizada é proeminente em todo o ecossistema do Twitter

As contas automatizadas desempenham um papel proeminente no tweeting de links para conteúdo em todo o ecossistema do Twitter. A análise do Centro descobriu que cerca de 66% de todos os links tuitados para os sites mais populares são provavelmente postados por contas automatizadas, em vez de usuários humanos.

Certos tipos de sites - principalmente aqueles focados em conteúdo adulto e esportes - recebem uma parcela especialmente grande de seus links do Twitter de contas automatizadas. As contas automatizadas foram responsáveis ​​por cerca de 90% de todos os links tuitados para sites populares com foco em conteúdo adulto durante o período de estudo. Para sites populares com foco em conteúdo esportivo, essa participação foi estimada em 76%.

As contas automatizadas representam uma proporção ligeiramente menor - embora em cada caso ainda seja a maioria - de compartilhamentos de links para outros tipos de sites populares. Mais notavelmente, a análise do Centro descobriu que 66% dos links tuitados para os sites de notícias e eventos atuais mais populares no Twitter provavelmente foram compartilhados por contas de bot. Esse número é idêntico à média dos sites mais populares como um todo. Contas automatizadas suspeitas representam uma parcela maior de links postados em sites populares com foco em produtos ou serviços comerciais (73%) e uma parcela menor de sites voltados para notícias e cultura de celebridades (62%). A proporção de compartilhamentos de links por contas automatizadas é a mais baixa para links associados ao Twitter.com - ou seja, links que param no Twitter e não redirecionam para nenhum site externo - em comparação com as seis categorias de tópicos neste estudo. Os links associados ao próprio Twitter são compartilhados por contas de bots suspeitos cerca de 50% do tempo - uma parcela menor do que as outras categorias primárias de conteúdo analisadas.

Em foco: sites de notícias populares e eventos atuais são vinculados em tweets por bots

Contas automatizadas postam uma parcela substancial de links para uma ampla variedade de veículos de mídia online no Twitter. Como observado acima, a análise do Centro estima que 66% dos links tuitados para sites de notícias populares e eventos atuais são postados por bots. A análise também descobriu que um número relativamente pequeno de contas automatizadas é responsável por uma parte substancial dos links para canais de mídia populares no Twitter. As 500 contas de bot suspeitas mais ativas sozinhas foram responsáveis ​​por 22% de todos os links para esses sites de notícias e eventos atuais durante o período em que este estudo foi conduzido. Em contraste, as 500 contas humanas mais ativas foram responsáveis ​​por apenas 6% de todos os links para esses sites.

A análise do Centro também indica que certos tipos de sites de notícias e eventos atuais parecem especialmente propensos a serem tuitados por contas automatizadas. Entre os mais proeminentes estão os sites de agregação ou sites que compilam principalmente conteúdo de outros lugares da web. Estima-se que 89% dos links para esses sites de agregação durante o período de estudo foram postados por contas de bot.

As contas automatizadas também fornecem uma proporção um pouco maior do que a média de links para sites sem uma página de contato pública ou endereço de e-mail para contato com o editor ou outra equipe. Esse tipo de informação de contato pode ser usado para enviar feedback do leitor que pode servir como base para correções ou relatórios adicionais. A grande maioria (90%) dos sites de notícias populares e de eventos atuais examinados neste estudo tinha uma página de contato aberta ao público que não fosse do Twitter. A pequena minoria de sites sem esse tipo de página de contato foi compartilhada por bots suspeitos em taxas maiores do que aqueles com páginas de contato. Cerca de 75% dos links para esses sites foram compartilhados por contas de bots suspeitos durante o período em estudo, em comparação com 60% para sites com uma página de contato.

Por outro lado, certos tipos de sites de notícias e eventos atuais recebem uma parcela menor do que a média de seus links do Twitter de contas automatizadas. Mais notavelmente, esta análise indica que sites populares de notícias e eventos com conteúdo político têm o menor nível de tráfego de links de contas de bot entre os tipos de conteúdo de notícias e eventos analisados ​​pelo Centro, mantendo outros fatores constantes. De todos os links para fontes de mídia populares com destaque de política ou conteúdo político no período do estudo, estima-se que 57% tenham se originado de contas de bot.

Os bots do Twitter publicam uma parcela maior de conteúdo de públicos centristas do Twitter

A questão de saber se as fontes de mídia compartilhadas por liberais ou conservadores veem um tráfego de contas mais automatizado tem sido um tópico de debate no ano passado. Alguns expressaram preocupação de que contas suspeitas de bots sejam prolíficas no compartilhamento de notícias políticas hiperpartidárias, seja à esquerda ou à direita do espectro ideológico.

No entanto, a análise do Centro descobriu que contas automatizadas do Twitter, na verdade, compartilham uma proporção maior de links de sites que têm públicos humanos ideologicamente mistos ou centristas - pelo menos no reino de notícias populares e sites de eventos atuais com orientação para notícias e questões políticas. Por extensão, essas contas automatizadas têm menos probabilidade de compartilhar links de sites com públicos humanos ideologicamente conservadores ou liberais. Além disso, as diferenças direita-esquerda na proporção de tráfego de bots não são substanciais.

Esta análise é baseada em um subgrupo de notícias populares e veículos de eventos atuais que apresentam histórias políticas em suas manchetes ou têm uma seção de política e que atendem principalmente a um público dos EUA. Um total de 358 sites de nossa amostra completa de 2.315 sites populares atenderam a esses critérios. Os pesquisadores isolaram as contas suspeitas não automatizadas que compartilhavam links para esses sites no Twitter durante o período do estudo e usaram uma técnica estatística conhecida como análise de correspondência para estimar a ideologia do público do Twitter de cada site.

A análise de correspondência primeiro mede o quão consistentemente os sites individuais são compartilhados por alguns usuários e não por outros. Em seguida, agrupa-os e quantifica o grau de diferença. Com base nessa análise, uma pontuação maior que zero sugere que o público de um site é mais consistentemente conservador, enquanto uma pontuação menor que zero sugere que o público de um site é mais liberal de forma consistente. Esta é uma técnica baseada em pesquisas acadêmicas que estima as preferências ideológicas conforme reveladas pelo comportamento. Os pesquisadores podem usar esse método para ver quais sites são compartilhados principalmente por um público liberal, conservador ou moderado e quantas vezes os bots compartilham cada tipo de site. É importante notar que a análise de correspondência produz estimativas da ideologia do público sem qualquer análise do conteúdo do site - apenas os padrões de compartilhamento de usuários humanos. Para mais detalhes, consulte a seção de metodologia.

A análise do Centro descobriu que contas suspeitas de serem autônomas postam uma proporção maior de links para sites que são compartilhados principalmente por usuários humanos que pontuam perto do centro do espectro ideológico, em vez daqueles compartilhados com mais frequência por um público mais liberal ou mais conservador. Contas automatizadas compartilham cerca de 57% a 66% dos links para sites políticos que são compartilhados por um público humano centrista ou ideologicamente misto, de acordo com a análise. Por outro lado, estima-se que contas automatizadas compartilhem cerca de 41% dos links para sites políticos com públicos compostos principalmente por liberais e 44% daqueles compostos principalmente por conservadores. As taxas de compartilhamento entre sites com públicos liberais não são significativamente diferentes daqueles com públicos conservadores. No entanto, as diferenças nas taxas de compartilhamento de sites com públicos centristas em comparação com aqueles em qualquer uma das extremidades do espectro estão substancialmente além das margens de erro.

Contas suspeitas de bots compartilham mais links para sites políticos populares com um público ideologicamente centrista ou misto

É importante observar algumas ressalvas na interpretação dos resultados desta análise. Em primeiro lugar, este estudo examina apenas os principais meios de comunicação, medidos pelo número de compartilhamentos que recebem no Twitter. Em segundo lugar, não examina a veracidade (ou a falta dela) do conteúdo compartilhado por humanos e o conteúdo compartilhado por bots. Por fim, ele se concentra nas taxas gerais de compartilhamento e não leva em consideração os compartilhamentos subsequentes ou o envolvimento de usuários humanos.