Parte 1: Análise aprofundada: método e estratégia de pesquisa

Para entender a natureza das conversas no Twitter, o Projeto de Internet do Pew Research Center se juntou a pesquisadores da Social Media Research Foundation, um grupo de acadêmicos cuja missão é apoiar a criação e aplicação de ferramentas abertas, dados abertos e bolsas abertas relacionadas ao social meios de comunicação. A descoberta dessas seis estruturas de rede arquetípicas surgiu ao longo de vários anos, à medida que examinamos milhares de redes do Twitter em centenas de tópicos. Algumas estruturas, como Polarized Crowds, foram observadas por outros pesquisadores e foram antecipadas em nossa exploração, mas as outras estruturas surgiram estudando muitos mapas. Este tipo de análise exploratória de dados depende de técnicas de visualização eficazes. Em nosso caso, o principal avanço do projeto foi a técnica de layout Group-in-a-Box, que apresenta os resultados dos algoritmos de agrupamento de forma a mostrar claramente o tamanho de cada cluster, a densidade de conexão dentro de cada cluster e a frequência de conexão entre os clusters .


Como todos os analistas de dados exploratórios fazem, geramos insights que convidamos outros a replicar com outras ferramentas, como diferentes técnicas de layout visual ou critérios estatísticos. Nosso trabalho segue o espírito de pesquisa observacional que forma categorias, como 17ºbotânicos do século descrevendo a variedade de flores em uma ilha recém-descoberta ou astrônomos cujos novos telescópios que lhes permitem ver diferentes categorias de galáxias. Nossa nomenclatura reflete conjecturas sobre por que diferentes estruturas surgem. Essas categorias e explicações estão abertas ao desafio de outras pessoas que podem ter perspectivas diferentes e ferramentas mais poderosas.

Nossa ferramenta era uma ferramenta de software chamada NodeXL, uma extensão de plug-in para planilhas do Microsoft Excel que permitenredeouverview,ddescoberta, eéxploração. O NodeXL permite que os usuários importem dados de rede e executem análises e visualizações de redes. O NodeXL permite que qualquer pessoa se conecte a serviços de mídia social (incluindo Twitter, Facebook, YouTube, Flickr, Wikis, e-mail, blogs e sites) e recupere dados públicos sobre as conexões entre usuários, páginas e documentos. No caso específico do Twitter, a ferramenta captura informações sobre o conteúdo de cada mensagem (o 'tweet'), que pode conter nomes de usuário, hiperlinks e hashtags, juntamente com informações sobre as conexões de cada autor com outros usuários do Twitter. No Twitter, essas conexões incluem relacionamentos entre usuários que se seguem, que mencionam uns aos outros e respondem uns aos outros.


Realizamos pesquisas de palavras-chave no Twitter que retornaram um conjunto de tweets que foram então usados ​​como conjuntos de dados para análise. As conexões de rede foram extraídas do conteúdo de cada tweet retornado nos resultados da Pesquisa do Twitter. Um link foi criado para cada resposta ou menção que observamos. Além disso, o NodeXL captura informações sobre as conexões do usuário do Twitter com outros membros do Twitter.2Os dados também são recuperados do perfil público do Twitter de cada usuário, que inclui o número de tweets que o usuário postou, o número de outros usuários que o usuário segue e o número de outras pessoas que seguem aquele usuário, entre outras coisas. As estatísticas do autor são combinadas com informações sobre as conexões entre as pessoas que compartilharam o uso da mesma palavra, frase ou termo. Por exemplo, se Alice e Betty postaram uma mensagem em nosso conjunto de dados que inclui o termo 'política' e Alice segue Betty no Twitter, nossos dados capturaram esse relacionamento.

Apenas mensagens publicamente disponíveis foram analisadas neste estudo. Nenhuma mensagem direta ou outro conteúdo privado foi coletado ou analisado. Qualquer mensagem definida por seu autor como privada (de, por exemplo, 'contas protegidas') foi excluída da análise.

Existem limites claros para qualquer conjunto de dados capturado pelo NodeXL. Os tweets que coletamos são instantâneos de períodos finitos de conversa em torno de um tópico ou frase. Os dados aqui não representam os sentimentos de toda a população de usuários do Twitter ou o período maior de discussão além da janela de coleta de dados. Além disso, os usuários do Twitter não são representativos de toda a população dos Estados Unidos ou mesmo da população da Internet ou mesmo dos usuários de mídia social em geral.3Assim, não estamos argumentando que esta análise representa tudo o que acontece no Twitter ou que é uma proxy do sentimento nacional sobre esses temas. No entanto, acreditamos que esses conjuntos de dados contêm instantâneos úteis da estrutura das redes de mídia social em torno de tópicos importantes.



Tirando 'fotos aéreas' de multidões no Twitter

Nosso método é semelhante a tirar fotos aéreas ou vídeos curtos de multidões em espaços públicos, especialmente fotos de comícios, protestos, eventos políticos e outros fenômenos de interesse social e cultural. Nenhum instantâneo ou videoclipe de uma multidão captura completamente o evento, mas as imagens da multidão juntas fornecem alguns insights sobre um evento ou reunião. Nosso método produz fotos da multidão em espaços de mídia social; um domínio que não foi amplamente retratado antes. Como fotografias aéreas da multidão, os mapas das redes sociais mostram o tamanho e a estrutura da multidão, juntamente com os principais atores dessa multidão.


Esses mapas de rede de mídia social podem revelar informações no nível de indivíduos e grupos. As redes de mídia social geralmente têm apenas algumas pessoas que se destacam em termos de maneiras exclusivas de se conectar com outras pessoas. Algumas redes são compostas por apenas um único grupo, enquanto outras são divididas em subgrupos. Cada grupo pode estar mais ou menos conectado a outros grupos. Essas estruturas contam uma história sobre os tipos de interação que ocorrem no Twitter.

Redes, densidade de grupo e diversidade de conexões

Os mapas da rede social do Twitter mostram como as pessoas se tornam interconectadas quando conversam. As pessoas geralmente se agrupam em grupos. Cada rede e seus subgrupos podem ser medidos em termos dedensidadede suas conexões internas. Um grupo de pessoas com muitas conexões entre seus membros é mais 'denso' do que um grupo que possui poucas conexões entre o mesmo número de participantes. A densidade é medida como a proporção do número de relacionamentos entre uma população sobre o número total de relacionamentos possíveis. A densidade pode variar entre zero (ou seja: nenhuma conexão entre os nós) e 1 (ou seja: todos os nós em uma rede estão conectados a todos os outros nós). À medida que os grupos aumentam de tamanho, é mais difícil interagir com todos os outros participantes; portanto, como regra, quanto maior o número de pessoas em uma rede social, menor a densidade de suas conexões. Como resultado, nenhum valor é um limite específico para separar grupos de alta ou baixa densidade. Geralmente, porém, as redes são consideradas redes mal integradas e de baixa densidade quando apenas alguns dos participantes estão conectados uns aos outros.


Algumas pessoas de um subgrupo se conectam a pessoas de fora do grupo. A quantidade de conexões internas e externas em um subgrupo é um indicador importante de quantas pessoas naquele grupo estão expostas a pessoas com pontos de vista diferentes em grupos diferentes. Se houver poucos vínculos entre os grupos, as pessoas não podem ser expostas ao conteúdo de usuários em outros grupos. Se houver muitos laços entre os grupos, é provável que haja uma quantidade maior de informações fluindo entre eles.

Mais sobre hubs e pontes de rede

Mapas de redes sociais criados a partir de coleções de relacionamentos do Twitter geralmente destacam alguns usuários individuais que ocupam posições-chave na rede. Nós nos referimos aos usuários altamente conectados relativamente raros como 'hubs'. Muitos outros usuários seguem esses usuários do hub; muito mais seguem a maioria das outras pessoas na rede. Os hubs são importantes porque têm um grande público. Algumas pessoas que têm menos conexões podem ser igualmente importantes se seus links forem raros, conectando-se pela rede a grupos desconectados de outra forma, agindo como 'pontes'. Embora os grandes hubs também possam ocupar a importante posição de 'ponte', um usuário com apenas algumas conexões relativamente exclusivas também pode ser uma ponte importante.