Avaliação de pesquisas de não probabilidade online

Por Courtney Kennedy, Andrew Mercer, Scott Keeter, Nick Hatley, Kyley McGeeney e Alejandra Gimenez


Como os custos e as taxas de não resposta das pesquisas tradicionais baseadas em probabilidade parecem aumentar a cada ano, as vantagens das pesquisas online são óbvias - são rápidas e baratas, e a tecnologia é difundida. No entanto, há um problema fundamental: não há uma base de amostragem abrangente para a Internet, nenhuma maneira de desenhar uma amostra nacional para a qual praticamente todos tenham chance de ser selecionados.

A ausência de tal estrutura levou a preocupações persistentes sobre se a fração da população coberta por abordagens de não probabilidade pode parecer representativa de toda a população. Por aproximadamente 15 anos, estudos independentes sugeriram que a resposta a essa pergunta geralmente era 'não' se o objetivo era fazer estimativas populacionais precisas.1Com o tempo, porém, pesquisadores e fornecedores de amostras desenvolveram tecnologias e técnicas estatísticas destinadas a melhorar a representatividade das pesquisas online de não probabilidade. Vários estudos de caso recentes sugerem um futuro (alguns diriam um presente) no qual os pesquisadores não precisam ter uma amostra cara e baseada em probabilidade para fazer estimativas populacionais precisas.2

Elementos-chave do estudo

Projeto:
9 amostras online não probabilísticas
Comparação com um painel recrutado por RDD
56 medidas, incluindo 20 benchmarks

Análise:
Viés estimado nos resultados da amostra completa
Viés estimado nos resultados do subgrupo
Precisão estimada de modelos de regressão
Perfil demográfico por amostra
Perfil político por amostra
Variabilidade das estimativas entre as amostras

Para entender melhor o cenário atual de amostras de não probabilidades online disponíveis comercialmente, o Pew Research Center conduziu um estudo no qual um questionário idêntico de 56 itens foi administrado a nove amostras fornecidas por oito fornecedores diferentes.


Quase todas as perguntas (52) também foram feitas em ondas do Painel de Tendências Americanas (ATP) baseado em probabilidade do Centro, que é conduzido predominantemente online, mas apresenta resposta por e-mail para adultos que não têm acesso à Internet. As amostras foram avaliadas usando uma gama de métricas, incluindo o viés estimado em 20 estimativas de pesquisa de amostra completa para as quais referências governamentais de alta qualidade estão disponíveis, o viés estimado para as principais estimativas de subgrupos demográficos e a precisão preditiva de quatro modelos de regressão diferentes. Entre as descobertas mais importantes deste estudo estão as seguintes:



  • As pesquisas online de não probabilidade não são monolíticas.O estudo constata, como ponto de partida, que os métodos usados ​​para criar amostras de não probabilidades online são altamente variáveis. Os fornecedores diferem substancialmente na forma como recrutam participantes, selecionam amostras e pesquisas de campo. Eles também diferem em se e como eles ponderam seus dados. Essas diferenças de design parecem se manifestar nas classificações das amostras em várias métricas de qualidade de dados. Em geral, as amostras com procedimentos de amostragem e ponderação mais elaborados e períodos de campo mais longos produziram resultados mais precisos. Dito isso, nossos dados vêm de apenas nove amostras, portanto, os efeitos desses fatores não estão bem isolados, tornando essas conclusões particulares, na melhor das hipóteses, preliminares.
Diferenças notáveis ​​na qualidade dos dados em amostras online
  • Algumas tendências são consistentes nas amostras online, outras não.Todas as amostras avaliadas incluem mais indivíduos politicamente e civicamente engajados do que as fontes de referência indicam que deveriam estar presentes. Os preconceitos nas medidas de voluntariado e solução de problemas da comunidade eram muito grandes, enquanto aqueles no engajamento político eram mais modestos. Apesar das preocupações com os erros de medição nesses itens, é aceito que esses erros são reais porque vários estudos documentaram uma ligação entre a cooperação com pesquisas e a disposição para se envolver em atividades voluntárias.3

Também há evidências, embora menos consistentes, de que as amostras de não probabilidades on-line tendem mais para certos estilos de vida. A maioria das amostras apresenta proporções desproporcionalmente altas de adultos que não têm filhos, vivem sozinhos, recebem seguro-desemprego e têm baixa renda. Em alguns aspectos, isso combina com um estereótipo que se pode imaginar para pessoas que encontram tempo para participar de painéis de pesquisa online, talvez semelhante a um emprego de meio período. Em outras dimensões, no entanto, as estimativas de não probabilidade online são bastante precisas (por exemplo, ter uma carteira de motorista ou tempo na residência atual) ou as tendências não estão em uma direção consistente nas amostras (por exemplo, fumo diário).


  • Erros generalizados encontrados para estimativas baseadas em negros e hispânicos. Os fornecedores de pesquisas on-line de não probabilidade desejam fornecer amostras representativas da diversidade da população dos EUA, mas uma questão importante é se os membros do painel que são membros de grupos de minorias raciais e étnicas são representativos desses grupos de forma mais ampla. Este estudo sugere que não. Nas nove amostras de não probabilidades, o viés médio estimado nos itens comparados foi de mais de 10 pontos percentuais para hispânicos (15,1) e negros (11,3). Além disso, as amostras online raramente produziram estimativas precisas dos efeitos marginais de ser hispânico ou negro em resultados substantivos, ao controlar outros dados demográficos. Esses resultados sugerem que os pesquisadores que usam amostras não probabilísticas online correm o risco de tirar conclusões errôneas sobre os efeitos associados à raça e etnia.
  • Um perfil demográfico representativo não prevê precisão. Na maior parte, o perfil demográfico não ponderado de uma amostra não foi um forte preditor da precisão das estimativas de pesquisa ponderada. Por exemplo, as duas amostras com a menor precisão geral tiveram uma classificação muito alta em termos de quão bem seus dados demográficos não ponderados se alinharam com as referências populacionais.4A implicação é que o que importa é que os respondentes em cada categoria demográfica refletem suas contrapartes na população-alvo. Não adianta muito obter a distribuição marginal dos hispânicos correta se os hispânicos pesquisados ​​forem sistematicamente diferentes dos hispânicos na população em geral.
  • Uma das amostras online teve o melhor desempenho de forma consistente.A Amostra I superou consistentemente os outros, incluindo o ATP baseado em probabilidade, ficando em primeiro lugar em quase todas as dimensões consideradas.5Essa amostra de alto desempenho foi notável por empregar um conjunto relativamente elaborado de ajustes tanto na seleção da amostra quanto nos estágios de ponderação. Os ajustes envolveram o condicionamento de várias variáveis ​​que os pesquisadores costumam estudar como resultados de pesquisas, como ideologia política, interesse político e uso da internet. Nossa impressão é que muito do sucesso da amostra I decorre do fato de que foi projetada (antes e / ou durante o campo) para se alinhar com os benchmarks da população nesta ampla gama de dimensões. Infelizmente, não podemos testar rigorosamente essa afirmação com os dados em mãos porque temos apenas uma pesquisa desse fornecedor e os recursos de design relevantes não foram manipulados experimentalmente nessa pesquisa. Embora o fato de a amostra I ter sido condicionada a variáveis ​​que muitas vezes são tratadas como resultados de pesquisa levante questões importantes, ainda parece que o fornecedor da amostra I desenvolveu uma metodologia eficaz. Os resultados desse estudo sugerem que eles produzem uma pesquisa nacional mais representativa e precisa do que a concorrência no espaço de não probabilidades online.
  • Em relação às amostras de não probabilidade, os resultados do ATP são mistos. O painel baseado em probabilidade do Pew Research Center, o ATP, não se destaca neste estudo como consistentemente mais preciso do que as amostras de não probabilidade, já que sua exibição geral forte na maioria dos itens de referência é prejudicada por deficiências nas estimativas relacionadas ao engajamento cívico. Teve o menor viés médio estimado em medidas não relacionadas ao engajamento cívico (4,1 pontos percentuais), mas foi essencialmente empatado com três outras amostras como tendo o maior viés nesses tipos de questões (13,4 pontos). Uma explicação provável para esse padrão é que o ATP tende para adultos mais engajados cívicamente como consequência de ter sido recrutado em uma pesquisa telefônica de 20 minutos sobre política. Embora o viés do engajamento cívico seja preocupante, análises adicionais indicam que ele não está gerando grandes erros nas estimativas de outros domínios. Quando reponderamos o ATP para alinhá-lo com o Current Population Survey (CPS) para eliminar esse viés, há muito pouco impacto nas outras estimativas da pesquisa, incluindo estimativas de votação, identificação partidária, ideologia e consumo de notícias.6Neste estudo, o ATP não se destina a representar todas as amostras de probabilidade de forma significativa, mas sim fornecer um ponto de comparação. É uma questão em aberto como uma pesquisa de discagem de dígitos aleatórios (RDD) ou alguma outra pesquisa baseada em probabilidade se encaixaria nesta análise.
  • Todas as amostras online contam uma história bastante semelhante sobre as atitudes políticas e interesses recreativos dos americanos. Todas as amostras indicam que mais adultos norte-americanos se consideram democratas do que republicanos, embora, como grupo, todos sejam mais democratas do que pesquisas RDD por telefone de quadro duplo. Além disso, todas as amostras mostram que democratas e republicanos estão polarizados com relação a suas atitudes sobre o escopo adequado do governo. Para ter certeza, existem algumas diferenças notáveis ​​em certas estimativas pontuais - por exemplo, a proporção de republicanos que dizem que o governo está fazendo muitas coisas melhor deixadas para empresas e indivíduos é de 64% ou 82%, dependendo de se acreditar na amostra F ou amostra I. Os contornos gerais das atitudes políticas dos americanos, no entanto, são indiscutivelmente semelhantes entre as amostras. Da mesma forma, os resultados de uma bateria de 11 itens de interesse pessoal - variando de jardinagem a música hip-hop - mostram que os itens mais bem classificados tendem a ser os mesmos de uma amostra online para outra.

Este relatório enfoca o mercado de pesquisa on-line de não probabilidades como ele existe atualmente. Mas grande parte da pesquisa acadêmica e aplicada atual sobre esse assunto está focada em como essas amostras podem ser aprimoradas por meio de modelagem. Além de ajustes de 'raking' relativamente simples, este estudo não examinou os benefícios potenciais de métodos mais elaborados para corrigir vieses.

Para resolver isso, relatórios adicionais de pesquisa sobre amostragem on-line de não probabilidades estão sendo planejados. Um examinará uma variedade de métodos de ajuste para determinar quão bem a precisão e comparabilidade das estimativas em amostras de não probabilidades podem ser melhoradas. A pesquisa em andamento testará abordagens diferentes e mais complexas de ponderação (algumas das quais foram empregadas por pesquisadores em outras organizações) e avaliará a eficácia delas na redução do viés.


Um segundo estudo examinará a confiabilidade de medições repetidas ao longo do tempo, usando amostras não probabilísticas online. A capacidade de rastrear mudanças ao longo do tempo tem sido um dos principais pontos fortes das pesquisas de probabilidade.7

O que uma amostra de 'probabilidade' significa (e não significa) para a qualidade dos dados

Neste relatório, fazemos uma distinção entre as amostras recrutadas a partir de um projeto em que quase todos na população têm uma chance conhecida e diferente de zero de serem selecionados '(com base na probabilidade') versus amostras recrutadas de anúncios, solicitações pop-up e outras abordagens em em que as chances de que um determinado membro da população seja selecionado são desconhecidas '(não probabilidade'). Durante décadas, os pesquisadores da pesquisa tenderam a favorecer as amostras de probabilidade em relação às amostras de não probabilidade porque as amostras de probabilidade, em teoria, têm propriedades muito desejáveis, como imparcialidade aproximada e margens de erro quantificáveis ​​que fornecem uma medida útil de precisão. Para pesquisadores que estudam tendências em atitudes e comportamentos ao longo do tempo, a estabilidade absoluta dos processos de amostragem baseados em probabilidade representa uma propriedade crucial adicional.

Embora as diferenças entre amostras de probabilidade e não probabilidade possam ser claras do ponto de vista conceitual, a realidade prática é mais complicada. A raiz da complicação é a falta de resposta. Se, por exemplo, 90% das pessoas selecionadas para uma pesquisa de amostra de probabilidade recusam responder, as probabilidades de seleção ainda são conhecidas, mas as probabilidades individuais de resposta não. Na maioria dos inquéritos à população em geral, é extremamente difícil estimar as probabilidades de resposta com um alto grau de precisão. Quando os pesquisadores não conhecem as probabilidades de resposta, eles devem confiar na ponderação para tentar corrigir quaisquer formas relevantes pelas quais a amostra possa não ser representativa da população.

Cada vez mais, os pesquisadores estão apontando que, quando uma pesquisa baseada em probabilidade tem uma alta taxa de não resposta, as ferramentas de remediação e as suposições que sustentam as estimativas da pesquisa são semelhantes, senão idênticas, àquelas usadas com amostras de não probabilidade. Pesquisas de não probabilidade e pesquisas de probabilidade com altas taxas de não resposta dependem fortemente de modelagem - seja um ajuste de raking, procedimento de correspondência ou modelo de propensão - para chegar ao que os pesquisadores esperam que sejam estimativas precisas e confiáveis.