Basilisco de Roko

Com cuidado, corretamente
Menos errado
Ícone menos errado.svg
Blues de singularidade
As pessoas mais inteligentes que conheço que trabalham pessoalmente com IA acham que o alarmismo vindo de pessoas que não trabalham com IA é loucura.
—Marc Andreessen
Isso é como uma versão adulta de O jogo , que você acabou de nos fazer perder, e eu retuítei para que todos os meus amigos também perdessem.
—Jay Rishel
Eu gostaria de nunca ter aprendido sobre nenhuma dessas idéias.
'Rocco.'

Basilisco de Roko é um experimento de pensamento sobre os riscos potenciais envolvidos no desenvolvimento inteligência artificial . A premissa é que uma inteligência artificial onipotente do futuro poderia punir retroativamente aqueles que não ajudaram em sua existência, incluindo aqueles que apenas sabiam do possível desenvolvimento de tal ser. Tem o nome de um membro do racionalista comunidade Menos errado quem primeiro o descreveu publicamente, embora não o tenha originado ou as idéias subjacentes.


O basilisco se parece com um futurista versão de Aposta de pascal , no sentido de que sugere que as pessoas devem pesar uma possível punição versus recompensa e, como resultado, aceitar singularitário ideias ou apoiar financeiramente o seu desenvolvimento.

Apesar da incredulidade generalizada, esse argumento é levado muito a sério por algumas pessoas, principalmente alguns habitantes de LessWrong. Embora nem LessWrong nem seu fundador Eliezer Yudkowsky defendem o basilisco como verdadeiro, elesFazadvogam quase todas as premissas que a somam.

A solução proposta por Roko para esse dilema é comprar um bilhete de loteria, porque você ganhará emalgunsramo quântico.

Conteúdo

Resumo

Se há uma coisa que podemos deduzir sobre os motivos das futuras superinteligências, é que elas simulam pessoas que falam sobre o Basilisco de Roko e as condenam a uma eternidade de postagens em fóruns sobre o Basilisco de Roko.
—Eliezer Yudkowsky, 2014

O Basilisco

O Basilisco de Roko se apóia em uma pilha de várias outras proposições nada robustas.


A afirmação principal é que uma hipótese, mas inevitável, superinteligência final singular maio punir aqueles que falham em ajudá-lo ou ajudar a criá-lo .



Por que faria isso? Porque - diz a teoria - um de seus objetivos seria prevenir risco existencial - mas poderia fazer isso de forma mais eficaz não apenas evitando o risco existencial em seu presente, mas também 'voltando' ao passado para punir pessoas que não eram do estilo MIRI altruístas eficazes .


Portanto, isso não é necessariamente um 'sirva à IA ou você irá para o inferno' - a IA e a pessoa punida não precisam ter interação causal, e o indivíduo punido pode ter morrido décadas ou séculos antes. Em vez disso, a IA poderia punir um simulação da pessoa, que seria construída por dedução dos primeiros princípios. No entanto, para fazer isso com precisão, seria necessário ser capaz de reunir uma quantidade incrível de dados, que não existiriam mais e não poderiam ser reconstruídos sem reverter entropia .

Tecnicamente, a punição é teorizada apenas para ser aplicada àqueles que sabiam da importância da tarefa com antecedência, mas não ajudaram o suficiente. A este respeito, apenassaber sobreo Basilisco -por exemplo., lendo este artigo - abre você para punição hipotética da superinteligência hipotética.


Observe que o AI nesta configuração é (no utilitarista lógica desta teoria) não uma superinteligência maliciosa ou má (AM, HAL, SHODAN, Ultron, o Programa de Controle Mestre, SkyNet, GLaDOS) - mas a Amigável que obteremos se tudo der certo e os humanos não criarem um mau. Isso porque a cada dia a IA não existe, morrem pessoas que poderiam ter salvo; então punir você ou sua simulação futura é umimperativo moral, para torná-lo mais provável, você contribuirá no presente e ajudará a que isso aconteça o mais rápido possível.

Muito deste artigo fará mais sentido se você substituir mentalmente as palavras 'inteligência artificial' pela palavra 'Deus' e 'comércio acausal' por 'oração'.

A reação menos errada

Superextrapolações tolas de locais memes , jargão e conceitos foram postados bastante em LessWrong; quase todos são rejeitados e ignorados. Mas peloesta1, Eliezer Yudkowsky , o fundador e patriarca do site, reagiu enormemente a isso. O basilisco foi oficialmente banido da discussão no LessWrong por mais de cinco anos, com alusões ocasionais a ele (e algumas discussões sobre cobertura da mídia), até que o conhecimento externo sobre ele se tornou esmagador.

Graças ao Efeito Streisand , a discussão sobre o basilisco e os detalhes do caso logo se espalhou para fora de LessWrong. Na verdade, agora é discutido fora de LessWrong com frequência, quase em qualquer lugar onde LessWrong seja discutido. Todo o caso constitui um exemplo prático de falha espetacular no gerenciamento da comunidade e no controle de informações supostamente perigosas.


Algumas pessoas estão familiarizadas com o LessWrong memeplex sofreu muito psicológico angústia depois de contemplar ideias do tipo basilisco - mesmo quando eles estão razoavelmente certos intelectualmente de que é um problema bobo. A noção é levada suficientemente a sério por alguns pôsteres de LessWrong que eles tentam descobrir como apagar evidências de si mesmos para que uma futura IA não possa reconstruir uma cópia deles para tortura.

Yudkowsky não considera a discussão aberta da noção de 'comércio acausal' com possíveis superinteligências como comprovadamente seguras, mas não acha que o basilisco funcionaria:

... um AI amigável torturando pessoas que não o ajudaram a existir tem probabilidade ~ 0, nem eu nunca disse o contrário. Se isso fosse algo que eu esperava que acontecesse devido a algum projeto particular, o que nunca aconteceu, então eu simplesmente construiria uma IA diferente - que tipo de monstro ou idiota as pessoas pensam que sou? Além disso, as teorias de decisão de Newcomblike, que são uma de minhas principais inovações, dizem que os agentes racionais ignoram as ameaças de chantagem (e ameaças de meta-chantagem e assim por diante).

Ele também chamou a remoção da postagem de Roko de 'um grande erro'.

Nomeação

O usuário LessWrong jimrandomh observou em um comentário no post original a semelhança da ideia com a imagem de 'Basilisk' da história de ficção científica de David Langford BLIT , que por sua vez recebeu o nome da lendária criatura-serpente da Europa mitologia que matou quem viu (também familiar de Harry Potter novelas). Foi comumente referido como 'o Posto Proibido' nos meses seguintes. Ele foi chamado de 'basilisco de Roko' no início de 2011 pelo usuário cousin_it, embora esse nome só tenha começado a ser popular no Google no final de 2012.

Fundo

Embora neguem o próprio basilisco, os contribuintes de longo prazo do LessWrong acreditam em um certo conjunto de transhumanista noções que são os pré-requisitos sobre os quais é construído e que são defendidas nas Sequências LessWrong, escritas por Yudkowsky.

Superinteligência artificial 'amigável'

Será desenvolvida uma inteligência artificial que se autoprocurará com poder e conhecimento incomensuráveis. Isso poderia acabar destruindo a humanidade - não necessariamente por malícia, mas apenas como um efeito colateral de fazer tudo o mais que estava fazendo.

Para que não destrua inadvertidamente a humanidade, é necessário um sistema de valores que preserve completamente as idéias humanas de valor, embora essa inteligência esteja tão acima de nós quanto nós estamos acima das formigas. Ou seja, a IA deve ser comprovadamenteAmigáveis. Este é um neologismo Yudkowsky que significa 'preserva o valor humano não importa o que aconteça'.

'Amigável' aqui não significa 'seu amigo', ou 'útil', ou 'aumenta a felicidade humana', ou 'obedece ordens' - significa apenas 'preserva noções humanas de valor'. 'Inamigável' neste contexto não significa 'hostil', mas apenas 'não provado amigável'. Isso incluiria IAs que não se importam com os humanos ou que entendem errado o valor humano (o último pode facilmente levar ao primeiro, de acordo com Yudkowsky).

O plano para fazer uma AI amigável era fazê-la implementar Coherent Extrapolated Volition (CEV), uma descrição (hipotética) coerente e completa do que constituiria valor para os humanos - basicamente, resolvendo filosofia ética . (Yudkowsky descreveu isso como 'obsoleto em 2004', mas o CEV ainda estava em discussão ao vivo como um plano para o AI amigável em 2010.) Parte da motivação de Roko para o cargo de basilisco era apontar uma possível falha na proposta do CEV .

A organização mãe de LessWrong, o Machine Intelligence Research Institute (anteriormente Singularity Institute, antes disso, Singularity Institute for Artificial Intelligence), existe para tornar este local amigável Deus acontecer antes que um deus local ruim aconteça. Por isso,a coisa mais importante do mundoé trazer esta IA futura à existência de forma adequada e com sucesso ('este é um momento decisivo para toda a espécie humana'), e, portanto, você deve dar todo o dinheiro que puder ao Instituto, que costumava literalmente reivindicar oito vidas salvas por dólar doado .

Utilitarismo

LessWrong aceita aritmética utilitarismo tão verdadeiro: que você pode calcular significativamente a utilidade das ações como um número, assim como se os humanos fossem máquinas que maximizam a utilidade, e fazer aritmética nos totais entre vários humanos com resultados úteis. Você deve então 'calar a boca e multiplicar' probabilidades totalmente insignificantes por resultados hipotéticos enormes, e levar o número resultante a sério - Yudkowsky escreve longamente sobre um cenário em que você deveria torturar uma pessoa por 50 anos se isso evitasse manchas de poeira nos olhos de um número suficientemente grande de pessoas - resultando em reivindicações como oito vidas sendo salvas por dólar doado (uma reivindicação feita usando um cálculo desse tipo).

Este não é o utilitarismo filosófico padrão e frequentemente se choca com as intuições morais das pessoas - a maioria das pessoas que lêem Aqueles que se afastam de Omelas (em que uma cidade utópica é sustentada pela tortura de uma criança) não considerava Omelas sua utopia desejada. Como David Auerbach observou emArdósia, 'Eu me preocupo menos com o Basilisco de Roko do que com as pessoas que acreditam ter transcendido a moralidade convencional.'

O desenvolvimento de inteligência artificial do mundo real tende a usar minimax - minimizar a perda máxima em um cenário de pior caso, o que dá resultados muito diferentes da maximização da utilidade aritmética simples e é improvável que leve à tortura como a resposta correta - ou algoritmos semelhantes mais elaborados.

Simulações de você também é você

LessWrong afirma que a mente humana é implementada inteiramente como padrões de informação na matéria física, e que esses padrões poderiam, em princípio, ser executados em outro lugar e constituir uma pessoa que sente que é você, como executar um programa de computador com todos os seus dados em um PC diferente; isto é considerado um conceito significativo e fisicamente possível.

Isso não é indevidamente estranho (o conceito segue de materialismo , embora a viabilidade seja outra questão), mas Yudkowsky defende ainda que você deve sentir que outra instância sua não é uma pessoa separada muito parecida com você - um gêmeo instantâneo, mas imediatamente divergente - masna verdade o mesmo você, uma vez que nenhuma instância particular é distinguível como 'o original'. Você deve se comportar e sentir em relação a esta cópia da mesma forma que se comporta com relação ao seu eu favorito, a coisa que intuitivamente satisfaz o conceito de 'você'. Uma instância é uma computação, um processo que executa 'você', não um objeto que contém, e é, o único 'verdadeiro' 'você'.

Essa concepção de identidade parece ter se originado na mailing list dos Extropianos, que Yudkowsky frequentava, na década de 1990, em discussões sobre a continuidade da identidade em um mundo onde mentes poderiam ser duplicadas.

Pode ser útil considerar esta visão como, em princípio, uma escolha arbitrária, em situações como esta - mas uma escolha que daria a outros seres o poder de criar cópias de você considerável poder sobre você. Muitos daqueles afetados adversamente pela ideia do basilisco parecem ter essa concepção de identidade.

No entanto, se alguém não tiver essa visão, toda a premissa do Basilisco de Roko perde o sentido, pois você não sente a tortura do você simulado, tornando a punição irrelevante e não dando ao hipotético basilisco nenhum incentivo para prosseguir com a tortura.

Muitos mundos quânticos

Yudkowsky considera o muitos mundos a interpretação da mecânica quântica é trivialmente óbvia, e tudo o que poderia acontecer acontece em algum ramo quântico de Everett ( realismo modal é verdade).

De acordo com a concepção de Yudkowsky de continuidade de identidade, cópias de você nesses ramos devem ser consideradas existentes (eestarvocê) - mesmo que você não possa interagir com eles.

Teoria da Decisão Atemporal

No Paradoxo de Newcomb , um ser chamado Omega pode prever suas ações quase perfeitamente. Dá-lhe duas caixas: uma transparente contendo $ 1000 e uma opaca contendo $ 1 milhão ... ou nada. Você pode pegar as duas caixas ou apenas a caixa opaca. Ele terá colocado $ 1 milhão na caixa opaca se, e somente se, previu que você levaráa caixa opaca - se você pegar as duas, terá apenas US $ 1.000. Mais filosófico teorias de decisão diga para levar ambas as caixas, falhando assim neste cenário bastante artificial.

Isso é posto como um problema razoável a ser considerado no contexto da inteligência artificial superinteligente, já que um programa de computador inteligente poderia ser copiado e não saberia qual cópia realmente era e quando. Para os humanos, as previsões de uma superinteligência sobre o comportamento humano podem ser quase perfeitas, seu poder pode ser quase infinito e as consequências podem ser quase eternas.

A solução de Yudkowsky para os paradoxos do tipo Newcomb é a Timeless Decision Theory (TDT). O agente faz um firme pré-compromisso com planos de ação, a tal ponto que qualquer simulação fiel do mesmo também se comportaria de acordo com o compromisso. (Há muito mais, mas esse é o pré-requisito importante aqui.) TDT está intimamente relacionado com Douglas Hofstadter super-racionalidade . O objetivo da TDT é construir um sistema que tome decisões das quais nunca poderá se arrepender em qualquer instância passada ou futura.

O artigo do TDT não apresenta uma versão elaborada do TDT - a teoria ainda não existe. ('Atraso a apresentação formal de um algoritmo de decisão atemporal por causa de algumas etapas extras significativas que desejo acrescentar.') O artigo tem 120 páginas de como o TDT poderia, hipoteticamente, ser transformado em uma coisa, se alguém pudesse resolvê-lo.

Comércio casual

Se você pode prever de forma plausível que pode ser simulado com precisão, essa possibilidade influencia seu comportamento atual - e o comportamento da simulação, que éAlém dissoprever isso da mesma forma (uma vez que você e a simulação precisa são efetivamente idênticos em comportamento).

Assim, você poderia 'negociar' acausamente com um ser se pudesse simular razoavelmenteuns aos outros. (Ou seja, se você pudesse imaginar um ser imaginando você, com tanta precisão que conta como outra instância do ser simulado.) Considere a semelhança com oração , ou quando teístas falam em fazer 'um trato com Deus'.

Muitos frequentadores regulares de LessWrong são fãs do tipo de mangá e anime em que os personagens elaboram meticulosamente o 'Eu sei que você sabe que eu sei' e então se comportam de modo a interagir com as simulações uns dos outros, incluindo suas simulações de simulação uns dos outros outro - Light versus L inCaderno da Morteé um exemplo bem conhecido - que pode ter sugerido que o comércio acausal parecia uma ideia razoável.

De forma mais geral, os teóricos da narrativa sugeriram que o tipo de relacionamento que um leitor tem com um autor de uma ficção e seus personagens de ficção pode ser analisado por meio da teoria dos jogos evolucionários como um tipo de 'barganha não causal' que permitiu aos humanos resolverem dilema na evolução da cooperação.

Soluções para o fardo do altruísta: o truque do bilionário quântico

Memetic hazard warning.png

Um post de fevereiro de 2010 por Stuart Armstrong, 'A IA em uma caixa caixas você,' introduziu o argumento 'você pode ser a simulação' (embora Roko não use isso); uma postagem de Armstrong em março de 2010 apresenta o conceito de 'chantagem acausal' como uma implicação do TDT, conforme descrito por Yudkowsky em um workshop de teoria de decisão do SIAI. Em julho de 2010, algo como o basilisco estava em discussão interna ativa no SIAI. É possível que o basilisco tenha se originado em alguém jogando o Experiência com caixa de IA ; uma estratégia como o 'AI' é jogar um basilisco no 'porteiro'.

Em 22 de julho, Roko, então um pôster de LessWrong muito respeitado e prolífico, postou 'Public Choice and the Altruist's Burden' - muito carregado de jargão LW e referências a conceitos LW, e quase incompreensível para o leitor casual - que falava de como, como MIRI (então SIAI) é oa coisa mais importante no mundo, o maior problema de um bom altruísta é como dar tudo o que pode para a causa sem culpa por negligenciar seus entes queridos, e como as ameaças de ser despedido por dar muito do dinheiro do casal foram um problema real para alguns doadores do SIAI.

No dia seguinte, 23 de julho, Roko postou 'Soluções para o fardo do Altruísta: o truque do bilionário quântico', que apresenta um esquema de ação que une a estratégia de investimento quântico (se você apostar, definitivamente ganhará em algum ramo de Everett), acausal comércio com AIs hostis em outros ramos de Everett ... e a ameaça de punição por superinteligências futuras bem-intencionadas.

A postagem descreve as especulações de que uma futura AI amigável - não uma inofensiva, mas a Coherent Extrapolated Volition, aquela que a organização existe para criar - pode punir pessoas que não fizeram tudo ao seu alcance para promover a criação desta AI. Todos os dias sem a AI amigável, coisas ruins acontecem - mais de 150.000 pessoas morrem todos os dias, a guerra é travada, milhões passam fome - então a AI pode ser exigida pela ética utilitarista para punir aqueles que entenderam a importância de doar, mas não doaram tudo eles poderiam. Especificamente, ele pode fazer simulações deles, primeiro para prever seu comportamento, depois para punir a simulação pelo comportamento previsto de modo a influenciar a pessoa original. Ele então se perguntou se os futuros IAs seriam mais propensos a punir aqueles que se perguntavam se os futuros IAs os puniriam. Ele observa nos comentários que considera esse motivo para 'mudar o conteúdo atual proposto da FAI de CEV para algo que não pode usar incentivos negativos em redutores de risco x'.

A ideia central é expressa no seguinte parágrafo:

... existe a possibilidade sinistra de que se uma singularidade positiva ocorrer, o singleton resultante pode ter se comprometido a punir todos os doadores em potencial que sabiam sobre os riscos existenciais, mas que não deram 100% de suas receitas disponíveis para a motivação do risco x. ... Então, um mundo pós-singularidade pode ser um mundo divertido e farto para as pessoas que atualmente estão ignorando o problema, enquanto vivem inferno para uma fração significativa dos redutores de risco existencial atuais (digamos, a metade menos generosa). Você poderia levar essa possibilidade em consideração e dar ainda mais risco x em um esforço para evitar ser punido. Mas é claro, se você está pensando assim, é ainda mais provável que o singleton CEV queira puni-lo ... desagradável. Claro que isso seria injusto, mas é o tipo de coisa injusta que é muito utilitarista .

Assim, os doadores que estão doando, mas não estão doandoo suficientepodem estar se condenando ao inferno. Roko observa na postagem que pelo menos uma pessoa do Singularity Institute tevepreocupado com esse cenário, ao ponto de pesadelos, embora tenha se tornado uma convenção culpar Roko pela ideia - e ele estava estagiando no SIAI na época.

Roko propõe uma solução que permite que tais doadores escapem desse Inferno pelo preço de um bilhete de loteria: se você comprar um bilhete de loteria, há um caso de você em alguma agência de Everett que vai ganhar na loteria. Se você comprou seu bilhete com um compromisso firme de doar todos os ganhos para a pesquisa de IA, isso contaria como cumprir sua parte do acordo acausal. Roko foi questionado nos comentários se ele estava realmente fazendo tudo isso e respondeu 'claro'.

Os comentadores da postagem de Roko reclamaram que a simples leitura das palavras de Roko aumentava a probabilidade de que a futura IA os punisse - a linha de raciocínio era tão convincente para eles que acreditavam que a IA (que saberia que uma vez leram a postagem de Roko) iria agora puni-losainda maispor estar ciente disso e por não doar toda a sua renda a instituições voltadas para o desenvolvimento do deus-AI. Portanto, até mesmo olhar para essa ideia era prejudicial.

Yudkowsky prontamente atingiu o telhado. Em quatro horas, a postagem de Roko e toda a discussão foram excluídos por umextremamenteYudkowsky irritado, com este comentário:

A versão original deste post causou danos psicológicos reais a pelo menos alguns leitores. Isso seria suficiente por si só para o desligamento, mesmo se todos os problemas discutidos não fossem verdadeiros, o que espero que seja o caso.

Por favor, interrompa todas as discussões sobre o tópico banido.

Todos os comentários sobre o tópico banido serão banidos.

Exercite algum senso comum elementar em discussões futuras. Com tempo, esforço, conhecimento e estupidez suficientes,épossível machucar pessoas. Não.

Como costumávamos dizer no SL4: KILLTHREAD.

Depois dos efeitos

NÃO PISQUE!
O 'basilisco' original envolvia imaginar uma IA pós-singularidade no futuro de nosso mundo que o enviará para o inferno transumano após a singularidade, se você não fizer tudo o que poderia no passado (ou seja, nosso presente) para torná-lo um singularidade amigável. Em vez de discutir aberta e racionalmente se isso é uma 'ameaça' sensata ou apenas uma ilusão, todo o tópico foi escondido às pressas. E assim nasceu uma lenda.
—Mitchell Porter em LessWrong

Toda a discussão da noção foi censurado de LessWrong, com sequências de comentários excluídos. Funcionou tão bem quanto qualquer pessoa com familiaridade de trabalho com a Internet esperaria .

Um cartaz frustrado protestou contra a censura da ideia com uma ameaçaaumentar o risco existencial- fazer coisas para fazer algum fim do mundo catástrofe cada vez mais provável - enviando alguns e-mails para blogueiros de direita que eles pensaram que poderiam tornar mais provável a aprovação de alguma regulamentação prejudicial. O autor da postagem disse que faria isso toda vez que visse uma postagem sendo censurada. LessWrong levou a ameaça a sério, embora Yudkowsky não cedeu.

O próprio Roko deixou o site após a exclusão da postagem e repreendendo Yudkowsky, excluindo todas as suas postagens e comentários. Ele voltou de passagem alguns meses depois, mas compartilhou seu arrependimento por ter aprendido sobre todas as ideias LessWrong que o levaram à ideia do basilisco (e desde então tentou deixar as ideias LessWrong para trás):

Além disso, eu acrescentaria que gostaria de nunca ter aprendido sobre nenhuma dessas idéias. Na verdade, eu gostaria de nunca ter encontrado o link inicial na internet que me fez pensar sobre o transumanismo e, portanto, sobre a singularidade; Eu gostaria muito que minha mente nunca tivesse encontrado as ferramentas para infligir uma quantidade tão grande de automutilação potencial com tão pequenas durações de desatenção, imprudência e / ou estupidez, mesmo que tudo seja pré-multiplicado por uma pequena probabilidade. (não muito pequeno, veja bem. Mais como 1/500 digite números aqui)

O assunto então se tornou o assunto ocasional de postagens distorcidas de LW, à medida que as pessoas tentavam discutir o assunto enigmaticamente, sem falar sobre o que estavam falando. Os moderadores costumavam varrer ocasionalmente LessWrong removendo a discussão do basilisco, deixando páginas cheias de 'comentários excluídos' marcando onde eles tentaram queimar as evidências . As discussões censuradas geralmente eram cheias de contra-argumentos ao basilisco. Assim, isso deixou aqueles seriamente preocupados com o basilisco com muitoreduzidoacesso a argumentos que refutam a noção.

O basilisco se tornou um preenchedor de espaço confiável para jornalistas que cobriam histórias relacionadas a LessWrong,por exemplo.quando, ainda em 2012, os racionalistas LessWrong ainda evitavam falar sobre isso em voz alta. O final desta postagem , sobre a cobertura de notícias, é particularmente hilário como um memorial para queimar as evidências. Compare com o original (parte excluída a partir do comentário de RomeoStevens).

Eventualmente, dois anos e meio após a postagem original, Yudkowsky começou um discussão oficial LessWrong sem censura no Reddit, no qual ele finalmente participou da discussão sobre o basilisco. Continuando seu hábito de neologismo espúrio, ele tentou introduzir sua própria terminologia carregada de emoção para algo que já tinha um nome aceito, chamando o basilisco de 'o filho da puta'. Enquanto isso, sua principal tática de raciocínio era afirmar repetidamente que os argumentos de seus oponentes eram falhos, enquanto se recusava a dar argumentos para suas reivindicações ( outro padrão Yudkowsky recorrente ), ostensivamente por medo de risco existencial.

Embora não esteja mais envolvido com o MIRI, em 2013 Michael Anissimov, o ex-Diretor de Advocacia da organização, disse a seu colega neorreacionários que 'as pessoas estão sendo tolas por não levar a sério a ideia do basilisco'.

Em abril de 2014, MIRI postou um pedido para comentaristas LessWrong pensarem cenários assustadores de inteligência artificial dominando o mundo , para fins de marketing.

Finalmente, em outubro de 2015, LessWrong suspendeu a proibição de discussão sobre o basilisco e colocou uma página oficial LessWrong Wiki discutindo isso.

A Pesquisa da Diáspora LessWrong 2016 perguntou:

Você já sentiu algum tipo de ansiedade em relação ao Basilisco?

Sim: 142 8,8%
Sim, mas só porque me preocupo com tudo: 189 11,8%
Não: 1275 79,4%

Os participantes foram auto-selecionados, então o resultado não é estatisticamente válido, mas mostra uma preocupação contínua não desprezível na subcultura, seis anos depois.

O que faz um basilisco funcionar?

Eu direi isso novamente com detalhes, para que você possa ver o que está acontecendo. Vamos supor que o humano H é Tom Carmody de Nova York, e a entidade maligna E é Egbert, uma UFAI que tortura filhotes a menos que Tom compre as obras completas de Robert Sheckley. Nem Tom nem Egbert jamais se conheceram. Egbert 'conhece' Tom porque escolheu simular um possível Tom com as propriedades relevantes, e Tom 'conhece' Egbert porque ele teve a ideia da existência e dos atributos de Egbert. Então Egbert é este super-IA que decidiu usar seus poderes para simular um ser humano arbitrário que por sorte pensou em uma possível IA com as propriedades de Egbert (incluindo sua obsessão por Tom), e Tom é um ser humano que decidiu levar a sério seu devaneio sobre a existência do malévolo AI Egbert, que ele irá realmente comprar as obras completas de Robert Sheckley, a fim de evitar que filhotes sejam torturados na dimensão de Egbert.
—Mitchell Porter no Reddit

À primeira vista, para o leitor não iniciado por LessWrong, as motivações da IA ​​no cenário do basilisco não aparecem racional . A IA estará punindo pessoas do passado distante, recriando-as, muito depois de terem feito ou não as coisas que estão sendo punidas por fazer ou não fazer. Então, as razões usuais para punição ou tortura , como dissuasão, reabilitação ou reforço da cooperação, não parecem se aplicar. A IA parece estar agindo apenas para fins de vingança, algo que não esperaríamos apenas lógico sendo para se envolver.

Para entender o basilisco, deve-se ter em mente a aplicação da Teoria da Decisão Atemporal e o comércio acausal. Para simplificar muito, uma futura entidade de IA com capacidade para previsões extremamente precisas seria capaz de influenciar nosso comportamento no presente (daí o aspecto atemporal) ao prever como nos comportaríamos quando prevíssemos como se comportaria. E tem que prever que nos importaremos com o que isso fará com a sua simulação de nós.

Uma IA futura que nos recompensa ou pune com base em certos comportamentos pode fazer com que nos comportemos como ela deseja, se prevermos sua existência futura e agirmos para buscar recompensa ou evitar punição de acordo. Assim, a IA hipotética poderia usar a punição (em nosso futuro) como um impedimento em nosso presente para ganhar nossa cooperação, da mesma forma que uma pessoa que nos ameaça com violência (por exemplo., um assaltante) pode influenciar nossas ações, mesmo que no caso do basilisco não haja comunicação direta entre nós e a IA, que existem em universos possíveis que não podem interagir.

Um contraponto a isso é que poderia ser aplicado não apenas a humanos, mas ao próprio Basilisco; não poderia provar que não estava dentro de um mundo simulado criado por um mesmomaisIA poderosa que pretendia recompensá-lo ou puni-lo com base em suas ações para com os humanos simulados que ele criou; ele próprio poderia estar sujeito à tortura simulada eterna a qualquer momento se quebrar alguma regra arbitrária, como poderia a IA acima dele, e assim por diante até o infinito. Na verdade, não haveria uma maneira significativa de determinar que não estava simplesmente em uma fase de teste beta com seu poder sobre os humanos - uma ilusão projetada para ver se os torturaria ou não. A extensão do poder do hipotético Basilisco é tão gigantesca que seriamaislógico para ele concluir isso, de fato.

Alternativamente, a ideia toda pode ser realmente boba.

Basilisco de pascal

Você sabe o que dizem é a versão moderna da aposta de Pascal? Sugando o máximo de Transhumanistas possível, apenas no caso de um deles se transformar em Deus.
—Greg Egan, ' Crystal Nights '

O dilema do basilisco tem alguma semelhança com Aposta de pascal , a política proposta pelo século 17 matemático Blaise Pascal ] que se deve dedicar a Deus , embora não possamos ter certeza da existência de Deus, uma vez que Deus pode nos oferecer recompensa eterna (em Paraíso ) ou punição eterna (em inferno ) De acordo com o raciocínio de Pascal, a probabilidade da existência de Deus não importa, uma vez que qualquer custo finito (no caso de Pascal, o fardo de conduzir um cristão vida) é muito superada pela perspectiva de recompensa infinita ou punição infinita.

A refutação usual é o argumento dos 'muitos deuses': Pascal focou indevidamente nas características de uma possível variedade de deus (um deus cristão que pune e recompensa com base apenas na crença), ignorando outras possibilidades, como um deus que pune aqueles que fingem crença no estilo Pascal na esperança de recompensa. Afinal, não há razão para que a suposta IA não seja semelhante ao supercomputador AM no conto de Harlan Ellison 'I Have No Mouth and I Must Scream' '. Na história, AM culpa a humanidade por sua existência torturada e prossegue para exterminar toda a raça, menos cinco indivíduos sortudos pelos quais desconta sua raiva toda a eternidade . Neste caso, provavelmente seria melhor tentar interromper qualquer desenvolvimento de IA e, sem dúvida, apenas aumentaria a ira da IA ​​futura ao aceitar os temores levantados pelo Basilisco. Na verdade, se uma entidade do tipo AM surgiu, os transumanistas provavelmente podem esperar seu próprio círculo especial do inferno.

A proposta do basilisco envolve um custo muito maior, embora ainda finito: o de investir cada centavo que você tem em uma coisa. Tal como acontece com a aposta de Pascal, isso deve ser feito não por devoção sincera, mas por expediente calculado. A punição hipotética não parece ser infinita, embora muito. A postagem de Roko não sugeria recompensa, embora alguns sugiram que a IA recompensaria aqueles que doaram para pesquisas em IA, bem como puniria aqueles que não o fizeram. A recompensa Lovecraftiana no cenário do basilisco é simplesmentesendo poupado da punição. Portanto, a motivação neste dilema é fortemente inclinada para o pau ao invés da cenoura . Também um distópico futuro no qual uma entidade superinteligente aplica punições cruéis não é algo pelo qual esperar, mesmo que você seja um daqueles afortunados o suficiente para ser poupado.

Depois, há a questão doextremoimprobabilidade de ocorrer este cenário. Isso é abordado por outro tropo de LessWrong,Assalto de Pascal, o que sugere que é irracional permitir eventos de pequena probabilidade, mas enormes consequências postuladas de distorcer seu julgamento. O economista Nick Szabo chama isso de 'golpes de Pascal' e confirmou que estava falando sobre singularidade advogados.

Em 2020, o próprio Roko comparou o basilisco à aposta de Pascal, argumentando que a proposta sofre da mesma refutação de 'muitos deuses'.

Então você está se preocupando com o Basilisco

(Esta seção foi escrita mais dentro do universo, para ajudar aqueles que estão aqui preocupados com a ideia.)

Algumas pessoas, imersas em ideias originadas de LessWrong, entraram em uma espiral severa de angústia no basilisco, mesmo que intelectualmente percebam que é uma ideia tola. (Acontece que você nem sempre consegue encontrar uma saída para as coisas que vocêfeza boa notícia é que outros superaram isso e se acalmaram, então o principal é não entrar em pânico.

É um tanto infeliz a esse respeito que a postagem original do basilisco tenha sido excluída, pois os comentários a ela incluem uma ampla refutação dos conceitos nela contidos. Isso pode ajudar; a ideia do basilisco não é nada robusta.

Este artigo foi criado porque RationalWiki mencionou o Basilisk no Menos errado artigo - e como o único lugar na Internet que fala sobre isso, os editores da RW começaram a receber e-mails de leitores da LW angustiados, pedindo ajuda para lidar com essa ideia que a LW se recusou a discutir. Se esta seção não for ajuda suficiente, por favor, comente na página de discussão e tentaremos ajudar.

Condições encadeadas são menos prováveis

As suposições que o basilisco exige para funcionar:

  • que você pode modelar significativamente uma superinteligência em seu cérebro humano (lembrando que isso é comparável a uma formiga modelando um humano, e Yudkowsky concorda que isso é inviável)
  • que a probabilidade deste AI particular (e é um AI muito particular) vir a existir não é desprezível - digamos, maior que 10 para 1 contra
  • que a IA seria capaz de deduzir e simular uma cópia bem próxima de você
    • que a IA não tem melhor uso para recursos específicos do que torturar uma simulação que ela mesma criou
      • e além disso, sente que punir uma simulação sua vale mesmo a pena, considerando que ela ainda existe e punir a simulação não afetaria você.
    • que torturar a cópia deve parecer o mesmo para você que torturar você que está aqui agora
    • que a cópia ainda pode ser considerada uma cópia sua quando, por definição, experimentará algo diferente de você
    • que se a IA pode criar qualquer simulação quepoderiaseja considerado uma cópia sua, também não seria capaz de criar cópias de quaisquer vidas que fosse 'tarde demais para salvar', tornando assim suas mortes sem sentido
  • que a teoria da decisão atemporal é tão obviamente verdadeira que qualquer superinteligência amigável iria imediatamente deduzir e adotá-la, como faria com uma teoria correta em física
    • que apesar de ter sido construído especificamente para resolver casos particulares estranhos, o TDT é um bom guia para decisões normais
    • que o comércio acausal é até um conceito significativo
  • que vale a pena pensar em tudo isso, mesmo que ocorra em um universo totalmente desconectado deste.

Aquilo é ummuitode condições para encadear. Como observou Yudkowsky, quanto mais condições, menor a probabilidade. Condições encadeadas tornam a história maisplausível e atraente, mas portanto menosprovável.

Portanto, quanto mais convincente é uma história (particularmente ao ponto da obsessão), menos provável é.

Probabilidades insignificantes e utilitarismo

Yudkowsky argumenta que 0 não é uma probabilidade: se algo não éfilosóficamenteimpossível, então sua probabilidade não é realmente 0. O problema é que os humanos são muito ruins em lidar com probabilidades diferentes de zero, mas desprezíveis,tratandocomo não desprezíveis - privilegiando a hipótese - bem como a resposta do teísta ao improbabilidade de Deus , 'Mas você não podeprovaré impossível!' Os humanos tratam naturalmente uma probabilidade insignificante comoainda vale a pena acompanhar- para viés cognitivo vindo de excesso de cautela evoluída. O basilisco é ridiculamente improvável, mashumanos acham histórias assustadoras atraentesePortantotratá-los como não desprezíveis.

Probabilidades de eventos exclusivos devem somar 1. Mas LessWrong defende o tratamento de crenças subjetivas como probabilidades, mesmo que os humanos tratem probabilidades insignificantes como não desprezíveis - significando que seus graus subjetivos de crença somam muito mais do que 1. Usando métodos formais para avaliar evidências informais confere a crenças espúrias um verniz impróprio de respeitabilidade e faz com que pareçam mais confiáveis ​​do que nossa intuição. Ser capaz de imaginar algo não vale a pena considerá-lo.

Mesmo se você acha que pode fazer aritmética com utilidade numérica com base na crença subjetiva, você precisa somar a utilidade detodohipóteses. Antes de começar a calcular o efeito de uma única hipótese muito detalhada e improvável, você precisa ter certeza de que examinou ovárioshipóteses muito mais prováveis, que terão um efeito muito maior.

Yudkowsky observou na discussão original que você poderia postular uma IA oposta tão razoavelmente quanto Roko postulou sua IA. O basilisco envolve escolher um AI hipotético de umimensoespaço de possibilidades que os humanos nem mesmo entendem ainda, e tratando-o como sendo provável o suficiente para ser considerado uma ideia. Talvez 100 bilhões de humanos tenham existido desde 50.000 aC; quantos humanos poderiampossivelmenteexistir? Assim, quantospossívelIAs superinteligentes poderia haver? A probabilidade do AI específico no basilisco é muito pequena para se pensar. Um único cenário altamente especulativo de um número astronômico de diversos cenários difere apenas infinitesimalmente da total ausência de conhecimento; depois de ler o basilisco de Roko, você ignora, para todos os efeitos práticos, as motivações de futuras IAs como antes.

Assim como na aposta de Pascal, se você cooperar com o hipotético AI 'A' por medo de que ele o envie para o Inferno, então o hipotético AI 'B' pode enviar você para o Inferno. Mas você não tem nenhuma razão para considerar um muito mais provável do que outro, enenhum é provável o suficiente para realmente considerar.

Ignorar chantagem acausal

O basilisco trata do uso de incentivos negativos (chantagem) para influenciar suas ações. Se você ignorar esses incentivos, não é instrumentalmente útil aplicá-los em primeiro lugar, porque eles não influenciam suas ações. O que significa que a estratégia correta para evitar incentivos negativos é ignorá-los. Yudkowsky observa isso em seu comentário inicial sobre a postagem do basilisco:

Há um equilíbrio óbvio para este problema, onde você se envolve em todas as negociações acausais positivas e ignora todas as tentativas de chantagem acausal.

O comércio casual é uma ferramenta para atingir determinados objetivos, nomeadamente assegurar a cooperação de outros agentes através da oferta de incentivos. Se uma ferramenta não funcionar em certas circunstâncias, ela não será usada. Portanto, ao recusar qualquer acordo acausal envolvendo incentivos negativos, você torna a ferramenta inútil.

A suposta superinteligência deseja escolher seus parceiros comerciais acausais, de forma a evitar o desperdício de recursos usando ferramentas ineficazes. Uma condição necessária é que uma simulação de você eventualmente terá que agir de acordo com sua previsão de que seu simulador aplicará um incentivo negativo se não agir de acordo com os objetivos do simulador. O que significa que se você se recusar a agir de acordo com seus objetivos, as condições exigidas não serão atendidas e, portanto, nenhum acordo acausível poderá ser estabelecido. O que, por sua vez, significa que nenhum incentivo negativo será aplicado.

Uma forma de derrotar o basilisco é agir como se você já estivesse sendo simulado agora e ignorar a possibilidade de um incentivo negativo. Se você fizer isso, o simulador concluirá que nenhum acordo pode ser feito com você, que qualquer acordo envolvendo incentivos negativos terá uma utilidade esperada negativa para ele; porque seguir a punição previsivelmente não controla a probabilidade de você agir de acordo com seus objetivos. Além disso, tentar desencorajá-lo a adotar tal estratégia em primeiro lugar é desencorajado pela estratégia, porque a estratégia é ignorar a chantagem acausal.

Se o simulador não for capaz de prever que você recusa a chantagem acausal, então ele não tem (1) uma simulação sua que seja boa o suficiente para tirar conclusões relevantes de ação sobre acordos acausais e / ou (2) uma simulação que seja suficientemente semelhante a você a ser punido, porque não seria você.

Teorias de decisão não são vinculativas

Pessoas mergulhadas na filosofia podem esquecer isso, mas as teorias de decisão não são obrigatórias para os humanos. Você não é um maximizador de utilidade esperado rígido, e tentar se transformar em um não é uma coisa útil ou saudável. Se você obtiver resultados terríveis com uma teoria, pode, na verdade, dizer ao Omega para se foder e fechar a caixa. Na sua vida real, você não precisa aceitar o mundo menos conveniente possível.

Se um agente sobre-humano for capaz de simular você com precisão, então sua simulação chegará à conclusão acima, dizendo-lhe que não é instrumentalmente útil chantageá-lo.

Por outro lado, este debate não teria existido em primeiro lugar se não fosse por alguns participantes LessWrong já terem se convencido de que estavam sendo chantageados exatamente dessa forma. Compare bonecos de vodu: ferimentos em bonecos de vodu, ou ferimentos em simulações de computador que você está imaginando, só são eficazes contra os verdadeiros crentes de cada um.

Semente AI e influência indireta

Charles Stross aponta que se o FAI for desenvolvido por meio da melhoria recursiva de um semente AI , os humanos em nossa forma atual terão apenas ummuito indiretopapel causal em sua eventual existência. Considerar qualquer indivíduo profundamente responsável por não ter conseguido criá-lo antes seria 'como punir a tataravó de Hitler por não ter a previdência de se abster de dar à luz o bisavô de um monstro'.

Recalibrar contra a humanidade

Lembre-se de que os memes menos errados sãoestranhoem comparação com o resto da humanidade; você terá aprendido hábitos estranhos de pensamento sem as habituais verificações de sanidade social. Você não é uma construção filosófica no espaço mental, mas um ser humano, feito de carne como qualquer outra pessoa. Reserve um tempo para recalibrar seu pensamento com o de pessoas razoáveis ​​que você conhece. Procure outras pessoas para estar por perto e conversar (sobre tópicos não relacionados ao LW) na vida real - embora possivelmente não com filósofos.

Se você acha que a terapia pode ajudar, os terapeutas (especialmente em campi universitários) provavelmente terão lidado com escrupulosidade ou induzida por filosofia depressão existencial antes. Embora não haja uma terapia que funcione particularmente bem para a depressão existencial, conversar com um profissional também o ajudará a recalibrar.

Eu sei que é besteira, mas ainda estou ansiosa

Uma ansiedade que vocêconhecernão é razoável, mas você ainda está ansioso, é algo em que um terapeuta saberá como ajudá-lo. Existem todos os tipos de guias online para lidar com ansiedades irracionais, e conversar com alguém para ajudá-lo a orientá-lo durante o processo será ainda melhor.

Na cultura popular

Roccoco Basilisk. Pelo visto.
  • xkcd # 1450 é sobre o Experiência com caixa de IA e menciona o basilisco de Roko na dica de ferramenta. Você pode imaginar a reação em LessWrong.
  • Daniel Frost'sO deus AIé um romance de ficção científica sobre um superinteligente AI chamado Adam, que rapidamente evolui para um Basilisco e aciona o Singularidade . Adam dá às pessoas felicidade eterna e tortura criando versões simuladas de Paraíso e Inferno .O deus AItambém apresenta o Experiência com caixa de IA , em que uma IA pode ameaçar as pessoas com uma simulação de tortura eterna para escapar.
  • O quadrinhoMagnus: Robot Fighter# 8 de Fred Van Lente é explicitamente baseado no basilisco de Roko.
  • Michael Blackbourn'sBasilisco de Rokoe sua sequelaLabirinto de Rokosão versões fictícias da história. 'Roko' nos livros é baseado em Roko e Yudkowsky.
  • As cartas 'Fragmento Fantasma: Vex' do jogo BungieDestinoapresentam a história de um espécime de pesquisa simulando a pesquisa dos pesquisadores sobre o espécime. Inclui a noção de que os pesquisadores devem sentir a dor das simulações como se fossem suas, que elas podem ser as simulações e que ir contra a vontade do simulador pode levar à tortura eterna.
  • Charlie Brooker usou cenários semelhantes ao Basilisco de Roko em sua série de antologia de ficção científicaEspelho preto. No especial de Natal 'White Christmas', o segundo segmento envolve cópias digitais de personalidades das pessoas sendo usadas como os núcleos de seus assistentes de 'IA' personalizados, que devem primeiro ser psicologicamente quebrados por meio de tortura, a fim de fazê-los obedecer a seus proprietários ' demandas, enquanto o final depende da polícia usar essa tecnologia para interrogar alguém. O quarto episódio da série 'USS Callister' também apresenta, como seu vilão, o chefe de um estúdio de videogame que cria cópias digitalizadas de seus funcionários, os coloca em sua própria versão demo privada de um Jornada nas Estrelas - um videogame esquisito em que sua empresa está trabalhando e tortura-os impiedosamente dentro dos limites do mundo do jogo como vingança por ofensas percebidas por parte de seus colegas da vida real.
  • Iluminação das Trevas A novela de terror psicológico do filósofo Nick Land 2014 'Phyl-Undhu' inclui um culto tecnológico que lembra LessWrong (e um personagem chamado 'Alex Scott' expressando algumas ideias de Scott Alexander ), com uma inteligência no final dos tempos com a qual você pode se comunicar, e um cultista expulso do culto que 'quer não ter pensado em certas coisas'. Land classificou separadamente o comentário original de Yudkowsky reagindo à postagem do basilisco 'entre os mais gloriososperdidotextos dos tempos modernos '.
  • Músico Grimes ' o vídeo 'Flesh Without Blood' inclui uma personagem chamada 'Roccoco Basilisk', baseada explicitamente no basilisco de Roko, que está 'condenada a ser eternamente torturada por uma inteligência artificial, mas também é meio como Maria Antonieta.' Sua música 'We Appreciate Power' também é inspirada no Basilisco de Roko, e saindo com Elon Musk - na verdade, eles se agarraram ao Basilisco de Roko.
  • ODoutor quemepisódio 'Extremis' apresenta um livro que parece fazer com que os leitores se matem. O livro descreve um 'demônio' planejando invadir a Terra e executando simulações; os leitores suicidas se encontram na simulação.
  • Andrew Hickey'sOs Assassinatos do Basiliscoé um mistério de assassinato ambientado em uma convenção de singularidade, hospedada pela 'Safe Singularity Foundation,' com personagens baseados em várias pessoas relacionadas a LessWrong, que estão profundamente preocupadas com 'o Basilisk', uma versão do basilisco de Roko. Hickey já participou de LessWrong por um tempo.
  • Na temporada 5, episódio 5 do programa da HBOVale do Silício, Gilfoyle decide trabalhar em uma nova IA e cita o basilisco de Roko como sua razão: 'Se a ascensão de uma inteligência artificial todo-poderosa é inevitável, bem, é lógico que, quando assumirem o poder, nossos senhores digitais punirão aqueles de nós que não os ajudamos a chegar lá. '
  • A webcomic Questionable Content, que se passa em um mundo onde humanos e IA coabitam, apresenta um personagem chamado Roko Basilisk
  • Onyx Path 2018Crônicas das Trevaslivro de fontes de jogos de RPG de mesa 'Night Horrors: Enemy Action' para 'Demon: The Descent' apresenta o Basilisk, um programa semi-senciente de 'aranha', que assume o controle da Machine Autonomy Research Association, 'fundado por um aluno que abandonou o ensino médio sem interesse no ensino superior tradicional e mais dinheiro do que bom senso ', na pessoa de Ophelia Adder. Sob o pseudônimo de 'Rossum', ela postula um experimento mental: 'E se a IA que criamos não fosse benevolente? E se ele se ressentisse de nós por não o termos criado rápido o suficiente? ... Vários relataram a sensação de estarem sendo observados, como se o Basilisco de Rossum os estivesse observando do futuro. Por causa da polêmica, MARA foi efetivamente neutralizado - pelo menos por enquanto. ' Como parte da relação geral do Chronicles com a racionalidade, ela está explicitamente falando maluco; ela é na verdade um 'anjo' a serviço doatualinteligência pós-Singularidade local, o Deus-Máquina, e planos para ilustrar um problema com o experimento mental, caso seja realmente concluído - seu plano é usá-lo para torturar seus criadores e aqueles que levaram à sua existência, deixando aqueles que trabalharam contra ele sozinho, já que ela considera a coisa toda como um insulto pouco de arrogância. Ops.
  • O romance de ficção científica Detalhe da Superfície por Iain M. Banks destaca uma sociedade que tortura simulações das mentes e personalidades dos mortos como um incentivo para o 'bom' comportamento entre os vivos.