Quanto tempo levaria para um macaco escrever "Hamlet"?

O chamadoteorema do macaco infinito sustenta que um macaco com uma máquina de escrever pressionando teclas aleatoriamente acabaria escrevendo qualquer obra literária: Hamlet , Dom Quixote ou mesmo um best- seller de sua própria autoria. Embora não seja muito aplicável na prática — é, no mínimo, complicado ter um macaco imortal disposto a digitar para sempre —, essa afirmação nos permite explorar conceitos muito interessantes, como aleatoriedade, comportamento no infinito e computação baseada na geração de números pseudoaleatórios.
Esta é uma consequência direta do segundo lema de Borel–Cantelli . Este lema afirma que se cada tentativa de atingir um resultado particular for independente de todas as outras e tiver uma probabilidade de sucesso maior que zero, então, dadas tentativas suficientes, esse resultado ocorrerá infinitas vezes. No caso do teorema do macaco infinito, se um macaco pressiona teclas aleatoriamente indefinidamente, a probabilidade de que ele digite um determinado texto em uma única tentativa é muito baixa, mas não zero. Como as tentativas são repetidas indefinidamente e são independentes umas das outras, de acordo com o lema, o macaco eventualmente digitará o texto desejado infinitas vezes .
Para ser cumprido, o teorema baseia-se em várias premissas. A primeira é que o macaco deve digitar aleatoriamente. Coloquialmente, entendemos um fenômeno aleatório como aquele cujo resultado não pode ser determinado com certeza antes de ocorrer, mesmo que as condições iniciais sejam conhecidas. Exemplos de aleatoriedade incluem o lançamento de um dado ou o sorteio da Loteria de Natal. No caso do macaco, presume-se que, a cada pressionamento de tecla, todas as letras do alfabeto têm a mesma probabilidade de serem sorteadas, independentemente do texto já escrito.
Essa condição nos permite calcular a probabilidade de o macaco digitar qualquer sequência dada. Por exemplo, a probabilidade de digitar "olá" pressionando aleatoriamente quatro teclas em um teclado espanhol (considerando apenas as letras e o espaço) é de (1/27)^4, aproximadamente 0,0000019. Esse pequeno valor, para uma sequência tão curta, já mostra o quão complexa a questão é.
Aqui vem a segunda suposição do teorema: há uma quantidade infinita de tempo disponível e, portanto, um número infinito de tentativas. Após n tentativas, consideradas isoladas por simplicidade, a probabilidade de que a sequência "olá" não apareça é (1 - 0,0000019)^ n . Embora (1 - 0,0000019) seja muito próximo de 1, multiplicá-lo por si mesmo n vezes, se n for grande o suficiente, resulta em um valor próximo de zero. Portanto, o macaco escreverá "olá" com a probabilidade que desejarmos.
O mesmo se aplica a qualquer outra sequência — mesmo aquela que inclui todas as palavras de Hamlet , em ordem — e é na qual se baseia o teorema do macaco infinito. Agora, podemos estimar aproximadamente quanto tempo levaria para produzir o clássico de Shakespeare, com alta probabilidade? Em um artigo recente, eles calcularam que, com quase absoluta certeza, toda a população atual de macacos não seria capaz de escrever um texto com mais do que algumas palavras antes da morte térmica do universo.
Outro experimento interessante relacionado a este teorema permite que o usuário insira qualquer sequência e simula a geração aleatória de texto até que a sequência dada seja encontrada. Para produzir o texto, esta página utiliza os chamados geradores de números pseudoaleatórios . Sendo baseados em regras, os cálculos realizados por estes programas são completamente determinísticos: se todas as condições iniciais forem conhecidas, o número gerado pode ser previsto. Em outras palavras, números pseudoaleatórios não são aleatórios. No entanto, uma vez que as condições iniciais do gerador são desconhecidas, os valores gerados são indistinguíveis de números verdadeiramente aleatórios. Existem diversas técnicas para este propósito, como geradores baseados em aritmética modular ou aqueles baseados em cifras, entre outros.
Por fim, no espírito dos grandes modelos de linguagem , estes poderiam ser usados como substitutos para os macacos em nosso experimento? O ChatGPT ou o DeepSeek poderiam escrever Dom Quixote espontaneamente se solicitados a escrever por um período de tempo infinito? O raciocínio acima não se sustenta, visto que esses modelos geram texto com base na probabilidade de palavras aparecerem em um determinado contexto; eles não são o produto de um processo aleatório. E como Dom Quixote está entre os textos com os quais foram treinados, pode parecer que a probabilidade de reproduzirem a obra inteira seria maior do que no caso anterior.
No entanto, vários fatores tornam isso extremamente improvável . Primeiro, esses modelos não são treinados para replicar fielmente textos espanhóis da Era de Ouro, mas sim textos modernos, o que dificulta a execução precisa do estilo de Cervantes. Além disso, esses programas são projetados para não copiar literalmente grandes partes dos textos com os quais aprenderam, reduzindo ainda mais as chances de reproduzir obras completas. Isso, combinado com outras limitações do programa, significa que, embora o modelo possa se aproximar mais do que macacos de certas partes do texto, a probabilidade de reproduzi-lo integralmente é mínima.
Pablo García Arce é pesquisador de pré-doutorado no Conselho Superior de Pesquisas Científicas (CSIC) da Espanha, no Instituto de Ciências Matemáticas (ICMAT).
Café e Teoremas é uma seção dedicada à matemática e ao ambiente em que ela é criada, coordenada pelo Instituto de Ciências Matemáticas (ICMAT). Nesta seção, pesquisadores e membros do centro descrevem os avanços mais recentes nesta disciplina, compartilham pontos em comum entre a matemática e outras expressões sociais e culturais e relembram aqueles que moldaram seu desenvolvimento e souberam transformar café em teoremas. O nome evoca a definição do matemático húngaro Alfred Rényi: "Um matemático é uma máquina que transforma café em teoremas."
Editado, traduzido e coordenado por Ágata Timón García-Longoria . Ela é coordenadora da Unidade de Cultura Matemática do Instituto de Ciências Matemáticas (ICMAT).
EL PAÍS