segunda-feira, 19 de fevereiro de 2007

Bons Rapazes Terminam em Primeiro – Parte 2

Continuação do texto Bons Rapazes Terminam em Primeiro – Parte 1(1).

O Dilema do Prisioneiro Iterado

O jogo iterado é basicamente o mesmo que o não iterado, mas repetido um número indefinido de vezes com os mesmos jogadores. Mais uma vez jogamos os dois, com um banqueiro sentado no meio. Uma vez mais, temos cada um, uma mão de apenas duas cartas, marcadas com COOPERA e DESERTA. Mais uma vez nós jogamos uma ou outra carta, e o banqueiro paga ou recebe em conformidade com as regras previamente definidas. Mas agora, em vez de ser este o fim do jogo, nós recolhemos as nossas cartas e preparamo-nos para outra ronda. As rondas sucessivas do jogo dão-nos a oportunidade de acumular confiança ou desconfiança, apaziguar ou reciprocar, perdoar ou vingar. Num jogo indefinidamente longo, o ponto importante está em podermos ambos ganhar às custas do banqueiro, em vez de às custas um do outro.

Após as dez rondas do jogo, eu poderia teoricamente ter ganhado até $5.000, mas só se você tivesse sido extraordinariamente tolo (ou santo) e jogado COOPERA constantemente, apesar do facto de eu desertar consistentemente. De forma mais realista, é fácil para cada um de nós colectar $3.000 do banqueiro, se ambos jogar-mos COOPERA em todas as dez rondas do jogo. Para isso nós não temos de ser particularmente santos, porque ambos podemos ver, dos movimentos passados do outro, que nele se pode confiar. Podemos, com efeito, policiar esse comportamento. Outra coisa muito provável de acontecer, é nenhum de nós confiar no outro: ambos jogaremos DESERTA em todas as dez rondas do jogo, e o banqueiro ganhará $100 como penalização para cada um de nós. O mais provável no entanto, será confiarmos parcialmente um no outro, e cada um jogará COOPERA ou DESERTA de forma mista, acabando com uma soma intermediária de dinheiro.

Os pássaros do Capítulo 10(2) que retiravam carrapatos de cada um, estavam a jogar o jogo do Dilema do Prisioneiro Iterado. Como assim? É importante, lembra-se de que, para um pássaro tirar os carrapatos do topo da própria cabeça, necessita de um companheiro para o fazer. Pareceria justo este retornar o favor mais tarde. Mas este serviço custa tempo e energia ao pássaro, embora não muito. Se um pássaro poder escapar às consequências traindo o outro - com os seus próprios carrapatos retirados recusando-se a reciprocar - ganha todos os benefícios sem pagar os custos. Classifique os resultados, e verá que de facto estamos perante um verdadeiro jogo do Dilema do Prisioneiro. Ambos a cooperar (puxando os carrapatos um do outro) é bastante bom, mas há ainda a tentação de fazer melhor, recusando-se a pagar os custos de reciprocar. Ambos desertam (recusando-se a retirar carrapatos) é bastante mau, mas não tão mau como o investir de esforço no retirar dos do outro e acabar mesmo assim infestado. A matriz de desfecho é a da Figura 1.


Figura 1. O jogo da remoção do carrapato: As minhas recompensas segundo vários cenários.

Mas isto é apenas um exemplo. Quanto mais nele se pensa, mais se percebe que a vida é nublada com jogos do Dilema do Prisioneiro Iterado, não só a vida humana mas a animal e a das plantas também. Vida vegetal? Sim, por que não? Lembre-se de que nós não estamos a falar de estratégias conscientes (embora por vezes o possam ser), mas sim de estratégias no sentido de ‘Maynard Smith’(3), estratégias do tipo das pré-programadas por genes. Mais tarde falaremos de plantas, de vários animais e mesmo de bactérias, todos jogando o jogo do Dilema do Prisioneiro Iterado. Entretanto, exploraremos de forma mais plena o que há de tão importante sobre a iteração.

Ao contrário do simples jogo, em que a jogada previsível é a do DESERTA como a única jogada racional, a versão iterada oferece um grande conjunto de possíveis estratégias. No jogo simples só há duas estratégias possíveis, COOPERA ou DESERTA. A iteração, permite no entanto, muitas estratégias concebíveis, e não é de modo algum óbvio qual delas a melhor. O exemplo seguinte, por exemplo, é somente um entre milhares ‘coopera a maior parte do tempo, mas nuns casuais 10% de rondas deserta’. As estratégias poderão talvez ser condicionais relativamente à história passada do jogo. O meu ‘Grudger’(4) é um exemplo disso; tem uma memória boa para rostos, e apesar de fundamentalmente cooperativo, deserta se o outro jogador desertou alguma vez antes. Outras estratégias poderão ser mais clementes e de memória mais curta.

Claramente as estratégias disponíveis no jogo iterado estão limitadas apenas pelo nosso engenho. Poderemos concluir qual a melhor? Esta foi a tarefa que Axelrod(5) atribui a si próprio. Teve a ideia interessante de iniciar uma competição, e anunciou-a para os peritos em teoria de jogos submeterem as suas estratégias. As estratégias, são-no no sentido, de regras de acção pré-programadas, sendo então apropriado para os concorrentes entregar essas regras em linguagem de máquina. Catorze estratégias foram submetidas. Para uma mais clara comparação Axelrod adicionou uma quinta estratégia, chamada Casual, que joga COOPERA ou DESERTA casualmente, e servido como um tipo de base ‘não estratégia’: se uma estratégia não conseguir fazer melhor que a Casual, então deve ser bastante má.

Tit for Tat – Olho por Olho e Dente por Dente

Axelrod traduziu todas as 15 estratégias para uma linguagem de programação comum, e testou-as umas contra as outras num grande computador. Cada estratégia esteve frente a frente com cada uma das outras (incluindo contra si própria) no jogo o Dilema do Prisioneiro Iterado. Como haviam 15 estratégias, tinha-mos 15 x 15 ou 225 jogos distintos a decorrer no computador. Quando cada par tivesse concluído 200 movimentos de jogo, somavam-se as vitórias e assim determinado o vencedor.

Não estamos preocupados com qual a estratégia ganhadora contra qualquer oponente particular. O que importa, é saber qual a estratégia que acumulou mais ‘dinheiro’, somado ao longo de todos os seus 15 pares. ‘Dinheiro’ significa simplesmente ‘pontos’, ganhos de acordo com o seguinte esquema: Cooperação mútua, 3 pontos; Tentação para desertar, 5 pontos; Castigo pela deserção mútua, 1 ponto (equivalente a uma multa leve no nosso jogo anterior); Desfecho do papalvo, 0 pontos (equivalente a uma multa pesada no nosso jogo anterior).


Figura 2. O torneio de computador de
Axelrod: As minhas recompensas segundo vários cenários.

A pontuação máxima possível que qualquer estratégia pode alcançar é de 15.000 (200 rondas com 5 pontos, para cada um dos 15 oponentes). A pontuação mínima possível é de 0. É desnecessário dize-lo, mas nenhum destes dois extremos foi realizado. O máximo que uma estratégia pode realisticamente esperar ganhar dos seus 15 oponentes, não pode em média ser muito mais de que 600 pontos. Isso é o que dois jogadores recebem se ambos cooperarem constantemente, recebendo 3 pontos para cada uma das 200 rondas de jogo. Se um deles sucumbisse à tentação de desertar, muito provavelmente acabaria com menos de 600 pontos, por causa da retaliação por parte do outro jogador (a maioria das estratégias submetidas tiveram algum tipo de comportamento retaliativo que lhes foi embutido). Podemos usar os 600 pontos como uma espécie de fiel da balança para o jogo, e expressar todas as recompensas como uma porcentagem deste. Nesta escala é teoricamente possível ganhar até 166% (1.000 pontos), mas na prática nenhuma estratégia excedeu a contagem média de 600 pontos.

Lembre-se de que os ‘jogadores’ no torneio não eram seres humanos mas sim programas de computador, de estratégias pré-programadas. Os seus autores fizeram o mesmo papel que o dos genes, programando corpos (pense no programa informático de xadrez e no computador de Andrómeda do Capítulo 4(6)). Pode pensar nas estratégias como ‘procuradores’ miniaturizados dos seus autores. Na verdade, um autor poderia ter submetido mais de uma estratégia (embora tal pudesse resultar em vigarice – e por isso Axelrod presumivelmente não o tenha permitido – com um autor a ‘empacotar’ a competição com estratégias, por forma a receber os benefícios da cooperação sacrificial das outras).

Foram submetidas algumas estratégias engenhosas, embora fossem, naturalmente, muito menos engenhosas que os seus autores. A estratégia ganhadora, notavelmente, foi a mais simples e superficialmente a menos engenhosa de todas. Foi chamada de “Tit for Tat” (Olho por Olho e Dente por Dente), e foi submetida pelo professor Anatol Rapoport(7), um bem conhecido psicólogo e teórico de jogos de Toronto. Tit for Tat começa por cooperar no primeiro lance, e depois copia simplesmente o movimento prévio do outro jogador.

De que forma procede um jogo envolvendo a estratégia Tit for Tat? Como sempre, o que acontece depende do outro jogador. Suponha, primeiro, que o outro jogador é também um Tit for Tat (lembre-se que cada estratégia joga contra uma cópia de si, tal como contra as outras 14). Ambas as Tit for Tat começam por cooperar. No próximo lance, cada jogador copia o movimento prévio do outro, que foi COOPERA. Ambos continuam a COOPERAR até ao fim do jogo, e ambos acabam com a plena recompensa de 100% do fiel da balança (600 pontos).

Agora suponha que Tit for Tat joga contra uma estratégia chamada de Explorador Ingénuo. O Explorador Ingénuo na realidade não foi incorporado na competição de Axelrod, mas é apesar disso instrutivo. É na essência idêntico ao Tit for Tat, excepto, de vez em quando num movimento casual, digamos em cada dez lances, desertar gratuitamente e reivindicar o alto pagamento da Tentação. Até que o Explorador Ingénuo deserte, estes jogadores passam bem por dois Tit for Tat. Uma sequência longa mutuamente lucrativa de cooperação parece seguir o seu rumo, com uma contagem confortável de 100% do Fiel da Balança para ambos os jogadores. Mas repentinamente, sem aviso, diga-mos no oitavo movimento, o Explorador Ingénuo deserta. Tit for Tat, naturalmente, joga COOPERA neste movimento, e assim recebe o desfecho do Papalvo de 0 pontos. O Explorador Ingénuo parece ter feito bem, pois obteve 5 pontos nesse movimento. Mas no próximo movimento Tit for Tat irá ‘retaliar’. Joga DESERTA, simplesmente seguindo a sua regra de imitação do movimento prévio do oponente. O Explorador Ingénuo, entretanto, seguindo cegamente a sua própria regra de cópia, copia o anterior movimento COOPERA do seu oponente. Assim, sofre agora o desfecho do Papalvo de 0 pontos, enquanto Tit for Tat recebe os 5 pontos. No próximo movimento, o Explorador Ingénuo – embora se possa pensar, injustamente – ‘retalia’ contra Tit for Tat pela deserção anterior. E assim, a alternância continua. Durante este alternar ambos os jogadores receberão em média 2,5 pontos por movimento (a média de 5 e 0). Sendo este resultado, inferior aos 3 pontos que poderiam acumular constantemente pelo movimento de cooperação mútua (e, a propósito, esta é a razão para o ‘condição adicional’ deixada por explicar na página 204(8)). Então, quando o Explorador Ingénuo joga contra Tit for Tat, ambos recolhem menos pontos do que quando Tit for Tat joga contra outro Tit for Tat. E quando um Explorador Ingénuo joga contra outro Explorador Ingénuo, ambos conseguem, uma pontuação ainda pior, pois a deserção inicial tende a realizar-se mais cedo.

Considere agora outra estratégia, chamada de Explorador Arrependido. O Explorador Arrependido é como o Explorador Ingénuo, excepto na sua atitude de tomar passos activos por forma a evitar ciclos de recriminações alternadas. Para o fazer este necessita de uma ‘memória’ levemente mais longa que a de qualquer Tit for Tat ou Explorador Ingénuo. O Explorador Arrependido lembra-se de quando desertou espontaneamente, e se o resultado foi a retaliação imediata. Se assim foi, ele de forma arrependida permite que ao seu oponente ‘um golpe livre’ sem retaliar. Desta forma, elimina-se de raiz a possibilidade de ciclos de recriminação mútua. Se agora imaginar um jogo entre um Explorador Arrependido e um Tit for Tat, concluirá que rondas de retaliação mútua serão cortadas. A maioria do jogo é passado em cooperação mútua, com ambos os jogadores gozando uma recompensa generosa consequente. O Explorador Arrependido sai-se melhor contra um Tit for Tat do que contra um Explorador Ingénuo, embora não tão bem como um Tit for Tat contra si próprio.

Algumas das estratégias submetidas no torneio do Axelrod eram muito mais sofisticadas que o Explorador Arrependido ou o Explorador Ingénuo, mas também essas acabaram, em média, com menos pontos, do que o simples Tit for Tat. De facto, a menos bem sucedida de todas as estratégias (exceptuando-se a Casual) foi a mais elaborada. Foi submetida como ‘Nome retido’ - uma forma de alimentar agradáveis especulações: Algum antropónimo de uma eminência do Pentágono? O director da CIA? Henry Kissinger? O próprio Axelrod? Suponho que nunca saberemos.

Não é de todo interessante, examinar os detalhes de todas as estratégias particulares que foram submetidas. Isto não é um livro sobre o talento de programadores. Será mais interessante classificar as estratégias de acordo com certas categorias, e examina-las quanto ao seu êxito mais amplo. A categoria mais importante que Axelrod reconheceu foi ‘amável’. Uma estratégia amável, é definida como uma em que nunca se é o primeiro a desertar. Tit for Tat é um exemplo. É capaz de desertar, mas só o faz como retaliação. Tanto o Explorador Ingénuo como o Explorador Arrependido são estratégias maldosas, porque às vezes, embora raramente, desertam sem motivo (provocação). Das 15 estratégias submetidas a torneio, 8 eram amáveis. Significativamente, as 8 que ficaram no topo eram as mesmas 8 estratégias amáveis, as 7 maldosas ficaram-se bem para trás. Tit for Tat obteve uma média de 504,5 pontos: 84% do nosso Fiel da Balança de 600 pontos, uma boa soma. As outras estratégias amáveis somaram pouco menos, com contagens a variar entre 78,6% e 83,4%. Há um abismo grande entre esta contagem e os 66,8 % obtidos pelo ‘Graaskamp’, a mais bem sucedida de todas as estratégias maldosas. Parece bastante convincente que rapazes amáveis terminam bem neste jogo.

Outro termo técnico de Axelrod é ‘tolerância’. Uma estratégia diz-se tolerante quando, embora possa retaliar, possui uma memória curta. É rápida em deixar passar antigos prejuízos. Tit for Tat é uma estratégia tolerante. Esta retalia de forma seca no instante imediato, mas depois disso, faz desse passado, passado. Já o Grudger do Capítulo 10, é totalmente implacável. A sua memória mantém-se o jogo inteiro. Nunca se esquece, e mantém o rancor contra um jogador que tenha desertado, mesmo que só uma única vez. Uma estratégia formalmente idêntica à do Grudger foi submetida a torneio sob o nome de Friedman, e não se saiu particularmente bem. De todas as estratégias amáveis (note que é tecnicamente amáveis, embora seja totalmente intolerante), Grudger/Friedman ficou em penúltimo lugar. A razão pela qual as estratégias intolerantes não se saem muito bem, está no facto de não conseguirem quebrar ciclos de mútua retaliação, mesmo quando o seu oponente esteja “arrependido”.

É possível ser-se ainda mais tolerante que Tit for Tat. A estratégia Tit for Two Tats(9) permite duas deserções seguidas por parte dos seus oponentes antes de retaliar. Isto talvez possa parecer excessivamente virtuoso e magnânimo. Não obstante, Axelrod conclui que, se alguém a tivesse submetido, teria ganhado o torneio. E isto, por ser tão boa a evitar ciclos de mútua retaliação.

(a continuar)


(1) – Traduzido de http://www-static.cc.gatech.edu/~idris/Essays/Dawkins_The_Selfish_Gene.htm
(2) – http://seremosricos.blogspot.com/2007/01/bons-rapazes-terminam-em-primeiro-parte.html
(3) – John Maynard Smith, http://en.wikipedia.org/wiki/John_Maynard_Smith
(4) – Tratavam-se de pássaros que se ajudavam duma forma aparentemente altruísta, mas recusavam-se a ajudar (de forma rancorosa), indivíduos que previamente se tinham recusado ajudá-los.
(5) – Rober Axelrod, http://www-personal.umich.edu/~axe/
(6) – The Gene Machine, Richard Dawkins
(7) – Anatol Rapoport, http://en.wikipedia.org/wiki/Anatol_Rapoport
(8) – Condições do jogo o Dilema do Prisioneiro simples, http://seremosricos.blogspot.com/2007/01/bons-rapazes-terminam-em-primeiro-parte.html
(9) – Poderá ser traduzido como Um Olho por Dois ou Um Dente por Dois

Sem comentários: