domingo, 31 de mayo de 2009

Primer torneo Dilema del Prisionero

Se planteó en el tema anterior que confesar es siempre la opción predominante si es que los jugadores juegan lógicamente. ¿Hay alguna manera de salir del dilema? Ambos prisioneros/jugadores saben que cualquier cosa que haga su oponente, ellos no pueden hacer más que confesar, aunque saben que sólo si AMBOS cooperan, les iría mejor a los 2. Si sólo pudieran encontrar el modo de llegar a un acuerdo, de garantizarse cada jugador que el otro no lo traicionará. En un juego tan simple como el Dilema del Prisionero no hay manera de garantizar la confianza. A menos que uno de los jugadores sea realmente un bendito incauto, demasiado bueno para el mundo, el juego está predestinado a finalizar en mutua deserción, paradójicamente obteniendo ambos jugadores malos resultados.

Hay otra versión del juego que permite escaparse de ese círculo vicioso: el Dilema del Prisionero Iterado (o repetido). El juego repetido es, simplemente, el normal que se repite un número indefinido de veces con los mismos jugadores. En el juego sencillo sólo hay 2 posibles estrategias: o cooperar o desertar con tu compañero. Sin embargo, la repetición permite infinidad de estrategias concebibles sin que alguna se muestre como “clara favorita”. Algunas estrategias pueden ser: “siempre cooperar”, “siempre desertar”, “cooperar la mayor parte del tiempo, desertando en el 10% de los casos”, “imitar al rival”, “hacer lo contrario al rival” e incluso permite “personalidades”: uno puede cooperar siempre pero “vengarse” de algún traidor, uno puede ser rencoroso y no perdonar nunca u olvidar rápido, volviendo a cooperar. Incluso puede ser envidioso: jugar de acuerdo a como le esté llendo al rival.

¿Cómo determinar cual es la mejor estrategia? Un ocioso gringo, Axelrod, se propuso averiguarlo. Organizó un torneo y mandó solicitudes a expertos en la teoría de los juegos para que le presentaran estrategias, las cuales se les haría competir en un computador. Se presentaron 14 estrategias y Axelrod presentó una 15ª: Aleatoria, la cual simplemente elige “COOPERAR” y “DESERTAR” aleatoriamente y servía como línea de base: si una estrategia no puede ser mejor que “aleatoria” es que debe ser muy mala. Las 15 estrategias se les hizo competir todas contra todas, incluyendo contra sí mismas en un larguísimo Dilema del Prisionero Repetido (DPR para abreviar). Los pagos eran en base a puntos según la tabla:


Se jugó 200 rondas en base a esto, enfrentándose todas las estrategias contra todas, incluyendo contra sí misma. El máximo teórico es de 15 mil puntos (se desertó siempre y el rival cooperaba siempre). El mínimo era de 0 puntos. De más está decir que nadie se acercó a esos valores. Para efectos prácticos, se puede considerar exitosamente realista una estrategia que llegue a los 600 puntos, que sería el puntaje que obtendría si se cooperara siempre al igual que el contrincante.

¿La estrategia ganadora? Una mandada por un psicólogo ocioso de Toronto, llamada “Tit For That” (traducido vendría a ser “ojo por ojo y diente por diente”, la abreviaré con TFT). Consiste simplemente en partir “cooperando” y después imitar la respuesta que el rival tuvo en el juego anterior. A esta estrategia se le puede definir como “amable” (nunca es la primera en desertar) y “clemente” (se venga, pero perdona rápido).
Un ejemplo de cómo opera: si se enfrenta a otra TFT, ambas parten cooperando y al imitar el movimiento anterior, las 2 llegan a los 600 puntos de cooperación mutua, obteniendo el 100% calculado inicialmente. Ahora, si TFT se enfrenta a una estrategia llamada Cándido Probador (los nombres son así, no me aleguen), que consiste en jugar con la misma regla que TFT, pero tiende a desertar en una partida al azar de cada 10. Si se enfrentan esas estrategias, vemos que ambas parten cooperando, pero Cándido Probador deserta y obtiene 5 puntos al beneficiarse de la cooperación del rival. El problema está en que TFT, al imitar el juego del contrincante, deserta en la siguiente mientras que Cándido Probador juega “cooperar” y así se encierran ambos en un ciclo de deserciones que hace que el puntaje final sea bastante menor que los 600.

Otro ejemplo puede ser cuando TFT se enfrenta a Probador arrepentido: éste juega igual que cándido probador con la diferencia que hace pasos activos para romper el círculo: si el rival deserta en venganza de su acción, no responde con otra deserción. Esta estrategia, al romper el círculo, es más efectiva contra TFT que Cándido Probador, pero aún así queda muy atrás en la competencia.

Hay una forma de ser aún más clemente que TFT. “Thit for That Two” (TFT 2) permite a sus oponentes 2 deserciones antes de vengarse. Esto puede parecer excesivo en un ambiente de “tramposos”, pero Axelrod averiguó que si se hubiera presentado esa estrategia, hubiera ganado el torneo, ya que es más eficiente para evitar las mutuas recriminaciones.

¿Moraleja de la historia? Cooperar con la gente, ser clemente (es decir, no ser un estúpido que se deje pasar a llevar como una estrategia estilo “siempre cooperar”, pero con capacidad de perdonar) e incluso paciente con el que juega sucio rinde frutos y permite llegar a resultados globales mejores que si nos moviéramos por el egoísmo y el interés personal. Esta conclusión, que suena casi utópica, resultó una sorpresa para muchos de los expertos, que habían tratado de ser demasiado astutos presentando estrategias sutilmente sucias; mientras que los que presentaron estrategias amables no consiguieron nada tan clemente como TFT 2.


La historia no termina acá, pero lo que viene quedará para otro tema.

Saludos a todos!! =)


No hay comentarios: