Cápitulo 6
description
Transcript of Cápitulo 6
1
Cápitulo 6
BUSQUEDA EN JUEGOS DE ADVERSARIO
Sección 1-4
2
Bosquejo
• Las decisiones óptimas• Poda α-β • Las decisiones imperfectas de tiempo real
3
Juegos vs. Búsqueda
• Adversario “imprevisible” especificar un movimiento para cada respuesta posible del adversario
• Límite de tiempo improbable encontrar meta, deben aproximarse
4
Arbol de juego (2 jugadores, deterministas, turnos)
5
Minimax• Jugada perfecta para juegos determinísticos• Idea: mover a la posición con mayor valor minimax
= Mejor ganancia vs. mejor jugada• E. g. Explorando a profundidad 2
6
Algoritmo Minimax
7
Propiedades de minimax
• ¿Completa? Sí (si el árbol es finito)• ¿Óptimo? Sí (en contra de un adversario
óptimo)• ¿Complejidad en Tiempo? O(bm)• ¿Complejidad en espacio? O(bm) DFS
• Para el ajedrez, b ≈ 35, m ≈100, para juegos "razonables“. Solución exacta no factible.
8
Ejemplo de α-β
9
Ejemplo de α-β
10
Ejemplo de α-β
11
Ejemplo de α-β
12
Ejemplo de α-β
13
Propiedades de α-β
• La poda no afecta el resultado final
• Un buen orden de movimientos mejora la efectividad de poda
Orden perfecto. Complejidad en tiempo = O(bm/2) duplica la profundidad de búsqueda
• Un ejemplo simple del valor de razonamiento donde las computaciones tienen importancia (una forma de metarazonamiento)
14
¿Por que α-β?
• α es el valor de la mejor elección (el valor más alto) encontrada hasta ahora en cualquier punto a lo largo del camino hacia max
• Si v es peor que α, max lo evitará poda esa rama
• β semejante para min
15
Algoritmo α-β
16
Algoritmo α-β
17
Recursos Limitados
Tenemos 100 s, explorar 104 nodos/s 106 nodos por movimiento
método estándar:• Prueba de truncamiento:
v.g., Límite de profundidad• La función de evaluación
= estimar la conveniencia de la posición
18
Funciones de evaluación
• Para el ajedrez, típicamente la suma ponderada lineal de características
Eval(s) = w1 f1(s) + w2 f2(s) + … + wn fn(s)
w1 = 9 con
f1(s) = (el número de reinas blancas) – (el número de reinas negras)
etc.
19
Recortando la búsqueda
MinimaxCutoff es idéntico a MinimaxValue excepto1. Terminal? es remplazada por Cutoff?2. Utility es remplazada por Eval
Funciona en la práctica?bm = 106, b=35 m=4
Adelantarse 4 jugadas jugador pésimo!– 4-ply ≈ Principiante humano– 8-ply ≈ PC típica, maestro humano– 12-ply ≈ Deep Blue, Kasparov
20
Juegos Determinísticos
• Damas: Chinook acabó reinado de 40 años de campeón mundial Marion Tinsley en 1994. Usaba una base de datos precomputada de finales perfectos para 8 o menos piezas. Un total de 444 billones de posiciones.
• Ajedrez: Deep Blue derrotó al campeón mundial Garry Kasparov en seis juegos en 1997. Deep Blue registra 200 millones de posiciones por segundo. Evaluación muy sofisticada, y métodos sin revelar para explorar hasta 40 jugadas adelante.
• Othello: Los campeones humanos se reúsan a jugar en contra de computadoras. Son demasiado buenas.
• Go: Los campeones humanos se reúsan a jugar contra computadoras. Son demasiados malas. En Go, b > 300, la mayoría de programas usan bases de
conocimiento de patrones para sugerir movimientos aparentemente buenos.
21
Resumen
• ¡Los juegos son divertidos !• Ilustran varias puntos importantes acerca
de IA• La perfección es inalcanzable debe
aproximarse