Ein KI-Agent (Spieltheorie) gegen einen Tit-for-Tat KI-Gegner – wer gewinnt auf Dauer?
📖 Was passiert hier? Zwei Spieler können kooperieren (K) oder defektieren (D).
Wenn beide kooperieren, gibt es 3 Punkte für beide. Wenn einer defektiert und der andere kooperiert, bekommt der Defektor 5 Punkte (der andere 0).
Wenn beide defektieren, gibt es nur 1 Punkt. Das Dilemma: Eigentlich ist Defektieren kurzfristig besser – aber wenn beide immer defektieren, sind beide schlechter dran als bei beidseitiger Kooperation.
📊 Punkte für die KI-Agenten (pro Runde)
A \ B
KI-Gegner: Kooperieren (K)
KI-Gegner: Defektieren (D)
KI: Kooperieren (K)
(3,3) Punkte
(0,5) Punkte
KI: Defektieren (D)
(5,0) Punkte
(1,1) Punkte
🎭 KI-Gegner (B) spielt "Tit‑for‑Tat": Startet mit Kooperation. Dann macht er genau das, was die KI in der letzten Runde gemacht hat. Also: Kooperation wird belohnt, Defektion wird bestraft.
🤖 Wie lernt die KI? Sie nutzt Q-Learning – eine Methode, bei der sie sich merkt, wie gut jede Aktion in einer bestimmten Situation war.
Der Diskontfaktor γ (Gamma) entscheidet, wie sehr die KI die Zukunft beachtet. γ = 0,9 → Zukunft ist fast genauso wichtig wie der sofortige Gewinn.
ε‑greedy bedeutet: Meistens wählt die KI die beste bekannte Aktion, aber manchmal (10%) probiert sie zufällig etwas Neues aus.
Wie schnell neue Erfahrungen gelernt werden
0 = nur jetzt, 1 = Zukunft extrem wichtig
Zufallsrate (z.B. 0.1 = 10% Experimente)
Wie oft die KI spielt und lernt
📚 Was hat die KI gelernt? (Q‑Werte)
💡 Je höher der Wert, desto besser findet die KI diese Aktion im jeweiligen Zustand.
⏳ Noch kein Training – klicke auf „Training starten“
📘 Spieltheorie & KI – kurz erklärt
🎭 Gefangenendilemma: Ein bekanntes Spiel, bei dem egoistisches Handeln (Defektieren) allen schadet, während Zusammenarbeit (Kooperation) allen nutzt.
🤖 Q-Learning: Die KI führt eine Tabelle (Q-Werte) – eine Art „Erfahrungsspeicher“. Nach jeder Aktion aktualisiert sie die Tabelle.
⚖️ Diskontfaktor γ (Gamma): Wenn γ = 0,9, ist die KI weitsichtig: Sie erkennt, dass ein kurzfristiger Gewinn (5 Punkte) später bestraft wird (Tit‑for‑Tat rächt sich). Mit γ=0 wird sie immer defektieren.
🧪 ε‑greedy: 90% der Zeit folgt die KI ihrem Wissen, 10% probiert sie zufällig die andere Aktion – so entdeckt sie, ob Kooperation besser ist.
📈 Lernkurve: Das Diagramm zeigt, wie oft die KI kooperiert (gleitender Durchschnitt). Je höher die Linie, desto mehr hat sie Kooperation gelernt.
👉 Probier aus: Setze γ auf 0.2 und trainiere – die KI wird fast nie kooperieren. Setze γ auf 0.9 → die Linie steigt auf nahezu 100% Kooperation!