🧠 Multi KI-Agenten & Spieltheorie

Ein KI-Agent (Spieltheorie) gegen einen Tit-for-Tat KI-Gegner – wer gewinnt auf Dauer?
📖 Was passiert hier? Zwei Spieler können kooperieren (K) oder defektieren (D). Wenn beide kooperieren, gibt es 3 Punkte für beide. Wenn einer defektiert und der andere kooperiert, bekommt der Defektor 5 Punkte (der andere 0). Wenn beide defektieren, gibt es nur 1 Punkt. Das Dilemma: Eigentlich ist Defektieren kurzfristig besser – aber wenn beide immer defektieren, sind beide schlechter dran als bei beidseitiger Kooperation.

📊 Punkte für die KI-Agenten (pro Runde)

A \ BKI-Gegner: Kooperieren (K)KI-Gegner: Defektieren (D)
KI: Kooperieren (K)(3,3) Punkte(0,5) Punkte
KI: Defektieren (D)(5,0) Punkte(1,1) Punkte
🎭 KI-Gegner (B) spielt "Tit‑for‑Tat": Startet mit Kooperation. Dann macht er genau das, was die KI in der letzten Runde gemacht hat. Also: Kooperation wird belohnt, Defektion wird bestraft.
🤖 Wie lernt die KI? Sie nutzt Q-Learning – eine Methode, bei der sie sich merkt, wie gut jede Aktion in einer bestimmten Situation war. Der Diskontfaktor γ (Gamma) entscheidet, wie sehr die KI die Zukunft beachtet. γ = 0,9 → Zukunft ist fast genauso wichtig wie der sofortige Gewinn. ε‑greedy bedeutet: Meistens wählt die KI die beste bekannte Aktion, aber manchmal (10%) probiert sie zufällig etwas Neues aus.
Wie schnell neue Erfahrungen gelernt werden
0 = nur jetzt, 1 = Zukunft extrem wichtig
Zufallsrate (z.B. 0.1 = 10% Experimente)
Wie oft die KI spielt und lernt

📚 Was hat die KI gelernt? (Q‑Werte)

💡 Je höher der Wert, desto besser findet die KI diese Aktion im jeweiligen Zustand.
⏳ Noch kein Training – klicke auf „Training starten“

📘 Spieltheorie & KI – kurz erklärt

🎭 Gefangenendilemma: Ein bekanntes Spiel, bei dem egoistisches Handeln (Defektieren) allen schadet, während Zusammenarbeit (Kooperation) allen nutzt.

🤖 Q-Learning: Die KI führt eine Tabelle (Q-Werte) – eine Art „Erfahrungsspeicher“. Nach jeder Aktion aktualisiert sie die Tabelle.

⚖️ Diskontfaktor γ (Gamma): Wenn γ = 0,9, ist die KI weitsichtig: Sie erkennt, dass ein kurzfristiger Gewinn (5 Punkte) später bestraft wird (Tit‑for‑Tat rächt sich). Mit γ=0 wird sie immer defektieren.

🧪 ε‑greedy: 90% der Zeit folgt die KI ihrem Wissen, 10% probiert sie zufällig die andere Aktion – so entdeckt sie, ob Kooperation besser ist.

📈 Lernkurve: Das Diagramm zeigt, wie oft die KI kooperiert (gleitender Durchschnitt). Je höher die Linie, desto mehr hat sie Kooperation gelernt.

👉 Probier aus: Setze γ auf 0.2 und trainiere – die KI wird fast nie kooperieren. Setze γ auf 0.9 → die Linie steigt auf nahezu 100% Kooperation!