Multi KI Agenten lernen Kooperation mit Q-Learning

📖 Was passiert hier? Zwei Spieler können kooperieren (K) oder defektieren (D). Wenn beide kooperieren, gibt es 3 Punkte für beide. Wenn einer defektiert und der andere kooperiert, bekommt der Defektor 5 Punkte (der andere 0). Wenn beide defektieren, gibt es nur 1 Punkt. Das Dilemma: Eigentlich ist Defektieren kurzfristig besser – aber wenn beide immer defektieren, sind beide schlechter dran als bei beidseitiger Kooperation.

📊 Punkte für die KI-Agenten (pro Runde)

A \ B	KI-Gegner: Kooperieren (K)	KI-Gegner: Defektieren (D)
KI: Kooperieren (K)	(3,3) Punkte	(0,5) Punkte
KI: Defektieren (D)	(5,0) Punkte	(1,1) Punkte

🎭 KI-Gegner (B) spielt "Tit‑for‑Tat": Startet mit Kooperation. Dann macht er genau das, was die KI in der letzten Runde gemacht hat. Also: Kooperation wird belohnt, Defektion wird bestraft.

🤖 Wie lernt die KI? Sie nutzt Q-Learning – eine Methode, bei der sie sich merkt, wie gut jede Aktion in einer bestimmten Situation war. Der Diskontfaktor γ (Gamma) entscheidet, wie sehr die KI die Zukunft beachtet. γ = 0,9 → Zukunft ist fast genauso wichtig wie der sofortige Gewinn. ε‑greedy bedeutet: Meistens wählt die KI die beste bekannte Aktion, aber manchmal (10%) probiert sie zufällig etwas Neues aus.

📘 Spieltheorie & KI – kurz erklärt

🎭 Gefangenendilemma: Ein bekanntes Spiel, bei dem egoistisches Handeln (Defektieren) allen schadet, während Zusammenarbeit (Kooperation) allen nutzt.

🤖 Q-Learning: Die KI führt eine Tabelle (Q-Werte) – eine Art „Erfahrungsspeicher“. Nach jeder Aktion aktualisiert sie die Tabelle.

⚖️ Diskontfaktor γ (Gamma): Wenn γ = 0,9, ist die KI weitsichtig: Sie erkennt, dass ein kurzfristiger Gewinn (5 Punkte) später bestraft wird (Tit‑for‑Tat rächt sich). Mit γ=0 wird sie immer defektieren.

🧪 ε‑greedy: 90% der Zeit folgt die KI ihrem Wissen, 10% probiert sie zufällig die andere Aktion – so entdeckt sie, ob Kooperation besser ist.

📈 Lernkurve: Das Diagramm zeigt, wie oft die KI kooperiert (gleitender Durchschnitt). Je höher die Linie, desto mehr hat sie Kooperation gelernt.

👉 Probier aus: Setze γ auf 0.2 und trainiere – die KI wird fast nie kooperieren. Setze γ auf 0.9 → die Linie steigt auf nahezu 100% Kooperation!

🧠 Multi KI-Agenten & Spieltheorie

📊 Punkte für die KI-Agenten (pro Runde)

📚 Was hat die KI gelernt? (Q‑Werte)

📘 Spieltheorie & KI – kurz erklärt