📚 Das verwendete Modell
📦 Modell-Details
| Architektur: | Llama-3.2-1B-Instruct-q4f16 |
| Parameter: | 1 Mrd. (1.000 Millionen) |
| Kontext: | 128k Token (~100 Seiten) |
| Quantisierung: | q4f16 (4-Bit + 16-Bit) 1,24 GB |
📁 Benötigte Dateien (Llama)
📂 Pfad: models/onnx-community/...
⚡ Leistung & Hardware
✅ Schnellste Ausführung
✅ Optimal für WebGPU
⚡ 5-20 Tokens/Sekunde
⚠️ Deutlich langsamer
⏳ Bis zu 1-2 Minuten pro Antwort
📱 Smartphone ohne GPU-Unterstützung
📱 Was macht den Unterschied
NPUs (Neural Processing Units) sind für Matrix- und Tensor-Operationen spezialisiert. Sie können riesige Datenmengen/Vektoren gleichzeitig in parallelen Strukturen, die biologischen neuronalen Netzen nachempfunden sind, abarbeiten.
CPUs (Central Processing Unit) können eher sequenzielle Logik und allgemeine Befehlsketten nacheinander ausführen (z.B. Betriebssystem steuern). Sie besitzt nur wenige, aber sehr leistungsstarke Kerne.
Die Anzahl der Verbindungen im neuronalen Netz. 1 Mrd. = 1.000 Millionen – Mehr Parameter = mehr Wissen, aber auch mehr Speicherbedarf.
Wie viel Text das Modell auf einmal verarbeiten kann. 128k Token ≈ 100 Seiten – Ein Token entspricht etwa 4 Zeichen oder 0,75 Wörtern
q4f16 = 4-Bit Quantisierung + 16-Bit Genauigkeit. Reduziert die Modellgröße um 75% bei minimalem Qualitätsverlust. Ermöglicht schnelle Ausführung im Browser.
Einmal heruntergeladen → komplett ohne Internet nutzbar
✓ Funktioniert im Flugmodus ·
✓ Keine Datensammlung
👉 100% lokal & offline · Mehrsprachig · Optimiert für Dialoge
💡 Nur beim ersten Start. Danach offline verfügbar!
📱 Kann je nach Internet-Access bis zu 10 Minuten dauern. Hab Geduld...