Lokales LLM im Browser

📚 Das verwendete Modell

📦 Modell-Details

Architektur:	Llama-3.2-1B-Instruct-q4f16
Parameter:	1 Mrd. (1.000 Millionen)
Kontext:	128k Token (~100 Seiten)
Quantisierung:	q4f16 (4-Bit + 16-Bit) 1,24 GB

📁 Benötigte Dateien (Llama)

📄 model_q4f16.onnx 📄 config.json 📄 tokenizer.json

📂 Pfad: models/onnx-community/...

⚡ Leistung & Hardware

NPU/GPU (empfohlen)

✅ Schnellste Ausführung
✅ Optimal für WebGPU
⚡ 5-20 Tokens/Sekunde

CPU (langsamer)

⚠️ Deutlich langsamer
⏳ Bis zu 1-2 Minuten pro Antwort
📱 Smartphone ohne GPU-Unterstützung

📱 Was macht den Unterschied

NPUs (Neural Processing Units) sind für Matrix- und Tensor-Operationen spezialisiert. Sie können riesige Datenmengen/Vektoren gleichzeitig in parallelen Strukturen, die biologischen neuronalen Netzen nachempfunden sind, abarbeiten.
CPUs (Central Processing Unit) können eher sequenzielle Logik und allgemeine Befehlsketten nacheinander ausführen (z.B. Betriebssystem steuern). Sie besitzt nur wenige, aber sehr leistungsstarke Kerne.

🧠 Parameter

Die Anzahl der Verbindungen im neuronalen Netz. 1 Mrd. = 1.000 Millionen – Mehr Parameter = mehr Wissen, aber auch mehr Speicherbedarf.

📚 Kontextlänge

Wie viel Text das Modell auf einmal verarbeiten kann. 128k Token ≈ 100 Seiten – Ein Token entspricht etwa 4 Zeichen oder 0,75 Wörtern

⚡ Quantisierung

q4f16 = 4-Bit Quantisierung + 16-Bit Genauigkeit. Reduziert die Modellgröße um 75% bei minimalem Qualitätsverlust. Ermöglicht schnelle Ausführung im Browser.

🔧 Transformers.js ⚡ WebGPU 📦 ONNX

📴 100% Offline-fähig 📴

Einmal heruntergeladen → komplett ohne Internet nutzbar
✓ Funktioniert im Flugmodus · ✓ Keine Datensammlung

👉 100% lokal & offline · Mehrsprachig · Optimiert für Dialoge

Lade Modell ...

Initialisiere... 0%

Lade KI-Modell...

Initialisiere Download... 0%

📦 Geladen: 0 MB

📊 Gesamt: ~1.24 GB

⚡ Geschwindigkeit: -- MB/s

⏱️ Verbleibend: --

🔍 Prüfe WebGPU...

💡 Nur beim ersten Start. Danach offline verfügbar!

📱 Kann je nach Internet-Access bis zu 10 Minuten dauern. Hab Geduld...