Schlagwort-Archiv: Ollama

gpt-oss-20b auf einer iGPU 780M ausführen

8. September 2025 Michael Kofler

Die Aufgabenstellung ist sehr speziell, und dementsprechend wird dieser Beitrag vermutlich nur wenig Leute interessieren. Aber egal: Ich habe mich drei Tage damit geärgert, vielleicht profitieren ein paar Leser von meinen Erfahrungen …

Die Zielsetzung ist bereits in der Überschrift beschrieben. Ich besitze einen Mini-PC mit AMD 8745H-CPU und 32 GiB RAM. Die CPU enthält auch eine integrierte GPU (Radeon 780M). Auf diesem Rechner wollte ich das momentan sehr beliebte Sprachmodell gpt-oss-20b ausführen. Dieses Sprachmodell ist ca. 11 GiB groß, umfasst 20 Milliarden Parameter in einer etwas exotischen Quantifizierung. (MXFP4 wurde erst 2024 standardisiert und bildet jeden Parameter mit nur 4 Bit ab. Die Besonderheit besteht darin, dass für unterschiedliche Teile des Modells unterschiedliche Skalierungsfaktoren verwendet werden, so dass die Parameter trotz der wenigen möglichen Werte einigermaßen exakt abgebildet werden können.)

Das Sprachmodell wird von der Firma OpenAI kostenlos angeboten. Die Firma gibt an, dass die 20b-Variante ähnlich gute Ergebnisse wie das bis 2024 eingesetzt kommerzielle Modell o3-mini liefert, und auch KI-Experte Simon Willison singt wahre Lobeshymnen auf das Modell.

PS: Ich habe alle Tests unter Fedora 42 durchgeführt.

gpt-oss-20b auf einer iGPU 780M ausführen weiterlesen →

Einfacher Ollama-Speed-Benchmark

7. Mai 2024 Michael Kofler 2 Kommentare

Die Geschwindigkeit bei der lokalen Ausführung großer Sprachmodelle (LLMs) wird in Zukunft zu einem entscheidenden Kriterium für die CPU/GPU-Auswahl werden. Das gilt insbesondere für Software-Entwickler, die LLMs lokal nutzen möchten anstatt alle Daten an Anbieter wie ChatGPT in die Cloud zu übertragen.

Umso verblüffender ist es, dass es dafür aktuell kaum brauchbare Benchmarks gibt. In Anknüpfung an meinen Artikel Sprachmodelle lokal ausführen und mit Hilfe des Forum-Feedbacks habe ich die folgende Abbildung zusammengestellt.

Die Grafik vergleicht die Textproduktion in Tokens pro Sekunde bei lokaler Ausführung von llama2/llama3 auf verschiedenen CPUs (mit/ohne iGPU) und dedizierten GPUs. Aufgelistet sind Prozessoren wie Ryzen, Intel i5/i7/Xeon sowie Apple M1–M3 Pro inklusive Core-/Thread-Angaben. Rechts zeigen rote Balken die Leistung, von 5 bis 29 Tokens/s bei CPUs. Dedizierte GPUs (RTX 3070/3090, A100-40) erreichen deutlich höhere Werte bis 132 Tokens/s. — Textproduktion in Tokens/s bei der lokalen Ausführung von llama2:7b bzw. llama3:8b

Einfacher Ollama-Speed-Benchmark weiterlesen →

KI, Linux, macOS

Sprachmodelle (LLMs) lokal ausführen

18. April 2024 Michael Kofler 12 Kommentare

ChatGPT, Copilot & Co. verwenden Large Language Models (LLMs). Diese werden auf leistungsstarken Servern ausgeführt und als Cloud-Services angeboten. Das funktioniert wunderbar. Aber nicht jeder will Daten, Text und Code ständig in die Cloud hochladen. Kann man also — mit »gewöhnlicher« Hardware — LLMs auch lokal ausführen?

Tatsächlich ist das verblüffend einfach. Das Tool der Wahl heißt Ollama. Was Docker für Container ist, ist Ollama für LLMs!

Ollama kann ziemlich mühelos unter Linux, macOS und Windows installiert werden. Unter Windows und macOS starten Sie Ollama als Hintergrunddienst mit einer winzigen grafischen Oberfläche (im Prinzip nur ein Icon, das den Status anzeigt). Unter Linux richten Sie den Dienst mit systemctl ein:

systemctl enable --now ollama

Ollama läuft im Terminal, kann aber auch per API genutzt werden (z.B. zur Realisierung einer Web-Schnittstelle).

Sprachmodelle (LLMs) lokal ausführen weiterlesen →

kofler.info

Schlagwort-Archiv: Ollama

gpt-oss-20b auf einer iGPU 780M ausführen

Einfacher Ollama-Speed-Benchmark

Sprachmodelle (LLMs) lokal ausführen

Bücher von Michael Kofler.