Schlagwort-Archiv: llama

Einfacher Ollama-Speed-Benchmark

Die Geschwindigkeit bei der lokalen Ausführung großer Sprachmodelle (LLMs) wird in Zukunft zu einem entscheidenden Kriterium für die CPU/GPU-Auswahl werden. Das gilt insbesondere für Software-Entwickler, die LLMs lokal nutzen möchten anstatt alle Daten an Anbieter wie ChatGPT in die Cloud zu übertragen.

Umso verblüffender ist es, dass es dafür aktuell kaum brauchbare Benchmarks gibt. In Anknüpfung an meinen Artikel Sprachmodelle lokal ausführen und mit Hilfe des Forum-Feedbacks habe ich die folgende Abbildung zusammengestellt.

Die Grafik vergleicht die Textproduktion in Tokens pro Sekunde bei lokaler Ausführung von llama2/llama3 auf verschiedenen CPUs (mit/ohne iGPU) und dedizierten GPUs. Aufgelistet sind Prozessoren wie Ryzen, Intel i5/i7/Xeon sowie Apple M1–M3 Pro inklusive Core-/Thread-Angaben. Rechts zeigen rote Balken die Leistung, von 5 bis 29 Tokens/s bei CPUs. Dedizierte GPUs (RTX 3070/3090, A100-40) erreichen deutlich höhere Werte bis 132 Tokens/s.
Textproduktion in Tokens/s bei der lokalen Ausführung von llama2:7b bzw. llama3:8b

Einfacher Ollama-Speed-Benchmark weiterlesen

Sprachmodelle (LLMs) lokal ausführen

ChatGPT, Copilot & Co. verwenden Large Language Models (LLMs). Diese werden auf leistungsstarken Servern ausgeführt und als Cloud-Services angeboten. Das funktioniert wunderbar. Aber nicht jeder will Daten, Text und Code ständig in die Cloud hochladen. Kann man also — mit »gewöhnlicher« Hardware — LLMs auch lokal ausführen?

Tatsächlich ist das verblüffend einfach. Das Tool der Wahl heißt Ollama. Was Docker für Container ist, ist Ollama für LLMs!

Ollama kann ziemlich mühelos unter Linux, macOS und Windows installiert werden. Unter Windows und macOS starten Sie Ollama als Hintergrunddienst mit einer winzigen grafischen Oberfläche (im Prinzip nur ein Icon, das den Status anzeigt). Unter Linux richten Sie den Dienst mit systemctl ein:

systemctl enable --now ollama
Ollama läuft im Terminal, kann aber auch per API genutzt werden (z.B. zur Realisierung einer Web-Schnittstelle).

Sprachmodelle (LLMs) lokal ausführen weiterlesen