Expertise

Lokale LLMs

Ollamallama.cppvLLMLLMDSGVOSelf-Hosted

Know-how für den Betrieb von LLMs auf eigener Hardware. Lokale Inferenz mit Open-Source-Modellen als Alternative zu Cloud-APIs.

Vorteile: volle Datenkontrolle, keine API-Kosten bei hohem Volumen, DSGVO-konform. Hands-on mit verschiedenen Modellgrößen, Quantisierung, GPU-Anforderungen und Integration in bestehende Anwendungen.

Komponenten

Inferenz — Ollama, llama.cpp, vLLM — vom schnellen lokalen Setup bis zum High-Performance Production Serving auf macOS und Linux
Security & Zugriffsschutz — API-Gateway vor dem Inference-Server für Authentifizierung, Rate Limiting und Routing
Modellauswahl — Das richtige Modell für den Einsatzzweck: klein & schnell für Klassifikation, groß & leistungsfähig für Generierung
Hardware-Beratung — Empfehlungen zu GPU, RAM und Infrastruktur abhängig von Modellgröße und Durchsatz-Anforderungen

Übersicht