Ollama im Unternehmen: Lokale KI für Daten, die nie das Haus verlassen

Grzegorz Olszowka•15. April 2026•7 Min. Lesezeit

OllamaLokale KIOn-PremiseDSGVOLlamaMistralHardware

Ollama-Setup für Mittelständler: Hardware-Auswahl, Modell-Vergleich (Llama 3.3 vs. Mistral Large vs. GPT-OSS), Installation, erster Agent. Wann sich der lokale Weg wirklich lohnt – und wann nicht.

Ollama im Unternehmen: Lokale KI für Daten, die nie das Haus verlassen

Von Grzegorz Olszowka • 15. April 2026
#Ollama #Lokale-KI #On-Premise #DSGVO #Llama #Mistral

Lokale KI ist der teuerste Weg, einen KI-Agenten zu betreiben. Sie ist auch der einzige, bei dem du in zwei Sätzen ehrlich antworten kannst, wenn ein Kunde fragt: "Wo gehen meine Daten hin?"

"Sie gehen nirgendwohin. Sie liegen bei uns im Server-Schrank, auf einer Maschine ohne Internet-Ausgang."

Diese Antwort ist Gold wert für Anwaltskanzleien, Arztpraxen, Steuerberatungen, Buchhaltungen, Behörden – und für jedes Unternehmen, dessen Mandant explizit "keine US-Anbieter, keine EU-Cloud" verlangt. Für alle anderen ist Ollama oft Overkill. Azure OpenAI ist 2026 für 70 Prozent der KMU der bessere Default.

Wenn du nach dem Pillar-Guide bei der dritten Matrix-Frage gelandet bist und mit "ja, sensibel genug für lokal" geantwortet hast: dieser Artikel ist für dich.

Was Ollama eigentlich ist

Ollama ist eine Open-Source-Software, die Sprachmodelle lokal auf deinem Server lauffähig macht. Du installierst Ollama, Ollama lädt das Modell deiner Wahl runter, und du kannst über eine API auf dein eigenes "Mini-OpenAI" zugreifen.

Was Ollama nicht ist: ein Modell. Die Modelle (Llama 3.3, Mistral Large, GPT-OSS, Gemma 3) kommen von Meta, Mistral, OpenAI, Google. Ollama ist nur die Runtime, die sie startklar macht.

Die Praxis-Realität 2026: Lokale Modelle sind nicht mehr weit hinter den Cloud-Modellen, aber sie sind hinter ihnen. Llama 3.3 70B ist ungefähr auf GPT-4-Turbo-Niveau für Standard-Aufgaben, etwas schwächer bei wirklich komplexen Reasoning-Tasks. Für 90 Prozent der Agenten-Use-Cases reicht das.

Hardware: was du wirklich brauchst

Hardware-Wahl ist die Kostenfalle. Nicht "zu klein" ist das Problem, sondern "zu klein für das Modell, das du eigentlich brauchst". Dann sitzt du auf 4.000 Euro Hardware, die Llama 3.3 70B nicht lädt.

Faustregel: Du brauchst ungefähr soviel VRAM, wie das Modell groß ist. Plus Reserve. Ein 8B-Modell läuft in 8 GB VRAM. Ein 70B-Modell in der quantisierten 4-bit-Variante in 40 GB VRAM. Ein 405B-Modell brauchst du nicht – das ist Forschungsterritorium, nicht KMU.

Modell-Größe	VRAM nötig	Hardware-Vorschlag	Investition	Wofür
8B (z.B. Llama 3.3 8B)	8 GB	RTX 4060 / Mac M2/M3	~1.500 €	Klassifikation, einfache Aufgaben
70B (z.B. Llama 3.3 70B)	40 GB (4-bit quantisiert)	RTX 4090 + 64 GB RAM, Mac M3 Max 64 GB	3–5 k €	Standard-Agenten, RAG, mittelkomplexe Tasks
120B (GPT-OSS-120B)	~80 GB	2× RTX 4090 oder Server mit A100/H100	10–25 k €	Komplexe Reasoning-Aufgaben

Standard-Setup für 80 Prozent der KMU: RTX 4090 mit 24 GB VRAM im Workstation-Gehäuse. Einmalig ~4.000 Euro. Llama 3.3 70B läuft quantisiert. Amortisiert sich gegen Cloud ab 200 Euro Monatsverbrauch.

Wichtig: NVIDIA, nicht AMD. AMD-GPUs werden zwar von Ollama unterstützt, aber das ROCm-Setup ist 2026 immer noch deutlich friemliger als CUDA. Wer es nicht selbst betreibt, sollte NVIDIA wählen.

Installation in 15 Minuten

Ich gehe von einem Linux-Server (Ubuntu 24.04) mit installierten NVIDIA-Treibern und CUDA aus. Wenn du auf macOS mit Apple Silicon installierst, ist es noch einfacher – Ollama bringt Metal-Support mit.

Dieses Thema vertiefen? 32 KI-Rezepte mit Kostenrahmen als kostenloses PDF.

PDF holen

Ollama installieren

curl -fsSL https://ollama.com/install.sh | sh

Das Skript installiert das Binary, erstellt einen systemd-Service und startet Ollama auf Port 11434. Nach 30 Sekunden läuft es.

Erstes Modell ziehen

ollama pull llama3.3:70b
# oder kleiner für ersten Test:
ollama pull llama3.3:8b

Der Download ist etwa 4 GB für die 8B- und 40 GB für die 70B-Variante. Plan deine Internetleitung ein.

Erster Test

ollama run llama3.3:8b "Antworte mit OK"

Wenn du eine Antwort bekommst, läuft das Setup. Die erste Antwort ist langsamer als folgende, weil das Modell ins VRAM geladen werden muss.

API-Zugriff: Ollama spricht OpenAI

Das Schöne an Ollama: Es bietet eine OpenAI-kompatible API. Wenn du also schon Code hast, der mit der OpenAI-API spricht, brauchst du nur die Base-URL umzustellen und kannst das Modell wechseln.

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.3:8b",
    "messages": [
      {"role": "user", "content": "Antworte mit OK"}
    ]
  }'

Das ist exakt dieselbe Struktur wie bei OpenAI – nur ohne Authorization-Header (lokal, brauchst keinen Key) und mit anderem Modellnamen. Tools wie n8n, LangChain oder LlamaIndex unterstützen Ollama als drop-in.

Welches Modell für welchen Zweck

Hier eine ehrliche Einschätzung aus eigenen Tests, Stand April 2026:

Llama 3.3 70B – Der Standard. Gut bei Anweisungen folgen, gutes Deutsch, mittelmäßig bei komplexem Reasoning. Für 80 Prozent der Agenten-Aufgaben die richtige Wahl.

Mistral Large 2 – Etwas besser bei Code-Generierung und strukturierter Ausgabe (JSON). Wenn dein Agent häufig JSON zurückgeben muss, lohnt der Wechsel.

GPT-OSS-120B – OpenAIs Open-Weights-Variante. Stärker bei Reasoning. Aber: braucht doppelt soviel Hardware. Nur lohnenswert bei wirklich komplexen Aufgaben.

Gemma 3 27B – Googles Modell. Sehr stark bei Multimodal (Bilder einlesen). Wenn du Dokumenten-Analyse machst, ein guter Sekundär-Kandidat.

Qwen 2.5 72B – Alibabas Modell, besser im Chinesischen, aber auch im Deutschen solide. Stärker bei mathematischen Tasks. Nische, aber gut.

Test zwei Modelle parallel gegen deine echten Aufgaben. Benchmarks sagen wenig. Nur deine Use Cases entscheiden.

Performance-Reality-Check

Die unbequeme Wahrheit: Lokale Modelle sind langsamer als die Cloud-Modelle. Nicht in der Modell-Qualität, sondern in der Verarbeitungs-Geschwindigkeit. Während GPT-4o auf einem Azure-Server ungefähr 100 Tokens pro Sekunde liefert, ist Llama 3.3 70B auf einer RTX 4090 bei ungefähr 15 bis 25 Tokens pro Sekunde.

Was das bedeutet: Eine Antwort, die in der Cloud zwei Sekunden dauert, dauert lokal acht bis zwölf Sekunden. Für asynchrone Agenten (E-Mail-Auswertung, Dokumentenklassifikation) ist das egal. Für Echtzeit-Chat mit Kunden ist es spürbar.

Wenn Geschwindigkeit kritisch ist, brauchst du entweder besseres Hardware (mehrere GPUs parallel, Inference-optimierte Karten wie A100/H100) oder du kombinierst lokal und Cloud: lokal für sensible Daten, Cloud für unkritische schnelle Antworten.

Was die DSGVO-Doku sagt (und warum sie kürzer ist)

Der große Vorteil von Ollama für die DSFA: Die Auftragsverarbeitungs-Sektion entfällt. Es gibt keinen externen Auftragsverarbeiter. Du verarbeitest die Daten selbst, in deinen eigenen Räumen, auf deiner eigenen Infrastruktur.

Auftragsverarbeiter: Keiner. Die Verarbeitung erfolgt vollständig in eigenen Räumlichkeiten auf eigener Hardware.

Modell-Lieferant: Meta (Llama) / Mistral AI / OpenAI (GPT-OSS) / Google (Gemma) – aber nur für die einmalige Bereitstellung des Modells, kein laufender Datenfluss.

Datenstandort: [Eure Adresse], Server-Raum [Bezeichnung]. Netzwerk ohne Internet-Ausgang.

Rechtsgrundlage: Identisch zur sonstigen IT-Datenverarbeitung – Art. 6 Abs. 1 lit. b oder f DSGVO.

Modelltraining: Findet nicht statt. Modelle werden nur zur Inferenz verwendet, nicht weitertrainiert.

Was du mehr dokumentieren musst als bei Cloud: Die technischen und organisatorischen Maßnahmen (TOMs) für deinen Server. Wer hat physischen Zugriff? Wie wird gepatcht? Wie sind die Backups? Das ist normale IT-Sicherheit, gilt für jeden Server, ist nicht KI-spezifisch – aber muss in der DSFA stehen.

Wann du lokal NICHT einsetzen solltest

Drei Situationen, in denen wir bei kiba von lokal abraten:

Wenn niemand bei euch Linux/Server-Betrieb beherrscht. Ollama ist nicht "klick und es läuft". Es läuft erstmal. Sechs Monate später, wenn ein Treiber-Update kaputt geht oder der Server neu starten muss, brauchst du jemanden, der weiß, was er tut. Wenn das niemand ist und ihr keinen externen Dienstleister habt, ist Cloud trotz schwächerer DSGVO-Position der praktikablere Weg.

Wenn euer Volumen unter 100.000 Tokens täglich liegt. Bei den Token-Preisen 2026 sind das in der Cloud weniger als 50 Euro im Monat. Eine 4.000-Euro-Hardware-Investition amortisiert sich da nie. Cloud ist günstiger, wenn das Volumen klein ist.

Wenn ihr maximale Modell-Qualität braucht. Lokale Modelle 2026 sind gut, aber GPT-4o, Claude Opus 4 und Gemini 2.5 Pro sind noch einen Tick stärker. Wenn dein Use Case das beste Reasoning braucht – komplexe Vertragsanalyse, mehrstufige Planungsaufgaben – geht lokal, aber du verschenkst Qualität.

Erster lokaler Agent

Wenn das Setup steht, ist der erste Agent nicht anders als in der Cloud. Du nutzt n8n, LangChain oder ein eigenes Skript, zeigst auf http://localhost:11434/v1 statt auf OpenAI, und der Workflow ist identisch.

Den konkreten Bauplan für einen ersten Agenten – mit Trigger, Schritten, Outputs – schreiben wir im nächsten Artikel der Serie. Da nutzen wir n8n als Orchestrator und können sowohl lokal als auch Cloud als Backend reinhängen.

Wenn Hardware-Auswahl unklar ist

Die Hardware-Entscheidung ist die teuerste Einzelentscheidung beim lokalen Setup. Die falsche GPU bedeutet entweder verschenkte Leistung oder ein Modell, das nicht reinpasst. Wir helfen bei der KI-Beratung mit konkreten Hardware-Empfehlungen, bauen das Setup auf und übergeben ein dokumentiertes lokales KI-System.

Kontakt: info@kiba.berlin.

Teil 4 der Serie. Zurück zu Azure OpenAI · Weiter zu Dein erster n8n-Agent