Lokale KI erklärt: Wie Künstliche Intelligenz on-premise funktioniert

CogniShift2026-06-236 Min. Lesezeit

Künstliche Intelligenz ist gekommen, um zu bleiben. Doch während Tools wie ChatGPT oder Microsoft Copilot die Schlagzeilen beherrschen, wächst im Hintergrund eine leisere, aber für Kanzleien weitaus bedeutendere Entwicklung: Lokale Künstliche Intelligenz (on-premise KI).

Aber wie genau funktioniert ein System, das die Leistungsfähigkeit von ChatGPT erreicht, jedoch völlig ohne Internetverbindung auskommt? Wie liest eine Maschine Aktenberge, ohne sie in eine Cloud hochzuladen?

Dieser Artikel erklärt die Technologie hinter lokalen Large Language Models (LLMs) verständlich und zeigt, warum sie die Kanzleilandschaft grundlegend verändert.

Der grundlegende Unterschied: Cloud vs. Lokal

Um lokale KI zu verstehen, hilft ein Vergleich:

Cloud-KI (wie ChatGPT): Der „Kopf" der KI befindet sich in einem weit entfernten Rechenzentrum, meist in den USA. Wenn Sie eine Frage stellen, reisen Ihre Eingabedaten über das öffentliche Internet zu diesem Server. Dort wird die Antwort berechnet und an Sie zurückgeschickt. Ihre Daten verlassen Ihre Kanzlei und unterliegen fremdem Zugriff, etwa durch den US Cloud Act.
Lokale KI (on-premise): Der „Kopf" der KI befindet sich physisch bei Ihnen im Büro. Er läuft auf einer spezialisierten Hardware-Box (einer sogenannten Appliance), die in Ihrem Serverraum steht oder unter dem Schreibtisch platziert ist. Jede Anfrage wird direkt auf diesem Gerät berechnet. Es fließen keine Daten ins Internet.

Lokale KI benötigt keine Verbindung nach außen. Sie können das Netzwerkkabel ziehen, und das System arbeitet unverändert schnell weiter.

Die vier Säulen einer lokalen KI-Infrastruktur

Ein professionelles lokales KI-System wie CogniShift SafeHaven™ besteht aus vier perfekt aufeinander abgestimmten Komponenten:

1. Das Modell (LLM): Das Gehirn

Das Sprachmodell ist die Software, die Sprache versteht und generiert. Früher waren diese Modelle so groß, dass sie nur in Rechenzentren laufen konnten. Durch Open-Source-Initiativen und moderne Komprimierungstechniken (Quantisierung) gibt es heute hochentwickelte, kompakte Modelle wie Meta Llama 3 oder Qwen, die kommerziellen Cloud-Modellen in ihrer Leistungsfähigkeit in nichts nachstehen. Sie sind darauf trainiert, präzise Texte zu schreiben, Verträge zu analysieren und komplexe juristische Fragen zu beantworten.

2. Die Engine (vLLM): Der Motor

Ein Modell auf der Festplatte nützt nichts, es muss geladen und ausgeführt werden. Hier kommt eine Inferenz-Engine wie vLLM zum Einsatz. vLLM verwaltet den Arbeitsspeicher der Hardware hocheffizient und sorgt dafür, dass Anfragen in Millisekunden verarbeitet werden (High-Throughput-Inferenz) und mehrere Mitarbeiter gleichzeitig mit der KI arbeiten können, ohne spürbare Verzögerung.

3. Das Interface (Open WebUI): Das Gesicht

Damit Ihre Mitarbeiter keine kryptischen Code-Befehle eingeben müssen, wird das System über eine Weboberfläche bedient. Das bewährte Open WebUI sieht optisch fast exakt so aus wie ChatGPT und läuft im lokalen Kanzlei-Netzwerk über den Browser. Mitarbeiter finden sich sofort zurecht: Sie können Chats starten, Dokumente per Drag-and-Drop hochladen und System-Prompts anpassen, ganz ohne Schulungsaufwand.

4. Die Hardware (z. B. NVIDIA DGX Spark): Die Muskeln

KI-Berechnungen sind rechenintensiv und benötigen erhebliche Speicherbandbreite und Grafikprozessoren (GPUs).

In der SafeHaven™ Standard Appliance kommt beispielsweise ein NVIDIA DGX Spark zum Einsatz: eine kompakte Box, kaum größer als ein Buch, mit 128 GB LPDDR5X Unified Memory und 1 PFLOP FP4-Rechenleistung bei nur 140 Watt Leistungsaufnahme. Das reicht aus, um Modelle mit bis zu 70 Milliarden Parametern lokal auszuführen.
Für größere Kanzleien setzt die SafeHaven™ Pro auf NVIDIA RTX 6000 Pro Blackwell Grafikprozessoren in einem flüsterleisen Workstation-Tower, der unter dem Schreibtisch Platz findet und Multi-User-Inferenz in größerem Umfang ermöglicht.

Wie funktioniert die Dokumentensuche lokal? (RAG-Technologie)

Die größte Stärke lokaler KI in Kanzleien ist die Analyse des eigenen, oft jahrzehntealten Dokumentenarchivs. Das Verfahren dahinter heißt Retrieval-Augmented Generation (RAG) und läuft in drei Schritten lokal auf der Appliance ab:

graph TD
    A["Kanzleidokumente"] --> B["Vektorisierung"]
    B --> C["Vektordatenbank"]
    D["Benutzerfrage"] --> E["Suche"]
    C --> E
    E --> F["vLLM-Engine"]
    F --> G["Antwort mit Quelle"]

Vektorisierung (Embedding): Ihre Kanzleidokumente (PDFs, Word-Dateien, Verträge) werden von einem speziellen, lokalen KI-Modell in Zahlenkolonnen (Vektoren) übersetzt. Diese Vektoren repräsentieren die inhaltliche Bedeutung der Texte.
Lokale Speicherung: Diese Vektoren werden in einer lokalen Vektordatenbank auf der Appliance gespeichert.
Abfrage & Synthese: Stellt ein Mitarbeiter eine Frage wie: „Was haben wir 2024 für Mandant Meier bezüglich der Betriebsstättenverlegung vereinbart?", sucht das System in Millisekunden nach den inhaltlich passendsten Textstellen in der Datenbank. Diese Textstellen werden zusammen mit der Frage an das Sprachmodell übergeben. Die Engine generiert eine präzise Antwort und nennt als Quelle die exakte Datei und Seitenzahl.

Die Vorteile lokaler KI für Kanzleien

Kein Anknüpfungspunkt für eine Berufsgeheimnisverletzung: Weil kein Byte Ihre Kanzlei verlässt, entsteht keine Weitergabe im Sinne des § 121 StGB, kein Anknüpfungspunkt für den US Cloud Act und keine Notwendigkeit für Auftragsverarbeitungsverträge mit ausländischen Tech-Anbietern.
Volle Datensouveränität: Sie behalten die physische Kontrolle über Ihr wertvollstes Gut, das Kanzleiwissen.
Mandantentrennung & Sicherheit: Lokale RAG-Systeme lassen sich so konfigurieren, dass Mitarbeiter nur Zugriff auf die Dokumente erhalten, für die sie auch im Kanzleisystem (z. B. DMS) berechtigt sind.
Unabhängigkeit: Keine API-Gebühren, keine Abhängigkeit von Internetverbindungen oder Serverausfällen externer Anbieter.

Fazit: Bereit für die lokale KI-Zukunft?

Lokale KI ist keine Zukunftsmusik mehr. Sie ist die logische Konsequenz für Branchen, in denen Verschwiegenheit kein optionales Feature, sondern eine gesetzliche Verpflichtung ist. Mit kompakten Appliances wie SafeHaven™ wird der Serverraum zum Herzstück kanzleiinterner Intelligenz: sicher, auditfähig dokumentiert und leistungsfähig.

SafeHaven™ kennenlernen Demo-Gespräch vereinbaren

Dieser Artikel dient der allgemeinen Information und stellt keine Rechtsberatung dar. Für die rechtliche Beurteilung Ihrer konkreten Situation empfehlen wir die Konsultation eines auf Datenschutzrecht spezialisierten Rechtsanwalts.