Deep Dive – Technische Details für Profis

Verstehe die Technologie hinter Fleet Navigator im Detail

Architektur-Übersicht

Fleet Navigator basiert auf einer modularen Microservices-Architektur, die maximale Flexibilität und Skalierbarkeit ermöglicht. Alle Komponenten kommunizieren über sichere REST-APIs und können einzeln aktualisiert werden.

Eine Codebasis. Fünf Plattformen. Kein Cloud-Zwang.

macOS (Apple Silicon), Windows (AMD64 + ARM), Linux (AMD64 + ARM) — lokale KI-Infrastruktur mit eigenem Stack, mehreren Inferenz-Backends, edition-spezifischen Builds.

Kern-Komponenten

Inference Engine

llama.cpp, vLLM, MLX (Apple Silicon)
CPU und GPU-Inferenz je nach Hardware Edition-spezifische Auswahl zur Build-Zeit
Speculative Decoding mit Draft-Models bei kompatiblen Modell-Paaren
Slot-basierte Parallelität für mehrere geladene Modelle

RAG Pipeline

Document Parsing: PDF, DOCX, ODT, TXT
Chunking: Sliding Window, Legal, Timeline, Map Reduce, Code Chunking.
Embeddings: BGE-M3
Vector DB: SQLight-vec
Retrieval: Top-K mit Reranking

API Layer

Native Go-HTTP-Server mit modularer Route-Registrierung
454 Endpoints über 32 Domain-Module
Streaming: Server-Sent Events für Chat, Benchmark, PDF-Analyse, Document-Import
WebSocket: für Maat-/Navigator-Sync und Mehr-Geräte-Synchronisation
Authentication: Token + Session + CSRF, optionale Mate-Pairing via Ed25519
Build-Tag–basierte Edition-Differenzierung (Light/Standard/Pro/Captain)

Unterstützte Modell-Formate

Format	Beschreibung	Optimierung	Performance
GGUF	Llama.cpp Native Format	4-bit bis 8-bit Quantisierung	Exzellent für CPU
MLX	Apple eigene Engine	4-bit / 6-bit / 8-bit (optional BF16 unkomprimiert)	Maximum Speed auf Apple Silicon (Metal + Unified Memory)

Performance-Metriken

Benchmark-Ergebnisse (Mac Mini M4 Pro, 64GB RAM, 35B Modell):

Referenz-Setup: Mac Mini M4 Pro, 64 GB Unified Memory, Qwen3-30B-A3B-Instruct (MoE, 30B Parameter / 3B aktiv) als MLX 4-bit
Tokens/Sekunde: 28–32 (Generation, MoE-bedingt)
First-Token-Latenz: 120–180 ms bei kurzem Prompt mit Cache; 200–500 ms bei kaltem 1k-Prompt
Context Window: 128K technisch verfügbar, 64K als praxisstabile Grenze (KV-Cache + Modell muss in UM passen)
Continuous Batching: bis zu 4 parallele Anfragen je nach Modell-Größe
Speicherbedarf gesamt: ~17 GB Modell-Datei, ~40 GB inkl. 64K-KV-Cache und Activations

Sicherheit & Compliance

Verschlüsselung

TLS 1.2/1.3 für Daten in-transit, mit Perfect Forward Secrecy (ECDHE-Cipher-Suites)
Ed25519-Pairing für Geräte-Verbindungen (Maat/Navigator-Sync)
Datenschutz at-rest über die OS-eigene Festplatten-Verschlüsselung (FileVault / BitLocker / LUKS) — Standard auf modernen Endgeräten

Audit & Logging

Sicherheits-relevante Aktionen geloggt (Safety-Refusals, Lizenz-Operationen, Authentifizierung)
Log-Dateien SIEM-tauglich (Filebeat/Fluentd-kompatibel)
Automatische Log-Rotation

Compliance

DSGVO-strukturell: Daten bleiben in der Standard-Konfiguration lokal, kein externer Verarbeiter
Geeignet für §203-konforme Berufsausübung (Anwalt/Arzt/Steuerberater) fachliche Verantwortung beim Berufsträger
Audit-fähig: alle sicherheitsrelevanten Entscheidungen sind im Log nachvollziehbar
Keine Cloud-Abhängigkeit in der Default-Konfiguration (Captain-Edition: optional aktivierbare Cloud-API mit Opt-in)

Du hast weitere technische Fragen? Kontaktiere unser Entwickler-Team für einen Deep Dive.

Unsere Lösungen

Branchen

Juristen

Ärzte & Kliniken

Steuerberater

IT-Teams

Kleinunternehmer

Journalisten

Finanz- & Versicherungsberater

KI-Einsatz

KI-Lösungen

KI-Features

Unsere Techniken

Hardware

Andere Techniken

Deep Dive

Service

Kontakt

Support

FAQ