Deep Dive – Technische Details für Profis
Verstehe die Technologie hinter Fleet Navigator im Detail
Architektur-Übersicht
Fleet Navigator basiert auf einer modularen Microservices-Architektur, die maximale Flexibilität und Skalierbarkeit ermöglicht. Alle Komponenten kommunizieren über sichere REST-APIs und können einzeln aktualisiert werden.
Eine Codebasis. Fünf Plattformen. Kein Cloud-Zwang.
macOS (Apple Silicon), Windows (AMD64 + ARM), Linux (AMD64 + ARM) — lokale KI-Infrastruktur mit eigenem Stack, mehreren Inferenz-Backends, edition-spezifischen Builds.
Kern-Komponenten
Inference Engine
- llama.cpp, vLLM, MLX (Apple Silicon)
- CPU und GPU-Inferenz je nach Hardware Edition-spezifische Auswahl zur Build-Zeit
- Speculative Decoding mit Draft-Models bei kompatiblen Modell-Paaren
- Slot-basierte Parallelität für mehrere geladene Modelle
RAG Pipeline
- Document Parsing: PDF, DOCX, ODT, TXT
- Chunking: Sliding Window, Legal, Timeline, Map Reduce, Code Chunking.
- Embeddings: BGE-M3
- Vector DB: SQLight-vec
- Retrieval: Top-K mit Reranking
API Layer
- Native Go-HTTP-Server mit modularer Route-Registrierung
- 454 Endpoints über 32 Domain-Module
- Streaming: Server-Sent Events für Chat, Benchmark, PDF-Analyse, Document-Import
- WebSocket: für Maat-/Navigator-Sync und Mehr-Geräte-Synchronisation
- Authentication: Token + Session + CSRF, optionale Mate-Pairing via Ed25519
- Build-Tag–basierte Edition-Differenzierung (Light/Standard/Pro/Captain)
Unterstützte Modell-Formate
| Format | Beschreibung | Optimierung | Performance |
|---|---|---|---|
| GGUF | Llama.cpp Native Format | 4-bit bis 8-bit Quantisierung | Exzellent für CPU |
| MLX | Apple eigene Engine | 4-bit / 6-bit / 8-bit (optional BF16 unkomprimiert) | Maximum Speed auf Apple Silicon (Metal + Unified Memory) |
Performance-Metriken
Benchmark-Ergebnisse (Mac Mini M4 Pro, 64GB RAM, 35B Modell):
- Referenz-Setup: Mac Mini M4 Pro, 64 GB Unified Memory, Qwen3-30B-A3B-Instruct (MoE, 30B Parameter / 3B aktiv) als MLX 4-bit
- Tokens/Sekunde: 28–32 (Generation, MoE-bedingt)
- First-Token-Latenz: 120–180 ms bei kurzem Prompt mit Cache; 200–500 ms bei kaltem 1k-Prompt
- Context Window: 128K technisch verfügbar, 64K als praxisstabile Grenze (KV-Cache + Modell muss in UM passen)
- Continuous Batching: bis zu 4 parallele Anfragen je nach Modell-Größe
- Speicherbedarf gesamt: ~17 GB Modell-Datei, ~40 GB inkl. 64K-KV-Cache und Activations
Sicherheit & Compliance
Verschlüsselung
- TLS 1.2/1.3 für Daten in-transit, mit Perfect Forward Secrecy (ECDHE-Cipher-Suites)
- Ed25519-Pairing für Geräte-Verbindungen (Maat/Navigator-Sync)
- Datenschutz at-rest über die OS-eigene Festplatten-Verschlüsselung (FileVault / BitLocker / LUKS) — Standard auf modernen Endgeräten
Audit & Logging
- Sicherheits-relevante Aktionen geloggt (Safety-Refusals, Lizenz-Operationen, Authentifizierung)
- Log-Dateien SIEM-tauglich (Filebeat/Fluentd-kompatibel)
- Automatische Log-Rotation
Compliance
- DSGVO-strukturell: Daten bleiben in der Standard-Konfiguration lokal, kein externer Verarbeiter
- Geeignet für §203-konforme Berufsausübung (Anwalt/Arzt/Steuerberater) fachliche Verantwortung beim Berufsträger
- Audit-fähig: alle sicherheitsrelevanten Entscheidungen sind im Log nachvollziehbar
- Keine Cloud-Abhängigkeit in der Default-Konfiguration (Captain-Edition: optional aktivierbare Cloud-API mit Opt-in)
Du hast weitere technische Fragen? Kontaktiere unser Entwickler-Team für einen Deep Dive.