LLM-Modellkunde 2026: Was du wirklich kennen solltest

Franz-Martin 15. Mai. 2026 · 18 Min. Lesezeit

Eine Übersicht für alle, die ChatGPT, Claude oder Gemini schon einmal benutzt haben — und sich fragen, was es sonst noch gibt.

Stand: Mai 2026

LLM

Wer heute von Künstlicher Intelligenz hört, denkt meist an ChatGPT von OpenAI, an Claude von Anthropic oder an Googles Gemini. Diese drei sind in den Medien überrepräsentiert. Tatsächlich gibt es deutlich mehr ernstzunehmende Modelle viele davon kostenlos verfügbar, viele davon ohne Cloud-Anbindung lauffähig, und einige in ihrer Spezialaufgabe besser als die großen Generalisten.

Dieser Artikel richtet sich an zwei Lesergruppen gleichzeitig. An Entwickler, die wissen wollen, welches Modell in welchen Stack passt. Und an Anwender, die zum ersten Mal davon hören, dass es überhaupt eine Welt jenseits der Cloud-Abos gibt. Den Anfang machen die Grundbegriffe, danach kommt der Vergleich, und am Ende eine Entscheidungshilfe.


Die drei Welten der LLM-Modelle

Bevor wir in Details gehen, eine grobe Karte. Die LLM-Landschaft 2026 besteht aus drei klar trennbaren Welten.

Proprietär (Cloud)nur per API/Abo, geschlossen• Claude (Anthropic)• GPT-5 (OpenAI)• Gemini (Google)• Grok (xAI)Höchste Qualität,Daten landen in der Cloud,monatliche Kosten.Open-Weightherunterladbar, lokal lauffähig• DeepSeek V3 / R1• Qwen 3 (Alibaba)• Llama 4 (Meta)• Mistral Large (FR)Gewichte frei verfügbar,eigene Hardware nötig,keine laufenden API-Kosten.Spezialistenoptimiert für ein Feld• Command R (RAG)• Granite 4 (Enterprise)• Phi-4 (klein & stark)• Codestral (Code)Oft besser als Generalistenin ihrer Disziplin,aber begrenzt im Allgemeinen.Drei Welten — derselbe Begriff „KI-Modell“

Wer eine dieser Welten kennt und die anderen ignoriert, bekommt ein verzerrtes Bild davon, was möglich ist. Wer alle drei kennt, kann pro Aufgabe das passende Werkzeug wählen.


Einsteiger-Glossar

Vier Begriffe tauchen ständig auf. Wer sie versteht, kann den Rest des Artikels lesen.

Parameter sind die internen Stellschrauben eines Modells. Sie werden während des Trainings angepasst und bestimmen, wie das Modell antwortet. Heute reichen die Größen von wenigen hundert Millionen bis zu mehreren Billionen. Größer ist nicht automatisch besser, aber als Faustregel gilt: mehr Parameter heißt mehr Wissen und mehr Speicherbedarf.

Token sind die Stückchen, in die Text zerlegt wird, bevor das Modell ihn verarbeitet. Ein deutsches Wort ist meist zwei bis drei Token, ein englisches eins bis zwei. Wer „100.000 Token Kontext“ liest, soll wissen: das sind etwa 60.000–70.000 Wörter Text, die das Modell auf einmal überblicken kann.

Quantisierung ist eine Art Kompression. Statt mit voller Präzision rechnet das Modell mit weniger Bits pro Parameter. Q4 (4 Bit pro Parameter) ist heute Standard für lokalen Betrieb und halbiert grob den Speicherbedarf gegenüber dem Original. Qualitätsverlust ist messbar, aber für die meisten Anwendungen klein.

Lokal vs. Cloud beschreibt, wo das Modell rechnet. Bei ChatGPT, Claude und Gemini läuft das Modell in fremden Rechenzentren die Anfrage reist hin, die Antwort zurück. Bei lokalen Modellen läuft die Berechnung auf eigener Hardware. Für Datenschutz und Berufsgeheimnis ist das ein architektonischer Unterschied, nicht nur ein Komfort-Aspekt.


Wo fließen meine Daten hin?

Für jeden, der erstmals mit lokaler KI in Berührung kommt, ist das die wichtigste Frage. Die zwei Pfade unterscheiden sich grundlegend.

☁️ Cloud-Modell (ChatGPT, Claude, Gemini)👤Nutzertippt Frage☁️Cloud-ModellAnfrage geht raus🏢RechenzentrumUSA / Irland / …📋Logs, Cachesmöglicherweise Training💻 Lokales Modell (DeepSeek, Qwen, Phi-4)👤Nutzertippt Frage💻Lokales Modelleigene CPU/GPU🔒Eigener Rechneroder Server vor Ort💬Antwortnichts verlässt das Haus

Der entscheidende Unterschied steckt nicht in der Antwortqualität — die ist 2026 in vielen Bereichen vergleichbar geworden — sondern darin, wer den Klartext der Frage zu sehen bekommt. Bei der Cloud ist die Antwort: zwingend der Anbieter. Bei lokalen Modellen: niemand außer dem Nutzer.

Für eine Reiseplanung ist das eine Komfortfrage. Für eine Mandantenakte, eine Patientendiagnose oder eine ungeprüfte Steuererklärung ist es eine Architekturfrage.


Open-Source, Open-Weight oder proprietär?

Diese drei Begriffe werden oft verwechselt. Sie bedeuten verschiedene Dinge.

ProprietärGPT-5, Claude, GeminiGewichte zugänglichNeinLokal nutzbarNeinTrainingsdaten offenNeinTrainingscode offenNeinKommerziell nutzbarJa (kostenpfl.)Vorteil: höchste Qualität,Nachteil: Anbieter-AbhängigkeitOpen-WeightLlama, DeepSeek, QwenGewichte zugänglichJaLokal nutzbarJaTrainingsdaten offenNeinTrainingscode offenTeilweiseKommerziell nutzbarJe nach LizenzVorteil: lokal, in Nutzung kostenlos,Nachteil: Training nicht reproduzierbarOpen-SourceOLMo, Pythia, Granite-CoreGewichte zugänglichJaLokal nutzbarJaTrainingsdaten offenJaTrainingscode offenJaKommerziell nutzbarMeist jaVorteil: vollständig reproduzierbar,Nachteil: weniger Top-Modelle

Die meisten Modelle, die als „Open Source“ beworben werden, sind tatsächlich Open-Weight. Llama 4, DeepSeek, Qwen, Mistral — alle veröffentlichen die fertig trainierten Gewichte, aber nicht die Trainingsdaten und nicht alle Trainingsrezepte. Echte Open-Source-Modelle (mit veröffentlichten Trainingsdaten und reproduzierbarem Trainingsweg) sind selten, weil Trainingsdaten Geschäftsgeheimnis sind und juristisch heikel (Urheberrecht).

Für die meisten Anwender ist Open-Weight ausreichend: das Modell läuft lokal, niemand kann es dir wegnehmen, du zahlst keine API-Gebühren. Open-Source ist für Forschung und Audit relevant.


Begriffsklärung für Fortgeschrittene

Drei Begriffe, die in den Modellbeschreibungen ständig auftauchen.

Thinking (Extended Reasoning)

Ein Reasoning-Modell rechnet vor der Antwort eine interne Gedankenkette aus, die dann meist nicht oder nur teilweise sichtbar ist. Beispiele sind OpenAIs o-Serie, DeepSeek-R1, Claudes Extended-Thinking-Modus, Qwens Thinking-Mode. Der Trade-off ist klar: deutlich höhere Genauigkeit auf Mathe, Code und mehrstufiger Logik, dafür mehr Token, mehr Latenz, mehr Kosten. Für einfache Fragen ist Thinking Overkill.

Neu in 2026 sind Hybrid-Modelle wie Qwen 3 oder Command A Reasoning, die per Schalter zwischen Thinking und Standard wechseln. Damit verschwimmt die alte Trennlinie zwischen „Reasoning-Modell“ und „Chat-Modell“.

Weltwissen

Damit ist das im Pre-Training eingebackene Faktenwissen gemeint. Es ist statisch, hat einen Cutoff und altert. Größere Modelle haben tendenziell mehr davon, aber Größe ist nicht alles: Trainingsdaten-Qualität, Multilingual-Coverage und Domänen-Fokus zählen. Wer Weltwissen produktiv braucht, ergänzt es ohnehin durch RAG, weil reines Modellwissen unprüfbar bleibt.

Learning

Drei Ebenen, die oft durcheinandergeworfen werden.

In-Context Learning ist das, was im Prompt passiert: Beispiele mitgeben, das Modell adaptiert sich für die Antwort. Kein echtes Lernen, eher Mustererkennung. Verschwindet nach dem Request.

Fine-Tuning verändert die Gewichte des Modells auf einem zusätzlichen Datensatz. LoRA ist die schlanke Variante, die heute Standard ist. Erfordert offene Gewichte oder einen Anbieter, der Fine-Tuning anbietet.

Continual Learning wäre echtes laufendes Lernen aus Interaktion. Die meisten Produktivsysteme machen das nicht, weil es das Modell instabil macht. Was als „lernen“ verkauft wird, ist meist nur Memory plus RAG.

RAG (Retrieval Augmented Generation)

Kein eigentliches Lernen, aber oft mit Lernen verwechselt. Bei RAG sucht das System vor der Antwort in deinen eigenen Dokumenten nach passenden Stellen und reicht diese zusammen mit der Frage an das Modell. Das Modell hat dann Kontext, den es im Training nie gesehen hat, und kann darauf gestützt antworten. RAG ist 2026 der häufigste Weg, eigenes Wissen ins Modell zu bringen.


🟢 Drei Architektur-Linien

Hier wird es technischer, aber die drei Linien zu kennen hilft, Modellbeschreibungen zu verstehen.

Dense Transformerder KlassikerAlle Parameter aktivbei jedem Token→ Hoher VRAM-Bedarf→ Einfache Inferenz→ Beispiel: Mistral 7BMixture of ExpertsDefault an der SpitzeNur wenige Experten aktivpro Token→ VRAM hoch, Inferenz günstig→ Großes Wissen, schnell→ Beispiel: DeepSeek V3Mamba-Hybriddie neue EffizienzMambaMambaTransformerMambaMambaMamba: schnell, linear skalierendTransformer: präzise Analyse→ Sehr lange Kontexte günstig→ Weniger VRAM nötig→ Beispiel: Granite 4, Jamba

Dense Transformer ist der Klassiker. Alle Parameter sind bei jedem Token aktiv. Einfache Inferenz, hoher VRAM-Bedarf bei großen Modellen. Beispiel: Mistral 7B.

Mixture of Experts (MoE) ist der Default an der Spitze geworden. Das Modell hat viele Experten, aktiviert pro Token aber nur wenige. Beispiel: DeepSeek V3 mit 671B Gesamtparametern und 37B aktiven pro Token. VRAM-Floor wird durch die Gesamtgröße bestimmt, Inferenzkosten durch die aktiven Parameter. So bekommt man die Qualität eines Riesenmodells zum Preis eines mittleren.

Mamba-Hybrid mischt State-Space-Layer (Mamba-2) mit klassischen Attention-Layern. Mamba skaliert linear mit der Sequenzlänge statt quadratisch, was lange Kontexte deutlich günstiger macht. Die Mamba-Layer verarbeiten globalen Kontext effizient, die Transformer-Blöcke übernehmen die feinkörnige lokale Analyse per Self-Attention. Beispiele: IBM Granite 4, Jamba, Falcon-H, NVIDIA Nemotron.


Übersichtstabelle

ModellAnbieterLizenzThinkingWeltwissenSpezialität
Claude Opus 4.7AnthropicProprietärExtendedSehr hochLange Kontexte, Code, Tool-Use
GPT-5 / 5.5OpenAIProprietärEigene Reasoning-StufenSehr hochBreite, Multimodal, Agenten
Gemini 3 ProGoogleProprietärAdaptivSehr hochMultimodal nativ, sehr langer Kontext
Grok 4xAIProprietärJaHochEchtzeit-Bezug zu X-Daten
DeepSeek V3 / V4DeepSeekMIT (open weights)Optional (R1-Variante)HochEffizientes MoE, niedrige Inferenzkosten
DeepSeek R1DeepSeekMITJa, transparentHochPures RL-trainiertes Reasoning
Qwen 3 / 3.5AlibabaApache 2.0SchaltbarHochMultilingual (29+), schaltbarer Thinking-Mode
Qwen 3-NextAlibabaApache 2.0JaHochGated Delta Networks, Mamba-inspiriert
Qwen 3-OmniAlibabaApache 2.0JaHochNativ multimodal (Audio, Video, Bild, Text)
Llama 4 Scout / MaverickMetaMeta CustomIndirektHoch10M-Token-Kontext
Mistral Large 3MistralApache 2.0JaHochEuropäische Stimme, 80+ Sprachen
Command A / R / R+CohereCC-BY-NC / kommerziellA Reasoning: jaSolideRAG-nativ, Tool-Use, Citations
Command R7BCohereCC-BY-NCNeinSolideKlein, 128K Kontext, On-Device
IBM Granite 4 / 4.1IBMApache 2.0Bewusst neinSolideMamba-Transformer-Hybrid, Enterprise
Phi-4 / Phi-4 ReasoningMicrosoftMITPlus-Variante: jaMittelKlein, schlägt 5–10x größere Modelle
Gemma 4GoogleGemma LicenseBegrenztMittelConsumer-Hardware, Edge
CodestralMistralMistral Non-ProductionNeinCode-fokussiertReine Code-Spezialisierung
DeepSeek-CoderDeepSeekDeepSeek LicenseNeinCode-fokussiert300+ Programmiersprachen
Falcon-H1RTII (UAE)Apache 2.0JaMittelMamba-Transformer-Hybrid, klein
Jamba 1.5AI21Apache 2.0BegrenztMittel256K Kontext, Mamba-Hybrid-MoE
NVIDIA Nemotron 3 NanoNVIDIANVIDIA Open LicenseOptionalMittelInference-optimiert, sehr schnell
Yi 1.501.AIApache 2.0NeinMittelBilingual EN/ZH, klein und stabil
Aya 32BCohere for AICC-BY-NCNeinMittel100+ Sprachen, Forschungsbasis

Eine Anmerkung: Die Versionsnummern sind volatil. Was heute „Qwen 3“ heißt, kann morgen „Qwen 3.6“ sein. Schau auf der Anbieterseite, wenn du auswählst. Die Eigenschaften pro Familie sind aber stabil.


Die Modellfamilien im Überblick

Welche Familien gehören zu welchem Anbieter und welche regionale Verteilung steht dahinter?

🇺🇸 USAOpenAIGPT-5Familie (5.0 / 5.5)AnthropicClaude Opus / SonnetHaikuGoogleGemini Pro / FlashGemma 4OPENMetaLlama 4Scout / MaverickOPENIBMGranite 4 / 4.1Nano (350M, 1B)OPENMicrosoftPhi-4 / ReasoningPhi-4 VisionOPENNVIDIANemotron 3Nano / CascadeOPENxAIGrok 4Echtzeit-X-Zugriff🇨🇳 China (Open-Weight dominant)DeepSeekV3 / V4 / R1Coder, MIT-LizenzOPENAlibabaQwen 3 / 3.5 / NextCoder / OmniOPENMoonshotKimi K2.5 / K2.6Agent-ArchitekturOPEN01.AIYi 1.5bilingual EN/ZHOPEN🇪🇺 EuropaMistral (FR)Large 3 / Codestral80+ SprachenOPENAI21 (IL)Jamba 1.5Mamba-Hybrid, 256KOPEN🌍 SonstigeCohere (CA)Command R / R+ / AAya, Embed, RerankTII (UAE)Falcon-H1 / H1RMamba-Hybrid, kleinOPEN

Was auffällt: die USA dominieren bei den großen Geld- und Cloud-Anbietern, China bei Open-Weight-Modellen, Europa hat mit Mistral genau einen wettbewerbsfähigen Frontier-Spieler. Wer aus DSGVO-Gründen europäische Anbieter bevorzugt, hat eine schmale Auswahl. Wer Open-Weight will und Multi-GPU-Hardware hat, findet bei DeepSeek und Alibaba die spannendsten Optionen.


Frontier-Modelle: kurze Einordnung

Claude Opus 4.7 (Anthropic)

Anthropics Spitzenmodell. Stark bei langen Kontexten, Code, Tool-Use und nuancierter Sprache. Extended-Thinking-Modus für komplexe Probleme. Politisch und sicherheitstechnisch konservativer als andere Frontier-Modelle, was je nach Use-Case Feature oder Bug ist. Für rein lokale Setups irrelevant, aber als Vergleichsmaßstab unverzichtbar.

GPT-5 / GPT-5.5 (OpenAI)

Die Standard-Vergleichsbasis. Breite Multimodal-Fähigkeiten, starke Agent-Anwendungen, ausgereiftes Tool-Ökosystem. Mehrere Reasoning-Stufen (low, medium, high, xhigh) mit entsprechenden Kostenstaffeln. Nicht open-weight.

Gemini 3 Pro (Google)

Stärkste native Multimodal-Verarbeitung. Sehr lange Kontextfenster, früh als erste Linie über 1M Token. Tiefe Integration mit Google-Cloud-Diensten, was Anbieterbindung schafft. Schnell und günstig in der Flash-Variante.

Grok 4 (xAI)

Besonderheit: direkter Zugriff auf X-Plattform-Daten in Echtzeit. Interessant für Social-Listening und Echtzeit-Recherche. Politische Tonalität und Sicherheitsleitplanken sind deutlich anders als bei Claude oder Gemini.


Open-Weight-Flagships

DeepSeek V3 und V4

DeepSeek hat 2025 die Spielregeln verändert: vergleichbare Qualität zu GPT-4-Klasse bei einem Bruchteil der Trainingskosten und unter MIT-Lizenz. Die V3-Architektur arbeitet mit 671B Gesamtparametern und 37B aktiven pro Token, ein klassisches MoE-Design. Für Inferenz brauchst du Multi-GPU oder Apple Silicon mit viel Unified Memory. V4 hat das weitergeführt, mit deutlich besseren Code- und Mathe-Werten.

Praktisch heißt das: Wenn du Frontier-Qualität ohne Cloud-Abhängigkeit willst und die Hardware hast, ist DeepSeek der erste Anlaufpunkt. Apple Silicon mit 128GB+ Unified Memory schafft die Q4-quantisierten Versionen.

DeepSeek R1

Der Reasoning-Zwilling von V3. Pure Reinforcement-Learning-Trainingspipeline ohne klassisches Supervised Fine-Tuning als Warmup. Das Modell hat eigenständig Chain-of-Thought-Verhalten, Selbst-Verifikation und Backtracking entwickelt. Für Theorembeweise, schwere Code-Debugs und wissenschaftliche Analyse ist R1 derzeit der stärkste Open-Weight-Kandidat. Die destillierten Varianten (1.5B bis 70B) sind interessant, weil schon die 32B-Distill auf einer einzelnen RTX 4090 läuft und viele größere Modelle in Reasoning-Benchmarks schlägt.

Qwen 3 und Qwen 3.5 (Alibaba)

Qwen ist die ernsthafteste Konkurrenz zu DeepSeek im Open-Weight-Bereich. Drei Eigenschaften machen die Familie besonders.

Erstens, multilinguale Breite: 29+ Sprachen mit nativer Qualität, nicht nur Übersetzung. Wer mehrsprachig arbeitet, kommt an Qwen kaum vorbei.

Zweitens, schaltbarer Thinking-Mode: per Flag wechselst du zwischen Reasoning und Standard, ohne das Modell zu tauschen. Das vereinfacht Architekturen erheblich.

Drittens, Modellvielfalt: von 0.6B für Embedded-Geräte bis 235B-A22B (MoE) als Flagship. Die kleinen Modelle der Qwen-Familie sind besonders unterschätzt — Qwen 3-4B läuft auf einem MacBook und liefert Qualität, die noch vor zwei Jahren 70B-Modellen vorbehalten war.

Qwen 3-Next ersetzt klassische Attention durch Gated Delta Networks (Mamba-2-inspiriert), Qwen 3-Omni ist nativ multimodal über Text, Bild, Audio und Video.

Llama 4 (Meta)

Metas Antwort auf die MoE-Welle. Scout und Maverick sind die Hauptvarianten, Scout mit 10M-Token-Kontext aktuell der Rekord-Halter unter den Open-Weight-Modellen. Die Meta-Lizenz hat die übliche 700M-MAU-Klausel — für Mittelstand und Selbstständige praktisch irrelevant, für große Konzerne ein Stolperstein. Sprachlich breit (~30 gut unterstützte), aber im Vergleich zu Qwen weniger fokussiert.

Mistral Large 3

Mistrals Flagship und der einzige ernstzunehmende europäische Frontier-Open-Weight-Kandidat. 123B Parameter, 128k Kontext, 80+ Sprachen. In europäischen Sprachen oft stärker als die asiatischen Konkurrenten. Apache 2.0 macht ihn kommerziell unproblematisch. Für DSGVO-getriebene Setups und mehrsprachige Anwendungen in Europa ein natürlicher Default. Mistral ist außerdem das Haus, dessen Modelle sich am angenehmsten in europäische Hosting-Setups einbinden lassen.


🟡 Die Spezialisten was du nicht auf dem Schirm hast

Hier wird es interessant. Diese Modelle stehen in keiner Werbung, aber jedes davon ist in seinem Feld besser als die Generalisten.

Cohere Command R, R+, A und R7B

Command R ist die RAG-native Modellfamilie. Das heißt nicht, dass die anderen Modelle kein RAG könnten, sondern dass Command von Grund auf für RAG-Workflows trainiert wurde. Statt separate Embedding-Modelle zum Retrieval und Generalisten zur Generierung zu kombinieren — und damit Kontextverlust zu riskieren — hat Cohere die Retrieval-Logik direkt in der Modellarchitektur verankert. Die Konsequenzen sind praktisch spürbar.

Native Citations: Das Modell gibt für jede Aussage die Quelldokumente an. Kein Nachrüsten nötig, kein Custom-Prompting.

Mehrstufiges Tool-Use: Tools werden eigenständig orchestriert, nicht nur einmal aufgerufen.

Strukturiertes Datenhandling: Tabellen, JSON, Code-Blöcke werden zuverlässig verarbeitet.

Command A hat 111B Parameter mit 256K Kontext und braucht zwei A100 oder H100 GPUs zum Betrieb. Das ist die schwere Variante. Command R+ ist die kommerzielle Allzweck-Lösung mit 128K Kontext. Command R7B ist der unterschätzte Kandidat: 7B Parameter, 128K Kontext, 23 Sprachen, läuft auf einer einzelnen Consumer-GPU. Wer ein dediziertes RAG-Frontend für eine Kanzlei oder Praxis aufbaut, sollte R7B testen, bevor er größere Modelle nimmt.

Eine Lizenz-Anmerkung: Die offenen Gewichte stehen unter CC-BY-NC, also nicht kommerziell. Für kommerziellen Einsatz brauchst du die API oder eine Lizenzvereinbarung. Das ist der eine Stolperstein bei Cohere.

IBM Granite 4 und 4.1

Granite ist Enterprise-orientiert und macht etwas, das die Spitzenliga lange nicht gemacht hat: Sicherheit als Releasemerkmal. Seit April 2026 sind die freigegebenen Granite-Modelle kryptografisch signiert, und die Granite-Familie ist nach ISO 42001 zertifiziert. Für Compliance-getriebene Branchen ist das mehr wert als ein paar Benchmark-Punkte.

Granite 4 war IBMs erstes großes Experiment mit Mamba-Transformer-Hybrid-Architektur. Über 70% weniger GPU-Speicher und etwa doppelte Inferenzgeschwindigkeit im Vergleich zu reinen Transformern. Sechs Monate später hat IBM bei Granite 4.1 wieder zurück auf Dense Transformer geschaltet, weil die Trainingspipeline für Hybrid noch nicht reif war — aber das Mamba-Wissen ist im Haus und wird zurückkommen.

Granite 4.1 ist bewusst kein Reasoning-Modell. IBM hat sich gegen Extended Chain-of-Thought entschieden und für vorhersehbare Latenz. Wenn du eine Agent-Pipeline baust, die Tool-Calls in Sekunden zurückgeben muss, ist das das richtige Modell. Wenn du Theorembeweise willst, das falsche.

Die Granite-Nano-Modelle (350M und 1B) sind erwähnenswert: klein genug für den Browser, gut genug für Instruction-Following und Tool-Use. Für eingebettete Use-Cases (Browser-Plugins, IoT, Edge-Devices) wird das in den nächsten 18 Monaten wichtig.

Microsoft Phi-4 und Phi-4 Reasoning

Phi-4 ist Microsofts Beweis, dass kleine Modelle mit kuratiertem Training größere übertrumpfen können. 14B Parameter, schlägt 5- bis 10-mal größere Modelle in Reasoning-Tasks und läuft mit 4-Bit-Quantisierung auf 8GB VRAM. Praktisch heißt das: Phi-4 läuft auf jedem halbwegs aktuellen Gaming-Laptop. Phi-4-Reasoning-Plus ist die mit RL nachtrainierte Reasoning-Variante.

Im März 2026 ist Phi-4-Reasoning-Vision dazugekommen, ein 15B-Modell mit multimodaler Reasoning-Fähigkeit über Bild, Text und Dokumente. Für lokale OCR-Workflows mit Verständnis (nicht nur Texterkennung) ein heißer Kandidat.

Limitation: Weltwissen ist deutlich begrenzter als bei 70B+-Modellen. Phi-4 weiß nicht alles über Mozart oder über das Steuerrecht in Bayern. Mit RAG kompensierbar, ohne ein echtes Defizit.

Google Gemma 4

Googles Open-Modellfamilie, optimiert für On-Device. Gemma 4 in der 26B-Version läuft auf einem MacBook mit 16GB Unified Memory. 85 Token pro Sekunde auf Consumer-Hardware, 256K Kontext, multimodal ab 4B. Wer eine lokale KI-Assistenz für Außendienstmitarbeiter, Tablets oder Embedded-Geräte plant, sollte Gemma 4 ernsthaft prüfen.

Die Lizenz (Gemma License) ist nicht so liberal wie Apache 2.0, hat aber für die meisten kommerziellen Einsätze keine praktischen Hindernisse. Lies sie trotzdem.

Falcon-H1R (Technology Innovation Institute, UAE)

Die Falcon-Familie hat einen interessanten Pivot gemacht: weg von „größer als alle anderen“ hin zu Mamba-Hybrid-Architekturen für effiziente Inferenz. Falcon-H1R ist die Reasoning-Variante des 7B-Hybrid-Modells, mit Tiny-Varianten bis hinunter zu 90M Parametern für eingebettete Anwendungen. Wenn du sehr lange Kontexte auf kleiner Hardware verarbeiten willst, ist das eine der wenigen ernsthaften Optionen.

Jamba 1.5 (AI21 Labs)

Jamba war 2024 der erste large-scale Mamba-Transformer-Hybrid. 398B Gesamtparameter mit 94B aktiven, 72 Layer mit interleaved Mamba und Attention, 16 MoE-Experten, 256K Kontext. Stark bei sehr langen Dokumenten — Verträge, Forschungsberichte, lange Korrespondenzen. AI21 hat sich strategisch auf Enterprise-Use-Cases mit Langformat-Dokumenten fokussiert. Für klassische Chats ist Jamba überdimensioniert, für ein Vertragsanalyse-Tool perfekt.

Codestral (Mistral) und DeepSeek-Coder

Beide sind Code-Spezialisten und in dieser Disziplin den Generalisten oft überlegen. Codestral ist Mistrals erstes dediziertes Code-Modell, kompakt und schnell. DeepSeek-Coder unterstützt über 300 Programmiersprachen und ist in Fill-in-the-Middle-Tasks (FIM, also Code mit Lücken füllen) besonders stark — das ist der Modus, in dem moderne IDE-Assistenten arbeiten.

Für lokale IDE-Integration (Cursor, Continue, JetBrains AI Assistant mit lokalem Backend) sind diese Spezialmodelle die richtige Wahl. Sie sind klein genug, dass die Antwort schnell genug für Auto-Completion ist.

NVIDIA Nemotron 3 Nano

NVIDIAs Beitrag zur Open-Weight-Welt, aber mit eigenem Fokus: Inferenz-Optimierung. Die Modelle sind so trainiert, dass sie auf NVIDIA-Hardware besonders effizient laufen. Nemotron 3 Nano umfasst 4B-Dense und 30B-A3B-MoE-Varianten. Wenn deine Hardware-Strategie ohnehin NVIDIA-zentriert ist, gibt Nemotron dir die letzten Prozent Throughput, die andere Modelle nicht herausholen. Die Lizenz hat einige NVIDIA-spezifische Klauseln, die zu prüfen sind.

Yi 1.5 (01.AI) und Aya (Cohere for AI)

Zwei sehr unterschiedliche Spezialisten für mehrsprachige Anwendungen.

Yi 1.5 ist bilingual Englisch/Chinesisch, klein, stabil. Wenn du chinesische Inhalte verarbeitest oder generierst und keine 400B-Modelle laden willst, ist Yi die effiziente Wahl.

Aya kommt aus Coheres Forschungslabor und ist auf 100+ Sprachen ausgelegt — inklusive vieler unterrepräsentierter Sprachen. Für NGOs, Forschung, Lokalisierungs-Pipelines ein wertvolles Werkzeug. Die CC-BY-NC-Lizenz schränkt den kommerziellen Einsatz ein.


Welches Modell passt zu mir?

Eine grobe Entscheidungshilfe.

Was willst du erreichen?Was ist der wichtigste Faktor?Wenn Qualität wichtigster FaktorCloud-FrontierClaude · GPT-5 · Gemini20–50 € / MonatDaten landen in der Cloud.Für Berufsgeheimnis ungeeignet.Wenn Datenschutz / §203Lokales ModellWelche Hardware?Laptop, 8–16 GB RAMPhi-4 · Gemma 4 · Qwen 3-4B/8Bläuft ohne dedizierte GPURTX 4090 / M-Series 32GB+Qwen 3 30B-A3BDeepSeek R1 Distill 32BMulti-GPU / M-Series 96GB+DeepSeek V4 · Qwen 3.5 235BLlama 4 MaverickWenn Spezial-AufgabeWelches Feld?CodeDeepSeek-Coder · CodestralRAG (Kanzlei, Praxis)Command R7Boder Qwen 3 mit RAG-StackLange DokumenteJamba 1.5 · Llama 4 ScoutGranite 4.1MehrsprachigQwen 3 · Mistral · Aya(Breite / EU / Long-Tail)Enterprise + ComplianceIBM Granite 4.1ISO-42001-zertifiziertDrei Faustregeln: bei keiner Hardware → Phi-4 oder Gemma 4 lokal testen ·bei Berufsgeheimnis und Mittelklasse-Hardware → Qwen 3 oder Mistral mit RAG ·bei Frontier-Bedarf ohne Hardware-Plan → Cloud-Frontier-Abo.

Drei Faustregeln, die das Schaubild kondensieren.

Wenn du keine Hardware-Pläne hast und nur ausprobieren willst, fang mit Phi-4 oder Gemma 4 auf deinem Rechner an. Beide laufen ohne dedizierte GPU. Ollama oder LM Studio installieren, Modell ziehen, fertig.

Wenn du Datenschutz brauchst und Mittelklasse-Hardware hast, Qwen 3 oder Mistral mit lokalem RAG-Stack. Das deckt 80% der Berufsgeheimnisträger-Anwendungsfälle.

Wenn du Frontier-Qualität willst und Geld kein Hauptthema ist, bleib bei Cloud. Die proprietären Modelle sind in den letzten Prozent immer noch voraus, und für 20–50 Euro im Monat bekommst du Zugang zu allem.


Was diese Landschaft bedeutet

Drei Trends fallen auf.

Erstens, die Lücke zwischen Open-Weight und Proprietär ist klein geworden. Wer 2024 noch sagte „Open-Source kann nicht mit GPT-4 mithalten“, hatte recht. Wer das 2026 sagt, redet veraltet. DeepSeek, Qwen, Llama 4 — auf den meisten Benchmarks innerhalb von Messfehler-Bandbreite zur Frontier. Der Vorsprung der proprietären Anbieter liegt heute in Tool-Ökosystem, Polish und Safety-Tuning, nicht in roher Modellqualität.

Zweitens, Spezialisierung schlägt Größe. Ein 14B-Phi-4-Reasoning-Modell schlägt Generalisten mit 70B+ in dem, wofür es trainiert wurde. Ein Command R7B schlägt allgemeine 30B-Modelle in RAG-Citation-Genauigkeit. Wer Modelle nach Parameteranzahl auswählt, denkt 2022.

Drittens, Architektur-Vielfalt kommt zurück. Nach Jahren reiner Transformer-Hegemonie sind Mamba-Hybriden, State-Space-Modelle, MoE-Designs und neue Attention-Varianten plötzlich überall. Granite, Jamba, Falcon-H, Qwen 3-Next, Nemotron, Bamba — alle gehen ihre eigenen Wege. Das macht den Vergleich schwerer und die Auswahl wichtiger.

Wer Software baut, die KI integriert, sollte sich mindestens einmal pro Quartal eine Stunde nehmen, um den eigenen Modell-Stack zu prüfen. Was vor sechs Monaten die richtige Wahl war, ist heute vielleicht zu schwer, zu teuer oder zu unmoderner Architektur. Modellkunde ist 2026 keine Spezialdisziplin mehr — sie ist Teil der Architekturarbeit.

Und für Anwender, die heute zum ersten Mal hören, dass es überhaupt diese ganze Welt gibt: Du musst nicht alles auf einmal verstehen. Es reicht zu wissen, dass die Wahl existiert, und beim nächsten Werkzeug zu fragen, wo deine Daten eigentlich landen. Mehr ist erstmal nicht nötig.


Externe Links zum Weiterlesen

Quellen für eigene Recherche und Modell-Download. Alle hier genannten Links führen entweder zur offiziellen Anbieter-Seite, zum offiziellen Repository auf Hugging Face oder zur offiziellen GitHub-Organisation. Sekundärquellen wie Blog-Posts oder Vergleichsartikel sind ausgespart.

Frontier-Modelle (Cloud)

Open-Weight-Flagships

Spezialisten

Werkzeuge für den lokalen Betrieb

Wer ein Modell lokal ausprobieren will, braucht einen Runner. Drei Optionen für unterschiedliche Bedürfnisse.

  • Ollamaollama.com · der pragmatische Einstieg, Modelle per ollama pull ziehen, läuft auf Mac, Linux und Windows. Gut für Entwickler.
  • LM Studiolmstudio.ai · Desktop-GUI mit Modell-Browser, Chat-Interface und OpenAI-kompatibler API. Gut für nicht-technische Anwender.
  • llama.cppgithub.com/ggml-org/llama.cpp · die niedrigstufige Inferenz-Engine unter Ollama und LM Studio. Für Profis mit speziellen Hardware-Anforderungen.

Hintergrund-Lektüre

  • Hugging Facehuggingface.co · die zentrale Plattform für Open-Weight-Modelle. Jedes hier erwähnte Modell hat eine offizielle Modellkarte mit Lizenz und Benchmarks.
  • Papers with Codepaperswithcode.com · für tiefere Benchmark-Vergleiche und Modell-Architekturen.
  • LMSys Chatbot Arenalmarena.ai · Crowd-sourced Bewertung: echte Nutzer vergleichen anonymisierte Modell-Antworten. Eine der wenigen Bewertungen, die nicht durch Benchmark-Gaming verzerrt sind.

Stand Mai 2026. Versionsnummern und Benchmark-Werte ändern sich monatlich. Die strukturellen Eigenschaften der Modellfamilien sind stabiler.


Franz-Martin ist Gründer von Fleet Daten & Systems Consulting und seit über vier Jahrzehnten in der Software-Entwicklung. Er schreibt auf fleet-data.de über Sicherheit, Architektur und die Frage, was zivile Werkzeuge können müssen, um zu halten. Kontakt: kontakt@fleet-data.de

© 2026 Fleet Daten & Systems Consulting | fleet-data.de Dieser Beitrag stellt keine Rechts- oder Steuerberatung dar. Bei konkreten rechtlichen Fragen wende dich an eine Fachanwältin oder einen Fachanwalt für Strafrecht oder IT-Recht.


Kommentar schreiben

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.