LLM-Modellkunde 2026: Was du wirklich kennen solltest

Eine Übersicht für alle, die ChatGPT, Claude oder Gemini schon einmal benutzt haben — und sich fragen, was es sonst noch gibt.

Stand: Mai 2026

Wer heute von Künstlicher Intelligenz hört, denkt meist an ChatGPT von OpenAI, an Claude von Anthropic oder an Googles Gemini. Diese drei sind in den Medien überrepräsentiert. Tatsächlich gibt es deutlich mehr ernstzunehmende Modelle viele davon kostenlos verfügbar, viele davon ohne Cloud-Anbindung lauffähig, und einige in ihrer Spezialaufgabe besser als die großen Generalisten.

Dieser Artikel richtet sich an zwei Lesergruppen gleichzeitig. An Entwickler, die wissen wollen, welches Modell in welchen Stack passt. Und an Anwender, die zum ersten Mal davon hören, dass es überhaupt eine Welt jenseits der Cloud-Abos gibt. Den Anfang machen die Grundbegriffe, danach kommt der Vergleich, und am Ende eine Entscheidungshilfe.

Die drei Welten der LLM-Modelle

Bevor wir in Details gehen, eine grobe Karte. Die LLM-Landschaft 2026 besteht aus drei klar trennbaren Welten.

Wer eine dieser Welten kennt und die anderen ignoriert, bekommt ein verzerrtes Bild davon, was möglich ist. Wer alle drei kennt, kann pro Aufgabe das passende Werkzeug wählen.

Einsteiger-Glossar

Vier Begriffe tauchen ständig auf. Wer sie versteht, kann den Rest des Artikels lesen.

Parameter sind die internen Stellschrauben eines Modells. Du wirst während des Trainings angepasst und bestimmen, wie das Modell antwortet. Heute reichen die Größen von wenigen hundert Millionen bis zu mehreren Billionen. Größer ist nicht automatisch besser, aber als Faustregel gilt: mehr Parameter heißt mehr Wissen und mehr Speicherbedarf.

Token sind die Stückchen, in die Text zerlegt wird, bevor das Modell ihn verarbeitet. Ein deutsches Wort ist meist zwei bis drei Token, ein englisches eins bis zwei. Wer „100.000 Token Kontext“ liest, soll wissen: das sind etwa 60.000–70.000 Wörter Text, die das Modell auf einmal überblicken kann.

Quantisierung ist eine Art Kompression. Statt mit voller Präzision rechnet das Modell mit weniger Bits pro Parameter. Q4 (4 Bit pro Parameter) ist heute Standard für lokalen Betrieb und halbiert grob den Speicherbedarf gegenüber dem Original. Qualitätsverlust ist messbar, aber für die meisten Anwendungen klein.

Lokal vs. Cloud beschreibt, wo das Modell rechnet. Bei ChatGPT, Claude und Gemini läuft das Modell in fremden Rechenzentren die Anfrage reist hin, die Antwort zurück. Bei lokalen Modellen läuft die Berechnung auf eigener Hardware. Für Datenschutz und Berufsgeheimnis ist das ein architektonischer Unterschied, nicht nur ein Komfort-Aspekt.

Wo fließen meine Daten hin?

Für jeden, der erstmals mit lokaler KI in Berührung kommt, ist das die wichtigste Frage. Die zwei Pfade unterscheiden sich grundlegend.

Der entscheidende Unterschied steckt nicht in der Antwortqualität — die ist 2026 in vielen Bereichen vergleichbar geworden — sondern darin, wer den Klartext der Frage zu sehen bekommt. Bei der Cloud ist die Antwort: zwingend der Anbieter. Bei lokalen Modellen: niemand außer dem Nutzer.

Für eine Reiseplanung ist das eine Komfortfrage. Für eine Mandantenakte, eine Patientendiagnose oder eine ungeprüfte Steuererklärung ist es eine Architekturfrage.

Open-Source, Open-Weight oder proprietär?

Diese drei Begriffe werden oft verwechselt. Du bedeutest verschiedene Dinge.

Die meisten Modelle, die als „Open Source“ beworben werden, sind tatsächlich Open-Weight. Llama 4, DeepSeek, Qwen, Mistral — alle veröffentlichen die fertig trainierten Gewichte, aber nicht die Trainingsdaten und nicht alle Trainingsrezepte. Echte Open-Source-Modelle (mit veröffentlichten Trainingsdaten und reproduzierbarem Trainingsweg) sind selten, weil Trainingsdaten Geschäftsgeheimnis sind und juristisch heikel (Urheberrecht).

Für die meisten Anwender ist Open-Weight ausreichend: das Modell läuft lokal, niemand kann es dir wegnehmen, du zahlst keine API-Gebühren. Open-Source ist für Forschung und Audit relevant.

Begriffsklärung für Fortgeschrittene

Drei Begriffe, die in den Modellbeschreibungen ständig auftauchen.

Thinking (Extended Reasoning)

Ein Reasoning-Modell rechnet vor der Antwort eine interne Gedankenkette aus, die dann meist nicht oder nur teilweise sichtbar ist. Beispiele sind OpenAIs o-Serie, DeepSeek-R1, Claudes Extended-Thinking-Modus, Qwens Thinking-Mode. Der Trade-off ist klar: deutlich höhere Genauigkeit auf Mathe, Code und mehrstufiger Logik, dafür mehr Token, mehr Latenz, mehr Kosten. Für einfache Fragen ist Thinking Overkill.

Neu in 2026 sind Hybrid-Modelle wie Qwen 3 oder Command A Reasoning, die per Schalter zwischen Thinking und Standard wechseln. Damit verschwimmt die alte Trennlinie zwischen „Reasoning-Modell“ und „Chat-Modell“.

Weltwissen

Damit ist das im Pre-Training eingebackene Faktenwissen gemeint. Es ist statisch, hat einen Cutoff und altert. Größere Modelle haben tendenziell mehr davon, aber Größe ist nicht alles: Trainingsdaten-Qualität, Multilingual-Coverage und Domänen-Fokus zählen. Wer Weltwissen produktiv braucht, ergänzt es ohnehin durch RAG, weil reines Modellwissen unprüfbar bleibt.

Learning

Drei Ebenen, die oft durcheinandergeworfen werden.

In-Context Learning ist das, was im Prompt passiert: Beispiele mitgeben, das Modell adaptiert sich für die Antwort. Kein echtes Lernen, eher Mustererkennung. Verschwindet nach dem Request.

Fine-Tuning verändert die Gewichte des Modells auf einem zusätzlichen Datensatz. LoRA ist die schlanke Variante, die heute Standard ist. Erfordert offene Gewichte oder einen Anbieter, der Fine-Tuning anbietet.

Continual Learning wäre echtes laufendes Lernen aus Interaktion. Die meisten Produktivsysteme machen das nicht, weil es das Modell instabil macht. Was als „lernen“ verkauft wird, ist meist nur Memory plus RAG.

RAG (Retrieval Augmented Generation)

Kein eigentliches Lernen, aber oft mit Lernen verwechselt. Bei RAG sucht das System vor der Antwort in deinen eigenen Dokumenten nach passenden Stellen und reicht diese zusammen mit der Frage an das Modell. Das Modell hat dann Kontext, den es im Training nie gesehen hat, und kann darauf gestützt antworten. RAG ist 2026 der häufigste Weg, eigenes Wissen ins Modell zu bringen.

🟢 Drei Architektur-Linien

Hier wird es technischer, aber die drei Linien zu kennen hilft, Modellbeschreibungen zu verstehen.

Dense Transformer ist der Klassiker. Alle Parameter sind bei jedem Token aktiv. Einfache Inferenz, hoher VRAM-Bedarf bei großen Modellen. Beispiel: Mistral 7B.

Mixture of Experts (MoE) ist der Default an der Spitze geworden. Das Modell hat viele Experten, aktiviert pro Token aber nur wenige. Beispiel: DeepSeek V3 mit 671B Gesamtparametern und 37B aktiven pro Token. VRAM-Floor wird durch die Gesamtgröße bestimmt, Inferenzkosten durch die aktiven Parameter. So bekommt man die Qualität eines Riesenmodells zum Preis eines mittleren.

Mamba-Hybrid mischt State-Space-Layer (Mamba-2) mit klassischen Attention-Layern. Mamba skaliert linear mit der Sequenzlänge statt quadratisch, was lange Kontexte deutlich günstiger macht. Die Mamba-Layer verarbeiten globalen Kontext effizient, die Transformer-Blöcke übernehmen die feinkörnige lokale Analyse per Self-Attention. Beispiele: IBM Granite 4, Jamba, Falcon-H, NVIDIA Nemotron.

Übersichtstabelle

Modell	Anbieter	Lizenz	Thinking	Weltwissen	Spezialität
Claude Opus 4.7	Anthropic	Proprietär	Extended	Sehr hoch	Lange Kontexte, Code, Tool-Use
GPT-5 / 5.5	OpenAI	Proprietär	Eigene Reasoning-Stufen	Sehr hoch	Breite, Multimodal, Agenten
Gemini 3 Pro	Google	Proprietär	Adaptiv	Sehr hoch	Multimodal nativ, sehr langer Kontext
Grok 4	xAI	Proprietär	Ja	Hoch	Echtzeit-Bezug zu X-Daten
DeepSeek V3 / V4	DeepSeek	MIT (open weights)	Optional (R1-Variante)	Hoch	Effizientes MoE, niedrige Inferenzkosten
DeepSeek R1	DeepSeek	MIT	Ja, transparent	Hoch	Pures RL-trainiertes Reasoning
Qwen 3 / 3.5	Alibaba	Apache 2.0	Schaltbar	Hoch	Multilingual (29+), schaltbarer Thinking-Mode
Qwen 3-Next	Alibaba	Apache 2.0	Ja	Hoch	Gated Delta Networks, Mamba-inspiriert
Qwen 3-Omni	Alibaba	Apache 2.0	Ja	Hoch	Nativ multimodal (Audio, Video, Bild, Text)
Llama 4 Scout / Maverick	Meta	Meta Custom	Indirekt	Hoch	10M-Token-Kontext
Mistral Large 3	Mistral	Apache 2.0	Ja	Hoch	Europäische Stimme, 80+ Sprachen
Command A / R / R+	Cohere	CC-BY-NC / kommerziell	A Reasoning: ja	Solide	RAG-nativ, Tool-Use, Citations
Command R7B	Cohere	CC-BY-NC	Nein	Solide	Klein, 128K Kontext, On-Device
IBM Granite 4 / 4.1	IBM	Apache 2.0	Bewusst nein	Solide	Mamba-Transformer-Hybrid, Enterprise
Phi-4 / Phi-4 Reasoning	Microsoft	MIT	Plus-Variante: ja	Mittel	Klein, schlägt 5–10x größere Modelle
Gemma 4	Google	Gemma License	Begrenzt	Mittel	Consumer-Hardware, Edge
Codestral	Mistral	Mistral Non-Production	Nein	Code-fokussiert	Reine Code-Spezialisierung
DeepSeek-Coder	DeepSeek	DeepSeek License	Nein	Code-fokussiert	300+ Programmiersprachen
Falcon-H1R	TII (UAE)	Apache 2.0	Ja	Mittel	Mamba-Transformer-Hybrid, klein
Jamba 1.5	AI21	Apache 2.0	Begrenzt	Mittel	256K Kontext, Mamba-Hybrid-MoE
NVIDIA Nemotron 3 Nano	NVIDIA	NVIDIA Open License	Optional	Mittel	Inference-optimiert, sehr schnell
Yi 1.5	01.AI	Apache 2.0	Nein	Mittel	Bilingual EN/ZH, klein und stabil
Aya 32B	Cohere for AI	CC-BY-NC	Nein	Mittel	100+ Sprachen, Forschungsbasis

Eine Anmerkung: Die Versionsnummern sind volatil. Was heute „Qwen 3“ heißt, kann morgen „Qwen 3.6“ sein. Schau auf der Anbieterseite, wenn du auswählst. Die Eigenschaften pro Familie sind aber stabil.

Die Modellfamilien im Überblick

Welche Familien gehören zu welchem Anbieter und welche regionale Verteilung steht dahinter?

Was auffällt: die USA dominieren bei den großen Geld- und Cloud-Anbietern, China bei Open-Weight-Modellen, Europa hat mit Mistral genau einen wettbewerbsfähigen Frontier-Spieler. Wer aus DSGVO-Gründen europäische Anbieter bevorzugt, hat eine schmale Auswahl. Wer Open-Weight will und Multi-GPU-Hardware hat, findet bei DeepSeek und Alibaba die spannendsten Optionen.

Frontier-Modelle: kurze Einordnung

Claude Opus 4.7 (Anthropic)

Anthropics Spitzenmodell. Stark bei langen Kontexten, Code, Tool-Use und nuancierter Sprache. Extended-Thinking-Modus für komplexe Probleme. Politisch und sicherheitstechnisch konservativer als andere Frontier-Modelle, was je nach Use-Case Feature oder Bug ist. Für rein lokale Setups irrelevant, aber als Vergleichsmaßstab unverzichtbar.

GPT-5 / GPT-5.5 (OpenAI)

Die Standard-Vergleichsbasis. Breite Multimodal-Fähigkeiten, starke Agent-Anwendungen, ausgereiftes Tool-Ökosystem. Mehrere Reasoning-Stufen (low, medium, high, xhigh) mit entsprechenden Kostenstaffeln. Nicht open-weight.

Gemini 3 Pro (Google)

Stärkste native Multimodal-Verarbeitung. Sehr lange Kontextfenster, früh als erste Linie über 1M Token. Tiefe Integration mit Google-Cloud-Diensten, was Anbieterbindung schafft. Schnell und günstig in der Flash-Variante.

Grok 4 (xAI)

Besonderheit: direkter Zugriff auf X-Plattform-Daten in Echtzeit. Interessant für Social-Listening und Echtzeit-Recherche. Politische Tonalität und Sicherheitsleitplanken sind deutlich anders als bei Claude oder Gemini.

Open-Weight-Flagships

DeepSeek V3 und V4

DeepSeek hat 2025 die Spielregeln verändert: vergleichbare Qualität zu GPT-4-Klasse bei einem Bruchteil der Trainingskosten und unter MIT-Lizenz. Die V3-Architektur arbeitet mit 671B Gesamtparametern und 37B aktiven pro Token, ein klassisches MoE-Design. Für Inferenz brauchst du Multi-GPU oder Apple Silicon mit viel Unified Memory. V4 hat das weitergeführt, mit deutlich besseren Code- und Mathe-Werten.

Praktisch heißt das: Wenn du Frontier-Qualität ohne Cloud-Abhängigkeit willst und die Hardware hast, ist DeepSeek der erste Anlaufpunkt. Apple Silicon mit 128GB+ Unified Memory schafft die Q4-quantisierten Versionen.

DeepSeek R1

Der Reasoning-Zwilling von V3. Pure Reinforcement-Learning-Trainingspipeline ohne klassisches Supervised Fine-Tuning als Warmup. Das Modell hat eigenständig Chain-of-Thought-Verhalten, Selbst-Verifikation und Backtracking entwickelt. Für Theorembeweise, schwere Code-Debugs und wissenschaftliche Analyse ist R1 derzeit der stärkste Open-Weight-Kandidat. Die destillierten Varianten (1.5B bis 70B) sind interessant, weil schon die 32B-Distill auf einer einzelnen RTX 4090 läuft und viele größere Modelle in Reasoning-Benchmarks schlägt.

Qwen 3 und Qwen 3.5 (Alibaba)

Qwen ist die ernsthafteste Konkurrenz zu DeepSeek im Open-Weight-Bereich. Drei Eigenschaften machen die Familie besonders.

Erstens, multilinguale Breite: 29+ Sprachen mit nativer Qualität, nicht nur Übersetzung. Wer mehrsprachig arbeitet, kommt an Qwen kaum vorbei.

Zweitens, schaltbarer Thinking-Mode: per Flag wechselst du zwischen Reasoning und Standard, ohne das Modell zu tauschen. Das vereinfacht Architekturen erheblich.

Drittens, Modellvielfalt: von 0.6B für Embedded-Geräte bis 235B-A22B (MoE) als Flagship. Die kleinen Modelle der Qwen-Familie sind besonders unterschätzt — Qwen 3-4B läuft auf einem MacBook und liefert Qualität, die noch vor zwei Jahren 70B-Modellen vorbehalten war.

Qwen 3-Next ersetzt klassische Attention durch Gated Delta Networks (Mamba-2-inspiriert), Qwen 3-Omni ist nativ multimodal über Text, Bild, Audio und Video.

Llama 4 (Meta)

Metas Antwort auf die MoE-Welle. Scout und Maverick sind die Hauptvarianten, Scout mit 10M-Token-Kontext aktuell der Rekord-Halter unter den Open-Weight-Modellen. Die Meta-Lizenz hat die übliche 700M-MAU-Klausel — für Mittelstand und Selbstständige praktisch irrelevant, für große Konzerne ein Stolperstein. Sprachlich breit (~30 gut unterstützte), aber im Vergleich zu Qwen weniger fokussiert.

Mistral Large 3

Mistrals Flagship und der einzige ernstzunehmende europäische Frontier-Open-Weight-Kandidat. 123B Parameter, 128k Kontext, 80+ Sprachen. In europäischen Sprachen oft stärker als die asiatischen Konkurrenten. Apache 2.0 macht ihn kommerziell unproblematisch. Für DSGVO-getriebene Setups und mehrsprachige Anwendungen in Europa ein natürlicher Default. Mistral ist außerdem das Haus, dessen Modelle sich am angenehmsten in europäische Hosting-Setups einbinden lassen.

🟡 Die Spezialisten was du nicht auf dem Schirm hast

Hier wird es interessant. Diese Modelle stehen in keiner Werbung, aber jedes davon ist in seinem Feld besser als die Generalisten.

Cohere Command R, R+, A und R7B

Command R ist die RAG-native Modellfamilie. Das heißt nicht, dass die anderen Modelle kein RAG könnten, sondern dass Command von Grund auf für RAG-Workflows trainiert wurde. Statt separate Embedding-Modelle zum Retrieval und Generalisten zur Generierung zu kombinieren — und damit Kontextverlust zu riskieren — hat Cohere die Retrieval-Logik direkt in der Modellarchitektur verankert. Die Konsequenzen sind praktisch spürbar.

Native Citations: Das Modell gibt für jede Aussage die Quelldokumente an. Kein Nachrüsten nötig, kein Custom-Prompting.

Mehrstufiges Tool-Use: Tools werden eigenständig orchestriert, nicht nur einmal aufgerufen.

Strukturiertes Datenhandling: Tabellen, JSON, Code-Blöcke werden zuverlässig verarbeitet.

Command A hat 111B Parameter mit 256K Kontext und braucht zwei A100 oder H100 GPUs zum Betrieb. Das ist die schwere Variante. Command R+ ist die kommerzielle Allzweck-Lösung mit 128K Kontext. Command R7B ist der unterschätzte Kandidat: 7B Parameter, 128K Kontext, 23 Sprachen, läuft auf einer einzelnen Consumer-GPU. Wer ein dediziertes RAG-Frontend für eine Kanzlei oder Praxis aufbaut, sollte R7B testen, bevor er größere Modelle nimmt.

Eine Lizenz-Anmerkung: Die offenen Gewichte stehen unter CC-BY-NC, also nicht kommerziell. Für kommerziellen Einsatz brauchst du die API oder eine Lizenzvereinbarung. Das ist der eine Stolperstein bei Cohere.

IBM Granite 4 und 4.1

Granite ist Enterprise-orientiert und macht etwas, das die Spitzenliga lange nicht gemacht hat: Sicherheit als Releasemerkmal. Seit April 2026 sind die freigegebenen Granite-Modelle kryptografisch signiert, und die Granite-Familie ist nach ISO 42001 zertifiziert. Für Compliance-getriebene Branchen ist das mehr wert als ein paar Benchmark-Punkte.

Granite 4 war IBMs erstes großes Experiment mit Mamba-Transformer-Hybrid-Architektur. Über 70% weniger GPU-Speicher und etwa doppelte Inferenzgeschwindigkeit im Vergleich zu reinen Transformern. Sechs Monate später hat IBM bei Granite 4.1 wieder zurück auf Dense Transformer geschaltet, weil die Trainingspipeline für Hybrid noch nicht reif war — aber das Mamba-Wissen ist im Haus und wird zurückkommen.

Granite 4.1 ist bewusst kein Reasoning-Modell. IBM hat sich gegen Extended Chain-of-Thought entschieden und für vorhersehbare Latenz. Wenn du eine Agent-Pipeline baust, die Tool-Calls in Sekunden zurückgeben muss, ist das das richtige Modell. Wenn du Theorembeweise willst, das falsche.

Die Granite-Nano-Modelle (350M und 1B) sind erwähnenswert: klein genug für den Browser, gut genug für Instruction-Following und Tool-Use. Für eingebettete Use-Cases (Browser-Plugins, IoT, Edge-Devices) wird das in den nächsten 18 Monaten wichtig.

Microsoft Phi-4 und Phi-4 Reasoning

Phi-4 ist Microsofts Beweis, dass kleine Modelle mit kuratiertem Training größere übertrumpfen können. 14B Parameter, schlägt 5- bis 10-mal größere Modelle in Reasoning-Tasks und läuft mit 4-Bit-Quantisierung auf 8GB VRAM. Praktisch heißt das: Phi-4 läuft auf jedem halbwegs aktuellen Gaming-Laptop. Phi-4-Reasoning-Plus ist die mit RL nachtrainierte Reasoning-Variante.

Im März 2026 ist Phi-4-Reasoning-Vision dazugekommen, ein 15B-Modell mit multimodaler Reasoning-Fähigkeit über Bild, Text und Dokumente. Für lokale OCR-Workflows mit Verständnis (nicht nur Texterkennung) ein heißer Kandidat.

Limitation: Weltwissen ist deutlich begrenzter als bei 70B+-Modellen. Phi-4 weiß nicht alles über Mozart oder über das Steuerrecht in Bayern. Mit RAG kompensierbar, ohne ein echtes Defizit.

Google Gemma 4

Googles Open-Modellfamilie, optimiert für On-Device. Gemma 4 in der 26B-Version läuft auf einem MacBook mit 16GB Unified Memory. 85 Token pro Sekunde auf Consumer-Hardware, 256K Kontext, multimodal ab 4B. Wer eine lokale KI-Assistenz für Außendienstmitarbeiter, Tablets oder Embedded-Geräte plant, sollte Gemma 4 ernsthaft prüfen.

Die Lizenz (Gemma License) ist nicht so liberal wie Apache 2.0, hat aber für die meisten kommerziellen Einsätze keine praktischen Hindernisse. Lies sie trotzdem.

Falcon-H1R (Technology Innovation Institute, UAE)

Die Falcon-Familie hat einen interessanten Pivot gemacht: weg von „größer als alle anderen“ hin zu Mamba-Hybrid-Architekturen für effiziente Inferenz. Falcon-H1R ist die Reasoning-Variante des 7B-Hybrid-Modells, mit Tiny-Varianten bis hinunter zu 90M Parametern für eingebettete Anwendungen. Wenn du sehr lange Kontexte auf kleiner Hardware verarbeiten willst, ist das eine der wenigen ernsthaften Optionen.

Jamba 1.5 (AI21 Labs)

Jamba war 2024 der erste large-scale Mamba-Transformer-Hybrid. 398B Gesamtparameter mit 94B aktiven, 72 Layer mit interleaved Mamba und Attention, 16 MoE-Experten, 256K Kontext. Stark bei sehr langen Dokumenten — Verträge, Forschungsberichte, lange Korrespondenzen. AI21 hat sich strategisch auf Enterprise-Use-Cases mit Langformat-Dokumenten fokussiert. Für klassische Chats ist Jamba überdimensioniert, für ein Vertragsanalyse-Tool perfekt.

Codestral (Mistral) und DeepSeek-Coder

Beide sind Code-Spezialisten und in dieser Disziplin den Generalisten oft überlegen. Codestral ist Mistrals erstes dediziertes Code-Modell, kompakt und schnell. DeepSeek-Coder unterstützt über 300 Programmiersprachen und ist in Fill-in-the-Middle-Tasks (FIM, also Code mit Lücken füllen) besonders stark — das ist der Modus, in dem moderne IDE-Assistenten arbeiten.

Für lokale IDE-Integration (Cursor, Continue, JetBrains AI Assistant mit lokalem Backend) sind diese Spezialmodelle die richtige Wahl. Du bist klein genug, dass die Antwort schnell genug für Auto-Completion ist.

NVIDIA Nemotron 3 Nano

NVIDIAs Beitrag zur Open-Weight-Welt, aber mit eigenem Fokus: Inferenz-Optimierung. Die Modelle sind so trainiert, dass sie auf NVIDIA-Hardware besonders effizient laufen. Nemotron 3 Nano umfasst 4B-Dense und 30B-A3B-MoE-Varianten. Wenn deine Hardware-Strategie ohnehin NVIDIA-zentriert ist, gibt Nemotron dir die letzten Prozent Throughput, die andere Modelle nicht herausholen. Die Lizenz hat einige NVIDIA-spezifische Klauseln, die zu prüfen sind.

Yi 1.5 (01.AI) und Aya (Cohere for AI)

Zwei sehr unterschiedliche Spezialisten für mehrsprachige Anwendungen.

Yi 1.5 ist bilingual Englisch/Chinesisch, klein, stabil. Wenn du chinesische Inhalte verarbeitest oder generierst und keine 400B-Modelle laden willst, ist Yi die effiziente Wahl.

Aya kommt aus Coheres Forschungslabor und ist auf 100+ Sprachen ausgelegt — inklusive vieler unterrepräsentierter Sprachen. Für NGOs, Forschung, Lokalisierungs-Pipelines ein wertvolles Werkzeug. Die CC-BY-NC-Lizenz schränkt den kommerziellen Einsatz ein.

Welches Modell passt zu mir?

Eine grobe Entscheidungshilfe.

Drei Faustregeln, die das Schaubild kondensieren.

Wenn du keine Hardware-Pläne hast und nur ausprobieren willst, fang mit Phi-4 oder Gemma 4 auf deinem Rechner an. Beide laufen ohne dedizierte GPU. Ollama oder LM Studio installieren, Modell ziehen, fertig.

Wenn du Datenschutz brauchst und Mittelklasse-Hardware hast, Qwen 3 oder Mistral mit lokalem RAG-Stack. Das deckt 80% der Berufsgeheimnisträger-Anwendungsfälle.

Wenn du Frontier-Qualität willst und Geld kein Hauptthema ist, bleib bei Cloud. Die proprietären Modelle sind in den letzten Prozent immer noch voraus, und für 20–50 Euro im Monat bekommst du Zugang zu allem.

Was diese Landschaft bedeutet

Drei Trends fallen auf.

Erstens, die Lücke zwischen Open-Weight und Proprietär ist klein geworden. Wer 2024 noch sagte „Open-Source kann nicht mit GPT-4 mithalten“, hatte recht. Wer das 2026 sagt, redet veraltet. DeepSeek, Qwen, Llama 4 — auf den meisten Benchmarks innerhalb von Messfehler-Bandbreite zur Frontier. Der Vorsprung der proprietären Anbieter liegt heute in Tool-Ökosystem, Polish und Safety-Tuning, nicht in roher Modellqualität.

Zweitens, Spezialisierung schlägt Größe. Ein 14B-Phi-4-Reasoning-Modell schlägt Generalisten mit 70B+ in dem, wofür es trainiert wurde. Ein Command R7B schlägt allgemeine 30B-Modelle in RAG-Citation-Genauigkeit. Wer Modelle nach Parameteranzahl auswählt, denkt 2022.

Drittens, Architektur-Vielfalt kommt zurück. Nach Jahren reiner Transformer-Hegemonie sind Mamba-Hybriden, State-Space-Modelle, MoE-Designs und neue Attention-Varianten plötzlich überall. Granite, Jamba, Falcon-H, Qwen 3-Next, Nemotron, Bamba — alle gehen ihre eigenen Wege. Das macht den Vergleich schwerer und die Auswahl wichtiger.

Wer Software baut, die KI integriert, sollte sich mindestens einmal pro Quartal eine Stunde nehmen, um den eigenen Modell-Stack zu prüfen. Was vor sechs Monaten die richtige Wahl war, ist heute vielleicht zu schwer, zu teuer oder zu unmoderner Architektur. Modellkunde ist 2026 keine Spezialdisziplin mehr — sie ist Teil der Architekturarbeit.

Und für Anwender, die heute zum ersten Mal hören, dass es überhaupt diese ganze Welt gibt: Du musst nicht alles auf einmal verstehen. Es reicht zu wissen, dass die Wahl existiert, und beim nächsten Werkzeug zu fragen, wo deine Daten eigentlich landen. Mehr ist erstmal nicht nötig.

Externe Links zum Weiterlesen

Quellen für eigene Recherche und Modell-Download. Alle hier genannten Links führen entweder zur offiziellen Anbieter-Seite, zum offiziellen Repository auf Hugging Face oder zur offiziellen GitHub-Organisation. Sekundärquellen wie Blog-Posts oder Vergleichsartikel sind ausgespart.

Frontier-Modelle (Cloud)

Anthropic Claude — anthropic.com · claude.ai · docs.claude.com
OpenAI GPT-5 — openai.com · platform.openai.com
Google Gemini — gemini.google.com · ai.google.dev
xAI Grok — x.ai · grok.com

Open-Weight-Flagships

DeepSeek — deepseek.com · huggingface.co/deepseek-ai · github.com/deepseek-ai
Qwen (Alibaba) — qwenlm.github.io · huggingface.co/Qwen · github.com/QwenLM
Llama (Meta) — llama.com · huggingface.co/meta-llama
Mistral — mistral.ai · huggingface.co/mistralai

Spezialisten

Cohere Command R/R+/A — cohere.com · huggingface.co/CohereLabs
IBM Granite — ibm.com/granite · huggingface.co/ibm-granite · github.com/ibm-granite
Microsoft Phi-4 — huggingface.co/microsoft/phi-4 · microsoft.com/research/project/phi
Google Gemma — ai.google.dev/gemma · huggingface.co/google
Falcon (TII) — falconllm.tii.ae · huggingface.co/tiiuae
AI21 Jamba — ai21.com · huggingface.co/ai21labs
NVIDIA Nemotron — build.nvidia.com · huggingface.co/nvidia
01.AI Yi — 01.ai · huggingface.co/01-ai
Cohere Aya — cohere.com/research/aya · huggingface.co/CohereLabs

Werkzeuge für den lokalen Betrieb

Wer ein Modell lokal ausprobieren will, braucht einen Runner. Drei Optionen für unterschiedliche Bedürfnisse.

Ollama — ollama.com · der pragmatische Einstieg, Modelle per ollama pull ziehen, läuft auf Mac, Linux und Windows. Gut für Entwickler.
LM Studio — lmstudio.ai · Desktop-GUI mit Modell-Browser, Chat-Interface und OpenAI-kompatibler API. Gut für nicht-technische Anwender.
llama.cpp — github.com/ggml-org/llama.cpp · die niedrigstufige Inferenz-Engine unter Ollama und LM Studio. Für Profis mit speziellen Hardware-Anforderungen.

Hintergrund-Lektüre

Hugging Face — huggingface.co · die zentrale Plattform für Open-Weight-Modelle. Jedes hier erwähnte Modell hat eine offizielle Modellkarte mit Lizenz und Benchmarks.
Papers with Code — paperswithcode.com · für tiefere Benchmark-Vergleiche und Modell-Architekturen.
LMSys Chatbot Arena — lmarena.ai · Crowd-sourced Bewertung: echte Nutzer vergleichen anonymisierte Modell-Antworten. Eine der wenigen Bewertungen, die nicht durch Benchmark-Gaming verzerrt sind.

Stand Mai 2026. Versionsnummern und Benchmark-Werte ändern sich monatlich. Die strukturellen Eigenschaften der Modellfamilien sind stabiler.⛵

Franz-Martin ist Gründer von Fleet Daten & Systems Consulting und seit über vier Jahrzehnten in der Software-Entwicklung. Er schreibt auf fleet-data.de über Sicherheit, Architektur und die Frage, was zivile Werkzeuge können müssen, um zu halten. Kontakt: kontakt@fleet-data.de

© 2026 Fleet Daten & Systems Consulting | fleet-data.de Dieser Beitrag stellt keine Rechts- oder Steuerberatung dar. Bei konkreten rechtlichen Fragen wende dich an eine Fachanwältin oder einen Fachanwalt für Strafrecht oder IT-Recht.

Juristen

Ärzte & Kliniken

Steuerberater

IT-Teams

Kleinunternehmer

Journalisten

Finanz- & Versicherungsberater

KI-Lösungen

KI-Features

Hardware

Andere Techniken

Deep Dive

Kontakt

Support

FAQ

Die drei Welten der LLM-Modelle

Einsteiger-Glossar

Wo fließen meine Daten hin?

Open-Source, Open-Weight oder proprietär?

Begriffsklärung für Fortgeschrittene

Thinking (Extended Reasoning)

Weltwissen

Learning

RAG (Retrieval Augmented Generation)

🟢 Drei Architektur-Linien

Übersichtstabelle

Die Modellfamilien im Überblick

Frontier-Modelle: kurze Einordnung

Claude Opus 4.7 (Anthropic)

GPT-5 / GPT-5.5 (OpenAI)

Gemini 3 Pro (Google)

Grok 4 (xAI)

Open-Weight-Flagships

DeepSeek V3 und V4

DeepSeek R1

Qwen 3 und Qwen 3.5 (Alibaba)

Llama 4 (Meta)

Mistral Large 3

🟡 Die Spezialisten was du nicht auf dem Schirm hast

Cohere Command R, R+, A und R7B

IBM Granite 4 und 4.1

Microsoft Phi-4 und Phi-4 Reasoning

Google Gemma 4

Falcon-H1R (Technology Innovation Institute, UAE)

Jamba 1.5 (AI21 Labs)

Codestral (Mistral) und DeepSeek-Coder

NVIDIA Nemotron 3 Nano

Yi 1.5 (01.AI) und Aya (Cohere for AI)

Welches Modell passt zu mir?

Was diese Landschaft bedeutet

Externe Links zum Weiterlesen

Frontier-Modelle (Cloud)

Open-Weight-Flagships

Spezialisten

Werkzeuge für den lokalen Betrieb

Hintergrund-Lektüre

Kommentar schreiben Abbrechen