Die Nadel im Heuhaufen: Wie RAG

Von Franz-Martin, Gründer von Fleet Daten & Systems Consulting

Auf einen Blick

Worum geht es? Wie eine KI in großen Dokumentenbeständen suchen und antworten kann, ohne sie auswendig zu lernen. Das Verfahren heißt RAG. Der entscheidende Schritt darin ist das Zerschneiden der Dokumente in Stücke. Wo geschnitten wird, entscheidet über die Qualität der Antwort. Wann etwas galt, entscheidet darüber, ob die Antwort überhaupt zulässig ist.

Für wen ist das relevant? Für alle, die im KI-Zeitalter mitreden wollen, ohne sich blenden zu lassen. Praktisch sofort relevant für alle, die mit zeitlich verorteten Wissensbeständen arbeiten: Anwälte, Staatsanwälte, Richter, Ärzte, Steuerberater, Journalisten, Mittelständler mit langer Vertragshistorie.

Was nimmst du mit?

Warum RAG zur Allgemeinbildung im KI-Zeitalter gehört, nicht zur IT-Spezialität
Was Chunking ist und warum die Strategie über die Qualität entscheidet
Welche fünf Schneide-Strategien es gibt, jede mit konkretem Beispiel
Warum die zeitliche Dimension genauso wichtig ist wie die räumliche
Was du deinen IT-Dienstleister fragen solltest, bevor du einsteigst

Zeit bis zur ersten umsetzbaren Erkenntnis: 5 Minuten.

Das Beispiel, an dem die Welt es gerade lernt

November 2025. Das US-Repräsentantenhaus veröffentlicht rund zwanzigtausend Seiten aus den Epstein-Akten. Zwei Monate später folgt das US-Justizministerium mit einer weit größeren Tranche. Am Ende stehen rund 3,5 Millionen Dokumente, 180.000 Bilder und 2.000 Videos öffentlich zur Einsicht.

Theoretisch durchsuchbar. Praktisch unbrauchbar. Die offizielle Suchfunktion auf der Behördenseite ist rudimentär, nach Aussage mehrerer Redaktionen oft nicht einmal nachvollziehbar.

Was tun die großen Zeitungen? Die New York Times, die BBC, der Guardian bauen sich eigene Suchwerkzeuge. Die NYT nutzt eine eigene Anwendung mit semantischer Suche und automatischer Verschlagwortung. Dein investigativer Reporter Nicholas Confessore formuliert die Notwendigkeit nüchtern: hätten sie fünfzig Reporter, die jeweils fünfhundert Dokumente pro Tag läsen, bräuchten sie für die Januar-Tranche allein etwa vier Monate. Das ist keine Hyperbel. Das ist Mathematik.

Was sie stattdessen einsetzen, heißt im Fachjargon Retrieval-Augmented Generation. RAG.

Das Werkzeug der Zeitungen kann eine natürlichsprachliche Frage entgegennehmen („Welche Treffen zwischen Person X und Person Y sind in den Akten dokumentiert? In welchem Jahr?“), und es liefert eine Antwort mit Verweisen auf die genauen Fundstellen. Der Reporter klickt auf den Verweis, sieht das Dokument, prüft es selbst. Ohne das Werkzeug bliebe der Aktenberg, was er ist: ein Haufen Papier.

Dieselbe Architektur, dieselbe Idee, in viel kleinerem Maßstab, kann in deiner Kanzlei oder deiner Praxis stehen.

Warum RAG zur Allgemeinbildung gehört

Wenn ich heute mit Kollegen über KI rede, kommen wir fast immer am selben Punkt zum Stehen. Die Diskussion dreht sich um das Modell. ChatGPT oder Claude. Open Source oder kommerziell. Welche Größe, welche Hardware, welche Stromrechnung. Das ist legitim, aber es ist die kleinere Hälfte der Wahrheit.

Die größere Hälfte ist die Frage: woher weiß die KI eigentlich, wovon sie redet?

Ein Sprachmodell hat ein abstraktes Allgemeinwissen aus seinem Training. Es weiß, wie deutsche Sätze gebaut sind, es weiß, was ein Vertrag ist, es weiß, dass §203 StGB die Verletzung von Privatgeheimnissen regelt. Was es nicht weiß, ist alles, was nach dem Training passiert ist. Und alles, was Deine Daten betrifft. Deine Mandanten, deine Patienten, deine Verträge, deine internen Vereinbarungen.

RAG ist die Brücke zwischen diesem Allgemeinwissen und deiner konkreten Wirklichkeit. Es ist die Antwort auf eine ganz einfache Frage: Wie kann eine KI auf etwas zugreifen, das nie Teil ihres Trainings war, ohne es zu lernen?

Diese Frage wird in den nächsten Jahren überall auftauchen, an der du nicht vorbeikommst:

Der Staatsanwalt, der einen Aktenberg auf Querverweise prüfen will
Der Richter, der in einem Schriftsatz nach allen Verweisen auf eine bestimmte Norm sucht
Der Hausarzt, der eine konkrete Leitlinie zitiert haben will, nicht eine Modellhalluzination
Der Steuerberater, der seine eigene Mandanten-Historie befragen will
Die Zeitung, die zwanzigtausend Seiten Beweismaterial durchforstet
Die Behörde, die Anfragen automatisch gegen den eigenen Aktenbestand abgleicht

In jedem dieser Fälle steckt eine Variante von RAG. Wer das Prinzip einmal verstanden hat, versteht für den Rest seines Berufslebens, was hinter der nächsten KI-Anwendung wirklich passiert. Wer es nicht versteht, glaubt jedem Anbieter alles, was er auf seiner Webseite verspricht.

Dass das Thema mittlerweile auch in den deutschen Behörden angekommen ist, sieht man an der Orientierungshilfe der Datenschutzkonferenz vom Oktober 2025, die sich auf 18 Seiten ausschließlich mit RAG-Systemen befasst. Das ist die dritte KI-Orientierungshilfe der DSK in achtzehn Monaten und die erste, die einer einzelnen Technik gewidmet ist. Wer sich für das Thema interessiert, sollte sie kennen.

Das ist der Grund, warum dieser Beitrag mehr sein will als reine Werkzeugkunde. RAG ist keine Technik-Spezialität mehr. Es ist Allgemeinbildung für das nächste Jahrzehnt.

🟢 Orientierung

Was RAG bedeutet, ohne Abkürzungen

RAG steht für Retrieval-Augmented Generation. Auf Deutsch: durch Abruf erweiterte Erzeugung. Was es heißt, ist einfach.

Stell dir einen erfahrenen Kollegen vor, der dir eine Frage beantwortet. Er kann das auf zwei Arten tun. Entweder er antwortet aus dem Gedächtnis, oder er schlägt vorher nach. Beim Antworten aus dem Gedächtnis ist er schnell, aber er kann sich irren, weil sein Gedächtnis allgemein ist und nicht auf deinen Fall zugeschnitten. Beim Nachschlagen ist er etwas langsamer, aber er kann auf konkrete Dokumente verweisen.

Eine KI ohne RAG arbeitet wie der Kollege aus dem Gedächtnis. Sie hat ihr Training, sie hat ein allgemeines Sprachverständnis, sie kann das vermischen und antworten. Was sie dabei nicht hat: Deine Mandantenakten, deine Praxisleitlinien, deine internen Handbücher.

Eine KI mit RAG schlägt nach. Vor jeder Antwort sucht sie in deinen eigenen Dokumenten nach Stellen, die zur Frage passen. Sie liest diese Stellen, und erst dann formuliert sie ihre Antwort. Die Daten bleiben dabei in deinem System. Die KI sieht sie nur kurz, im Moment der Antwort, und nimmt nichts davon dauerhaft mit.

💡 Was bedeutet das praktisch?

Eine RAG-fähige lokale KI kann deine Mandantenakten kennen, ohne sie auswendig zu lernen. Die Akten liegen in einer Datenbank auf deinem Rechner. Die KI greift nur darauf zu, wenn sie eine Frage zu beantworten hat. Sobald die Antwort fertig ist, vergisst sie alles wieder.

Analogie aus dem Kanzleialltag: Es ist, als hätte deine Mitarbeiterin Zugriff auf den Aktenschrank, würde aber nichts auswendig lernen und nichts mit nach Hause nehmen. Du schlägt nach, antwortet, schließt den Schrank.

Warum dieser Schritt überhaupt nötig ist

Wenn die KI deine Dokumente nur kurz lesen soll, könnte man fragen: warum nicht einfach das ganze Dokument auf einmal vorlegen?

Antwort: Das geht nicht. Sprachmodelle haben ein begrenztes Aufnahmevermögen für einen einzelnen Vorgang, den sogenannten Kontext. Eine vollständige Mandantenakte mit dreihundert Seiten passt nicht hinein. Drei Millionen Dokumente schon gar nicht.

Selbst wenn die Akte hineinpasste: in dreihundert Seiten suchen, jedes Mal, für jede Frage, ist unwirtschaftlich. Die KI müsste das gesamte Dokument durchgehen, nur um den einen relevanten Absatz zu finden.

Die Lösung ist seit den frühen Datenbank-Systemen strukturell dieselbe: das Material wird zerlegt. Jeder Teil wird mit einem Index versehen. Bei einer Anfrage wird im Index gesucht, die relevanten Teile werden abgerufen, und nur die werden der KI vorgelegt.

Was früher ein Schlagwort-Index war, ist heute eine Vektor-Datenbank. Was früher eine Aktenseite war, ist heute ein Chunk. Die Architektur folgt demselben Muster.

Eine kurze Erinnerung an 1994

Eine kleine Versicherungsgesellschaft in Essen. Aktenkeller im Souterrain, neonbeleuchtet, kalt. Etwa vierzigtausend Schadensakten in Rollregalen. Die Sachbearbeiter sollten ähnliche Fälle wiederfinden können, wenn sie an einem neuen arbeiteten. Jemand musste das in Software übersetzen. Ich war damals dreiunddreißig, und ich bekam den Auftrag.

Wir haben mit Volltextsuche und Schlagwort-Indizes gearbeitet. Das war Stand der Technik, und es funktionierte. Die schwierige Frage war eine andere: nach welchen Einheiten suchen wir? Nach ganzen Akten? Nach einzelnen Seiten? Nach Abschnitten?

Das war das eigentliche Architektur-Problem. Wir haben Wochen damit verbracht. Und ich erinnere mich noch an den Moment, in dem mir klar wurde: die Qualität der Suche hängt fast vollständig davon ab, wie wir den Bestand vorher zerlegen.

Was die New York Times heute mit Millionen Dokumenten tut, ist im Prinzip dasselbe. Nur die Werkzeuge sind andere.

Was du jetzt tun musst

Nichts sofort.

Aber wenn du überlegst, eine KI in deinem Büro einzusetzen, ist beim Anbieter zu prüfen, wie die KI auf deine Dokumente zugreifen wird. Wenn die Antwort lautet „wir geben sie ins Modell“, ist Vorsicht geboten. Wenn die Antwort lautet „wir bauen ein RAG-System auf deinem Rechner, und die Dokumente bleiben lokal“, dann lohnt es sich, weiter nachzufragen.

Und genau das fragst du dann: nach welcher Strategie werden die Dokumente zerlegt? Und: wie werden die Zeitstempel behandelt? Wer beide Fragen beantworten kann, hat verstanden, was er tut.

🟡 Praxis

So wirkt sich Chunking auf eine echte Anfrage aus

Nehmen wir ein Beispiel aus einer Anwaltskanzlei.

Eine Akte umfasst dreihundertsiebzig Seiten. Schriftsätze, Anlagen, Korrespondenz mit dem Gegner, eine Stellungnahme des Sachverständigen, Auszüge aus dem Handelsregister, ein Vertragsentwurf mit handschriftlichen Anmerkungen aus einer früheren Verhandlung. Die Anwältin fragt ihre lokale KI: „Was hat der Sachverständige zum Verkehrswert der Immobilie gesagt?“

Eine gut konfigurierte RAG-Anwendung tut jetzt vier Dinge:

Sie wandelt die Frage in einen sogenannten Such-Vektor um. Das ist eine mathematische Darstellung der Bedeutung, nicht der Wörter. Eine Suche nach „Verkehrswert“ wird auch Stellen finden, an denen von „Marktwert“ oder „Schätzwert“ die Rede ist, selbst wenn das Wort „Verkehrswert“ dort nicht vorkommt.

Sie geht in den Bestand der vorbereiteten Chunks und sucht die Stücke, deren Bedeutung der Frage am nächsten kommt. Nicht das ganze Dokument. Nur die einzelnen Stücke.

Du legt diese Stücke dem Sprachmodell vor, zusammen mit der Frage.

Das Modell formuliert eine Antwort, in der es sich auf die abgerufenen Stellen stützt. Eine gut gebaute Anwendung markiert dabei, woher die Information stammt. „Laut Anlage K12, Seite 47, vom 15.03.2024, schätzt der Sachverständige den Verkehrswert auf 1.450.000 Euro.“

Das ist der Idealfall. Er funktioniert dann, wenn das Chunking ordentlich gemacht wurde und die Zeitstempel ordentlich erfasst sind.

Was schiefgeht, wenn das Chunking schlecht ist

Drei typische Fehler, die wir in der Praxis sehen.

Erstens: Die Chunks sind zu groß. Wenn jedes Stück hundert Seiten umfasst, ist die Suche zwar einfach, aber die KI bekommt zu viel irrelevanten Text vorgelegt. Sie verliert sich, sie zitiert die falsche Stelle, oder sie verwischt mehrere Informationen, die in dem großen Stück nebeneinander stehen.

Zweitens: Die Chunks sind zu klein. Wenn jedes Stück nur einen Satz lang ist, fehlt der Kontext. Die KI findet den Satz „Der Verkehrswert beträgt 1.450.000 Euro“, aber sie weiß nicht, ob sich das auf die strittige Immobilie bezieht oder auf eine andere, die im selben Schriftsatz erwähnt wurde.

Drittens: Die Chunks sind an falschen Stellen geschnitten. Wenn ein Stück mitten in einem Satz endet, geht Information verloren. Wenn es mitten in einer Aufzählung trennt, sieht die KI nur die halbe Liste. Wenn es eine juristische Begründung in zwei Teile schneidet, weiß die KI nur, dass etwas behauptet wird, nicht warum.

Das alles ist nicht hypothetisch. Wir haben in Beratungs-Projekten Anwendungen gesehen, bei denen die Antwortqualität allein durch eine andere Chunking-Strategie um schätzungsweise dreißig bis vierzig Prozent gestiegen ist. Das ist der Unterschied zwischen „die KI ist eine nette Spielerei“ und „die KI ist eine ernsthafte Hilfe im Tagesgeschäft“.

Was es ehrlich kostet

Eine kurze Einordnung, ohne Beschönigung.

Wenn du eine bestehende Dokumentensammlung in eine RAG-Anwendung überführst, fällt einmaliger Aufwand an. Die Dokumente müssen sortiert, gegebenenfalls aus dem PDF-Format extrahiert, geprüft, zerlegt und indexiert werden. Bei tausend Seiten Material rechnen wir grob mit einem halben bis ganzen Personentag, je nach Qualität der Ausgangsdokumente. Schlechte Scans mit Texterkennungs-Problemen verdoppeln das.

Im Betrieb ist der Aufwand niedrig. Neue Dokumente werden bei der Ablage automatisch indexiert. Die Suche selbst kostet auf einem ordentlich ausgestatteten Rechner Sekundenbruchteile.

✅ Praxis-Check

Bevor du weiterliest: nimm ein typisches Dokument aus deinem Bestand. Eine Mandantenakte, eine Patientenakte, einen Standardvertrag. Stell dir vor, du wärst eine KI, und du dürftest immer nur einen Absatz auf einmal sehen. An welcher Stelle in dem Dokument würdest du den Schnitt setzen? Und woher wüsstest du, in welchem Jahr dieser Absatz geschrieben wurde? Diese Übung zeigt, warum es bei RAG zwei Fragen gibt, nicht nur eine.

🔵 Tiefe: Fünf Strategien für das Zerschneiden

Wer mit der Architektur eines RAG-Systems zu tun hat, kommt um die Wahl einer Chunking-Strategie nicht herum. Es gibt nicht die eine richtige. Es gibt fünf wesentliche Ansätze, jeder mit Stärken, Schwächen und einem konkreten Einsatzgebiet.

1. Fixed-Size Chunking: der Standard

Das einfachste Verfahren. Der Text wird nach einer festen Anzahl Wörter oder Tokens zerlegt. Üblich sind Größen zwischen 256 und 1024 Tokens pro Chunk, also etwa eine halbe bis anderthalb DIN-A4-Seiten. Damit ein Stück nicht mitten im Satz beginnt, wird eine Überlappung definiert, ein sogenannter Overlap, oft zwischen zehn und zwanzig Prozent der Chunk-Größe.

Beispiel: Eine fünfundzwanzig Jahre alte E-Mail-Korrespondenz, die du archiviert hast. Tausende Nachrichten, ohne klare formale Struktur, manche zwei Zeilen lang, manche vier Bildschirmseiten. Fixed-Size ignoriert die Unregelmäßigkeit. Es schneidet stur nach Länge, mit Overlap, und produziert gleichmäßige Stücke, in denen die Suche dann zuverlässig nach Themen forschen kann.

Stärken: schnell, einfach zu implementieren, gleichmäßig in der Größe.

Schwächen: schneidet blind. Es nimmt keine Rücksicht auf Absätze, Kapitel oder logische Einheiten. Ein Vertragsparagraph kann in der Mitte zerteilt werden. Eine Aufzählung wird gespalten.

Geeignet für: unstrukturierte Texte, lange Korrespondenz, journalistische Inhalte, Mitschriften, Whisper-Transkripte von Beratungssitzungen.

Nicht geeignet für: Gesetzestexte, Verträge, strukturierte medizinische Befunde.

Fleet Navigator nutzt dieses Verfahren in der Grundkonfiguration mit 512 Tokens und 128 Tokens Overlap. Das ist ein guter Ausgangspunkt, aber für anspruchsvolle Dokumente reicht es nicht.

2. Recursive Chunking: der pragmatische Mittelweg

Hier wird nicht stumpf nach Tokens geschnitten, sondern hierarchisch. Erst wird versucht, an doppelten Zeilenumbrüchen zu trennen, also zwischen Absätzen. Wenn ein Absatz zu lang ist, wird er an einfachen Zeilenumbrüchen geteilt. Reicht das nicht, wird am Satzende getrennt. Erst als letztes Mittel wird mitten im Satz geschnitten.

Beispiel: Ein Schriftsatz mit fünfundzwanzig Seiten, gegliedert in Sachverhalt, Anträge, Begründung. Innerhalb der Begründung argumentiert die Anwältin in zusammenhängenden Absätzen. Recursive Chunking erkennt die Absatzgrenzen und schneidet bevorzugt zwischen Absätzen, nicht innerhalb. Das Ergebnis: jeder Chunk ist eine in sich abgeschlossene Argumentations-Einheit.

Stärken: respektiert die natürliche Struktur des Textes. Erzeugt Chunks, die in sich gedanklich abgeschlossen sind.

Schwächen: die Chunks sind unterschiedlich groß. Sehr lange Absätze produzieren immer noch unschöne Schnitte.

Geeignet für: Schriftsätze, Gutachten, Praxisberichte, Handbücher, Behörden-Schreiben.

Empfehlung: Wer von Fixed-Size auf etwas Besseres wechseln will, fängt hier an. Der Aufwand ist gering, der Qualitätssprung in vielen Anwendungen deutlich.

3. Dokument-spezifisches Chunking: die fachliche Lösung

Bei strukturierten Texten ist die natürliche Einheit oft schon vorgegeben. Bei Gesetzen ist es der Paragraph oder der Absatz. Bei Urteilen sind es die Randnummern. Bei medizinischen Befunden sind es die Abschnitte „Anamnese“, „Befund“, „Diagnose“, „Therapieempfehlung“. Bei Verträgen sind es die nummerierten Klauseln.

Beispiel: §433 BGB. Wer auf der Suche nach den Pflichten des Verkäufers ist, will Absatz 1 finden. Wer auf der Suche nach den Pflichten des Käufers ist, will Absatz 2 finden. Ein dokument-spezifisches Chunking erkennt die Paragraphen-Struktur und schneidet pro Absatz. Eine Suche nach „Übergabe des Kaufgegenstands“ findet exakt Absatz 1, ohne die Käuferpflichten daneben.

Stärken: die Chunks entsprechen den fachlich sinnvollen Einheiten. Eine Suche nach einer Klausel findet die ganze Klausel, nicht nur die Hälfte.

Schwächen: muss pro Dokumenttyp eingerichtet werden. Funktioniert nur, wenn die Dokumente sauber strukturiert sind. Schlechte Scans oder unstrukturierte Word-Dokumente machen das schwer.

Geeignet für: alles, was eine klare formale Struktur hat. Gesetze, Urteile, Verträge, ärztliche Befunde nach DIN-Norm, technische Dokumentation, Bilanzen mit Positions-Nummern.

In der Anwaltsdomäne ist das aus meiner Sicht die wichtigste Strategie. Ein Anwalt sucht nicht nach „irgendetwas im Schriftsatz“, er sucht nach einer konkreten Argumentation oder einer konkreten Klausel. Wer Recht in Fragmenten zerschneidet, baut eine schlechte Suche.

4. Semantic Chunking: die anspruchsvolle Variante

Statt nach Form zu schneiden, wird nach Bedeutung geschnitten. Das System liest den Text Satz für Satz, prüft die thematische Verwandtschaft aufeinanderfolgender Sätze, und setzt einen Schnitt dort, wo das Thema wechselt.

Beispiel: Ein dreißig Seiten langes Sachverständigen-Gutachten, in dem der Autor frei argumentiert, ohne klare Zwischenüberschriften. Er beginnt mit der Methodik, geht in die Untersuchung der Bausubstanz über, vergleicht mit Marktwerten, behandelt die Frage der Wertminderung, und schließt mit einer Empfehlung. Recursive Chunking würde nach Absätzen schneiden, oft mitten in einem Argumentationsstrang. Semantic Chunking erkennt den thematischen Übergang von „Methodik“ zu „Bausubstanz“ und setzt dort einen Schnitt, auch wenn der Autor keinen Absatzumbruch gemacht hat.

Stärken: die Chunks sind thematisch in sich geschlossen. Selbst bei unstrukturierten Texten entstehen sinnvolle Einheiten.

Schwächen: rechenintensiv, langsamer im Aufbau des Indexes, technisch anspruchsvoller. Die Schwelle für den Themenwechsel muss eingestellt werden, und die richtige Einstellung ist nicht trivial.

Geeignet für: unstrukturierte Texte mit komplexen Inhalten. Wissenschaftliche Artikel, lange Gutachten, narrative Berichte, Diskussionspapiere.

Nicht geeignet für: kurze, schon klar strukturierte Texte. Hier ist der Aufwand nicht gerechtfertigt.

5. Parent-Document Retrieval: Kontext zurückgeben

Das ist keine eigene Chunking-Strategie, sondern eine Ergänzung. Die Idee: kleine Chunks für die Suche, große Chunks für die Antwort.

Der Index wird mit feinen Chunks gebaut, damit die Suche präzise wird. Wenn ein Chunk getroffen wird, gibt das System aber nicht nur ihn an die KI weiter, sondern auch den Abschnitt, in dem er steht. So sieht die KI sowohl den genauen Fundort als auch den umgebenden Kontext.

Beispiel: Die New York Times sucht in den Epstein-Akten nach einer Erwähnung eines Treffens zwischen zwei bestimmten Personen. Der präzise Treffer ist ein einzelner Satz aus einer E-Mail. Aber der Reporter will mehr wissen: wer schrieb wem? In welcher Korrespondenzkette stand die E-Mail? Was wurde vorher und nachher geschrieben? Parent-Document Retrieval liefert genau das. Der gefundene Satz wird zusammen mit der vollständigen E-Mail und der umgebenden Konversation an das Modell übergeben. Treffergenauigkeit und Kontext sind kein Widerspruch mehr.

Stärken: vereint Präzision in der Suche mit Vollständigkeit in der Antwort.

Schwächen: etwas höherer Speicherbedarf, weil die Eltern-Abschnitte zusätzlich vorgehalten werden. Nicht jedes System unterstützt das von Haus aus.

Geeignet für: anspruchsvolle Anwendungen, in denen sowohl Trefferqualität als auch Antwortqualität zählen. Investigative Recherche, große Aktenbestände, Mandanten-Historien über viele Jahre. Aus meiner Sicht die fortgeschrittenste praktikable Variante für Berufsgeheimnisträger mit großem Bestand.

🔵 Tiefe: Die zeitliche Dimension

Die fünf Strategien beantworten eine räumliche Frage: Wo schneide ich? Es gibt eine zweite Frage, die mindestens so wichtig ist, und über die in der Chunking-Literatur erstaunlich selten gesprochen wird. Die zeitliche: wann gilt was?

Für viele Anwendungen ist das egal. Wer ein internes Handbuch durchsucht, will die aktuelle Fassung finden. Punkt.

Für andere Anwendungen ist das die entscheidende Frage. Und genau diese Anwendungen liegen in den Berufsgruppen, an die sich dieser Beitrag richtet.

Vier Berufsgruppen, vier Zeit-Probleme

Der Anwalt hat einen Vertrag aus 2018 zu beurteilen. Eine AGB-Klausel war damals nach §307 BGB möglicherweise zulässig. Heute wäre sie es nach neuerer Rechtsprechung vielleicht nicht mehr. Eine RAG-Anwendung, die nicht weiß, dass der Vertrag von 2018 stammt, liefert dem Anwalt die heutige Beurteilung. Die ist juristisch falsch. Der Vertrag wird nach der Rechtslage zum Vertragsschluss beurteilt.

Der Staatsanwalt und der Richter unterliegen dem Rückwirkungsverbot. Eine Tat wird nach dem Recht beurteilt, das zur Tatzeit galt, mit der Ausnahme des milderen Gesetzes. Wer eine Tat aus 2019 anklagt, muss die Strafvorschriften von 2019 anwenden, nicht die von 2026. Wer ein BGH-Urteil von 2010 in eine RAG-Anwendung einspeist, ohne den Geltungszeitraum zu erfassen, riskiert, dass das System es als gleichwertig mit einer Entscheidung von 2024 behandelt. Das ist es nicht. Die rechtliche Halbwertszeit von Urteilen kann beträchtlich sein.

Der Arzt muss eine Behandlung von 2017 nach dem damaligen medizinischen Standard beurteilen, nicht nach dem heutigen. Eine Leitlinie, die 2019 herausgegeben und 2023 überarbeitet wurde, hat zwei relevante Fassungen. Wer 2017 nach Leitlinie behandelt hat, kann nicht 2026 dafür haftbar gemacht werden, dass er die Fassung von 2023 nicht kannte. Ein RAG-System, das beide Fassungen ununterscheidbar im selben Topf hat, hilft dem Arzt nicht. Es schadet ihm möglicherweise.

Der Journalist in den Epstein-Akten fragt sich permanent: was wusste wer wann? Eine E-Mail von 2008 hat eine andere Bedeutung als dieselbe Aussage in einem Verhörprotokoll von 2019. Die Reporter der New York Times beschreiben, dass ihr Suchwerkzeug Zeitstempel automatisch verschlagwortet. Anders wäre die Recherche nicht zu führen.

Wie das im RAG-System gelöst wird

Vier Bausteine, die ein gut gebautes System leisten muss.

Metadaten an jedem Chunk. Jeder Chunk bekommt nicht nur seinen Inhalt, sondern auch Zeitstempel. Wann wurde das Dokument erstellt? Welchen Zeitraum beschreibt es? Welche Version ist es? Eine simple, aber oft vernachlässigte Disziplin. In der Forschung wird das als time-aware chunking oder temporal RAG diskutiert, mit Konzepten wie valid_at und expired_at als Zeitfenstern pro Chunk.

Versionierung statt Überschreiben. Wenn §307 BGB in der Fassung von 2002 anders aussah als in der Fassung von 2018, dann werden beide Fassungen indiziert, nicht eine durch die andere ersetzt. Jeder Chunk weiß, welche Fassung er ist und in welchem Zeitraum sie galt.

Zeitliche Filterung in der Abfrage. Die Anwältin kann ihrem System nicht nur sagen „such mir Stellen zu Haftungsbegrenzung“, sondern „such mir Stellen zu Haftungsbegrenzung, die im März 2018 anwendbar waren“. Ein modernes RAG-System versteht solche Filter und wendet sie vor der eigentlichen Bedeutungs-Suche an.

Zeitliche Konsistenzprüfung in der Antwort. Die KI sollte nicht eine Norm von 2018 mit einer Auslegung von 2024 vermischen, ohne das zu kennzeichnen. Gute Systeme verlangen vom Modell, in der Antwort die zeitliche Quelle anzugeben: „Nach §307 BGB in der Fassung von 2018 […]“. Das ist nicht nur Höflichkeit. Das ist Voraussetzung dafür, dass die Antwort überhaupt brauchbar ist.

Was passiert, wenn man die Zeit ignoriert

Eine kurze Geschichte aus einem realen Beratungs-Projekt, anonymisiert.

Eine mittelgroße Kanzlei hat über mehrere Jahre Schriftsätze, Urteile und Kommentare in eine RAG-Anwendung eingespeist. Die Strategie: dokument-spezifisches Chunking, vorbildlich umgesetzt. Die Zeitstempel: nicht erfasst. Niemand hatte daran gedacht.

Ein Anwalt fragt das System nach der Beurteilung einer Klausel in einem alten Vertrag. Das System findet den passenden Kommentar-Auszug und gibt eine klare Antwort. Der Anwalt zitiert die Antwort in einer Stellungnahme. Eine Woche später ruft der Gegner an, höflich aber bestimmt: die zitierte Auslegung sei seit drei Jahren überholt, in einem BGH-Urteil ausdrücklich aufgegeben.

Die Antwort des Systems war richtig, für 2019. Für 2024 war sie falsch. Das System hatte beide Fassungen indiziert, aber es hatte keinen Mechanismus, um sie auseinanderzuhalten. Es hat einfach die Stelle gefunden, die der Frage am ähnlichsten war.

Eine Neuindexierung mit Zeitstempeln und ein Update der Suchabfrage haben das Problem behoben. Der Aufwand war überschaubar, der Lerneffekt nicht.

Was du fragen solltest

Wenn du mit einem Anbieter sprichst, sind das die drei Fragen, die das Thema Zeit abdecken:

Werden Zeitstempel pro Dokument und pro Chunk erfasst und sind sie in Abfragen filterbar?
Können mehrere Versionen desselben Dokuments nebeneinander stehen, ohne dass eine die andere überschreibt?
Markiert das System in der Antwort, aus welchem Zeitraum die zitierten Quellen stammen?

Wer alle drei mit „Ja“ beantworten kann, hat ein RAG-System gebaut, das auch in juristischen, medizinischen und journalistischen Kontexten taugt. Wer eine der Fragen verneint oder ausweicht, baut ein System für interne Handbücher. Das ist auch legitim, aber es ist nicht dasselbe.

🔵 Tiefe: Welche Strategie für welchen Bestand?

Eine grobe Orientierung. Du ersetzt keine Beratung, aber sie hilft, die richtigen Fragen zu stellen.

Dokumenttyp	Empfohlene Strategie	Zeitstempel-Pflicht?
Mandantenakten gemischt	Recursive plus Parent-Document	Ja, pro Dokument
Gesetzestexte	Dokument-spezifisch (paragraphenweise)	Ja, pro Fassung
Verträge	Dokument-spezifisch (klauselweise)	Ja, Vertragsdatum
Medizinische Befunde	Dokument-spezifisch (sektionsweise)	Ja, Behandlungsdatum
Ärztliche Leitlinien	Recursive plus Parent-Document	Ja, pro Fassung
Schriftsätze, Gutachten	Recursive plus Parent-Document	Ja, Erstellungsdatum
Mandanten-Korrespondenz	Fixed-Size oder Recursive, kurze Chunks	Ja, E-Mail-Datum
Steuerliche Unterlagen	Dokument-spezifisch nach Belegart	Ja, Veranlagungsjahr
Interne Handbücher	Recursive	Optional
Allgemeine Texte	Fixed-Size mit Overlap	Optional
Investigative Bestände	Parent-Document mit feinen Such-Chunks	Ja, je nach Quelle

⚖️ Rechtlicher Hinweis

Auch eine technisch ausgereifte RAG-Anwendung entbindet nicht von der Verantwortung, das Ergebnis fachlich zu prüfen. Eine KI-Antwort über §203 StGB ist keine Rechtsberatung. Ein KI-Hinweis auf eine medizinische Leitlinie ersetzt nicht den ärztlichen Befund. Das ist keine technische Eigenschaft, das ist eine berufsrechtliche Realität. Die Reporter der New York Times sagen es klar: das Werkzeug ist ein Ausgangspunkt, nicht das Ende der Arbeit. Die DSK formuliert es im Grundsatz ähnlich in ihrer Orientierungshilfe vom Oktober 2025.

Aus der Praxis

Donnerstag, 16:00 Uhr. Eine Kanzlei in Bochum. Monika R. hat seit drei Wochen eine lokale KI in Betrieb, mit RAG auf ihren eigenen Mandantenakten. Du ruft Thomas K. an, der die Einrichtung begleitet hat.

Monika: „Thomas, ich habe zwei Probleme. Erstens findet die KI manche Sachen nicht. Letzte Woche habe ich nach einer Klausel zu Schadenersatz gesucht, die im Vertrag definitiv drin war, und sie hat behauptet, sie sei nicht im Bestand. Und zweitens habe ich gestern eine Auslegung zitiert bekommen, die wohl überholt war. Der Mandant hat das gemerkt, ich nicht.“

Thomas: „Zwei verschiedene Probleme. Fangen wir mit dem ersten an. Welcher Vertrag, wie lang?“

Monika: „Achtundsiebzig Seiten. Maschinenbauvertrag, viele technische Anlagen.“

Thomas: „Hattest du im Setup-Assistenten eine Chunking-Strategie konfiguriert?“

Monika: „Standard. Was vorbelegt war.“

Thomas: „Dann läuft sie mit Fixed-Size, 512 Tokens. Bei einem so strukturierten Vertrag ist das nicht ideal. Die KI hat den Vertrag in gleich große Stücke geschnitten, ohne auf die Klauselgrenzen zu achten. Wenn die Schadenersatz-Klausel zufällig auf zwei Chunks aufgeteilt war, sieht die KI in jedem Chunk nur die Hälfte und erkennt die Klausel nicht mehr als solche.“

Monika: „Und das zweite Problem?“

Thomas: „Das ist gravierender. Welche Auslegung war überholt?“

Monika: „Eine zur Haftung bei grober Fahrlässigkeit. Das System hat einen Kommentar zitiert, der aus 2018 stammte. Inzwischen hat der BGH das 2023 anders entschieden. Im Bestand sind beide Versionen, aber das System hat den älteren Kommentar als näher an der Frage eingestuft.“

Thomas: „Klassisches Zeit-Problem. Das System hat keine Information, welche Quelle wann gilt. Es nimmt einfach die Stelle, die der Bedeutung der Frage am nächsten ist. Bei juristischen Fragen ist das gefährlich.“

Monika: „Was tun?“

Thomas: „Zwei Sachen. Für den Vertrag schalten wir auf klauselweises Chunking um. Das System erkennt die Nummerierung und schneidet zwischen den Klauseln. Und für den juristischen Bestand führen wir Zeitstempel ein. Jeder Kommentar, jedes Urteil bekommt eine Geltungs-Information. Bei der Suche fragt das System dann nicht nur ‚was passt zur Frage‘, sondern auch ‚was war zum relevanten Zeitpunkt gültig‘.“

Monika: „Aufwendig?“

Thomas: „Die Neuindexierung der Verträge: zwei Stunden. Das Erfassen der Zeitstempel im juristischen Bestand: ein Tag, weil ein Mitarbeiter durch die Quellen gehen und die Geltungs-Zeiträume eintragen muss. Danach läuft es. Bei Mandatsbeginn gibst du dem System einfach das Vertragsdatum oder das Streit-Datum mit, und es filtert automatisch.“

Kurze Pause.

Monika: „Das ist beruhigend. Und ernüchternd. Ich dachte, die KI ist klüger, als sie ist.“

Thomas: „Die KI ist nicht klüger oder dümmer geworden. Was sich ändert, ist, wie wir ihr die Akten servieren. Sie ist ein guter Leser, aber sie braucht ordentlich geschnittene Portionen mit Zeitstempel drauf. Wenn ich dir einen Schinken auf den Teller lege und ich ihn vorher quer durch alle Knochen gehackt habe und obendrein nicht weiß, ob er aus 2019 oder 2024 ist, hast du auch ein Problem.“

Monika: „Verstanden. Ich rufe dich an, wenn beides läuft.“

Häufige Fragen

Wie groß sollte ein Chunk sein?

Es gibt keine universell richtige Antwort. Für allgemeine Texte liegen wir meist bei 512 bis 1024 Tokens, das sind etwa drei- bis sechshundert Wörter. Für strukturierte Dokumente wird die Größe vom Dokument bestimmt: ein Paragraph ist so groß, wie er ist. Wichtiger als die genaue Größe ist die Konsistenz innerhalb eines Bestandes.

Was kostet eine Neuindexierung von tausend Dokumenten?

An Rechenzeit auf einem ordentlich ausgestatteten Bürorechner: zwischen einer und vier Stunden, je nach Dokumentengröße und Embedding-Modell. An menschlichem Aufwand für die Konfiguration einer neuen Strategie und die Qualitätskontrolle danach: ein halber bis ganzer Beratertag. Das ist überschaubar.

Mein Bestand hat keine sauberen Datums-Metadaten. Was tun?

Das ist der häufigste Fall. Drei Vorgehensweisen, die sich kombinieren lassen. Erstens: bei der Indexierung das Datum aus dem Dateinamen oder dem Dokumenten-Header extrahieren. Funktioniert oft besser als gedacht. Zweitens: bei klar strukturierten Dokumenten (Schriftsätze, Verträge) das Datum aus dem Text selbst extrahieren. Drittens: für historische Bestände ein einmaliger manueller Durchgang mit einem Hilfskraft-Mitarbeiter. Für tausend Dokumente sind das ein bis drei Tage. Schmerzhaft, einmalig, danach erledigt.

Können Mandanten mitbekommen, dass ihre Akten in einem RAG-System sind?

Aus DSGVO-Sicht ist das eine Verarbeitung personenbezogener Daten. Die DSK behandelt das ausdrücklich in ihrer Orientierungshilfe zu RAG-Systemen. Du musst die Verarbeitung in deinem Verzeichnis von Verarbeitungstätigkeiten dokumentieren und gegebenenfalls in deiner Datenschutzerklärung erwähnen. Bei rein lokal betriebenen Systemen ohne externen Dienstleister ist die Hürde niedriger, weil keine Übermittlung an Dritte stattfindet. Eine konkrete rechtliche Bewertung gehört in eine Rechtsberatung.

Was ist der Unterschied zwischen RAG und „die KI hat gelernt“?

Ein Sprachmodell „lernt“ während seines Trainings. Dabei werden die Gewichte des Modells angepasst, und die Trainingsdaten werden auf eine sehr abstrakte Weise im Modell gespeichert. Bei RAG passiert das nicht. Die Dokumente werden in einer separaten Datenbank gehalten, das Modell selbst bleibt unverändert. Es liest die Dokumente nur im Moment der Antwort, und es vergisst sie wieder, sobald die Antwort generiert ist.

Was kann RAG nicht?

Das ist die wichtige Frage. RAG kann eine ganze Reihe von Dingen nicht.

Es kann nicht zuverlässig logisch schließen über viele Dokumente hinweg. Wenn die Antwort auf eine Frage nur dadurch entsteht, dass man Information aus Dokument A mit Information aus Dokument B verbindet, kommt RAG an seine Grenzen. Es findet beide Stellen, aber die Synthese ist nicht garantiert. Genau deshalb betonen die Reporter der New York Times, dass das Werkzeug für sie ein Ausgangspunkt ist, kein Endpunkt.

Es kann nicht rechnen. Wenn die KI in einer Bilanz nach einer Summe sucht, die nicht ausdrücklich dort steht, sondern berechnet werden müsste, wird sie sich oft irren.

Es kann nicht „den Bestand kennen“. Es kann nur antworten, was es in einer einzelnen Suche findet. Eine Frage wie „Wie viele meiner Mandanten kommen aus Essen?“ beantwortet RAG nicht zuverlässig, weil es keine Aggregation über den gesamten Bestand vornimmt.

Es entscheidet nicht selbst, was zeitlich relevant ist. Ohne sauber gepflegte Zeitstempel mischt es Quellen aus verschiedenen Epochen, ohne das zu kennzeichnen. Das kann gravierende Folgen haben, wie das Beispiel mit der überholten Auslegung zeigt.

Und es kann Fehler in den Quellen nicht erkennen. Wenn in einer alten Akte ein falsches Datum steht, wird RAG dieses falsche Datum brav zitieren. Eine KI prüft die Korrektheit ihrer Quellen nicht.

Wer das weiß, kann sinnvoll mit RAG arbeiten. Wer das nicht weiß, baut Erwartungen auf, die enttäuscht werden müssen.

Deine Checkliste

Das kannst du heute noch tun:

[ ] Nimm einen typischen Vertrag aus deinem Bestand und prüfe, wie er gegliedert ist. Hat er nummerierte Klauseln? Klare Abschnitte? Trägt er ein klares Datum?
[ ] Frag deinen IT-Dienstleister oder deinen geplanten Anbieter: „Welche Chunking-Strategie nutzt euer RAG-System, ist sie pro Dokumenttyp konfigurierbar, und wie geht ihr mit Zeitstempeln um?“
[ ] Notiere die zwei oder drei häufigsten Suchabfragen, die du an deinen Bestand hättest. An diesen Beispielen lässt sich die Qualität eines RAG-Systems später konkret messen.

Das solltest du in den nächsten 30 Tagen angehen:

[ ] Sortiere deinen Dokumentenbestand nach Strukturtypen. Verträge separat. Schriftsätze separat. Allgemeine Korrespondenz separat. Diese Sortierung erspart später viel Konfigurationsaufwand.
[ ] Prüfe, ob deine Dokumente einheitlich datiert sind. Wenn Datums-Information fehlt, plane einen Aufräum-Tag ein.
[ ] Prüfe deine Datenschutzdokumentation: ist eine Verarbeitung durch RAG-Systeme abgedeckt, oder muss sie ergänzt werden? Die DSK-Orientierungshilfe ist hier eine gute Lektüre.

Das ist langfristig relevant:

[ ] Plane ein, wie du die Qualität eines RAG-Systems regelmäßig prüfst. Eine Suche, die heute gut funktioniert, kann nach einem Update des Embedding-Modells anders abschneiden.
[ ] Überlege, wer in deinem Büro für die Pflege des Wissensbestandes zuständig wird, einschließlich der zeitlichen Pflege. Ohne klare Verantwortlichkeit veraltet jeder Index.

Weiterführende Ressourcen

Zum Epstein-Files-Beispiel

Ressource	Inhalt
Reuters Institute: Wie Redaktionen die Epstein-Akten bearbeiten	Überblick zu BBC, NYT, Guardian, Miami Herald, Bellingcat
Nieman Lab: NYT und die Epstein-Akten	Werkstattbericht zu den verwendeten Werkzeugen
Nieman Lab: AI-Powered Transparency Projects	Open-Source-Projekte und Tools für die Öffentlichkeit

Deutsche Datenschutzbehörden zu KI und RAG

Ressource	Inhalt
DSK: Orientierungshilfe zu RAG-Systemen (Oktober 2025)	18-Seiten-Papier, ausschließlich zu RAG. Kernlektüre.
DSK: Orientierungshilfe KI und Datenschutz (Mai 2024)	Erste umfassende Stellungnahme der DSK zu KI-Einsatz
DSK: Entwicklung und Betrieb von KI-Systemen	Technisch-organisatorische Maßnahmen
Pressemitteilung der DSK zur RAG-Orientierungshilfe	Kurzfassung der Position

Fachliche Vertiefung

Ressource	Inhalt
Lewis et al. (2020): Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks	Das Originalpaper, in dem RAG als Verfahren erstmals systematisch beschrieben wurde. NeurIPS 2020.
Cobus Greyling: Time-Aware RAG Chunks	Zugängliche Einführung in die Zeitdimension von RAG
Emergent Mind: Temporal Retrieval-Augmented Generation	Übersicht aktueller Forschungspaper zu Temporal RAG
LangChain: Text Splitters	Übersicht gängiger Chunking-Implementierungen, technisch
LlamaIndex: Node Parsers	Alternativ-Implementierung, ebenfalls technisch

Unsere verwandten Beiträge

Was lokale KI für deine Kanzlei wirklich kostet (folgt)
§203 StGB und KI: Eine architektonische Perspektive (folgt)
Wenn Daten den Standort wechseln: Warum „cloud“ ein juristischer Begriff ist (folgt)

Was bleibt

Drei Beobachtungen am Ende dieses Beitrags.

Erstens. Die meisten Diskussionen über KI drehen sich um das Modell. Welches ist das beste, welches läuft auf welcher Hardware, wie groß muss der Speicher sein. Das ist verständlich, aber es greift zu kurz. Die Qualität einer RAG-Anwendung steht und fällt mit der Vorbereitung der Dokumente, nicht mit der Wahl des Modells. Ein mittelmäßiges Modell mit gutem Chunking schlägt ein gutes Modell mit schlechtem Chunking.

Zweitens. Was du heute über RAG lernst, gilt nicht nur für deine Kanzlei oder deine Praxis. Es ist das Grundmuster jeder ernsthaften KI-Anwendung, die mit deinen eigenen Daten arbeiten soll. Ob die New York Times Millionen Aktenseiten durchforstet oder ob eine kleine Notar-Kanzlei tausend Verträge zugänglich macht: das Verfahren ist dasselbe, der Maßstab ist anders. Wer das Prinzip kennt, kann jede neue KI-Anwendung schneller einordnen und richtige Fragen stellen.

Drittens. Räumlich schneiden ist die halbe Antwort. Zeitlich sortieren ist die andere. Wer eine RAG-Anwendung baut, in der Recht oder Medizin oder investigative Recherche stattfindet, baut zwei Indizes zugleich: einen, der weiß wo etwas steht, und einen, der weiß wann es galt. Wer nur den ersten baut, baut ein Werkzeug, das schneller schöne Antworten liefert. Aber nicht immer richtige.

Hast du Fragen zu deinem konkreten Bestand?

Unser Erstgespräch ist kostenfrei und unverbindlich. Wir schauen uns deine Dokumentenstruktur und deine zeitliche Pflege an und sagen ehrlich, was eine RAG-Lösung in deinem Büro leisten kann und was nicht.

📧 Franz-Martin.Herstell@fleet-data.de

Franz-Martin ist Mitgründer von Fleet Daten & Systems Consulting und seit über vier Jahrzehnten in der Software-Entwicklung. Er schreibt auf fleet-data.de über Sicherheit, Architektur und die Frage, was zivile Werkzeuge können müssen, um zu halten. Kontakt: kontakt@fleet-data.de ⛵

Juristen

Ärzte & Kliniken

Steuerberater

IT-Teams

Kleinunternehmer

Journalisten

Finanz- & Versicherungsberater

KI-Lösungen

KI-Features

Hardware

Andere Techniken

Deep Dive

Kontakt

Support

FAQ