Künstliche Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere in Form von Sprachmodellen wie GPT, Gemini oder Llama und neueren Reasoning-Modellen wie beispielsweise OpenAI O1 oder DeepSeek R1. Diese beiden Kategorien von Modellen unterscheiden sich sowohl in ihrer Architektur als auch in ihren Einsatzbereichen. Dies hat Auswirkungen auf ihre Anwendung in spezifischen Domänen wie dem juristischen Bereich. Im Folgenden beleuchten wir die Unterschiede zwischen Reasoning-Modellen und herkömmlichen Sprachmodellen und zeigen auf, für welche Aufgabe welches Modell im juristischen Umfeld eingesetzt werden kann.

Normale Sprachmodelle: GPT-4o & co.
Normale Sprachmodelle wie GPT-4o basieren auf transformerbasierten Architekturen (vgl. dazu das Paper, mit dem diese Architektur vorgestellt wurde). Sie sind darauf trainiert, Sprache zu generieren und Muster in großen Textmengen zu erkennen. Sie zeichnen sich insbesondere durch ihre Fähigkeit aus, kontextuelle Informationen aus Texten zu verarbeiten und sprachlich kohärente Antworten zu generieren.
Vorteile
- Breites Wissen: Sprachmodelle wie GPT-4o verfügen über ein breites Allgemeinwissen, da sie auf riesigen Datensätzen trainiert wurden. Diese umfassen oftmals Datensätze wie den CommonCrawl, der das Internet indexiert.
- Sprachliche Flexibilität: Sie können Texte in unterschiedlichen Tonfällen und Formaten verfassen.
- Skalierbarkeit: Aufgrund ihrer breiten Anwendbarkeit können sie leicht in verschiedenen Szenarien eingesetzt werden, sei es bei der Dokumentenerstellung oder bei der Beantwortung einfacher juristischer Fragen.
Grenzen
Trotz ihrer Fähigkeiten haben normale Sprachmodelle auch Schwächen:
- Mangel an tiefem logischem Verständnis: Normale Sprachmodelle können in vielen Fällen keine tiefgreifenden logischen Schlussfolgerungen ziehen.
- Kontextuelle Grenzen: Bei komplexen juristischen Problemen, die mehrere Schritte logischer Argumentation erfordern, stoßen diese Modelle oft an ihre Grenzen.
- Faktenänderung: Sprachmodelle tendieren dazu, fehlerhafte oder veraltete Informationen zu generieren, wenn die zugrunde liegenden Daten ungenau sind.
Um diese Grenzen zu überwinden, werden „Agentic Workflows“ oder spezielle Techniken wie „Chain-of-Thought“-Prompting eingesetzt. Diese Methode erlaubt es Modellen, ihre Gedanken in mehreren logischen Schritten explizit darzulegen. Anstatt eine direkte Antwort zu generieren, bauen sie sukzessive aufeinanderfolgende Schrittabfolgen auf, die zu einem finalen Ergebnis führen. Dies ist besonders hilfreich bei komplexen Fragestellungen, da die Struktur des Denkprozesses dezidiert abgebildet werden kann.
Daneben kann das Modell auch mit entsprechenden Fakten gefüttert werden, bspw. durch Retrieval Augmented Generation (RAG). Bei RAG handelt es sich um eine Technik, bei der relevante Informationen aus externen Wissensdatenbanken oder Dokumenten abgerufen und mit den generierten Texten kombiniert werden. Dies erlaubt es dem Modell, nicht nur auf statisches Training angewiesen zu sein, sondern dynamisch aktuelle oder spezialisierte Informationen in die Antworten einfließen zu lassen.
Reasoning-Modelle: OpenAI O1, DeepSeek R1 & co.
Reasoning-Modelle wie OpenAI O1 oder DeepSeek R1 sind speziell darauf ausgelegt, logisches Denken und deduktive Schlussfolgerungen zu verbessern. Sie nutzen fortschrittliche Techniken, um explizit mehrstufige Argumentationen und komplexe Schlussfolgerungen zu unterstützen. Diese Modelle integrieren bereits selbst Mechanismen wie „Chain-of-Thought"-Prozesse oder explizite symbolische Repräsentationen, die eine strukturierte Verarbeitung von Informationen ermöglichen oder greifen gar auf Programmierumgebungen als Tools oder Speichermöglichkeit zurück. Im Hintergrund arbeitet jedoch auch hier ein Sprachmodell.
Vorteile
- Tieferes Verständnis: Reasoning-Modelle sind darauf ausgelegt, logische und kausale Zusammenhänge besser zu erfassen.
- Komplexe Argumentation: Sie eignen sich hervorragend für Szenarien, in denen mehrstufige rechtliche Argumentationen notwendig sind, wie z. B. die Analyse von Argumenten oder das Lösen von juristischen Logikproblemen.
- Erklärbarkeit: Manche Reasoning-Modelle geben die Schritte ihrer Argumentation an, was sie im juristischen Kontext besonders wertvoll macht. Andere Modelle weisen bspw. nur eine Zusammenfassung aus und begründen dies etwa damit, dass die Think-Tokens auch gegen die Content-Policy verstoßen können und dennoch letztlich ein völlig harmloses Ergebnis erzeugt werden kann.
Grenzen
- Spezialisierung erforderlich: Reasoning-Modelle sind oft stark auf spezifische Anwendungsbereiche zugeschnitten und weniger flexibel als breitere Sprachmodelle.
- Datenintensiv: Sie benötigen qualitativ hochwertige und spezialisierte Trainingsdaten, was ihren Entwicklungsaufwand erhöht. Auch beim Erstellen der Antworten benötigen sie deutlich mehr Token, da der Denkprozess ebenfalls abgebildet werden muss.
- Rechenaufwand: Aufgrund ihrer komplexen Architekturen können sie deutlich mehr Rechenleistung erfordern.
Einsatz im juristischen Bereich
Normale Sprachmodelle wie GPT-4o können in einer Vielzahl von juristischen Kontexten eingesetzt werden, darunter:
- Verfassen von Standarddokumenten: Sie eignen sich hervorragend für die Erstellung von simplen Vertragsentwürfen, Schriftsätzen und anderen standardisierten Dokumenten.
- Automatisierte Bearbeitung: Bei einfachen juristischen Anfragen könnten sie schnelle und unkomplizierte Antworten liefern.
- Sprachverarbeitung: Sie können große Mengen an juristischen Texten analysieren und zusammenfassen bzw. aufbereiten (bspw. tabellarische Ansichten).
Reasoning-Modelle hingegen sind ideal für komplexere juristische Aufgaben geeignet, sollten jedoch nicht in allen Kontexten eingesetzt werden. Ihr wahres Potenzial entfalten sie insbesondere in folgenden Szenarien:
- Analyse von Entscheidungen: Sie können helfen, juristische Entscheidungen zu analysieren und logische Schlüsse aus ähnlichen Fällen zu ziehen, wobei komplexe logische Zusammenhänge deutlich werden.
- Mehrschrittige Argumentation: Bei komplexen Rechtsstreitigkeiten, die eine Vielzahl von Argumenten und logischen Verknüpfungen erfordern, bieten Reasoning-Modelle einen entscheidenden Vorteil.
- Unterstützung bei der Entscheidungsfindung: Sie können Richter:innen und Anwält:innen dabei helfen, rechtliche Szenarien zu simulieren und potenzielle Ergebnisse zu analysieren.
Wegen ihrer Spezialisierung und ihres hohen Rechenaufwands sollten Reasoning-Modelle jedoch nur dann zum Einsatz kommen, wenn die Aufgabe eine tiefgehende logische Analyse wirklich erfordert.
Gleichzeitig gilt es jedoch auch zu bedenken, dass die eigene Steuerungsfähigkeit bei Reasoning-Modellen etwas eingeschränkter ist. Für den eigenen Workflow, bei dem klar ist, welche Aufgabe das Modell erledigen soll, könnten sich daher klassische Sprachmodelle besser eignen.
Praktische Anwendungstipps für Reasoning-Modelle
Für Jurist:innen, die Reasoning-Modelle in ihre Praxis integrieren möchten und bereits Erfahrung mit dem Prompt-Engineering normaler LLM’s haben, ist es wichtig zu wissen, dass Reasoning-Modelle anders gepromptet werden als klassische Modelle. Hier einige bewährte Praktiken:
- Einfachheit ist entscheidend: Halten Sie Anweisungen knapp und direkt. Reasoning-Modelle arbeiten optimal, wenn sie mit klaren Aufgaben ohne unnötige Komplexität konfrontiert werden.
- Überflüssige Anweisungen vermeiden: Es ist nicht nötig, diesen Modellen zu sagen, sie sollen „Schritt für Schritt denken“. Ihr Design bewältigt interne Denkprozesse eigenständig.
- Verwenden Sie Delimiter (Trennzeichen) für mehr Klarheit: Nutzen Sie bspw. dreifache Anführungszeichen, um komplexe Anfragen klar zu definieren. Das hilft dem Modell, die Eingaben genau zu verstehen und zu verarbeiten.
Fazit
Sowohl normale Sprachmodelle wie GPT-4o als auch spezialisierte Reasoning-Modelle wie O1 haben ihren Platz im juristischen Bereich, . Während Sprachmodelle durch ihre Vielseitigkeit und sprachliche Kompetenz überzeugen, punkten Reasoning-Modelle mit tiefem logischem Verständnis und der Fähigkeit zur mehrschrittigen Argumentation. Die Wahl des richtigen Modells hängt von der spezifischen Anwendung ab: Für standardisierte Aufgaben eignen sich normale Sprachmodelle, während Reasoning-Modelle besonders wertvoll bei komplexen rechtlichen Herausforderungen sind. Die Kombination beider Ansätze könnte in Zukunft zu noch leistungsfähigeren juristischen KI-Lösungen führen. Wenn dabei zusätzlich „Agents” zum Einsatz kommen, die beide Arten von Modellen mit externen Tools kombinieren, eröffnet dies ganz neue Möglichkeiten für die Workflow-Automatisierung und Effizienzsteigerung in juristischen Prozessen.

Christian Hartz
Christian Hartz ist seit 2019 Legal Engineer bei Wolters Kluwer Deutschland und seit 2023 im Legal & Regulatory Solution Advanced Technology Team der Digital eXperience Group verantwortlich für die globalen KI-Anforderungen und das Legal (Prompt) Engineering. Neben der Implementierung von Machine Learning und Künstlicher Intelligenz in Expertenlösungen und die Vermittlung von Wissen über die Anwendungsmöglichkeiten von Künstlicher Intelligenz in das Unternehmen ist sein Fokus die digitale Transformation des juristischen Arbeitsumfeldes. Darüber hinaus lehrt er an der Universität des Saarlandes und der Universität zu Köln im Bereich Strafrecht und Legal Tech.