Künstliche Intelligenz: Einsatz und Risiken für die Rechtsbranche

Von Vera Kar und Kevin Wolf

Künstliche Intelligenz (KI), insbesondere „Generative AI” und „Language Models” sind derzeit viel diskutierte Themen. Mit Hilfe dieser Technologien werden schnelle und einfache Lösungen für alle Probleme versprochen. Begründet wird dies oft mit anekdotischer Evidenz und schnell berechneten Prozentzahlen. Eine tiefere logische Auseinandersetzung mit der Technologie oder sauber durchgeführte Statistiken bleiben dabei leider aus.

Adobe Stock/©ckybe

Das ist auch nicht verwunderlich, zumal diese Technologie für Nichttechniker selten leicht verständlich erklärt wird. In Anbetracht der immer größer werdenden Relevanz der Digitalisierung ist das aber fatal. Um dem entgegenzuwirken, soll in diesem Artikel der mysteriöse Schleier, der KI umgibt, gelüftet werden. Dabei wird erläutert, wie moderne Technologien, insbesondere Chatbots, mit der Rechtsbranche zusammenpassen.

Narrow Intelligence vs. General Intelligence

Auch wenn die Definition von Intelligenz umstritten ist, so beinhaltet sie meist die Fähigkeit, Muster zu erkennen. Darum geht es primär, wenn man über Künstliche Intelligenz spricht. Zeigt man z. B. einem Kind Bilder von Hunden und Katzen und sagt dabei: „Das ist eine Katze, das ist ein Hund” – so wird es früher oder später in der Lage sein, Hunde und Katzen selbstständig auseinanderzuhalten. Es hat die Muster erkannt, die einen Hund oder eine Katze optisch unterscheiden.

Bereits Ende des 20. Jahrhunderts wurden Konzepte entwickelt, wie auch ein Computer solche Mustererkennung selbstständig erlernen kann. Künstliche Intelligenz ist also nicht neu. Wieso schlägt sie erst jetzt so große Wellen? Das hängt insbesondere damit zusammen, dass KIs immer nur eine bestimmte Aufgabe lösen können (man nennt dies ‚Narrow Intelligence’). Wir Menschen sind nicht nur in der Lage, Tiere zu unterscheiden, sondern können ebenso in anderen Bereichen Muster erlernen und anwenden (man nennt dies ‚General Intelligence’). Eine solche KI, die gelernt hat Tiere zu erkennen, wird jedoch nicht Auto fahren können und umgekehrt.

Zudem stellen sich KIs alles andere als „intelligent“ beim Lernen einer Aufgabe an. Um beispielsweise Hunde von Katzen zu unterscheiden, braucht eine KI nicht nur eine Handvoll Beispiele, sondern mehr als Zehntausende! Und selbst dann hat sie noch nicht wirklich verstanden, was einen Hund ausmacht. Sie weiß lediglich, dass eine bestimmte Abfolge von Pixeln in Kombination mit einer anderen Abfolge von Pixeln die Wahrscheinlichkeit erhöht, dass es sich um einen Hund handelt. Welche Pixelkombinationen dabei eine Rolle spielen ist für den Entwickler oder die Entwicklerin nicht nachvollziehbar, da KIs sogenannte Black Boxen sind. Was in einer solchen Black Box passiert, hängt maßgeblich von den Trainingsdaten ab und kann vom Menschen nicht nachvollzogen werden. Es ist insbesondere unklar, welche Aspekte der Trainingsdaten zu einer Entscheidung beitragen.

Kurios: KI betrachtet Lineal als Indikator für Bösartigkeit von Muttermalen

Ein kurioses Beispiel: 2017 trainierten Wissenschaftlerinnen und Wissenschaftler eine KI, um gutartige Muttermale von bösartigen zu unterscheiden. Später fiel ihnen auf, dass ein Muttermal mit hoher Wahrscheinlichkeit als bösartig eingestuft wurde, wenn ein Lineal mit auf dem Foto zu sehen war. Das lag daran, dass bei den Trainingsdaten für die bösartigen Muttermale fast immer ein Lineal als Maßstab abgebildet war, bei den gutartigen jedoch nicht. Die KI hat also angenommen, dass das Lineal mit zu dem Muster gehört, das ein bösartiges Muttermal ausmacht. Diesen Fehler kann man übrigens am Quellcode nicht erkennen. Der Black Box-Charakter der KI sorgt dafür, dass man im Nachhinein nur vermuten kann, wieso eine KI ein bestimmtes Muster erkennt.

Bewerbungs-KI diskriminiert Frauen

Ein weiteres Beispiel: Zwischen 2014 und 2017 hat die Firma Amazon eine KI entwickelt, die Bewerbungsunterlagen scannt und gleichzeitig ermittelt, wie geeignet ein Bewerber oder eine Bewerberin für den Job ist. Die KI konnte am Ende aber nicht verwendet werden, da sich herausstellte, dass sie weibliche Bewerber deutlich schlechter einstufte als männliche. Das lässt sich vermutlich darauf zurückführen, dass die Firma als Trainingsdaten die Bewerbungen der zurückliegenden zehn Jahre verwendete, von denen überwiegend männliche Bewerber angenommen wurden.

Um zu verdeutlichen, dass es sich hierbei nicht um Einzelfälle handelt, sei auf eine KI verwiesen, die in den USA zur Beurteilung der Vergabe von Hypotheken eingesetzt wurde – hier hatten Menschen mit weißer Hautfarbe signifikant bessere Chancen.

ChatGPT: So funktioniert die Technik dahinter

Nachdem wir nun einen Überblick darüber haben, wie KIs funktionieren, schauen wir uns die Technik hinter ChatGPT an. Auch die hier zugrundeliegende KI ist der Kategorie ‚Narrow Intelligence’ zuzuordnen. Die Aufgabe, die ChatGPT als Beispiel lösen soll, ist vereinfacht formuliert folgende:

„Gegeben eines Chatverlaufs, generiere eine Antwort, die möglichst viel Zuspruch (Daumen nach oben) generiert.”

Als Trainingsdaten stehen hierfür große Teile aller vergangenen Konversationen des Internets zur Verfügung, sowie Wissensportale wie Wikipedia. Gerade dieses massive Datenvolumen macht den Erfolg dieser KI aus, sowie die dafür erforderliche Rechenpower, die man vorher schlichtweg nicht aufgebracht hat bzw. aufbringen konnte. Beim skeptischen Leser läuten jetzt vielleicht die Alarmglocken.

Was ist, wenn in einer Datenmenge, also den menschlichen Konversationen des Internets, eher die Antworten viel Zuspruch erhalten haben, die eine Randgruppe benachteiligen? Das ist kein abwegiger Gedanke, da vorherige Chatbots durchaus schnell zu rassistischen Aussagen neigten. ChatGPT hat einige Maßnahmen getroffen, um ein solches Verhalten nachträglich zu erkennen und zu korrigieren. Dieses Verhalten liegt also tatsächlich in der Natur des Bots, ihm wird lediglich der Mund verboten, wenn er dazu animiert würde, diskriminierende Aussagen zu machen. Aufgrund des Black-Box-Charakters kann aber nicht ausgeschlossen werden, dass dieses Verhalten manchmal unentdeckt bleibt, gerade wenn es sich subtil in einem komplexeren Kontext versteckt. Es gab auch schon erste Beispiele, in denen die Maßnahmen nicht gegriffen hatten.
Was ist, wenn eine faktisch korrekte Aussage wahrscheinlich keinen Zuspruch erhält, aber eine erfundene Falschaussage schon (Stichwort: Populismus)? Woher weiß die KI überhaupt, was eine faktisch korrekte Aussage ist? Der Trainingsprozess zielt ja keineswegs auf das logische Verknüpfen von Texten ab. Auch diese Gedanken sind nicht abwegig, die KI ist sogar bereits bekannt dafür, Inhalte zu erfinden und diese überzeugend wiederzugeben.

Warum der Einsatz von ChatGPT in der Fallbearbeitung wenig weiterhilft

Nach den obigen Erläuterungen sollte klar sein, dass die GPT-KIs gar nicht den Anspruch haben, ein Assistent für Fachwissen, insbesondere juristisches Fachwissen zu sein. Darüber hinaus ist ChatGPT nicht darauf trainiert, logisch konsistente Schlussfolgerungen zu ziehen. Diverse Untersuchungen ergaben auch, dass ChatGPT dabei schlecht abschneidet.

Es ist also durchaus zu befürchten, dass ChatGPT bei einer Argumentation beispielsweise ein Gesetz erfindet oder es falsch wiedergibt, sodass es in die Argumentation passt. Und das Schlimmste ist: Die Technologie ist nicht in der Lage, Quellen für ihre Aussagen zu nennen. Die Aussagen werden aufgrund stochastischer Wahrscheinlichkeiten getroffen, die nicht nachvollziehbar sind und für ein ganz anderes Ziel berechnet wurden, nämlich Zuspruch zu bekommen und nicht korrektes Fachwissen zu liefern. Was bringt eine juristische Aussage (oder generell eine Aussage im öffentlichen Diskurs), die sich nicht auf eine Quelle bezieht oder logischer Argumentation folgt?

Einige Unternehmen (beispielsweise Microsoft mit bing.com) haben angefangen, GPT mit einem eigenen Suchalgorithmus zu kombinieren und somit die KI Aussagen treffen zu lassen, die sich auf eigens recherchierte Quellen beziehen. Dadurch ist man immerhin in der Lage, die Quellen mit anzugeben. Dies setzt jedoch zwingend einen guten Suchalgorithmus für die durchsuchten Quellentexte voraus, den es beispielsweise für deutsche juristische Dokumente noch nicht gibt. Nehmen wir nun einige optimistische Annahmen genauer unter die Lupe:

1. „ChatGPT ist noch in seiner Anfangsphase, wenn das System ausgereifter ist, wird es besser funktionieren.”

Es ist sehr wichtig zu beachten, dass die von ChatGPT verwendete Technologie, , wie oben beschrieben eine Black Box ist. Es ist daher auch für alle zukünftigen Versionen unmöglich, nachzuvollziehen, worauf der Bot seine Argumentation stützt oder ob sie überhaupt stimmt, außer durch eigenes kritisches Hinterfragen und externe Recherche. Das wird sich für keine zukünftige Version ändern!

2. „Ist doch nicht so schlimm, dann werden die Chatbots eben nur in Supervision eines juristischen Experten oder einer juristischen Expertin eingesetzt."

Das ist unserer Ansicht nach eher Wunschdenken. Wenn ein Anwalt, der bis zum Ende der Woche noch 20 Fälle zu bearbeiten hat, um 21 Uhr im Büro sitzt, ist auch dieser geneigt, das Argument des Chatbots ohne weiteres Hinterfragen zu übernehmen, wenn es auf den ersten Blick plausibel klingt. Selbst wenn dies nicht der Fall ist, müsste der Jurist selbstständig recherchieren, da der Chatbot keine Quellen nennt. Es ist daher sinnvoll, erst einmal eine Technologie zu entwickeln, die dieses Problem löst

Schwächen einer KI fliegen manchmal erst Jahre später auf

Die versteckte Fragilität von KIs kann lange unentdeckt bleiben: Für das mit Schach vergleichbare Spiel „Go”, wurde von Google 2015 eine KI entwickelt, die 2016 die weltbesten Spieler geschlagen hat und zusammen mit anderen KIs als für den Mensch unbesiegbar galt – bis eine solche KI Ende 2022 von einem Amateur in 14 von 15 Spielen besiegt wurde. Wissenschaftlerinnen und Wissenschaftler fanden nämlich heraus, dass diese KI eine grundlegende Regel des Spiels überhaupt nicht verstanden hatte. Mit diesem Wissen war es möglich, die KI mit einem simplen Trick zu schlagen, der bei einem menschlichen Spieler niemals funktioniert hätte und den deshalb bis dahin niemand versucht hatte. Was bei einem Spiel harmlos ist, kann bei einer KI, die in einer kritischen Infrastruktur eingesetzt wird, langfristig ein erhebliches Sicherheitsrisiko darstellen.

Nach der Holzkutsche direkt das Space-Shuttle

Die Digitalisierung in der Rechtsbranche hinkt hinterher, das ist keine Frage. Während in anderen Bereichen bereits digitalisiert wurde und nun KIs eingesetzt werden, um moderne Techniken weiter auszubauen, verspricht man sich in der Rechtsbranche mittels KI das Rad zu überspringen und gleich das Hoverboard zu entwickeln, statt kleinschrittig Probleme mit einfacheren Lösungen zu verbessern – was jedoch leider notwendig sein wird.

Künstliche Intelligenz in der Kanzlei: KI verstehen und gewinnbringend einsetzen

Das Legal Tech-Magazin Spezial „Künstliche Intelligenz in Kanzleien“ erklärt, was sich hinter der Technik von ChatGPT und Co. verbirgt und in welchen Bereichen der Einsatz von Künstlicher Intelligenz in Kanzleien besonders vielversprechend ist.

Hier kostenlos herunterladen

Vera Kar

Vera Kar ist Studentin der Rechtswissenschaften. Aus ihrem Interesse an technologischen Innovationen und mathematischen Ansätzen heraus ist die Idee für das Projekt TecLex entstanden. TecLex ist ein EXISTgefördertes Projekt, das mithilfe von maschinellem Lernen und modernster Mathematik Rechtsprozesse optimiert, indem es Juristinnen und Juristen bei der Literaturrecherche zu (komplexen) Rechtsfragen unterstützt.

Kevin Wolf

Kevin Wolf hat 2018 den Studiengang M.Sc. Mathematik absolviert und 2022 seine Promotion im Bereich Quantenalgebra abgeschlossen. Nach seiner Promotion hat er die Technik-Firma comonoid gegründet und er ist einer der Mitgründer von TecLex. Kevin Wolf hat ein ausgeprägtes Wissen über algebraische und stochastische Strukturen und kann dadurch eine starke theoretische Kompetenz im Bereich KI aufweisen.