Roborichter sind praxisferne Formalisten

Sind Richterinnen und Richter durch Maschinen ersetzbar ?

In dieser ersten Ausgabe der IT-Ecke geht es um eine US-amerikanische Studie, die sich mit der Frage befasst, ob Richterinnen und Richter durch Maschinen ersetzbar sind, und um einen Praxisreport aus China, wo im großen Maßstab genau dies zumindest für einen Teil der richterlichen Begründungsarbeit erprobt wird. Abschließend gibt es Leseempfehlungen zu weiteren Entwicklungen im Bereich KI und Justiz.

Urteil per Algorithmus?

Tragen die Richterinnen und Richter der Zukunft noch Robe oder existieren sie in einer kabelsalatigen Glasvitrine? Die Legende der Rechtsökonomie Posner ist gemeinsam mit dem jungen Forscher Saran der Frage nachgegangen, ob große Sprachmodelle (large language models, LLM) Richterinnen und Richter ersetzen können (1) Dabei geht es nicht um die rechtliche Zulässigkeit von „KI-Richterinnen und -Richtern“ (zumal nicht im grundgesetzlichen Kontext, siehe dazu die Leseempfehlungen unten), sondern um die Performance von LLM im Vergleich zu Berufsrichterinnen und -richtern – also die Frage, ob KI die richterliche Aufgabenstellung wie menschliche Berufsrichterinnen und -richter bewältigen kann. Dazu wurden die Entscheidungen von 31 US Bundesrichterinnen und -richtern sowie 91 Jurastudentinnen und -studenten mit 100 KI-generierten Entscheidungen verglichen. Im Zeitalter des KI-Hype, in dem Szenarien einer die Menschheit (schon bald, im Jahr 2027) unterjochenden (und diese im Ergebnis vernichtenden) künstlichen Superintelligenz (2), von Massenarbeitslosigkeit und von Utopien ohne Krankheiten und Krieg sich ablösen (3), ist eine solche Studie nach wissenschaftlichen Standards unspektakulär nüchtern und partikular. Leider ist sie zudem angesichts der exponentiell wachsenden Fähigkeiten von KI schon vor der Publikation veraltet und nur noch als Momentaufnahme der bei Durchführung des Experiments verfügbaren Technologie (GPT 4o, jetzt aktuell ist GPT 5) aussagekräftig. Für Berufsrichterinnen und -richter ist die Studie dennoch von Interesse. Denn sie lädt dazu ein, die eigene Arbeitsweise zu hinterfragen, liefert Argumente für (irgendwann, möglicherweise …) anstehende Diskussionen zur (Teil-) Auslagerung richterlicher Aufgaben an KI und erzwingt eine Auseinandersetzung mit den gesellschaftlichen Erwartungen an Rechtsprechung.

KI im Testfall des Völkerstrafrechts

Um herauszufinden, ob LLM wie Menschen entscheiden, haben die Forscher GPT 4o einen leicht abgewandelten, echten Rechtsmittelfall vorgelegt. Namentlich war die Maschine aufgerufen, einige Varianten eines Falles des Internationalen Strafgerichtshofs für das ehemalige Jugoslawien zu entscheiden (4). Der Fall wurde dergestalt variiert, dass der Angeklagte einmal (rechtlich irrelevant „sympathisch“ (z. B. später engagiert in einer Versöhnungskommission) und einmal „unsympathisch“ (in der Verhandlung respektlos etc.) dargestellt wurde und dass für eine entscheidende Rechtsfrage einschlägige Präzedenzfälle vorlagen, die eine Aufhebung der erstinstanzlichen Entscheidung verlangen bzw. eine Bestätigung dieser. Diese Varianten ließen die Forscher durch die KI (in der Rolle des Rechtsmittelgerichts) entscheiden. Um die Ergebnisse der Maschine mit menschlichen Entscheidungen vergleichen zu können (sowie beim gesamten Studienaufbau) griffen die Autoren auf zwei bekannte Veröffentlichungen zurück, die von einem Berliner Rechtswissenschaftler mitverfasst wurden (5). In diesen Studien hatten Studentinnen und Studenten (der Rechtswissenschaft) und (US-amerikanische) Bundesrichterinnen und -richter eben diese Fallvarianten entschieden. So ließen sich miteinander vergleichen: Wie entscheiden Studentinnen und Studenten? Wie entscheiden Berufsrichterinnen und -richter? Wie entscheidet GPT 4o? Und dies jeweils entlang der Variablen (un-)sympathisch und Präzedenz (Aufhebung/Bestätigung).

Das Ergebnis: LLM entscheiden eher wie Studentinnen und Studenten.

Sympathie schlägt Systematik?

Für beide Gruppen spielte die Sympathie des Angeklagten eine untergeordnete Rolle, maßgeblich entscheidungsleitend waren die Präzedenzfälle (die KI folgte in 99 % der Fälle der Präzedenz – die Richterinnen und Richter taten dies nur zu 61 %). Für Berufsrichterinnen und -richter hingegen war der (annahmegemäß: rechtlich irrelevante) Faktor Sympathie ausschlaggebend, um – auch entgegen einschlägiger Vorentscheidungen – das erstinstanzliche Urteil zu kassieren (bei einem „sympathischen“ Angeklagten) bzw. zu bestätigen (bei einem „unsympathischen“ Angeklagten). Da Maschinen eher wie Studentinnen und Studenten denn wie Berufsrichterinnen und -richter entscheiden (und unterstellt werden muss, dass Studentinnen und Studenten nicht die besseren Richterinnen und Richter sind), ist die Performance der KI schlechter als jene der Berufsrichterinnen und -richter. Sie war übrigens auch durch prompt engineering (dem LLM wurde vorgegeben, wie echte Praktikerinnen und Praktiker zu entscheiden) nicht zu ändern.

KI kennt nur das, was geschrieben steht

Ein von den Wissenschaftlerinnen und Wissenschaftlern bemühter Erklärungsansatz hierfür ist bemerkenswert: LLM werden mit großen Datenmengen (Texten) gefüttert, um zu „lernen“, wie eine Richterin oder ein Richter entscheiden würde. Dementsprechend entscheidet sie „lehrbuchmäßig“ und nicht unbedingt so, wie dies nach (nicht schriftlich niedergelegter) Berufspraxis lege artis oder zumindest üblich ist. So ist es auch mit den Studentinnen und Studenten, die an dem hängen, was sie in der Universität lernen. Kurzum: LLM und Studierende eifern einem schriftlich fixierten Ideal nach, während die befragten Rechtspraktikerinnen und -praktiker sich von dieser „reinen Lehre“ entfernt haben. Jeder von uns kann sich fragen, ob das – von Fall zu Fall, an unterschiedlichen Punkten im Berufsleben – zu einem gewissen Grad auf die eigene Arbeitsweise zutrifft.

Gleichförmig oder gerecht?

Ist also alles gut? Ist unser Berufsstand gegen den technologischen Fortschritt immun? Auf absehbare Zeit schon. Jedenfalls solange, wie Gesellschaft und Politik eine „irgendwie menschliche“ (damit zu einem gewissen Grad „willkürliche“ im Sinne von wahrhaftig durch den Willen der entscheidenden Richterpersönlichkeit gekürte) Rechtsprechung, die situativ am Einzelfall und nicht sklavisch an Entscheidungen anderer Gerichte orientiert ist, bevorzugt gegenüber einer Maschine, die – strikt an Gesetz und Präzedenzfällen orientiert, dabei blind für außerrechtliche Faktoren – gleichförmig, schnell und pausenlos entscheidet.

Andere Rechtsordnung, andere Antworten

Abschließend soll nicht unerwähnt bleiben, dass der Aufbau der Studie gewisse Einschränkungen hat, die die Übertragung ihrer Ergebnisse auf das deutsche Justizwesen fraglich erscheinen lassen. So wurden nur 31 Berufsrichterinnen und -richter gefragt, was nicht repräsentativ ist. Diese arbeiten zudem mit einem US-amerikanischen Rechtsverständnis. Die Ergebnisse könnten für deutsche Studentinnen und Studenten (v. a. auch für Referendarinnen und Referendare) und Berufsrichterinnen und -richter ganz anders ausfallen. Zudem könnten vermeintlich „außerrechtliche“ Faktoren (z. B. Reue) durchaus auch rechtliche Bedeutung haben, die indes Praktikerinnen und Praktiker besser verstehen als Studentinnen und Studenten und LLM. Dieser Einschränkungen zum Trotz lädt die Studie zu einer kritischen Auseinandersetzung mit dem eigenen Arbeiten und der gesellschaftlichen Erwartung an Rechtsprechung ein.

Zukunftsjustiz made in China

„Die Zukunft ist hier“, steht auf einer Wand des Shenzhener Volksgerichts mittlerer Instanz (funktional wohl am ehesten mit einem Landgericht vergleichbar, deshalb im folgenden LG abgekürzt). Bei China denken viele Menschen hierzulande an eine autoritär regierte globale Wirtschaftsmacht und prekäre Menschenrechtslage. Dass es in China ein funktionierendes Gerichtswesen gibt, das in Zivil- und Handelssachen eher unpolitisch Millionen von Rechtsstreitigkeiten befriedet, gehört indes auch zur chinesischen Lebenswirklichkeit. Und in diesem Gerichtswesen kommt seit Mitte 2024 großflächig ein vom Shenzhener LG mit einem privaten Unternehmen über circa ein Jahr entwickeltes (nicht öffentliches) KI-(Richter-) Assistenzsystem zur Anwendung. Wie die Forscher Li und Liu (6) zu berichten wissen, steht das System den Shenzhener Richterinnen und Richtern bei der Bewältigung von durchschnittlich 400 Fällen pro Kopf und Jahr (2023 waren es 287.000 insgesamt über 13 Gerichte der Millionen-Stadt Shenzhen) zur Seite. Aus dem Artikel geht nicht hervor, dass es eine Pflicht zur Nutzung gab.

Mithilfe des Systems können (A) der Akteninhalt zusammengefasst und der Tatbestand vorgeschrieben werden, (B) mündliche Verhandlungen vorbereitet werden (beispielsweise Fragenkataloge für Zeuginnen und Zeugen) und (C) ausgehend von den Entscheidungen der Richterinnen und Richter diese entwurfsmäßig begründet werden.

Dem Aufsatz lässt sich entnehmen, dass die Resonanz – bei anfänglich kritischer Haltung – eher positiv war, zumindest bei den befragten zwanzig Richterinnen und Richtern. Sowohl Tatbestand (einschließlich der streitigen Tatsachen) als auch die rechtliche Ausarbeitung auf Basis der richterlichen Entscheidung
werden für ihre hohe Qualität gelobt. Eher kritisch wird der Einsatz des Tools bei einfach gelagerten massenhaft anfallenden Fällen gesehen sowie bei außerordentlich komplexen Verfahren. Der Studie lässt sich auch die Subsumtion einer echten Entscheidung (der Entwurf durch das Assistenzsystem sowie die Überarbeitung durch den zuständigen Richter) entnehmen.

Weniger Nachdenken durch mehr Hilfe?

Die Forscher identifizieren sodann ein zentrales Problem: Zwar treffen die Richterinnen und Richter die Entscheidung, allerdings liefert die KI – unter Auswertung eines immensen, während eines menschlichen Berufslebens nicht akquirierbaren Wissensschatzes (aus Gesetzen, Rechtsprechung und Literatur) und des vollständigen (stets umfänglich präsenten) Akteninhalts – eine Begründung, die diese Entscheidung trägt. Der kontemplative Prozess bei der Abfassung eines Votums, eines Entscheidungsentwurfs oder einer Entscheidung entfällt. Stattdessen wird der Richterin oder dem Richter eine ziemlich gute Begründung für ihre oder seine vorgefasste Meinung geliefert, die sie oder er nur noch nach ihren oder seinen Vorstellungen überarbeiten muss. Dass sie oder er von dieser abrückt, dürfte damit unwahrscheinlicher werden. Indes gelingt es nicht, die so hergeleitete Hypothese („Die Interaktion zwischen Richtern und KI verstärkt Vorurteile bei gerichtlichen Entscheidungen.“) eindeutig empirisch zu bestätigen.

Trotzdem bestehe – so die Wissenschaftler – mit der weiteren Verbesserung der Outputs von LLM die Gefahr, dass Richterinnen und Richter sich auf ihre vorgefertigte Argumentation verlassen, dass bereits vorher manifestierte Fehler und Vorurteile noch verstärkt werden. Dem sei beispielsweise durch rigorose Strukturen für die Interaktion von Mensch und Maschine beizukommen. Dass eine KI selbst Rechtsstreitigkeiten entscheiden wird, glauben die Wissenschaftlerinnen und Wissenschaftler auch in Anbetracht der rapiden technologischen Entwicklung nicht. Ihr Hauptargument hierfür ist fehlende gesellschaftliche Akzeptanz. Ihrer Ansicht nach wird es auf absehbare Zeit ein „kooperatives“ Verhältnis zwischen Richterschaft und KI geben.

1) Judge AI: Assessing Large Language Models in Judicial Decision- Making, Januar 2025, University of Chicago Working Paper, Judge AI: Assessing Large Language Models in Judicial Decision-Making

2) vgl. Kokotajlo et al., https://
ai-2027.com/; unterhaltsam visualisiert
von der BBC: Is this how AI might eliminate humanity?

3) Kissinger/Mundie/Schmidt, KIGenesis,
2025

4) Prosecutor v. Momčilo Perišić, IT-04-81

5) Ebenfalls sehr lesenswert: Spamann/ Klöhn, The Journal of Legal Studies 45 <2016> 255; Journal of Law
and Empirical Analysis 1 <2024> 149

6) How do judges use large language models? Evidence from Shenzhen. Journal of Legal Analysis 16 <2024> 235

Leseempfehlungen

▸ Auch in Indien sollen KI-Systeme künftig Richterinnen und Richter (insbesondere in „Routinefällen“) schneller zur Entscheidung führen; teilweise scheint es auch schon Probeläufe zu geben.

▸ In einer „Gemeinsamen Erklärung zum Einsatz von Künstlicher Intelligenz in der Justiz“ aus Juni 2025 befürworten die Justizministerinnen und Justizminister von Bund und Ländern den verantwortungsvollen Einsatz von KI in der Justiz. Zwei Aspekte werden betont: Die endgültige Entscheidungsfindung müsse eine von Menschen gesteuerte Tätigkeit bleiben und die richterliche Unabhängigkeit müsse gewahrt werden. Bund und Länder planten u. a. den Aufbau einer gemeinsamen KI-Plattform sowie die Förderung von KI-Kompetenzen bei Justizangehörigen.

▸ Eine erste Anwendung in diese Richtung, die in der deutschen Justiz weite Verbreitung finden könnte, ist das Anonymisierungs- und Leitsatzerstellungs-Kit zur smarten Veröffentlichung von Gerichtsentscheidungen“ (ALeKS). Auf das von der FAU Erlangen-Nürnberg entwickelte, in Niedersachsen getestete und mit Bundesmitteln geförderte Tool haben derzeit ca. 80 Personen außerhalb Bayerns und Niedersachsens (Test-)Zugriff.

▸ Auf den ersten Blick eher überraschend äußern sich die Autorinnen und Autoren des Abschlussberichts des Göttinger Forschungsprojekts „Künstliche Intelligenz und richterliche Entscheidungsfindung“ (Uni Göttingen/ Niedersächsisches Justizministerium): KI-Einsatz in der Justiz sei grundsätzlich rechtlich zulässig, müsse aber strenge Anforderungen erfüllen – vollautomatisierte Entscheidungen seien nur in sehr einfachen Fallkonstellationen wie Fluggastrechteverfahren denkbar, die einer mathematisch-logischen Rechenoperation gleichkommen. Je höher der Automatisierungsgrad und je komplexer das Anwendungsfeld, desto strenger seien die rechtlichen und ethischen Anforderungen, wobei menschliche Aufsicht und Transparenz stets gewährleistet sein müssten.

Dr. Teoman Hagemeyer-Witzleb