Eine aktuelle Studie von Vals AI untersuchte die Leistungsfähigkeit von vier generativen KI-Tools im rechtlichen Kontext. Bewertet wurden sieben typische Aufgaben aus dem Büroalltag – darunter Dokumentenanalyse, Zusammenfassungen und Recherche. Die Ergebnisse zeigen: Bei den meisten Aufgaben schnitten die eingesetzten KI-Tools besser ab als die Vergleichsgruppe der Anwälte.
Die Studie basiert auf einem Datensatz mit über 200 Rechtsfragen, der von acht US-Anwaltskanzleien bereitgestellt wurde, nämlich Reed Smith, Fisher Philips, McDermott Will & Emery, Ogletree Deakins, Paul Hastings und Paul Weiss. Zu den vier im Juli 2025 getesteten KI-Produkten gehörten: Alexi, Counsel Stack, Midpage und OpenAI.
Die KI konkurrierte mit Anwälten, die die gleichen Aufgaben ohne KI-Unterstützung erledigten. Die Studie analysierte die Antworten anhand von drei Kriterien: Genauigkeit, Überprüfbarkeit und Angemessenheit.
KI punktet mit Genauigkeit
Die wichtigsten Ergebnisse der Studie: Basierend auf der durchschnittlichen gewichteten Punktzahl (in Prozent) lagen alle KI-Produkte innerhalb von vier Prozentpunkten voneinander (74 %–78 %) und innerhalb von neun Punkten von der Vergleichsgruppe der Anwälte (69 %). Die legalen KI-Produkte erzielten insgesamt bessere Ergebnisse als nicht spezialisierte KI-Tools. Allerdings schnitten auch diese besser ab als die Anwälte – und zwar in allen drei Bewertungskategorien. Die besten Ergebnisse erzielte das Tool Counsel Stack, das in jeder Kategorie die höchste Punktzahl erzielte.
Die durchschnittliche Genauigkeit der KI-Produkte lag bei 80 %, während die Anwälte 71 % erreichten. Besonders auffällig: Die spezialisierten juristischen KI-Produkte (Alexi, Counsel Stack, Midpage) lagen nur geringfügig über dem allgemeinen KI-Tool ChatGPT.
Bei der Überprüfbarkeit – also der Qualität und Relevanz der Quellen – lagen die legalen KI-Produkte mit 76 % deutlich vor ChatGPT (70 %). Anwälte erreichten lediglich eine Bewertung von 68 %. Besonders erfolgreich waren hier die spezialisierten KI-Tools durch den Zugriff auf eigene Datenbanken.
In der Kategorie Angemessenheit, die die Mandantenfreundlichkeit und Verständlichkeit der Antworten prüfte, erreichten die juristischen KI-Produkte 70 %, ChatGPT 67 % und die Anwälte überraschenderweise nur 60 %.
Anwälte haben selten „Nullzahlen“
Bei 150 von 200 Fragen lagen die KI-Produkte vor der menschlichen Vergleichsgruppe. Der durchschnittliche Vorsprung betrug 31 Prozentpunkte. Lediglich bei vier von zehn Fragetypen lagen die Anwälte vorne. Dies galt insbesondere für Themen, die ein tieferes Kontextverständnis, komplexe multinationale Prüfungen und menschliches Urteilsvermögen erfordern. Hier betrug der Vorsprung der Anwälte durchschnittlich 9 Prozentpunkte.
Auch die Anwälte erhielten weniger Nullbewertungen. Counsel Stack hingegen gab auf vier Fragen keine Antwort, Midpage auf drei. Auch Alexi, Midpage und ChatGPT gaben auf mehrere Fragen an, dass sie keine passenden Quellen gefunden hätten.
Die Studie wurde von Vals AI mit Sitz in San Francisco durchgeführt. Das Unternehmen bezeichnet sich selbst als „unabhängige Plattform für die Weiterentwicklung und Zukunft generativer KI“. Vals AI wurde 2023 von den Stanford-Alumni Rayan Krishnan und Langston Nashold gegründet.
Redaktion beck-aktuell, Dr. Jannina Schäffer, 22. Oktober 2025.