OpenAI steht in den Urheberrechtsstreitigkeiten bereits unter Druck, zahlreiche Klagen laufen. Nun erklärt ein ehemaliger Mitarbeiter einem Bericht zufolge New York Timesdass das KI-Start-up wissentlich urheberrechtlich geschütztes Material verwendet habe.
Der ehemalige Mitarbeiter ist Suchir Balaji, der fast vier Jahre als KI-Forscher bei OpenAI gearbeitet hat. Zu seinen Aufgaben gehörte das Sammeln und Organisieren der für die Entwicklung von ChatGPT erforderlichen Daten. Bevor der Chatbot im November 2022 veröffentlicht wurde, sagte er, es sei egal, ob Daten urheberrechtlich geschützt seien oder nicht. OpenAI nutzte alle Daten, die im Internet frei verfügbar waren.
Nahezu alle englischsprachigen Internettexte für GPT-4
Anfang 2022 begannen er und sein Team damit, Trainingsdaten für die GPT-4-Entwicklung zu sammeln. Darunter waren praktisch alle englischsprachigen Texte aus dem Internet. Für ihn ist dieser Ansatz kein Fair Use – das ist die Rechtsgrundlage, auf die sich KI-Entwickler wie OpenAI und Google stützen, um die Massendatenerfassung zu legitimieren.
Balaji selbst gibt an, dass er erst nach dem Start von ChatGPT ein Bewusstsein für Ungerechtigkeit entwickelt habe. Bisher war der Zugriff auf Modelle wie GPT-3 nur über die API möglich, doch mit dem Chatbot war es dann für jeden möglich, einfach und massiv Inhalte zu generieren. Für ihn war dies nicht mehr mit den gesetzlichen Anforderungen vereinbar. Er kam zu dem Schluss, dass OpenAI gegen das Urheberrecht verstößt und dass Technologien wie ChatGPT im Allgemeinen schädlich für das Internet sind. Im August dieses Jahres, so die New York Times OpenAI ist ebenfalls gegangen.
Die Vorwürfe sind nicht neu; Zahlreiche Schauspieler, Künstler und Rechteinhaber klagen. Wichtig ist an dieser Stelle, dass der Herausgeber der New York Times eines dieser Unternehmen ist. Der Vorwurf lautet, dass OpenAI unerlaubt Inhalte der Zeitung verwendet habe.
Negative Auswirkungen auf das Internet
Balaji skizziert in einem Blogbeitrag auch, welche negativen Folgen ChatGPT für das Internet hat. Ein Effekt ist, dass sowohl die Reichweite als auch die Anzahl der Nutzeranfragen auf Portalen wie Stack Overflow zurückgegangen sind. Stack Overflow richtet sich an Programmierer – das ist eine Berufsgruppe, die ChatGPT am häufigsten nutzt.
Da Benutzer jedoch einfach ChatGPT verwenden, leiden letztendlich die Anbieter, die die Daten ursprünglich erstellt haben. Der Chatbot untergräbt das Geschäftsmodell von Menschen, Unternehmen und Internetdiensten. „Dies ist für das Internet-Ökosystem als Ganzes nicht nachhaltig“, sagt Balaji New York Times.
Der Vorwurf ist nicht neu. Seit letztem Jahr wird darüber debattiert, ob KI das Internet, wie wir es kennen, zerstört. Die Kernbefürchtungen bestehen darin, dass Plattformen so stark mit KI-Inhalten überflutet werden, dass es sich einfach nicht mehr lohnt, qualitativ hochwertige Inhalte zu erstellen. Die Folge ist ein Absturz in den Status Quo, da die KI-Chatbots nicht in der Lage sind, neues Wissen zu generieren, sondern nur bekannte Inhalte immer wieder aufzuwärmen.
So viel zu den Sorgen. Allerdings räumt Balaji auch ein, dass auf Plattformen wie Reddit bisher keine Auswirkungen wie Reichweitenverluste spürbar seien. Dennoch hält er einen Rechtsverstoß für wahrscheinlich. OpenAI, Google und andere KI-Entwickler bestreiten dies unter Berufung auf die Fair-Use-Regeln. OpenAI wiederholte dieses Argument auf Nachfrage der New York Times.
Für Balaji ist das wenig plausibel. Schließlich wurden Urheberrechtsverträge mit Plattformen wie Stack Overflow, Reddit sowie Nachrichtenagenturen wie AP und Verlagen wie Axel Springer abgeschlossen. „Es ist unklar, warum diese Vereinbarungen unterzeichnet wurden, wenn das Training mit den Daten „fair use“ sei.“, sagt Balaji.