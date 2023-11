Google und Microsoft setzen darauf, dass der 27-jährige Stanford-Absolvent KI für eine Milliarde Nutzer zum Laufen bringt

(Bloomberg) – In ihrem Einzimmerhaus in einer ruhigen Straße in Agara, einem winzigen Dorf drei Stunden südwestlich von Bangalore, das von Reisfeldern und Erdnussfeldern gesäumt ist, sitzt Preethi P. auf einem Hocker neben einer Nähmaschine. Normalerweise würde sie Stunden damit verbringen, Kleidung auszubessern oder zu nähen, wobei sie für ihre Arbeit durchschnittlich weniger als 1 Dollar pro Tag verdient. An diesem Tag liest sie jedoch einen Satz in ihrer Muttersprache Kannada in eine App auf ihrem Telefon vor. Sie macht eine kurze Pause, dann liest sie einen weiteren.

Preethi, der, wie in der Region üblich, nur einen einzigen Namen trägt, gehört zu den 70 Arbeitern, die in Agara und den umliegenden Dörfern von einem Startup namens Karya angeheuert wurden, um Text-, Sprach- und Bilddaten in den Landessprachen Indiens zu sammeln. Sie ist Teil einer riesigen, unsichtbaren globalen Belegschaft – die in Ländern wie Indien, Kenia und den Philippinen tätig ist –, die die Daten sammelt und kennzeichnet, auf die sich KI-Chatbots und virtuelle Assistenten verlassen, um relevante Antworten zu generieren. Im Gegensatz zu vielen anderen Datenunternehmern wird Preethi jedoch für ihre Bemühungen gut bezahlt, zumindest nach lokalen Maßstäben.

Nach drei Tagen Arbeit mit Karya verdiente Preethi 4.500 Rupien (54 US-Dollar), mehr als das Vierfache des Betrags, den die 22-jährige Abiturientin normalerweise als Schneiderin in einem ganzen Monat verdient. Das Geld reichte aus, sagte sie, um die monatliche Rate eines Kredits abzubezahlen, den sie aufgenommen hatte, um die bröckelnden Lehmwände ihres Hauses teilweise zu reparieren, die sorgfältig mit bunten Saris geflickt wurden. „Ich brauche nur ein Telefon und das Internet.“

Karya wurde 2021 gegründet, noch vor dem Aufkommen von ChatGPT, aber der diesjährige Hype um generative KI hat die unstillbare Nachfrage der Technologieunternehmen nach Daten nur noch verstärkt. Laut Nasscom, dem Branchenverband der Technologiebranche des Landes, wird allein Indien bis 2030 voraussichtlich fast eine Million Datenannotationsarbeiter beschäftigen. Karya unterscheidet sich von anderen Datenanbietern dadurch, dass es seinen Auftragnehmern – meist Frauen und meist in ländlichen Gemeinden – das bis zu Zwanzigfache des geltenden Mindestlohns bietet, mit dem Versprechen, indischsprachige Daten von besserer Qualität zu produzieren, für deren Beschaffung Technologieunternehmen mehr bezahlen werden .

„Jedes Jahr geben große Technologieunternehmen Milliarden von Dollar aus, um Trainingsdaten für ihre KI- und maschinellen Lernmodelle zu sammeln“, sagte Manu Chopra, der 27-jährige Computeringenieur mit Stanford-Ausbildung hinter dem Startup, in einem Interview mit Bloomberg. „Schlechte Bezahlung für solche Arbeit ist ein Versagen der Branche.“

Wenn magere Löhne ein Scheitern der Branche sind, dann ist es eines, für dessen Entstehung das Silicon Valley eine gewisse Verantwortung trägt. Seit Jahren haben Technologieunternehmen Aufgaben wie Datenkennzeichnung und Inhaltsmoderation an günstigere Auftragnehmer im Ausland ausgelagert. Aber jetzt wenden sich einige der bekanntesten Namen des Silicon Valley an Karya, um eine der größten Herausforderungen für ihre KI-Produkte zu bewältigen: hochwertige Daten zu finden, um Tools zu entwickeln, die Milliarden potenzieller nicht englischsprachiger Benutzer besser bedienen können. Diese Partnerschaften könnten einen gewaltigen Wandel in der Wirtschaft der Datenbranche und in der Beziehung des Silicon Valley zu Datenanbietern bedeuten.

Microsoft Corp. hat Karya verwendet, um lokale Sprachdaten für seine KI-Produkte zu beziehen. Die Bill & Melinda Gates Foundation arbeitet mit Karya zusammen, um geschlechtsspezifische Vorurteile in Daten zu reduzieren, die in große Sprachmodelle einfließen, die Technologie, die KI-Chatbots zugrunde liegt. Und Google von Alphabet Inc. verlässt sich auf Karya und andere lokale Partner, um Sprachdaten in 85 indischen Distrikten zu sammeln. Google plant, auf jeden Bezirk zu expandieren, um die Mehrheitssprache oder den gesprochenen Dialekt einzubeziehen und ein generatives KI-Modell für 125 indische Sprachen zu entwickeln.

Viele KI-Dienste wurden überproportional mit englischsprachigen Internetdaten wie Artikeln, Büchern und Social-Media-Beiträgen entwickelt. Infolgedessen stellen diese KI-Modelle die Sprachenvielfalt für Internetnutzer in anderen Ländern schlecht dar, die schneller auf KI-gestützte Smartphones und Apps zugreifen, als sie Englisch lernen. Fast eine Milliarde dieser potenziellen Nutzer leben allein in Indien, da die Regierung auf die Einführung von KI-Tools in allen Bereichen vom Gesundheitswesen über Bildung bis hin zu Finanzdienstleistungen drängt.

„Indien ist das erste nicht-westliche Land, in dem wir dies tun, und wir testen Bard in neun indischen Sprachen“, sagte Manish Gupta, Leiter von Google Research in Indien, mit Blick auf den KI-Chatbot des Unternehmens. „Über 70 indische Sprachen, die jeweils von über einer Million Menschen gesprochen werden, hatten kein digitales Korpus. Das Problem ist so schwerwiegend.“

Gupta hat eine Liste von Problemen abgehakt, mit denen sich KI-Firmen befassen müssen, um Indiens Internetnutzern zu dienen: Nicht-englische Datensätze sind von erbärmlich schlechter Qualität; in Hindi und anderen indischen Sprachen liegen kaum Konversationsdaten vor; und digitalisierte Inhalte aus Büchern und Zeitungen in indischen Sprachen sind sehr begrenzt.

Bei der Verwendung für südasiatische Sprachen wurde festgestellt, dass einige große Sprachmodelle Wörter bilden und Schwierigkeiten mit der grundlegenden Grammatik haben. Es gibt auch Bedenken, dass diese KI-Dienste eine verzerrte Sicht auf andere Kulturen widerspiegeln könnten. Es ist von entscheidender Bedeutung, über eine breite Darstellung der Trainingsdaten zu verfügen, auch nicht englischsprachiger Daten, damit KI-Systeme „keine schädlichen Stereotypen aufrechterhalten, keine Hassreden erzeugen oder Fehlinformationen liefern“, sagte Mehran Sahami, Professor an der Informatikabteilung der Stanford University .

Karya, ein Social-Impact-Startup mit Hauptsitz in Bangalore, das durch Zuschüsse unterstützt wird, ist in der Lage, den Sprachpool zu erweitern, indem es sich gezielt an Arbeitnehmer in ländlichen Gebieten richtet, die sonst möglicherweise nicht für solche Aufgaben eingestellt würden. Karyas App kann ohne Internetzugang funktionieren und bietet Sprachunterstützung für Menschen mit eingeschränkten Lese- und Schreibkenntnissen. In Indien haben sich über 32.000 Crowdsourcing-Mitarbeiter bei der App angemeldet und 40 Millionen bezahlte digitale Aufgaben wie Bilderkennung, Konturausrichtung, Videoanmerkung und Sprachanmerkung erledigt.

Ziel ist für Chopra nicht nur die Verbesserung der Datenversorgung, sondern auch die Bekämpfung der Armut. Karyas Gründer wuchs in einem verarmten Viertel namens Shakur Basti in West-Delhi auf. Er erhielt ein Stipendium für ein Studium an einer Eliteschule, wo er gemobbt wurde, weil seine Klassenkameraden sagten, er „rieche schlecht“. Chopra landete in Stanford, um Informatik zu studieren, erkannte jedoch, dass er die Einstellung „Wie verdient man eine Milliarde Dollar“ hasste, die ihm dort begegnete.

Nach seinem Abschluss im Jahr 2017 begann er, sich seinem langjährigen Interesse zu widmen: dem Einsatz von Technologie zur Bekämpfung der Armut. „Es sind lediglich 1.500 US-Dollar an Ersparnissen erforderlich, um einen Inder für den Eintritt in die Mittelschicht zu qualifizieren“, sagte Chopra. „Aber es kann 200 Jahre dauern, bis die Verarmten dieses Sparniveau erreichen.“

Er erfuhr, dass Microsoft viel Geld für das Sammeln von Sprachdaten gezahlt hatte, wenn auch von schlechter Qualität, um seine KI-Systeme und Forschung zu versorgen. Im Jahr 2017 waren beispielsweise in Marathi, einer in Mumbai und der Region Westindien gesprochenen Sprache, zwar 1 Million Stunden digitalisierter gesprochener Daten verfügbar, jedoch nur 165 Stunden zum Kauf. Sein Startup hat seitdem 10.000 Stunden Marathi-Sprachdaten für die KI-Dienste von Microsoft zusammengestellt, die von Männern und Frauen aus fünf verschiedenen Regionen gelesen wurden.

„Technologieunternehmen wollen die Daten, den Akzent und alles“, sagte Chopra. „Sie husten, das wollen sie in der Sprache – es stellt natürliche Sprache dar.“ Saikat Guha, ein Forscher bei Microsoft Research India, der sich auf die Ethik der Datenerfassung konzentriert, sagte, er habe Karyas Inhalte auch für ein Projekt verwendet, um Menschen mit visuellen Fähigkeiten zu helfen Behinderungen bei der Arbeitssuche. „Die Qualität der Daten ist weitaus besser als bei jeder anderen Quelle, die ich verwendet habe“, sagte Guha. „Wenn man Arbeitnehmer fair bezahlt, investieren sie mehr in ihre Arbeit und das Endergebnis sind bessere Daten.“

Mittlerweile arbeiten über 30.000 junge Frauen mit Schulabschluss mit Karya zusammen, um für die Bill & Melinda Gates Foundation „geschlechtsbezogene“ Datensätze – etwa darüber, dass der Arzt oder Chef nicht immer ein Mann ist – in sechs indischen Sprachen zu sammeln. Es ist die größte derartige Anstrengung in indischen Sprachen und wird als Korpus für die Erstellung von Datensätzen dienen, um geschlechtsspezifische Vorurteile in LLMs zu reduzieren. Karya hört nicht bei Indien auf. Das Unternehmen sagte, es befinde sich in Gesprächen darüber, seine Plattform als Dienstleistung an Organisationen in Afrika und Südamerika zu verkaufen, die ähnliche Arbeiten durchführen würden.

Vorerst warten Frauen in Yelandur, einem anderen Dorf südwestlich von Bangalore, sehnsüchtig auf Karyas nächstes Projekt: die Transkription einer Kannada-Audioaufnahme. Unter ihnen ist Shambhavi S., 25, die ein paar tausend Rupien mit einem früheren Auftrag verdiente, während sie in der Stille ihres Zuhauses arbeitete, nachdem sie ihre Schwiegereltern mit dem Abendessen versorgt und ihre Kinder ins Bett gebracht hatte.

„Ich weiß nicht, was künstliche Intelligenz ist, ich habe noch nie davon gehört“, sagte Shambhavi. „Ich möchte Geld verdienen und meine Kinder ausbilden, damit sie lernen können, wie man damit umgeht.“ Melden Sie sich für den India Edition-Newsletter von Menaka Doshi an – ein Insider-Leitfaden zum aufstrebenden Wirtschaftskraftwerk und den Milliardären und Unternehmen, die hinter seinem Aufstieg stehen wöchentlich.

