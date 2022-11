Das Problem ist, dass die Arten von Daten, die normalerweise zum Trainieren von Sprachmodellen verwendet werden, in naher Zukunft aufgebraucht sein könnten – laut einem Papier von Forschern von Epoch, einer KI-Forschungs- und Prognoseorganisation, die noch nicht vergleichbar ist, bereits im Jahr 2026 überprüft. Das Problem ergibt sich aus der Tatsache, dass Forscher immer mehr Texte finden müssen, um sie zu trainieren, wenn sie leistungsfähigere Modelle mit größeren Fähigkeiten erstellen. Große Sprachmodellforscher sind zunehmend besorgt, dass ihnen diese Art von Daten ausgehen wird, sagt Teven Le Scao, ein Forscher der KI-Firma Hugging Face, der nicht an der Arbeit von Epoch beteiligt war.

Das Problem ergibt sich teilweise aus der Tatsache, dass Sprach-KI-Forscher die Daten, die sie zum Trainieren von Modellen verwenden, in zwei Kategorien filtern: hohe Qualität und niedrige Qualität. Die Grenze zwischen den beiden Kategorien kann verschwommen sein, sagt Pablo Villalobos, ein Mitarbeiter von Epoch und Hauptautor der Abhandlung, aber Texte aus ersterer werden als besser geschrieben angesehen und werden oft von professionellen Autoren verfasst.

Daten aus Kategorien geringer Qualität bestehen aus Texten wie Social-Media-Beiträgen oder Kommentaren auf Websites wie 4chan und sind weitaus zahlreicher als qualitativ hochwertige Daten. Forscher trainieren Modelle normalerweise nur mit Daten, die in die Kategorie hoher Qualität fallen, da dies die Art von Sprache ist, die die Modelle reproduzieren sollen. Dieser Ansatz hat zu einigen beeindruckenden Ergebnissen für große Sprachmodelle wie GPT-3 geführt.

Laut Swabha Swayamdipta, einer auf Datensatzqualität spezialisierten Professorin für maschinelles Lernen an der University of Southern California, bestünde eine Möglichkeit, diese Datenbeschränkungen zu überwinden, darin, neu zu bewerten, was als „niedrige“ und „hohe“ Qualität definiert wird. Wenn Datenknappheit KI-Forscher dazu drängt, vielfältigere Datensätze in den Trainingsprozess zu integrieren, wäre dies ein „Nettovorteil“ für Sprachmodelle, sagt Swayamdipta.

Forscher können auch Wege finden, die Lebensdauer von Daten zu verlängern, die zum Trainieren von Sprachmodellen verwendet werden. Derzeit werden große Sprachmodelle aufgrund von Leistungs- und Kostenbeschränkungen nur einmal mit denselben Daten trainiert. Aber es sei möglich, ein Modell mehrmals mit denselben Daten zu trainieren, sagt Swayamdipta.

Einige Forscher glauben, dass groß nicht gleich besser ist, wenn es um Sprachmodelle geht. Percy Liang, Informatikprofessor an der Stanford University, sagt, es gebe Hinweise darauf, dass die Effizienz von Modellen ihre Fähigkeiten verbessern und nicht nur ihre Größe erhöhen könne.

„Wir haben gesehen, wie kleinere Modelle, die mit Daten höherer Qualität trainiert wurden, größere Modelle übertreffen können, die mit Daten geringerer Qualität trainiert wurden“, erklärt er.