Technologie

Ein Bot, der 70.000 Stunden Minecraft-Videos angeschaut hat, könnte das nächste große Ding der KI freischalten


Das Ergebnis ist ein Durchbruch für eine Technik, die als Nachahmungslernen bekannt ist, bei der neuronale Netze darauf trainiert werden, Aufgaben auszuführen, indem sie Menschen dabei zusehen, wie sie diese ausführen. Imitationslernen kann verwendet werden, um KI zu trainieren, Roboterarme zu steuern, Autos zu fahren oder auf Webseiten zu navigieren.

Es gibt eine riesige Menge an Videos online, die Menschen zeigen, die verschiedene Aufgaben erledigen. Durch die Erschließung dieser Ressource hoffen die Forscher, für das Nachahmungslernen zu tun, was GPT-3 für große Sprachmodelle getan hat. „In den letzten Jahren haben wir den Aufstieg dieses GPT-3-Paradigmas erlebt, bei dem erstaunliche Fähigkeiten von großen Modellen kommen, die auf riesigen Teilen des Internets trainiert wurden“, sagt Bowen Baker von OpenAI, einer der Teams hinter dem neuen Minecraft bot. „Ein großer Teil davon liegt daran, dass wir modellieren, was Menschen tun, wenn sie online gehen.“

Das Problem bei bestehenden Ansätzen zum Imitationslernen besteht darin, dass Videodemonstrationen bei jedem Schritt gekennzeichnet werden müssen: Durch Ausführen dieser Aktion wird dies geschehen, durch Ausführen dieser Aktion wird das geschehen und so weiter. Auf diese Weise von Hand zu kommentieren ist eine Menge Arbeit, und daher sind solche Datensätze in der Regel klein. Baker und seine Kollegen wollten einen Weg finden, die Millionen von Videos, die online verfügbar sind, in einen neuen Datensatz umzuwandeln.

Der Ansatz des Teams namens Video Pre-Training (VPT) umgeht den Engpass beim Imitationslernen, indem er ein anderes neuronales Netzwerk trainiert, Videos automatisch zu kennzeichnen. Sie stellten zunächst Crowdworker ein, um Minecraft zu spielen, und zeichneten ihre Tastatur- und Mausklicks neben dem Video von ihren Bildschirmen auf. Dies gab den Forschern 2000 Stunden kommentiertes Minecraft-Spiel, mit denen sie ein Modell trainierten, um Aktionen mit dem Ergebnis auf dem Bildschirm abzugleichen. Das Klicken einer Maustaste in einer bestimmten Situation lässt den Charakter zum Beispiel seine Axt schwingen.

Der nächste Schritt bestand darin, dieses Modell zu verwenden, um Aktionslabels für 70.000 Stunden unbeschriftetes Video aus dem Internet zu generieren und dann den Minecraft-Bot mit diesem größeren Datensatz zu trainieren.

„Video ist eine Trainingsressource mit viel Potenzial“, sagt Peter Stone, Executive Director von Sony AI America, der zuvor an Imitationslernen gearbeitet hat.

Schaltfläche "Zurück zum Anfang"