Forschende des MIT demonstrierten einen voll integrierten photonischen Prozessor, der alle wichtigen Berechnungen eines tiefen neuronalen Netzwerks optisch auf dem Chip durchführen kann.

Forschende des MIT demonstrierten einen voll integrierten photonischen Prozessor, der alle wichtigen Berechnungen eines tiefen neuronalen Netzwerks optisch auf dem Chip durchführen kann. (Bild: iStock)

Warum ist der Energieverbrauch in der KI ein Problem?

Die Modelle des maschinellen Lernens antreiben, sind so groß und komplex geworden, dass sie an die Grenzen der herkömmlichen elektronischen Computerhardware stoßen. Ihr Training verschlingt riesige Mengen an Zeit, Daten und Energie. Das Training des Modells GPT-4 mit mehr als 1000 Milliarden Parametern verbrauchte in 100 Tagen rund 62,3 Millionen Kilowattstunden Strom, 48 Mal mehr als GPT-3.

Bleiben Sie informiert

Diese Themen interessieren Sie? Mit unserem Newsletter sind Sie immer auf dem Laufenden. Gleich anmelden!

Photonische Hardware, die Berechnungen für maschinelles Lernen mit Licht durchführen kann, ist eine schnellere und energieeffizientere Alternative. Es gibt aber auch einige Arten von Berechnungen in neuronalen Netzen, die ein photonisches Gerät bisher nicht durchführen konnte. Wissenschaftler des MIT (Massachussets Institute of Technology) und anderer Institute haben jetzt einen neuen photonischen Chip entwickelt, der die bisherigen Hindernisse überwindet. Sie haben einen komplett integrierten Photonik-Prozessor vorgestellt, der alle wichtigen Berechnungen eines tiefen neuronalen Netzes optisch auf dem Chip durchführen kann.

Ähnliche Leistung wie bei herkömmlicher Hardware

Das neuartige Gerät konnte die wichtigsten Berechnungen für eine Klassifizierungsaufgabe des maschinellen Lernens in weniger als einer halben Nanosekunde durchführen und dabei eine Genauigkeit von mehr als 92 Prozent erreichen. Das ist eine ähnliche Leistung wie bei herkömmlicher Hardware. Der Chip besteht aus miteinander verbundenen Modulen, die ein optisches neuronales Netzwerk bilden. Der Photonik-Chip wird mit kommerziellen Halbleiter-Fertigungsprozessen hergestellt. Das heißt, man kann die Technologie gut skalieren und in elektronische Systeme integrieren.

"Es gibt viele Fälle, in denen es nicht nur darauf ankommt, wie gut das Modell funktioniert, sondern auch darauf, wie schnell man eine Antwort erhält. Jetzt, da wir ein End-to-End-System haben, das ein optisches neuronales Netzwerk in einer Nanosekunden-Zeitskala ausführen kann, können wir anfangen, auf einer höheren Ebene über Anwendungen und Algorithmen nachzudenken", sagt Saumil Bandyopadhyay, Hauptautor eines Artikels über den neuen Chip.

Stichwort: Tiefe neuronale Netze

Tiefe neuronale Netze bestehen aus vielen miteinander verbundenen Schichten von Knoten oder Neuronen, die auf Eingabedaten reagieren, um eine Ausgabe zu erzeugen. Eine der wichtigsten Operationen in einem tiefen neuronalen Netz ist die Verwendung linearer Algebra zur Durchführung von Matrixmultiplikation, die Daten umwandelt, während sie von Schicht zu Schicht weitergegeben werden. Zusätzlich zu diesen linearen Operationen führen tiefe neuronale Netze jedoch auch nichtlineare Operationen durch, die dem Modell helfen, kompliziertere Muster zu lernen. Nichtlineare Operationen, wie etwa Aktivierungsfunktionen, verleihen tiefen neuronalen Netzen die Fähigkeit, komplexe Probleme zu lösen.

"Nichtlinearität in der Optik ist eine ziemliche Herausforderung, weil Photonen nicht so leicht miteinander wechselwirken. Das macht es sehr energieaufwendig, optische Nichtlinearitäten auszulösen. Deswegen ist es eine so große Herausforderung, ein System zu bauen, das dies auf skalierbare Weise tun kann", erklärt Bandyopadhyay. Die Forschenden meisterten diese Herausforderung durch die Entwicklung von Komponenten, die als nichtlineare optische Funktionseinheiten (NOFUs) bezeichnet werden und Elektronik und Optik kombinieren, um nichtlineare Operationen auf dem Chip zu implementieren. Die Forscher bauten damit ein optisches tiefes neuronales Netzwerk auf einem photonischen Chip mit drei Schichten, die sowohl lineare und nichtlineare Operationen durchführen.

Wie funktioniert der neue Photonik-Chip des MIT?

  • Zu Beginn kodiert das System die Parameter eines tiefen neuronalen Netzes in Licht.
  • Die Daten werden dann an programmierbare NOFUs weitergeleitet, die nichtlineare Funktionen implementieren, indem sie eine kleine Lichtmenge an Photodioden weiterleiten, die optische Signale in elektrischen Strom umwandeln.
  • Dieser Prozess, der einen externen Verstärker überflüssig macht, verbraucht sehr wenig Energie: "Wir bleiben die ganze Zeit im optischen Bereich, bis zum Ende, wenn wir die Antwort auslesen wollen. Dadurch können wir eine extrem niedrige Latenzzeit erreichen", sagt Bandyopadhyay.
  • Dank dieser niedrigen Latenzzeit konnten sie ein tiefes neuronales Netz auf dem Chip effizient trainieren, ein Prozess, der als In-situ-Training bekannt ist und bei digitaler Hardware normalerweise sehr viel Energie verbraucht.

Wie integriert sich der Chip in reale Anwendungen?

"Dies ist besonders nützlich für Systeme, in denen optische Signale in der Domäne verarbeitet werden, wie z. B. in der Navigation oder Telekommunikation, aber auch für Systeme, die in Echtzeit gelernt werden sollen", sagt Bandyopadhyay. Die Skalierung ihres Geräts und seine Integration in reale elektronische Systeme wie Kameras oder Telekommunikationssysteme wird ein wichtiger Schwerpunkt der zukünftigen Arbeit sein.

Sie möchten gerne weiterlesen?