
Ein neuer Algorithmus von ETH-Forschenden verbessert grosse Sprachmodelle (LLM) so, dass die ausgewählten Antworten genauer und relevanter sind. (Bild: Firman Dasmir; generiert mit KI - Stock.Adobe.com)
ChatGPT und Konsorten bringen uns mit der Treffsicherheit ihrer Antworten mal zum Staunen, aber auch immer wieder zum Zweifeln. Denn das große Problem der mächtigen KI-Antwortmaschinen (künstliche Intelligenz) ist, dass sie uns mit der gleichen Selbstverständlichkeit perfekte Antworten und offensichtlichen Nonsens präsentieren. Eine der großen Herausforderungen liegt darin, wie die den KI zugrundeliegenden großen Sprachmodelle (LLM) mit Unsicherheit umgehen. Es war bis dahin sehr schwierig zu beurteilen, ob die auf Textverarbeitung und -erzeugung ausgerichteten LLMs ihre Antworten auf einem soliden Datenfundament generieren oder ob sie sich auf unsicherem Daten-Boden bewegen.
Forschende vom Institut für maschinelles Lernen am Department für Informatik der ETH Zürich haben nun eine Methode entwickelt, mit der sich die Unsicherheit einer KI gezielt verringern lässt. "Unser Algorithmus kann das generelle Sprachmodell der KI gezielt mit zusätzlichen Daten aus dem jeweiligen Themenbereich einer Fragestellung anreichern. In Kombination mit der konkreten Frage können wir dann spezifisch jene Zusammenhänge aus den Tiefen des Modells und aus den Anreicherungsdaten hervorholen, aus denen sich mit großer Wahrscheinlichkeit eine korrekte Antwort generieren lässt", erklärt Jonas Hübotter von der Learning & Adaptive Systems Group, der die neue Methode im Rahmen seines Doktorats entwickelt hat.
In Kürze
- Der neue SIFT-Algorithmus von ETH-Informatikern verringert mithilfe von gezielt ausgesuchten und auf die Fragestellung spezialisierten Anreicherungsdaten laufend die Unsicherheit von KI-Antworten.
- Der Algorithmus erkennt dabei die Informationen, die einen Zusammenhang mit der Frage aufweisen und wählt gezielt diejenigen Daten für die KI-Verarbeitung aus, welche die Unsicherheit verringern und die Antworten verbessern.
- Von der Methode profitieren insbesondere Anwender, die ihre eigenen Spezial-Daten mit einem generellen KI-Modell kombinieren und die benötigte Rechenleistung reduzieren wollen.
KI mit spezifischen Daten anreichern
Die Methode eignet sich laut Andreas Krause, Leiter der Forschungsgruppe und Vorsteher des ETH AI Center, insbesondere für Unternehmen, Wissenschaftler oder andere Anwender, die eine generelle KI in einem Spezialgebiet nutzen wollen, das von den Trainingsdaten der KI nur teilweise oder gar nicht abgedeckt wurde.
Die Anwender können dafür zum Beispiel ihre lokal gespeicherten Daten in ein großes Sprachmodell (LLM) wie Llama einfließen lassen. Der sogenannte SIFT-Algorithmus (Selecting Informative data for Fine-Tuning) der ETH-Informatiker kann dann aus den zusätzlich zur Verfügung gestellten Daten gezielt diejenigen Informationen heraussuchen, die einen möglichst engen Zusammenhang mit der Fragestellung aufweisen.
Um zusammenhängende Informationen zu finden, nutzt der Algorithmus die Struktur anhand der die Sprachinformationen im Large Language Model (LLM) der KI angeordnet sind. Die Modelle teilen die Sprachinformationen ihrer Trainingsdaten in Wortteile auf. Die Bedeutungs- und die Verwendungsbeziehungen zwischen den Wortteilen werden dann als Verbindungspfeile – fachsprachlich Vektoren – in einem vieldimensionalen Raum angeordnet. Die bis zu mehreren tausend Dimensionen des Raums entstehen dabei aus den Beziehungsparametern, die das LLM während dem Training mit den generellen Daten selbständig identifiziert.
Winkel als Maß des Zusammenhangs
Beziehungs-Pfeile, die in diesem Vektorraum in die gleiche Richtung zeigen, weisen einen großen Zusammenhang auf. Je größer der Winkel zwischen zwei Vektoren ist, desto weniger haben zwei Informationseinheiten miteinander zu tun.
Der SIFT-Algorithmus der ETH-Forschenden nutzt nun die Richtung des Beziehungsvektors der Input-Anfrage (Prompt), um diejenigen Informationsbeziehungen zu identifizieren, die einen engen Zusammenhang mit der Frage aufweisen aber sich gleichzeitig inhaltlich ergänzen. "Der Winkel zwischen den Vektoren entspricht der inhaltlichen Relevanz und wir können anhand der Winkel gezielt diejenigen Daten auswählen, welche die Unsicherheit verringern", führt Hübotter aus.
Das bisher gebräuchlichste Vorgehen zur Auswahl der für die Antwort geeigneten Informationen, das sogenannte Nearest-Neighbor-Verfahren, tendiert demgegenüber dazu, vor allem vielfach vorhandene redundante Informationen anzusammeln. Der Unterschied zwischen den zwei Methoden wird am Beispiel eines Anfrage-Prompts deutlich, der aus mehreren Informationsteilen zusammengesetzt ist.
Für die Beantwortung der zweiteiligen Frage "Wie alt ist Roger Federer und wie viele Kinder hat er?" sieht das Nearest-Neighbor-Verfahren ähnliche Informationen wie "Roger Federer ist 43 Jahre alt" und "Roger Federers Geburtstag ist der 8. August 1981" als gleichermaßen relevant an. Informationen zu seinen Kindern, relevant für den zweiten Teil der Frage, fehlen mitunter. Sie werden von den in den Trainingsdaten der KI viel häufiger vorkommenden Geburtsdatumsinformationen überlagert. Der SIFT-Algorithmus berücksichtigt hingegen, inwieweit sich die einbezogenen Informationen ergänzen, deren Informationsvektoren also in unterschiedliche Richtung zeigen. Dadurch lassen sich relevante Informationen für beide Teilaspekte der Frage identifizieren.
Zuverlässigere Antworten mit viel kleineren Modellen
Die gezielte Informationsauswahl verbessert aber nicht nur die Antwortwortqualität. Sie lässt sich auch zur Verringerung des immer größer werdenden Rechenaufwands von KI-Anwendungen nutzen. Durch die indirekte Messung der Unsicherheit kann beispielsweise das Modell selbst entscheiden, wie viele Daten noch nötig sind, um eine hinreichend zuverlässige Antwort geben zu können. Der Rechenaufwand einer LLM lässt sich so systematisch an die Komplexität der Frage und die Verfügbarkeit relevanter Informationen anpassen
Da SIFT die Gewichtung der Pfeilrichtungen während der Datenauslese laufend dynamisch an seine Berechnungen adaptiert, wird zudem das angereicherte Modell im Verlauf der Nutzung immer zuverlässiger. Dieses sogenannte Training im Betrieb kann dazu genutzt werden, um mit kleineren Modellen die gleiche Output-Leistung zu erreichen. "In Tests mit Standard-Datensätzen haben wir mit einem SIFT-Tuning die besten aktuellen KI selbst mit bis zu 40-mal kleineren Modellen übertroffen», so Hübotter.
Zusätzliche Anwendungsmöglichkeiten des SIFT-Algorithmus eröffnen sich für die Bewertung von Daten, wie Krause ausführt: "Wir können nachverfolgen, welche der Anreicherungsdaten durch SIFT ausgewählt werden. Sie stehen in einem engen Zusammenhang mit der Fragestellung und sind darum in diesem Themenbereich überdurchschnittlich relevant. Dies könnte unter anderem in der Medizin genutzt werden, um beispielsweise zu untersuchen, welche Laboranalysen oder welche Messergebnisse bei einer spezifischen Diagnose bedeutsam sind, und welche weniger."