Forschende der Fakultät für Computer- und Kommunikationswissenschaften der Schweizer Hochschule EPFL haben eine groß angelegte Studie mit 50 Kursen durchgeführt, um die aktuelle Leistung von Large Language Models bei der Bewertung von Hochschulkursen zu messen. Die ausgewählten Kurse wurden aus 9 Bachelor-, Master- und Online-Programmen ausgewählt und decken ein breites Spektrum an MINT-Disziplinen ab, darunter Informatik, Mathematik, Biologie, Chemie, Physik und Materialwissenschaften.
„Ein großes Konsortium von Professoren, Dozenten und Assistenten der EPFL hat geholfen, den bisher größten Datensatz von Vorlesungsunterlagen, Bewertungen und Prüfungen zu sammeln, um eine breite Palette von Materialien für alle unsere Studiengänge zu erhalten“, erklärt Assistenzprofessor Antoine Bosselut, Leiter des Labors für natürliche Sprachverarbeitung (NLP) und Mitglied des AI-Zentrums der EPFL. „Diese Daten wurden in einem Format aufbereitet, das unserer Meinung nach der Art und Weise am nächsten kommt, wie die Studierenden diese Informationen tatsächlich an die Modelle weitergeben würden. Dann haben wir Antworten von den Modellen generiert und die Qualität der Antworten überprüft.
Wieviele Prüfungsfragen beantwortet ChatGPT richtig?
Die Forscher konzentrierten sich auf die Modelle GPT-3.5 und GPT-4 und verwendeten acht verschiedenePrompting-Strategien, um Antworten zu generieren. Mit den erzielten Ergebnissen aber hatten Bosselut und seine Mit-Forschenden absolut nicht gerechnet: Sie stellten fest, dass GPT-4 im Durchschnitt 65,8 % der Fragen richtig beantwortete und mit einer bestimmten Eingabeaufforderungsstrategie sogar 85,1 % der Fragen richtig beantworten konnte.
„Wir waren von den Ergebnissen überrascht, niemand hatte erwartet, dass die KI-Assistenten in so vielen Kursen einen so hohen Prozentsatz an richtigen Antworten erreichen würden“, sagte Anna Sotnikova, Wissenschaftlerin am NPL und Co-Autorin des Artikels.
Vorwissen nicht erforderlich, aber hilfreich
- Wichtig ist, dass die 65 % der Fragen mit der einfachsten Prompting-Strategie ohne Vorwissen richtig beantwortet wurden. "Das konnte jeder, auch ohne technisches Verständnis, mithilfe der KI-Assistenten erreichen", so Sotnikova.
- Mit etwas Fachwissen, wie es bei den Studenten typisch ist, war es möglich, eine Erfolgsquote von 85 % zu erreichen.
- Ein weiterer wichtiger Punkt bei der Entwicklung von KI-Assistenten ist, dass sie nicht schlechter, sondern nur besser werden. In der Studie, die vor einem Jahr abgeschlossen wurde, wurde ein einziges Modell für alle Fächer verwendet, das besonders große Probleme mit Mathematikfragen hatte. Mittlerweile gibt es spezielle Modelle für Mathematik.
Die Schlussfolgerung der Forscherinnen und Forscher ist, dass die Zahlen sogar noch höher wären, wenn die Studie heute wiederholt würde.
Lernprozesse abkürzen birgt Risiken
Die Ergebnisse der Studie werfen nach Ansicht der Forschenden klare Fragen darüber auf, wie sichergestellt werden kann, dass die Schüler die grundlegenden Konzepte lernen, die sie benötigen, um später komplexere Themen zu verstehen.
Schüler und Studierenden könnten die KI-Assistenten nutzen, um den Lernprozess für neue Konzepte abzukürzen könnten. „Dies könnte die Grundlage für bestimmte Fertigkeiten zu Beginn schwächen, was es später schwieriger machen würde, komplexere Konzepte zu erlernen“, sagte Bosselut.
Sind LLMs die neuen Taschenrechner?
Eine gute Analogie zu den heutigen LLMs seien Taschenrechner, fügt Beatriz Borges hinzu, eine Doktorandin im Bereich NLP und Mitautorin des Artikels: „Als sie eingeführt wurden, gab es ähnliche Bedenken, dass Kinder keine Mathematik mehr lernen würden. Heute sind Taschenrechner in den frühen Phasen der Ausbildung normalerweise nicht erlaubt, aber ab dem Gymnasium und darüber hinaus werden sie erwartet, um einfachere Aufgaben zu erledigen, während die Schüler fortgeschrittenere Fähigkeiten erlernen, die auf ihnen basieren.“
KI-Nutzung: Assistenz oder Ablösung?
Trotz des guten Abschneidens von KI bei Tests mit standardisierten Fragen sind Wissenschaftler durchaus skeptisch, ob Künstliche Intelligenz Menschen in vielen Berufszweigen tatsächlich ablösen könnte. Einer der Zweifler ist der MIT-Professor Daron Acemoglu, der sich mit den Auswirkungen von Technologie auf die wirtschaftliche Entwicklung beschäftigt und unter anderem dafür mit dem Wirtschaftsnobelpreis 2024 ausgezeichnet wurde.
Eine seiner zentralen Sorgen bezüglich der KI ist, ob sie die Form von „Maschinennutzen“ annehmen wird, also den Arbeitern zu mehr Produktivität verhelfen wird, oder ob sie darauf abzielt, allgemeine Intelligenz zu imitieren, um menschliche Arbeitsplätze zu ersetzen. Es ist der Unterschied, ob man beispielsweise einem Biotechnologen neue Informationen liefert oder einen Kundendienstmitarbeiter durch automatisierte Callcenter-Technologie ersetzt. Bisher, so glaubt er, haben sich die Unternehmen auf den letzteren Falltyp konzentriert.
„Mein Argument ist, dass wir derzeit in die falsche Richtung gehen, was KI angeht“, sagt Acemoglu. „Wir nutzen sie zu sehr für die Automatisierung und nicht genug, um den Arbeitnehmern Fachwissen und Informationen zu vermitteln.“