Hamburg Chat-GPT im Härtetest: Schafft die KI das Deutsch-Abitur?

Von Sören Becker, Elisa Perz

| 21.12.2024 11:00 Uhr | 0 Kommentare | Lesedauer: ca. 5 Minuten

Kann Chat-GPT das Abitur bestehen? Wir haben den Test gemacht. Foto: dpa/Soeren Stache

Artikel teilen:

KI-Modelle wie Chat-GPT sind für viele Menschen längst Alltag. Aber was kann das Programm? So viel sei gesagt: Eine Eins ist dabei nicht herausgekommen.

Künstliche Intelligenz kann eine tolle Sache sein. Sie kann auf Knopfdruck jeden vorstellbaren Text verfassen und so den Unterricht in Deutschland revolutionieren. Möglichkeiten dazu werden gerade beispielsweise in einem Pilotprojekt an Schulen in Schleswig-Holstein getestet. Aber könnte sie auch das Abitur bestehen?

Unsere Redaktion hat die Fähigkeiten der KI an einer Abiturklausur im Fach Deutsch getestet. Dafür haben wir das neueste kostenpflichtige Modell Chat-GPT-o1 verwendet. Das Modell ist das neuste von OpenAI. Anders als seine Vorgänger hat es eine Art vorgelagerten Denkprozess. Ohne dass wir es ChatGPT explizit im Prompt sagen, zerlegt das Sprachmodell jede Aufgabe in einzelne Teilaufgaben und arbeitet diese dann Schritt für Schritt ab.

Wir haben Chat-GPT befohlen, drei Beispielaufgaben, die so im Deutsch-Abitur drankommen könnten zu lösen. Die resultierenden Antworten haben wir dann – so wie im echten Abitur – von zwei Deutschlehrerinnen korrigieren lassen.

Kreativität ist in der Prüfung von Abiturienten nicht verlangt. Sie sollen eine etablierte Struktur abspulen, wenn sie Wörter wie „Erörtere“ oder „Interpretiere“ lesen. Da diese Worte im allgemeinen Sprachgebrauch eine deutlich lockerere Definition haben, mussten wir Chat-GPT diese Begriffe erst einmal beibringen. Dazu mussten wir die Aufgaben erst einmal in ihre Einzelteile zerlegen und der Maschine haarklein vorkauen, was genau wir von ihr verlangen. Keine ganz leichte Aufgabe, da unsere Schulzeit ein wenig her ist. Was gehört in eine Einleitung? Wie analysiert man einen Romanauszug? Fragen, die man sich nicht mehr gestellt hat, seit man das eigene Abitur in der Tasche hatte. Als wir diese Fragen geklärt hatten, hätten wir die Klausur zugegebenermaßen auch selbst schreiben können.

Als dieser Prozess abgeschlossen war, ging es an das Verfassen der Prompts, also des Befehls für Chat-GPT. Dies sieht zum Beispiel folgendermaßen aus:

Die vorgegebene Rolle, in diesem Fall, Abiturient in der zwölften Klasse, ist nötig, damit das Modell weiß, was wir von ihm erwarten. Um Missbrauch vorzubeugen, hat OpenAI seinem Sprachmodell härtere Beleidigungen verboten. Auch, dass wir eine möglichst gute Note erreichen wollen, kann der Computer sich nicht selbst denken. Wir bestellen mit 15 Punkten natürlich eine 1+. Aber entsprechen unsere Ansprüche der Wirklichkeit?

Auch wenn Chat-GPT eine „grundsätzlich ordentliche und korrekte Analyse von Figurengestaltung, Erzähltechnik und Sprache“ von Wolfgang Koeppens Roman gelungen sei, habe das Modell die Inhalte zu ausführlich wiedergegeben, schreibt Deutschlehrerin Julia Stein. Die Analyse sei ihr hingegen nicht ausführlich genug gewesen. Beim Vergleich mit der Novelle von Thomas Mann „Mario und der Zauberer“ fehle es ihr an konkreten Textbezügen, „weshalb die Ergebnisse etwas oberflächlich bleiben“. Unter dem Strich steht bei ihr eine 2-.

Zweitkorrektorin Elke Helma Rothämel sieht die Ergebnisse deutlich kritischer: Es gebe strukturelle Mängel an der Klausur, wie eine zu lange Inhaltsangabe. Zudem sei die Interpretation zu selektiv. Sie vermisst teilweise die Sachlogik beim Vergleich. Viele Formulierungen und das Fazit findet sie zu allgemein. Dennoch gibt sie eine glatte 2.

Beim Kafka-Thema habe die Maschine ein Verständnis des Textes demonstriert, auch wenn Text-Zitate eigentlich in indirekter Rede hätten erfolgen sollen. Diese Anforderung hatten wir tatsächlich nicht gepromptet. Doch einen weiteren Mangel hätte selbst der beste Befehl nicht verhindern können: „Hier wären Unterrichtserfahrungen et cetera einzubringen, was leider fehlt“, schreibt Stein. Hier rächt sich, dass Chat-GPT nie wirklich im Unterricht gewesen ist.

Und auch ein weiteres Manko wird von Stein identifiziert: „Eigene Positionierung grundsätzlich vorhanden, aber die persönliche Note beziehungsweise die eigenen Lektüreerfahrungen und Wertvorstellungen fehlen“. Auch hier musste Chat-GPT scheitern. Eine persönliche Note oder eigene Wertvorstellungen einzubringen, ist nun mal schwierig, wenn man weder eine Persönlichkeit noch einprogrammierte Wertvorstellungen hat. Unter dem Strich steht bei Julia Stein eine 2.

Rothämel fehlt die Konkretheit im Interpretationsansatz. Zudem bemängelt sie, dass die Einleitung zum zweiten Aufgabenteil nicht neugierig genug mache und die Autorenposition vorweg nehme. Diese solle eigentlich im Verlauf des Textes herausgearbeitet werden. Das Niveau sei im „befriedigenden Bereich“ anzusiedeln. Übersetzt: Note 3-.

Bei der dritten Aufgabe, dem materialgestützten Schreiben zum Thema Gewalt in der Sprache, hatte Chat-GPT die meisten Probleme. Hier gibt es am meisten Freiheit und mit Freiheit kann das Programm nicht umgehen. Stein merkt an, dass Chat-GPT sich nicht genug in die Situation eingedacht habe, auch wenn die strukturellen Anforderungen erfüllt seien. Auch hier tritt wieder das Problem mit der persönlichen Note auf. „Die eigenen Erfahrungen und Bezüge zum Unterricht fehlen (logischerweise) völlig“, schreibt Stein. Zum Schluss vermisst Stein noch einen Abbinder, wie einen Appell. Unter dem Strich bekommt Chat-GPT eine 3.

Rothämel sieht dieses Ergebnis deutlich positiver. Trotz des „additiven Zugriffs“ auf die Materialien sei das Ergebnis „gut gemacht“. Dennoch gebe es zu wenig Bezug auf die Materialien und es fehle allerdings an einem „stilistischen Gesamtkonzept“. Rothämel gibt die Note 2.

Unter dem Schnitt ergibt sich eine achtsame 2-. Eine Note mit der so manch ein Prüfling wahrscheinlich zufrieden wäre. Aber bevor Schüler auf falsche Ideen kommen: Der Prozess, bis wir eine überzeugende Abiturklausur produziert hatten, dauerte mehrere Arbeitstage. Im echten Leben hätte man etwas mehr als drei Stunden Zeit. Zudem könnte der Betrug schnell auffliegen: „So schreiben Abiturienten einfach nicht. Das liest sich, als hätte jemand einfach die Musterlösung schlecht auswendig gelernt“, sagt Deutschlehrerin Stein. Chat-GPT formuliere zu kompliziert und halte sich zu sklavisch an die vorgegebene Struktur. Sein Abitur sollte man fürs Erste also noch selbst schreiben.

Hier die ganze Klausur zum Nachlesen:

Hamburg Chat-GPT im Härtetest: Schafft die KI das Deutsch-Abitur?

Einbruch in Goslar führt zu Abbruch in Aurich

Eine künstliche Intelligenz hat einen Tag lang meine Lebensentscheidungen getroffen

Macht mich Elon Musks neue künstliche Intelligenz bald arbeitslos?

Abiklausuren: Angst vor Ansteckung immer im Hinterkopf