Nervenheilkunde 2025; 44(11): 745-755
DOI: 10.1055/a-2628-5810
Editorial

KI in der Schule

Lern-Verstärker oder Betrugs-Turbo?

Authors

  • Manfred Spitzer

 

Die Diskussion über den Einsatz von künstlicher Intelligenz in Bildungseinrichtungen begann nur wenige Wochen nach der Publikation von ChatGPT am 30. November 2022. Schon am 31. Januar 2023 drehte sich fast die gesamte 20.00Uhr Sendung der Tagesschau des Ersten Deutschen Fernsehens um ChatGPT, wobei besonders die positiven Auswirkungen auf die Schule thematisiert wurden: „Künstliche Intelligenz könnte schon bald die Arbeit an Schulen oder Universitäten grundlegend verändern, etwa Sprachsoftware wie ChatGPT. Der Chatbot ist in der Lage, verschiedenste Texte zu verfassen, wie Aufsätze, Gedichte oder auch Lösungen von Examensaufgaben. Angesichts dieser Entwicklung forderte Bundesbildungsministerin Stark-Watzinger eine Anpassung der Lehrerausbildung für mehr digitales Fachwissen, denn die KI-Modelle würden das Lernen und das Abfragen von Wissen verändern“ (gesprochener Text der Tagesschau, zit. nach [1], [2]). Weiter ausgeführt und vertieft wurden diese Gedanken in einer Publikation der Ständigen Wissenschaftlichen Kommission (SWK) der Kultusministerkonferenz (KMK) aus dem Jahr 2023. Sie trägt den Titel „Large Language Models und ihre Potenziale im Bildungssystem“.

Was sind Large Language Models (LLM)? Wie wird ihr Einsatz von den Kultusministern und deren Beratern in der SWK beurteilt? Welche Erfahrungen haben Schüler und Studenten sowie Lehrer und Professoren mit dem tatsächlichen Einsatz von ChatGPT gemacht? Was sagt die Empirische Forschung zur KI und Lernen? Und was folgt daraus? Diese Fragen sollen im Folgenden der Reihe nach beantwortet werden.

Sprachmodelle und große Sprachmodelle

Ein Sprachmodell ist zunächst nichts weiter als eine Tabelle, die Wahrscheinlichkeiten enthält, mit der ein Buchstabe auf einen anderen (oder eine Reihe von anderen) Buchstaben folgt. Das geht auch mit Wörtern: Hier enthält die Tabelle für jedes Wort die Wahrscheinlichkeit, mit der es auf ein anderes Wort oder eine Reihe von Wörtern folgt. In der Computerlinguistik der 60er und 70er Jahre wurde versucht, mit programmierten Sprachmodellen maschinelle Spracherkennung zu bewerkstelligen – mit nur mäßigem Erfolg. Natürliche Sprachen erwiesen sich als zu vage und unscharf, als dass man die Bedeutung eines Satzes aus dessen Wörtern und grammatischen Struktur berechnen könnte. Man betrachte einmal die folgenden zwei Beispielsätze aus dem Englischen:

  1. time flies like an arrow (die Zeit fliegt wie ein Pfeil).

  2. fruit flies like a banana (Fruchtfliegen mögen eine Banane).

Den Sinn dieser Sätze versteht man nur aus dem Zusammenhang, den man wiederum nur versteht, wenn man die einzelnen Wörter schon verstanden hat. Berechnen lässt sich aus der Bedeutung der Wörter und der Grammatik eines Satzes hier – gar nichts.

Große Sprachmodelle (Large Language Models, LLM) zeichnen sich dadurch aus, dass sie nicht durch Programmierung (von Menschen) hervorgebracht wurden, sondern durch lernende Maschinen. Hierbei handelt es sich um neuronale Netzwerke, in denen die Funktion von biologischen Nervenzellen (Neuronen) in Gehirnen nachgeahmt wird. Informationen werden biologisch in Form elektrischer Impulse dadurch verarbeitet, dass sie mittels Verbindungsfasern zwischen Nervenzellen ausgetauscht werden. Dieser Austausch läuft über Synapsen, wo die elektrischen Impulse auf chemischem Weg übertragen werden. Die Anzahl und Größe der Synapsen (und damit die Stärke der Verbindung) ändern sich in Abhängigkeit von ihrer Benutzung: was gebraucht wird, wird größer, was nicht gebraucht wird, wird kleiner. Man spricht von synaptischer Plastizität oder – noch etwas allgemeiner – von Neuroplastizität.

Erst durch die Entwicklung immer leistungsfähigerer Computer im vergangenen Jahrzehnt, in denen Millionen von Neuronen mit Milliarden von Synapsen simuliert werden können, wurden LLMs möglich. Hierzu bedurfte es zudem der Entwicklung neuer Trainingsverfahren mit Mechanismen wie „self-attention“ [3]. Dieser sorgt für eine besondere Gewichtung des relevanten Kontextes von Wörtern.

FALLBEISPIEL

Betrachten wir den Satz „She poured water from the pitcher to the cup until it was full“, dann wissen wir, dass „it“ sich auf die Tasse (cup) bezieht.

Im folgenden Satz „She poured water from the pitcher to the cup until it was empty“, wissen wir hingegen, dass „it“ sich auf den Krug (pitcher) bezieht.

Der Erstautor der Arbeit über den „Attention“-Mechanismus, Ashish Vaswani, kommentierte dies wie folgt: „Bedeutung ist das Ergebnis von Beziehungen zwischen Dingen, und Selbstaufmerksamkeit ist eine allgemeine Methode, um Beziehungen zu lernen“ [3], [4].

Zudem gab es durch neue Netzwerk-Architekturen wie dem „generativen Transformer“ neue Möglichkeiten der Implementierung solch neuer Mechanismen. Wird LLM mit sehr großen Mengen an Text (die gesamte Wikipedia, mehrere hunderttausend Bücher, eine Vielzahl von Zeitungen und Zeitschriften sowie sehr viel Online-Textmaterial) trainiert, resultiert ein generativer vortrainierter Transformer (Generative Pretrained Transformer), abgekürzt GPT. In seiner dritten Version, GPT-3, hat dieses LLM 175 Milliarden Synapsen [4]. Chat-GPT basierte bei seiner Publikation auf GPT-3 und wurde für Dialoge optimiert. Mittlerweile gibt es große Sprachmodelle mit mehr als 1000 Milliarden (1 Billion) Synapsen. So soll GPT-4 1,8 Billionen Synapsen aufweisen und damit mehr als zehnmal so groß wie sein Vorgänger GPT-3.


Die Kultusminister und deren Berater sehen KI als Lern-Verstärker

Das „Impulspapier“ der SWK soll „einen Diskussionsbeitrag leisten und Anregungen geben für den schulischen Einsatz […], um den lernförderlichen Einsatz von LLM sicherzustellen“ ([5], S. 4) und reagierte damit direkt auf die Publikation von Chat-GPT. Empirische Untersuchungen zur Anwendung von LLMs im Unterricht konnte es allerdings damals noch nicht geben. Dennoch war für die SWK klar: „Das Bildungssystem in Deutschland steht aktuell vor der Aufgabe, das Potenzial generativer KI-Technologien wie LLM zu nutzen“ ([5], S. 18). Der Grund: „LLM bieten besonderes Potenzial, (1) kognitive Aktivierung, (2) Elaboration und (3) Kollaboration zu fördern und damit lernförderlich zu wirken“ ([5], S. 10; Aufzählung vom Autor hinzugefügt). Dies wird interessanterweise nirgends begründet. Eine solche Begründung wäre jedoch wichtig, denn zunächst sollte man das Gegenteil vermuten: Künstliche Intelligenz nimmt uns geistige Arbeit ab. Diese Benutzung des Gehirns ist jedoch Voraussetzung für jegliches Lernen. Das Gehirn unterscheidet nicht zwischen der Verarbeitung und dem Lernen von Information, sondern macht immer beides zugleich. Bei diesem einfachen Gedanken handelt es sich nicht um irgendeine Theorie, sondern um ein seit Jahrzehnten bekanntes Faktum. Betrachten wir die drei Behauptungen der SWK genauer.

(Ad 1) Kognitive Aktivierung

Wenn Schüler ChatGPT zum Erstellen von Texten verwenden, dann lagern sie das Nachdenken und das Schreiben aus. Dies ist das genaue Gegenteil von kognitiver Aktivierung. Wir wissen schon lange: Wer sich etwas aufschreibt, hat sich einen Teil davon durch den Akt des Schreibens schon behalten. Daher sind Vokabelhefte oder kleine Kästchen mit selbst beschriebenen Karteikärtchen (Deutsch auf der einen, die Fremdsprache auf der anderen Seite) für den Spracherwerb sehr sinnvoll. Wenn man schreiben lässt, passiert nichts. Beim Denken ist das ebenso.


(Ad 2) Elaboration

Zum Potenzial bei der Förderung der Elaboration kommentieren die Autoren selbst zwei Seiten später: „Auch wenn LLM in einer Interaktion mit entsprechenden Prompts scheinbar in die Rolle eines Lernbegleiters versetzt werden können, ist zu bedenken, dass sie dabei bisher weder individuelle Lernende, ihre Kompetenzen und Misskonzepte modellieren und die curricularen Lernziele eines Schulfachs kennen noch die pädagogischen und fachdidaktischen Schritte zum Erreichen dieser Ziele“ ([5], S. 12). Die Elaboration (d. h. die weiterführende Diskussion von Gedanken) mit ChatGPT kann sogar richtig daneben gehen. Hierzu führen die Autoren selbst sowohl die bekannten von KI produzierten „Halluzinationen“ als auch die von KI reproduzierten sexistischen, religiösen, ethnischen Vorurteile an ([5], S. 9). Auch sehen sie die Gefahren der Beeinflussung und Kontrolle durch selektive Informationsfilterung ([5], S. 10) beispielsweise aufgrund kommerzieller Interessen.

Zudem suggerieren die Autoren, dass die Verwendung von großen Sprachmodellen die Kreativität fördere. „In kreativen Lernszenarien können sie genutzt werden, um Ideen zu generieren und die Gestaltung literarischer oder künstlerischer Projekte zu unterstützen“ ([5], S. 10). Wenn jedoch die KI kreativ ist, dann sind es die Schüler ja gerade nicht. Auch wenn die Behauptung, KI fördere die Kreativität, vielfach wiederholt wird, wird sie dadurch nicht richtig. Belastbaren empirische Daten, die zeigen würden, dass KI bei Schülern die Kreativität fördert, fehlen ohnehin völlig.


(Ad 3) Kollaboration

Dass KI zu mehr Zusammenarbeit unter den Schülern beiträgt, wird abermals behauptet aber nirgends begründet oder gar mit Daten belegt. Betrachtet man die Verwendung moderner Hardware – Smartphones – durch Schüler, fällt zunächst sehr deutlich auf, dass dieses Nutzungsverhalten zu sozialer Isolation und Vereinsamung führt, wie weithin bekannt ist [6], [7]. Weiterhin wird indirekt immer wieder zugegeben, dass die Nutzung von KI den menschlichen Kontakt reduziert: Denn wenn KI in der „Rolle als Lernbegleiter“ eingesetzt wird, dann ersetzt eine Maschine einen „menschlichen Lernbegleiter“, sprich: den Lehrer.

Gegen Ende ihrer Ausführungen diskutieren die Autoren die Frage, ob vom Einsatz von KI eher die schwachen oder die starken Schüler profitieren. Dass Schüler überhaupt profitieren, setzen sie also offensichtlich voraus. Eine empirisch begründete Antwort auf die Frage gibt es nicht, nimmt man aber die vorliegenden Erfahrungen zum Einsatz digitaler Medien (der bei KI-Anwendungen ja immer vorausgesetzt ist bzw. erfolgt) als Richtschnur, dann ergibt sich kein schönes Bild: Digitale Medien im Unterricht schaden den Starken wenig bis gar nicht und den Schwachen am meisten [8]. Dies scheint jedenfalls auch die Auffassung der Autoren zu sein, können doch „besonders die stärkeren Lernenden LLM auf sinnvolle und effektive Weise für Lernaktivitäten nutzen“ ([5], S. 17).

Dass KI in der Schule die Prüfungskultur verändern wird, sehen die Autoren durchaus: Schriftliche Hausaufgaben erscheinen sinnlos, wenn die Schüler sie mit ChatGPT erledigen.

„Angesichts der Schwierigkeit, KI-generierte Texte von menschlich erstellten Texten zu unterscheiden, argumentieren manche Autoren, dass traditionelle Prüfungsformate wie Hausarbeiten oder Hausaufgaben ihre Aussagekraft verlieren“ ([5], S. 16).

Wenn dann auch die Lehrer KI zur Beurteilung der Hausaufgaben verwenden, wird es absurd: „Im ungünstigsten Fall, wenn Lernende und Prüfende KI nutzen, vergleichen zwei KI-Systeme ihre Ergebnisse miteinander“, beschreiben die Autoren den vorprogrammierten Unsinn ([5], S. 17).

Ab welchem Alter oder welcher Klassenstufe sollte KI nach Meinung der Experten eingesetzt werden? Auch wenn es hierzu ebenfalls keinerlei Untersuchungen gibt, haben die Sachverständigen hierzu eine klare Meinung. „In der Grundschule und zu Beginn der Sekundarstufe I sollte weitgehend auf LLM verzichtet werden“ ([5], S. 20). „Ab der achten Jahrgangsstufe ist ein regelmäßiger Einsatz von LLM als Schreibunterstützung in allen schulischen Fächern, in denen schriftlichen Leistungen erbracht werden müssen, zu erwägen. Ab der Sekundarstufe II können LLM vielfältig zur Erstellung von Texten verschiedener Genres eingesetzt werden“ ([5], S. 20). „Bis zum Ende der Sekundarstufe 1 sollte eine zunehmende Nutzung von LLM-Tools zur Erstellung und Überarbeitung von Texten erfolgen“ ([5], S. 4).

Die hier vertretene Auffassung entpuppt sich bei genauerem Hinsehen als schädlich bis gefährlich. In der Grundschule wird von „weitgehendem Verzicht“ gesprochen, was bedeutet, dass man es durchaus für möglich hält, KI in diesem Bereich anzuwenden. Wie dies erfolgen kann, ohne die Kinder zu langweilen, sie zu überfordern oder zumindest zu demotivieren, wird nicht erörtert. In der Sekundarstufe 1 muss dann offenbar unbedingt mit KI gearbeitet, also geistige Arbeit ausgelagert, werden – regelmäßig ab Klasse 8. Wenn die Autoren meinen, dass man ab diesem Alter nicht mehr schreiben lernen muss, weil man es ja schon kann, liegen sie eindeutig falsch.

Dies wird nicht zuletzt dadurch untermauert, dass der Grad der Alphabetisierung in Deutschland bei den Neuntklässlern in den Jahren 2015 bis 2023 abgenommen hat, wie aus dem Bildungsbericht IQB Bildungstrend 2022 ([9], S. 67, 72) hervorgeht. Im Jahr 2023 verfehlen, verglichen mit dem Jahr 2015, im Fach Deutsch etwa 6 Prozent mehr Schüler die Mindeststandards für den Hauptschulabschluss beim Lesen (15,2 Prozent nicht erreicht) und etwa 4 Prozent mehr bei der Rechtschreibung (7,9 Prozent nicht erreicht). „In der Zusammenschau der Befunde zeigen sich also sowohl für Deutschland insgesamt als auch für die Länder in allen Kompetenzbereichen überwiegend negative Entwicklungen ([9], S. 95).

Das wirklich kreative, reflektierte Schreiben beginnt bestenfalls etwa in diesem Alter. Daher ist es wichtig, dass in der Mittel- und Oberstufe viel geschrieben wird. Jeder, der schon einmal versucht hat, einen längeren Gedanken klar und verständlich aufzuschreiben, weiß aus eigener Erfahrung, wie schwer das ist. Weil der bloße (vielleicht bildhafte), noch nicht verschriftlichte Gedanke eben nicht das Gleiche ist wie der aufgeschriebene Gedanke. Eine lange Tradition des Nachdenkens über Schrift und Schreiben hat sehr klar herausgearbeitet, dass Literalität mehr ist als bloße Oralität, d. h. dass das Aufschreiben selbst eine wichtige Form des Denkens ist [10] (Ong 1987). Fußball oder Saxofon spielen lernt man ja auch nicht, indem man darüber redet, sondern indem man es tut. Oder, um einen Vergleich zu bemühen: Es gibt einen guten Grund, warum wir Automobile nicht in den Sportunterricht „integrieren“. Sie nehmen uns Bewegung ab, weswegen wir uns weniger bewegen, mit den bekannten negativen gesundheitlichen Folgen.



Lernende sehen das anders

Ein Schüler an der öffentlichen Newtown High School im New Yorker Stadtteil Queens veröffentlichte am 3. September 2025 in der renommierten, seit über 150 Jahre erscheinenden Monatszeitschrift The Atlantic einen bemerkenswerten Essay mit dem Titel „Ich bin Schüler. KI zerstört meine Bildung“. Darin beschreibt er zunächst, wie seine Mitschüler KI im Unterricht verwenden und die gestellten Aufgaben von ChatGPT lösen lassen, anstatt sie selbst zu lösen:

„Während einer Unterrichtsstunde über die Lebensgeschichte von Frederick Douglass (Frederick Douglass (1818 – 1895), ein entflohener amerikanischer Sklave, Gegner der Sklaverei, Menschenrechtsaktivist, Politiker und Publizist) beobachtete ich, wie ein Klassenkamerad sich unauffällig auf seinem Stuhl bewegte, seinen Laptop auf seinem gekreuzten Bein gelegt hatte und das gesamte Kapitel, das gerade besprochen wurde, markierte. Innerhalb von Sekunden hatte er ChatGPT aufgerufen, den Text in das Eingabefeld kopiert und erhielt einen KI-generierten Kommentar zu dem Kapitel. Diese Kommentare werden für Diskussionen verwendet; wir reichen sie am Ende des Unterrichts bei unserem Lehrer ein, und viele davon werden als Teil unserer Klassenbeteiligung benotet. Was eigentlich eine reflektierende, zum Nachdenken anregende Diskussion über Sklaverei und menschliche Widerstandsfähigkeit sein sollte, verflachte zu einer Copy-Paste-Aktion. In Algebra II, nachdem die Hausaufgabenblätter herumgereicht worden waren, sah ich, wie ein Mitschüler mit seinem Handy einen schnellen Schnappschuss machte, den er dann in ChatGPT hochlud. Die KI füllte den Bildschirm meines Mitschülers schnell mit einer angeblichen Schritt-für-Schritt-Lösung und relevanten Grafiken“ [11]. Er selbst wolle ChatGPT nicht in dieser Weise nutzen, wie er es bei den anderen Jugendlichen in seinem Alter beobachtet: „Ich entscheide mich in der Regel gegen diese allgegenwärtigen Werkzeuge“, schreibt er, fügt aber hinzu, dass er sie für „unausweichlich“ halte.

Die Konsequenzen der Verwendung von KI an Schulen gehen seiner Schilderung zufolge weit über die bekannte Tatsache hinaus, dass KI geistige Arbeit abnimmt, die Voraussetzung für jegliches Lernen darstellt. Er führt hierfür zwei Beispiele an, die nachdenklich stimmen: Wenn KI alle Arbeiten in Sekunden erledigt, entfällt das früher von den Schülern betriebene Aufschieben – beispielsweise von angeordneten Hausaufgaben. Früher mussten sich die Schüler kurz vor dem Ende der Abgabefrist von Hausaufgaben miteinander austauschen, sich Tipps geben oder haben schlicht voneinander abgeschrieben. Das ist zwar eine Form von Täuschung, aber zugleich ein soziales Verhalten, das Schüler zusammenschweißt. ChatGPT verhindert das und damit auch soziales Verhalten und dessen Einüben. Im Bereich kognitiver Fähigkeiten ist es ähnlich: Hatte man seine Sachen „auf den letzten Drücker“ erledigt und lernte damit also wenigstens das Arbeiten unter Zeitdruck, so erledigen Chatbots heute alles in Sekunden. Selbstdisziplin durch Arbeiten unter Zeitdruck lernt man damit nicht mehr [11].

Zoom
Abb. 1 North Harvard Street und South Campus Drive Straßenschilder auf dem Harvard University’s Allston Campus in Boston, Massachusetts(© Tada Images/stock.adobe.com)

Die Verwendung von ChatGPT zum Erledigen der Hausaufgaben bewirkt also mehr als nur „keine Hausaufgaben machen“ – die haben wir schon vor Jahrzehnten auch oft nicht gemacht. Aber wir haben wenigstens unter Zeitdruck voneinander abgeschrieben und damit Sozialverhalten sowie das Arbeiten unter Zeitdruck geübt. „Viele von uns sind so an Outsourcing gewöhnt, dass wir genau die Instinkte abstumpfen, die wir brauchen, um im Leben zu bestehen: Durchhaltevermögen, kritisches Denken und die Fähigkeit, unter Stress reibungslos zu funktionieren,“ kommentiert der Schüler [11].

Nach einer Umfrage an 326 (Undergraduate-) Studenten der Harvard-Universität (auswertbare Daten von N = 273) vom Sommer 2024 nutzen 87,5 Prozent bereits KI und davon wiederum 95 Prozent ChatGPT (). Mehr als 50 Prozent verwendeten KI zum Schreiben von Essays, mehr als 40 Prozent zum Programmieren und mehr als 30 Prozent befürchteten, dass Kommilitonen ChatGPT verwenden könnten, um sich einen unfairen Vorteil zu verschaffen [12].

Eine entsprechende britische Umfrage an 1041 (Undergraduate-) Studenten zeigte, dass 92 Prozent KI verwendeten, nachdem dieser Wert noch ein Jahr zuvor bei 66 Prozent gelegen war. Knapp 20 Prozent gaben an, KI-generierten Text direkt in ihren Arbeiten verwendet zu haben, und 40 Prozent meinten, dass von KI erstellte Inhalte in ihrem Fach eine gute Note bekommen würden. Gefragt nach den Gründen für die Verwendung von KI gaben die Studenten an, Zeit zu sparen und bessere Ergebnisse zu erzielen. Hinderungsgründe für die Nutzung waren die Befürchtung, des akademischen Fehlverhaltens beschuldigt zu werden, und die Angst vor Falsch-Informationen. Frauen waren diesbezüglich besorgter als Männer, die ohnehin mehr von KI begeistert waren [13]. Der Autor empfiehlt aufgrund dieser Erkenntnisse, „dass Bildungseinrichtungen ihre Bewertungsverfahren kontinuierlich überprüfen sollten, insbesondere da KI immer leistungsfähiger wird und die Studenten immer versierter mit KI umgehen können“ [13].


Lehrkräfte auch: Betrugs-Turbo und der Tod des Essays

Bereits eine Woche nachdem die Firma OpenAI den Plauderroboter ChatGPT veröffentlicht hatte, am 6. Dezember 2022, wurde in der US-amerikanischen Zeitschrift für Literatur, Kultur und Kritik, The Atlantic, proklamiert, dass der Aufsatz (Essay) als pädagogische Methode im Bereich der höheren geisteswissenschaftlichen Bildung auf College-Niveau tot sei [14]. Dieser ist für die deutschen Schulen durchaus relevant, entspricht doch das College am ehesten einer guten deutschen gymnasialen Oberstufe.

Die Lehrkräfte hatte es kalt erwischt: Einige ließen zunächst GPT-3 und dann vor allem ChatGPT Aufsätze schreiben und wunderten sich darüber, wie gut diese waren: „Man kann keine Hausarbeiten mehr aufgeben […] Selbst bei spezifischen Fragen, die das Kombinieren von Wissen aus verschiedenen Bereichen erfordern, ist der Chatbot von OpenAI derzeit offen gesagt besser als der durchschnittliche Absolvent eines Masterstudiengangs. Das ist wirklich erstaunlich“, wird ein kanadischer Professor aus Toronto zitiert [14].

Ian Bogost berichtet von einem Lehrer an einer Schule in Florida, der durch das Betrügen seiner Schüler so demoralisiert war, dass er aufgeben und sich einen Job in der Tech-Branche suchen wollte. „Das hat mich nahezu völlig zerstört. […] Ich war sehr gerne Lehrer und habe meine Zeit im Klassenzimmer geliebt, aber mit ChatGPT fühlt sich alles völlig sinnlos an.“ [15]

Der Fachbereichsleiter an der Washington University in St. Louis, Professor Ian Bogost, beschreibt im Mai 2023 seine Erfahrungen nach einem halben Jahr ChatGPT an US-amerikanischen Colleges wie folgt: „Die Studenten waren sich nicht sicher, was KI leisten kann und welche Anwendungen angemessen sind. Die Fakultät war überrascht, wie effektiv ChatGPT Arbeiten schreiben und Hausaufgaben erledigen konnte. Uns Lehrenden schien es, als stünde das College vor einer Transformation. Aber niemand hätte gedacht, dass dies so schnell geschehen würde“ [16].

Seine Fazit nach 2 Semestern mit ChatGPT ist nicht gerade ermutigend: „So sieht das College-Leben am Ende des ersten akademischen Jahres von ChatGPT aus: ein Wirrwarr aus Anschuldigungen und Verwirrung. In den letzten Wochen habe ich mit Dutzenden von Lehrkräften und Studierenden gesprochen, die nun zum ersten Mal mit einer Welle von „Betrugsfällen” durch KI konfrontiert sind. Ihre Geschichten haben mich erschüttert. Berichte aus dem Campus deuten darauf hin, dass die legitime Nutzung von KI im Bildungsbereich kaum von skrupellosen Anwendungen zu unterscheiden ist und dass es mehr oder weniger unmöglich ist, Betrüger zu identifizieren – geschweige denn zur Rechenschaft zu ziehen.“ [16]

In seiner Rolle als Vizerektor an der New York University, sowohl in den USA als auch an deren ausländischen Ablegern, hat auch Clay Shirky die Auswirkungen von ChatGPT auf das Lehren an amerikanischen Colleges hautnah erlebt und seine Kollegen beraten. Er berichtete am 25. August 2025 in der New York Times von seinen Erfahrungen: „Ein Philosophieprofessor […] erzählte mir, dass er eine der Strategien ausprobiert hatte, die ihm mein Büro vorgeschlagen hatte – mit den Studenten darüber zu sprechen, wie KI ihr Lernen beeinträchtigen könnte –, aber es hatte nicht funktioniert. Seine Studenten hatten höflich zugehört, aber dann hatten mehrere von ihnen trotzdem KI benutzt, um ihre Arbeiten zu schreiben. […] Selbst die guten Studenten […] denen der Stoff offensichtlich am Herzen lag und die den Unterricht zu mögen schienen, machten sich nicht mehr die Mühe, selbst herauszufinden, was sie sagen wollten. Wir waren davon ausgegangen, dass die Förderung einer engagierten Nutzung von KI – indem wir den Studierenden sagten, sie könnten Software wie ChatGPT verwenden, um Übungstests zu erstellen, sich selbst zu testen, neue Ideen zu erkunden oder Feedback einzuholen – die Studierenden davon überzeugen würde, auf die faule Nutzung zu verzichten. Das war nicht der Fall“, schreibt Shirky [17] merklich frustriert.

Auch hierzulande ist diese Problematik längst in Schulen angekommen, wie das folgende Beispiel zeigt: Ein 17jähriger Schüler aus Pforzheim schrieb mir am 9. Juli 2025 diese E-Mail:

„Sehr geehrter Herr Prof. Dr. Spitzer,

Ich schreibe Ihnen, weil ich Ihre kritische Haltung zur Digitalisierung in der Schule nicht nur gut nachvollziehen kann – ich möchte Ihnen ausdrücklich den Rücken stärken. Ich erlebe derzeit am eigenen Leib, wie sich die zunehmende Nutzung digitaler Technologien, oder ChatGPT, negativ auf meine schulische Entwicklung auswirkt. In meinem Unterricht wird ChatGPT mittlerweile ganz selbstverständlich genutzt – nicht nur zur Unterstützung beim Lernen, sondern auch bei der Lösung von Aufgaben. Sogar in Klausuren kommen digitale Hilfsmittel indirekt oder direkt zum Einsatz. Anfangs fand ich das spannend und nützlich, doch mit der Zeit merke ich, wie meine eigene Denkleistung, Kreativität und Konzentration nachlassen. Ich erledige Aufgaben oft nur noch halbherzig, weil ich weiß, dass > die KI das schon macht < . Mein Bildungsstand leidet sichtbar darunter – und ich bin mir sicher, dass es vielen meiner Mitschüler genauso geht.“

(Die Mail endete wie folgt: „Sie sprechen in Ihren Büchern und Vorträgen genau diese Punkte an – und ich möchte Ihnen sagen: Sie haben absolut recht. Es ist gut zu wissen, dass jemand aus der Wissenschaft den Mut hat, diese Entwicklungen kritisch zu hinterfragen. Ihre Arbeit gibt mir das Gefühl, mit meinen Sorgen nicht allein zu sein. Ich wünsche Ihnen weiterhin viel Kraft und Gehör in der öffentlichen Diskussion.“)

Mails dieser Art bekomme ich fast täglich. Skeptiker mögen dennoch behaupten, dass es sich hier um Einzelfälle handelt. Dem widerspricht jedoch, dass auch anderswo ähnliche Erfahrungen gemacht werden. So beklagt Prof. Karsten Wolf, Prorektor für Studium und Lehre an der Universität Rostock: „Es gibt zahlreiche Arbeiten, in denen es klare Indizien dafür gibt, dass KI unerlaubt verwendet wurde. Ein juristisch haltbarer Nachweis der Nutzung von KI ist allerdings schwierig“, wird er in der Ostsee-Zeitung vom 15. September 2025 zitiert [18].

Mittlerweile gibt es einen Markt für KI-Detektoren (also KI-gestützte Software, um einen Text als KI-generiert zu enttarnen). Aber es gibt auch einen Markt für (wiederum KI-gestützte) Software, die KI-generierte Texte „vermenschlicht“ (den Grad kann man auswählen und eingeben), indem sie Fehler einbaut und einige seltene Wörter verwendet. Den neuesten Detektoren entgeht wiederum das auch nicht – und so sprechen manche schon von einem Wettrüsten (arms race) zwischen Betrugs-KI für Studenten und Betrugs-Entdeckungs-KI für Professoren [15].

Verwendet werden beispielsweise KI-gestützte Software mit Namen wie „turnitin“ oder „askGPT“. Das Ganze sieht zunächst ganz freundlich und harmlos aus: „Die Mission von Turnitin ist es, die Integrität der globalen Bildung zu gewährleisten und die Lernergebnisse sinnvoll zu verbessern“, kann man auf der Webseite von turnitin lesen [19]. Wer wollte das nicht? – Man findet wahrscheinlich daher dort auch, dass diese KI von 16.000 (Schulen, Colleges, Universitäten), und mehr als 71 Millionen Schülern/Studenten in 185 Ländern der Erde genutzt wird und mehr als 91 Milliarden Webseiten, mehr als 1,9 Milliarden von Studenten verfasste Arbeiten und mehr als 190 Millionen wissenschaftliche Arbeiten in seiner Datenbank hat.

In einem Bericht vom 11. August 2025 mit dem Titel „Die Übernahme der Bildung durch KI geht gerade erst los“ wird die Situation an Schulen wie folgt beschrieben: „Vorbei sind die Zeiten, in denen man beim Verfassen eines Aufsatzes mit Hilfe von KI die Antwort wortwörtlich kopieren und einfügen musste. Um Plagiatserkennungsprogrammen zu entgehen, fügen Kinder nun die Ergebnisse mehrerer KI-Modelle zusammen oder bitten Chatbots, Stilelemente einzufügen, damit der Text menschlicher wirkt. Die ursprüngliche ChatGPT-Version erlaubte nur Text-Eingaben. Jetzt können Schüler Bilder („Bitte lösen Sie diese Physikaufgaben für mich“) und ganze Dokumente („Wie kann ich meinen Aufsatz anhand dieser Rubrik verbessern?“) hochladen“ [20].

In einer am 17. August 2025 publizierten Arbeit wird ein Student der Wirtschafts- und Computerwissenschaft zitiert, der diese Entwicklung wie folgt kommentiert: „Studenten wollen nicht betrügen; sie wollen sicherlich nicht den Wert einer Ausbildung untergraben, die sie oder ihre Familie ein kleines Vermögen kostet. Aber wenn man sieben Hausarbeiten in fünf Tagen abgeben muss und KI die Arbeit für den Preis einer großen Pizza um das Zehnfache beschleunigen könnte, was soll man dann tun?“ [21].

Versuche, die Aufgaben inhaltlich zu ändern, sie auf eigene Erlebnisse der Studenten zu beziehen oder auf lokale Ereignisse, funktionierte nicht. Und wenn man den Studenten erlaubte, KI zu verwenden und sie zusätzlich darum bat, das Ergebnis zu kritisieren, dann generierten sie das Ergebnis mit KI und die Kritik gleich mit. Es wurde mittlerweile sogar gezeigt, dass die weltweite Nutzung von ChatGPT in den drei Sommermonaten einbricht, während der in den USA die Universitäten geschlossen sind (und die Professoren übrigens kein Gehalt bekommen).

Der Pädagoge Shirky kommt angesichts dieser Tatsachen zu bemerkenswert klaren Schlussfolgerungen – nicht zuletzt aufgrund des Eingangs bereits dargestellten Zusammenhangs zwischen Lernen und Neuroplastizität: „Lernen ist eine Veränderung im Langzeitgedächtnis; das ist das biologische Korrelat dessen, was wir im Unterricht tun. Da die meisten geistigen Anstrengungen, die mit dem Schreiben verbunden sind, mittlerweile optional sind, brauchen wir neue Wege, um die für das Lernen notwendigen Aufgaben zu stellen“ [17].

Was er dann vorschlägt, läuft auf eine völlig andere Art des Unterrichtens und Prüfens an US-Bildungseinrichtungen hinaus, was übrigens hierzulande in den Augen der SWK als deutlicher Rückschritt gesehen würde: Um Betrug durch KI (also Denken-lassen und Schreiben-lassen anstatt dies selbst zu tun, die Produkte dann aber als die eigenen ausgeben) zu verhindern, können schriftliche Arbeiten – an US-Colleges der so beliebte Essay– nicht mehr wie bisher als Hausaufgabe erfolgen. „Das ist reine Zeitverschwendung“, sagt ein Professor für Politikwissenschaft an der Tulane University. „Das ist so, als würde man ins Fitnessstudio gehen und Roboter die Gewichte für sich stemmen lassen“ [22].

Vielmehr muss der Essay – wie schon in den vergangenen beiden Jahrhunderten – handschriftlich und jetzt zusätzlich in Anwesenheit vor Ort und ohne jegliche Hilfsmittel geschrieben werden. Dieser Wandel findet in den USA gerade statt: Nach einem im Wall Street Journal am 23. Mai 2025 erschienenen Bericht hat die Firma Roaring Spring Paper Products, die seit mehr als hundert Jahren kleine blau eingebundene Hefte für Examensarbeiten in verschiedenen Größen und Stärken – die so genannten Blue Books – produziert, nach Jahrzehnten des Rückgangs wieder dramatische Umsatzzuwächse verzeichnet: Der Verkauf von Blue Books stieg an der Texas A & M University um mehr als 30 %, an der University of Florida um fast 50 % und an der University of California, Berkeley, um 80 % [22]. Der Bericht im Wall Street Journal hatte den treffenden Untertitel: „Betrug mit ChatGPT ist für Hochschulen zu einem großen Problem geworden. Die Lösung ist schmerzlich altmodisch.“

Ferner werden mündliche Prüfungen, die bislang vor allem schriftlich erfolgenden Kenntnisnachweise in zunehmendem Maße ersetzen. Man wird mehr Wert auf Anwesenheit und mündliche Mitarbeit legen, was schwierig ist, weil heute sogar hierzulande (und in den USA schon seit Jahrzehnten) alles in der Pädagogik schnell vom Rechtsanwalt überprüft und angezweifelt wird – von Eltern, die Misserfolge ihrer Kinder im Bildungsbereich nicht hinnehmen wollen. Die Anzahl von Fehlern „schwarz auf weiß“ ist justiziabel, der Grad und vor allem die Güte der mündlichen Beteiligung eher nicht. Schließlich wird es wieder mehr Bewertungsmethoden geben, bei denen die Schüler ihr Wissen in Echtzeit unter Beweis stellen müssen, wie beispielsweise Sprechzeiten für Studenten. Während solcher interaktiven One-on-one-Sitzungen zeigt sich sehr schnell, was einer kann oder wirklich gelernt hat.


Empirische Bildungsforschung

Bislang gibt es noch sehr wenig publizierte Ergebnisse zu den Auswirkungen von KI auf Bildungsprozesse. Michael Gerlich vom Center for Strategic Corporate Foresight and Sustainability an der Swiss Business School in Zürich untersuchte den Zusammenhang zwischen der Nutzung von KI und der Fähigkeit zum kritischen Denken [23]. Er führte Umfragen und ausführliche Interviews mit 666 Teilnehmern verschiedenen Alters und mit unterschiedlichen Bildungsbiographien durch. (Ein höherer Bildungsabschluss war – unabhängig vom Grad der Nutzung von KI – mit besseren Fähigkeiten zum kritischen Denken verbunden.) Die Ergebnisse zeigten eine signifikante negative Korrelation zwischen der häufigen Nutzung von KI und den Fähigkeiten zum kritischen Denken. Anhand seiner Daten konnte er weiterhin zeigen, dass der Zusammenhang durch ein vermindertes kognitives Engagement bei Nutzung von KI vermittelt ist. Bei Einbeziehung des Alters in die Analyse ergab sich interessanterweise, dass jüngere Teilnehmer eine vergleichsweise höhere Abhängigkeit von KI und insgesamt niedrigere Werte beim kritischen Denken zeigten.

Eine deutsche Arbeitsgruppe aus München und Augsburg [24] verglich die Lernergebnisse bei Verwendung großer Sprachmodelle (LLMs) im Vergleich zu herkömmlichen Suchmaschinen. Insgesamt 91 Studenten wurden entweder der Verwendung von ChatGPT3.5 oder Google zufällig zugewiesen, um das Thema „Nanopartikel in Sonnenschutzmitteln“ zu recherchieren und daraus Empfehlungen abzuleiten. Bei Verwendung von ChatGPT zeigte sich – im Vergleich zur Verwendung von Suchmaschinen – eine deutlich geringere kognitive Belastung und eine geringere Qualität der abschließenden Empfehlungen im Hinblick auf die Argumentation und Begründung.

Wissenschaftler am Massachusetts Institute of Technology (MIT) haben kürzlich eine mehr als 200 Seiten umfassende Studie mit dem bemerkenswerten Titel „Your Brain on ChatGPT“ publiziert [25]. Konkret untersuchten sie die Auswirkungen von ChatGPT beim Verfassen eines Essays auf die Gehirnaktivität (mittels EEG), die Textqualität (ausgewertet von Experten) und das Lernverhalten (Erinnerungsvermögen an den vom einzelnen Teilnehmer geschriebenen Text) vergleichend mit der Nutzung traditioneller Suchmaschinen oder dem Schreiben ohne Hilfsmittel.

Die Teilnehmer waren im Mittel 23 Jahre alt (Bereich 18–39) und wurden von fünf Bostoner Universitäten rekrutiert. Sie wurden per Zufall aber nach Alter und Geschlecht ausbalanciert, in drei Gruppen eingeteilt. Eine Gruppe nutzte eine KI („GPT-4o-Gruppe“), die zweite eine Suchmaschine („Google-Gruppe“) und die dritte keinerlei Hilfsmittel („Brain-Only-Gruppe“) zum Verfassen eines Essays zu 9 unterschiedlichen Themen in 4 Sitzungen über einen Zeitraum von vier Monaten. „Jeder Teilnehmer erhielt als Dankeschön für seine Zeit einen Scheck über 100 Dollar, sofern er an allen drei Sitzungen teilgenommen hatte, sowie eine zusätzliche Zahlung von 50 Dollar, wenn er an Sitzung 4 teilgenommen hatte“, schreiben die Autoren [25].

Die Nur-Gehirn-Gruppe wies im EEG die stärkste und weitreichendste neuronale Konnektivität auf, was laut der Untersuchung auf intensive interne semantische Verarbeitung, fokussierte Aufmerksamkeit und hohe Beanspruchung des Arbeitsgedächtnisses und der exekutiven Kontrolle schließen lässt. Beim Benutzen von Google war die Aktivierung geringer und bei Verwendung von GPT-4o war sie am geringsten. Wer ohne Hilfsmittel schrieb, musste sich also geistig am meisten anstrengen, was mit der koordinierten Aktivierung vieler Gehirnbereiche einherging.

Die Sprachanalyse der produzierten Texte ergab, dass die der GPT-4o-Gruppe einander ähnlicher waren als die Essays der Brain-Only-Gruppe. Wieder lag die Google-Gruppe dazwischen. Zudem beurteilten Lehrer die Texte aus der GPT-4o-Gruppe als „seelenlos“, sie enthielten immer wieder die gleichen Ideen und viele Wort-Wiederholungen.

In den Interviews nach dem Schreiben sollten die Teilnehmer ein Zitat aus ihrem eigenen Text, den sie gerade geschrieben hatten, nennen. 83,3 % der Brain-Only-Gruppe konnten dies. Dagegen konnte keiner aus der GPT-4o-Gruppe ein korrektes Zitat aus seinem eigenen, gerade zuvor geschrieben Text angeben.

Zusammenfassend führt die Nutzung von KI (d. h. LLMs wie GPT-4o) zu weniger angestrengtem und oberflächlicherem Denken. Dies resultiert in Texten, die weniger gut geschrieben, weniger kreativ sowie inhaltlich oberflächlicher sind. Zudem können sich die Studenten an ihre eigenen Texte nicht erinnern [25]. Zugegeben, man kann die kleine Teilnehmerzahl und die Tatsache, dass die Studie sich noch im Review-Prozess befindet kritisieren, aber einen Beleg für die Nützlichkeit von künstlicher Intelligenz in der Schule stellt sie definitiv nicht dar. Die Ergebnisse reihen sich vielmehr ein in das, was man aus den beiden anderen Studien schon wusste, nämlich, dass die Verwendung von KI beim Lernen zu mehr Oberflächlichkeit, weniger geistiger Aktivität und weniger Lernen führt, und dass die Auswirkungen von KI gravierender sind als die bloße Nutzung einer Suchmaschine. Man möchte hinzufügen: seit Langem wissen wir, dass Computer und andere digitale Medien dem Lernen schaden. KI scheint diesen Effekt noch zu vergrößern.


Diskussion: KI, LLM, ChatGPT an Schulen?

Mit dem Begriff Künstliche Intelligenz (KI) bezeichnet man heute Computer, die Gehirnfunktionen nachahmen und durch Lernen bzw. nach dem Training mit bestimmten Daten bestimmte Funktionen ausführen können. Large Language Models (LLM) sind Sprachmodelle, bei denen auf bestimmte Weise vorstrukturierte sehr leistungsfähige Computer mit mehr als 100 Schichten von Millionen von Neuronen und Milliarden von Synapsen mit großen Mengen digitalisierter Sprache trainiert werden. ChatGPT basiert auf einem solchen Großen Sprachmodell, das im Hinblick auf das Führen von Dialogen optimiert wurde. Das zugrundeliegende Modell war ab Mai 2020 GPT3; dann (Anfang 2021) GPT3,5; noch später (ab August 2014) GPT4o („o“ steht für „omni“) und mittlerweile (August 2025) GPT5.

Die Verwendung von KI in der Schule führt dazu, dass sich die Schüler noch mehr so verhalten, wie sich alle Menschen sowieso verhalten: mit kleinstmöglichem Aufwand das größtmögliche Ergebnis produzieren. Aber was ist das größtmögliche Ergebnis? Wenn die Antwort „eine breite und tiefe Grundbildung bis etwa zum 20. Lebensjahr“ lautet, weil diese die Voraussetzung für ein selbstbestimmtes und erfolgreiches Leben ist und die beste Vorbeugung gegenüber Demenz im Alter darstellt [26], [27], dann ist klar, dass sich Schüler nicht auf äußerliche gute Noten ohne jeglichen Aufwand konzentrieren sollten, sondern auf maximale Gehirnbenutzung mit dadurch verursachtem maximalen Gehirntraining. Alles, was dem Gehirntraining schadet, hätte dann automatisch nichts in unseren Bildungseinrichtungen verloren.

Die vorherrschende Einstellung von Schülern, die geistige Arbeit mittels KI zu erledigen, scheint demgegenüber zu sein: Warum sollte man sich Gedanken darüber machen, tatsächlich etwas zu lernen, wenn man eine Eins bekommen kann, indem man sein Denken an eine Maschine auslagert? KI scheint den Lernenden also eine Haltung anzutrainieren, ohne dass sie es merken oder gar wollen, die auf Zeitverschwendung und Schaden nehmen herausläuft. Vor allem in den USA kommt noch folgendes hinzu: Der Aufwand an Geld für gute Bildung ist in den USA sehr groß. Warum so viel bezahlen, wenn der Effekt minimal bis nicht vorhanden (oder sogar schädlich) ist?

Die Kultusminister und deren Berater haben bislang weder auf die zunehmende internationale Zurückhaltung bei der Digitalisierung noch auf die immer deutlicher werdende, hier dargestellte inhaltliche Kritik an der Nutzung von KI reagiert. Nach wie vor scheint das Mantra: „Digital macht schlau, KI erst recht“ zu gelten. Beispielhaft hierfür war eine Konferenz in Dresden, die kürzlich (am 28. August 2025) im Dresdener Romain-Rolland-Gymnasium stattfand. Das Expertentreffen war von Sachsens Staatsminister für Kultus, Conrad Clemens, organisiert worden und es ging auch um die Rolle von künstlicher Intelligenz in Schulen [28], [29]. Der Tenor aller Vorträge außer meinem eigenen ging in die Richtung, dass die Zukunft der Schulen in mehr digitale Medien und vor allem in KI besteht. Dass die Vorträge allesamt frei von jeglichen Daten, Fakten und Ergebnissen empirischer Untersuchungen waren, schien dabei entweder niemand zu bemerken oder zumindest niemand zu stören. Im Lichte der hier vorgestellten Erkenntnisse ist mehr kritisches Denken zu fordern. Sind wir wirklich schon soweit, dass auch unsere Entscheidungsträger schon einen Verlust kritischen Denkens sichtbar werden lassen? Sie tragen die Verantwortung gegenüber der nächsten Generation für die Folgen, weshalb ihre Entscheidungen auf der Grundlage wissenschaftlich gesicherter Fakten, empirischer Daten und kritischem Nachdenken getroffen werden sollten. Weil KI nach allem was wir bisher wissen dem Lernen schadet und Schüler zum Vortäuschen eigener Leistungen verführt, also Betrug fördert, darf KI an Schulen nicht eingesetzt werden. Schulen müssen KI thematisieren und deren Missbrauch verhindern.




Korrespondenzadresse

Prof. Dr. Dr. Manfred Spitzer
Universität Ulm
Abteilung für Psychiatrie
Leimgrubenweg 12–14
89075 Ulm
Deutschland

Publication History

Article published online:
07 November 2025

© 2025. Thieme. All rights reserved.

Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany


Zoom
Abb. 1 North Harvard Street und South Campus Drive Straßenschilder auf dem Harvard University’s Allston Campus in Boston, Massachusetts(© Tada Images/stock.adobe.com)