Subscribe to RSS
DOI: 10.1055/a-2516-3808
Von der Akademie zur Künstlichen Intelligenz
Wie Wissenschaft betrieben und kommuniziert wird- Wissenschaft ab 1650: Fachgesellschaften und Fachzeitschriften
- Wachstum von Publikationsorganen, Publikationen und Zitaten
- Kann in der Wissenschaft Wachstum den Fortschritt behindern?
- Testfall Gehirnforschung
- Eine völlig neue Lösung: KI
- BrainBench: Sind große Sprachmodelle die besseren Gehirnforscher?
- BrainGPT – ein besserer Gehirnforscher?
- Literatur
Wissenschaft in ihrer heutigen Form, Funktionalität und Vorgehensweise gibt es seit Mitte des 17. Jahrhunderts, mit der Gründung wissenschaftlicher Fachgesellschaften ab 1652 in Deutschland, England und Frankreich und der Einrichtung von Fachzeitschriften durch diese Gesellschaften ab 1665. Wie Analysen zeigen, stieg in den dreieinhalb Jahrhunderten danach die Anzahl wissenschaftlicher Publikationen exponentiell an, wobei eine mittlere Anstiegsrate von knapp 3 % bis gut 4 % pro Jahr ermittelt wurde, was Verdopplungszeiten von 23,7 bzw. 17,3 Jahren entspricht. Während in der Wirtschaft meist „mehr“ mit „besser“ gleichgesetzt wird, ist dem in der Wissenschaft nicht so, wie eine sehr große bibliometrische Studie zeigen konnte: Mehr Publikationen in einem bestimmten Jahr und Wissenschaftsgebiet erschweren die Sichtbarkeit neuer Ideen und bewirken, dass immer wieder die gleichen Arbeiten zitiert werden. Eine Lösung des Problems könnte im Einsatz von Künstlicher Intelligenz (KI) für die Generierung neuer Hypothesen bestehen. Es wird daher eine neu entwickelte KI vorgestellt – ein mit neurowissenschaftlichen Arbeiten weitertrainiertes großes Sprachmodell („large language model“, LLM) mit dem Namen BrainGPT, das Neurowissenschaftler beim Unterscheiden richtiger von falschen Ergebnissen in publizierten neurowissenschaflichen Arbeiten übertrifft. Ob KI die Publikationsflut eindämmen und die Sichtbarkeit von neuen Erkenntnissen erhöhen kann, lassen die Autoren allerdings offen.
Wahrscheinlich geht es vielen Kollegen in der Wissenschaft nicht selten ähnlich wie mir: Die Anzahl der wissenschaftlichen Arbeiten steigt immer weiter an, weswegen es zunehmend Zeit braucht, auf dem Laufenden zu bleiben. Und daher gelingt dies immer weniger. So bemerke ich gelegentlich mit Entsetzen, dass mir irgendeine wichtige Erkenntnis/Entdeckung über längere Zeit hinweg (manchmal Jahre) entgangen ist. Es ist daher beruhigend, sich zu vergegenwärtigen, dass die Anzahl der wissenschaftlichen Publikationen tatsächlich exponentiell wächst. Die eigenen Fähigkeiten des Lesens und Verarbeitens dieser Literatur sind hingegen grundsätzlich beschränkt. Daher muss jeder irgendwann an seine Grenzen stoßen – das kann aus mathematischen Gründen nicht anders sein. Wie stark wächst unser „Wissen“ wirklich? Behindert dieses Wachstum möglicherweise den Fortschritt der Wissenschaft? Was ist überhaupt Wissen und wie schafft Wissenschaft Wissen?
Wissenschaft ab 1650: Fachgesellschaften und Fachzeitschriften
Wenn man Anfang des 17. Jahrhunderts neue Gedanken und Erkenntnisse veröffentlichen wollte, konnte man lediglich Bücher schreiben oder persönliche Briefe an Bekannte und Freunde versenden. Andere Möglichkeiten der „Veröffentlichung“ gab es nicht. Um die Mitte des 17. Jahrhunderts entstanden jedoch zunächst wissenschaftliche Fachgesellschaften, die sich oft „Akademie“ [ 1 ] nannten, von denen die ersten wissenschaftlichen Zeitschriften herausgegeben wurden. Akademien gab es bereits in der Antike, die eponyme Gemeinschaft um den Philosophen Platon in Athen oder die um 280 v. Chr. von König Ptolemaios I. (beraten von einem Aristoteles-Schüler) gegründete Alexandrinische Schule mit ihrer legendären Bibliothek, die von den Römern weitergeführt worden war und bis ins 2. nachchristliche Jahrhundert als das intellektuelle Zentrum der Antike galt – abgelöst vom Rom der Pax Romana. [ 2 ] Die europäischen Akademien des Mittelalters und der Renaissance beschäftigten sich mit Sprache oder (Bau-) Kunst und nicht (oder nur randständig) mit dem Verständnis von Natur. [ 3 ]
Genau dies änderte sich um die Mitte des 17. Jahrhunderts. Die älteste Fachgesellschaft zum Studium der Natur – die Academia Naturae Curiosorum – wurde am 1. Januar 1652 von Johann Lorenz Bausch (1605–1665) und weiteren Ärzten in der deutschen Reichsstadt Schweinfurt gegründet. [ 4 ] Die Briten und Franzosen zogen mit der Gründung der Royal Society of London for Improving Natural Knowledge (mittlerweile nur noch Royal Society) am 28.11.1660 durch 12 Gründungsmitglieder in London und der französischen Akademie der Wissenschaften (Académie des sciences) [ 5 ] am 22.12.1665 durch den französischen Staatsmann Jean-Baptiste Colbert (1619–1683) in Paris nach [4], [5], [6].
In der umgekehrten Reihenfolge ihrer Gründung begannen diese drei Fachgesellschaften damit, die von ihren Mitgliedern produzierten Erkenntnisse in hierzu eigens gegründeten Fachzeitschriften zu publizieren: Die erste Ausgabe des französischen Journal des sçavans [ 6 ] erschien am 5. Januar 1665 in Paris, also schon vor der Gründung der Fachgesellschaft, die erst gewissermaßen im Schlepptau erfolgte. Diese erste in Europa publizierte wissenschaftliche Fachzeitschrift hatte gerade einmal 12 Seiten. Drei Monate nach deren Erscheinen, am 6. März 1665, erschien in London die erste Ausgabe der Philosophical Transactions der Royal Society, vor allem auf Betreiben des deutschen Theologen, Naturphilosophen und Diplomaten Heinrich (später „Henry“) Oldenburg (1618–1677). Erst 5 Jahre später zogen die Deutschen nach: Auf Initiative des Breslauer Stadtarztes Philipp Jakob Sachs von Löwenheim (1627–1672) erschien im Jahr 1670 erstmals die von der deutschen Academia Naturae Curiosorum herausgegebene Zeitschrift mit dem Titel Miscellanea curiosa medico-physica Academiae Naturae Curiosorum. Sie war die weltweit erste Fachzeitschrift mit dem Schwerpunkt Medizin und Naturwissenschaften und nahm damit eine Idee vorweg, die 2 Jahrhunderte später unter der Führung von Helmholtz und einigen anderen Naturwissenschaftlern und Ärzten die Medizin – als angewandte Naturwissenschaft – weltweit revolutionierte [4], [5].
Halten wir fest: Ab der Mitte des 17. Jahrhunderts gab es wissenschaftliche Fachgesellschaften mit Publikationsorganen. Durch diese wurde nicht nur die akademische Tradition des Miteinander-Diskutierens institutionalisiert, sondern zugleich auch die bis heute gültigen und angewandten Prinzipien wissenschaftlichen Arbeitens und Publizierens – das genaue Beobachten und Messen (Empirie), Aufzeichnen und Registrieren (Ort, Datum), Beurteilen und womöglich Kritisieren (Peer-Review-Verfahren), Vervielfältigen (Druck), Verbreiten sowie schließlich das Katalogisieren (Bibliografie) zum Zweck der weiteren akademischen Diskussion, Einordnung (Philologie) und praktischen Anwendung.
Das auf diese Weise generierte und verbreitete Wissen ist damit grundsätzlich viel besser als sein gegenwärtiger Ruf [ 7 ], denn es ist aufgrund des wissenschaftlichen Vorgehens zu seiner Generierung grundsätzlich auf Wahrheit überprüft (heute nennt man das Fakten-Check [ 8 ]), immer vernetzt und selbstverständlich anwendungsrelevant: Es gibt nichts Praktischeres als eine gute Theorie!
Der Präsident der Royal Society, Paul Nurse, kommentierte dies im Jahr 2015 aus Anlass deren 350-jährigen Bestehens wie folgt: „Was als Maßnahme der Arbeitsersparnis begann, die sich Henry Oldenburg ausdachte, um die Korrespondenz der Gesellschaft zu vereinfachen und vielleicht nebenbei ein wenig Geld zu verdienen, führte zu einer völlig neuen Literaturgattung – der wissenschaftlichen Zeitschrift, einem Format des Druckens, dessen Flexibilität, inhaltliche Vielfalt und Geschwindigkeit der Übermittlung unverzüglich die Phantasie der Naturphilosophen des 17. Jahrhunderts anregte und eine Revolution in der Kommunikation ihrer Arbeit auslöste“ ([10], S. 3).
#
Wachstum von Publikationsorganen, Publikationen und Zitaten
Um genau diese „Revolution in der Kommunikation“ unter Wissenschaftlern geht es im Folgenden. Denn im Gegensatz zu den Inhalten von Ideen, die sich schwer bis gar nicht quantifizieren lassen, kann man den formalen Ausdruck solcher Ideen in Form von Publikationsorganen (Fachzeitschriften), Publikationen (also einzelnen Arbeiten in Fachzeitschriften) und Zitaten (d. h. Nennungen einzelner Arbeiten in anderen, später publizierten Arbeiten) durchaus quantifizieren. Im Folgenden werden Analysen zum Wachstum der wissenschaftlichen Veröffentlichungen über mehrere Jahrhunderte hinweg vorgestellt, wobei für jede der drei genannten Analyse-Ebenen bzw. Analyse-Variablen jeweils eine Arbeit beispielhaft diskutiert wird.
Die im Jahr 1962 von David A. Kronick vorgelegte Analyse der wissenschaftlich-publikatorischen Aktivität für den Zeitraum von 1665–1790 zeigt eindrucksvoll, dass bereits vor dem Jahr 1800 sehr viel los war. Dies wird zuweilen implizit (man redet einfach nicht darüber) oder explizit bezweifelt und damit begründet, dass aufgrund der kleinen Anzahl von Publikationen in der Zeit vor 1800 deren zahlenmäßige Schwankungen statistische Analysen erschweren. Neuere Arbeiten jedoch beginnen ihre Analyse der zitierten Literatur bereits 150 Jahre früher, also in der Mitte des 17. Jahrhunderts, wie unten näher ausgeführt wird [11].
[ Tab. 1 ] zeigt einige Ergebnisse der beachtlichen Fleißarbeit von Kronick. Auffällig an dieser tabellarischen Auflistung ist jeweils die Nummer 1 beim Fachgebiet – Medizin – und beim Land – Deutschland. Dies unterstreicht die Bedeutung der Medizin unter den Wissenschaften. Die Bedeutung von Deutschland als „Land der Ideen“, wie es immer wieder gern bezeichnet wird [ 9 ], erscheint jedoch in dieser Statistik aus mehreren Gründen größer, als sie tatsächlich ist: Erstens ist mit „Deutschland“ im Wesentlichen „deutschsprachig“ (mit Ausnahme der Schweiz) gemeint, denn Deutschland als nationale Entität gab es im Untersuchungszeitraum noch nicht. Zweitens zeigten genauere Analysen der Publikationszeiträume, dass die Lebensdauer der Fachblätter recht kurz war, insbesondere die der deutschsprachigen: Während 39 % der außerhalb Deutschlands publizierten Journale eine Lebensdauer von mehr als 5 Jahren aufwiesen, waren es bei den deutschsprachigen nur 26 % ([12], S. 87). Nimmt man als Messlatte eine mindestens 10-jährige Existenz, dann liegen die Werte bei 23 % (andere Länder) bzw. 15 % (deutschsprachig) ([12], S. 91). Fachblätter mit über 100-jähriger Lebensdauer sind also definitiv Ausnahmeerscheinungen!
Land |
Wissenschaft allgemein |
Allgemeinmedizin |
Medizinische Fachgebiete |
Biowissenschaften |
Physik, Chemie |
Technik |
Agrarwissenschaft |
Gesamt |
Anteil (%) |
* Deutschland gab es streng genommen noch nicht. Gemeint ist hier der deutschsprachige Raum (einschließlich Preußen, Bayern, Sachsen, Schlesien etc., jedoch ohne die deutschsprachige Schweiz). ** Gemeint ist hier nur die Insel England. |
|||||||||
D* |
102 |
61 |
31 |
14 |
34 |
24 |
38 |
304 |
62 |
F |
26 |
12 |
4 |
– |
2 |
2 |
7 |
53 |
11 |
UK** |
11 |
6 |
– |
2 |
7 |
1 |
7 |
34 |
7 |
I |
13 |
7 |
1 |
– |
2 |
– |
– |
23 |
5 |
NL |
12 |
9 |
– |
– |
2 |
– |
– |
23 |
5 |
DK |
5 |
10 |
– |
– |
1 |
– |
2 |
18 |
4 |
CH |
7 |
3 |
– |
4 |
– |
– |
2 |
16 |
3 |
RUS |
2 |
1 |
– |
– |
1 |
– |
2 |
6 |
1 |
S |
3 |
1 |
– |
– |
– |
– |
1 |
5 |
1 |
E |
2 |
– |
– |
– |
– |
1 |
– |
3 |
0,6 |
P |
1 |
1 |
– |
– |
– |
– |
– |
2 |
0,4 |
Andere |
2 |
3 |
1 |
– |
– |
– |
– |
6 |
1 |
Gesamt |
186 |
114 |
37 |
20 |
49 |
28 |
59 |
493 |
|
Anteil (%) |
38 |
23 |
8 |
4 |
10 |
6 |
12 |
Die Arbeit von Kronick wird sowohl im Hinblick auf den Untersuchungszeitraum als auch im Hinblick auf die Anzahl der Publikationen von einer Analyse in den Schatten gestellt, die der Soziologe Lutz Bornmann von der Generalverwaltung der Max-Planck-Gesellschaft (MPG) in München und der Sozialpsychologe Rüdiger Mutz von der Eidgenössischen Technischen Hochschule (ETH) Zürich im Jahr 2015 publizierten. Die beiden untersuchten 38 508 986 wissenschaftliche Arbeiten, die in den 33 Jahren von 1980–2012 publiziert worden waren. [ 10 ] Deren Einteilung nach dem Jahr des Erscheinens ergab zunächst ein exponentielles Wachstum der Anzahl von etwa 750 000 Publikationen im Jahr 1980 auf knapp 1,9 Millionen Publikationen im Jahr 2012, mit einem Anstieg von 2,96 % pro Jahr ([11], S. 2217), was einer Verdopplung alle 23,7 Jahre entspricht. Zudem wurden sämtliche in diesen Publikationen enthaltenen 755 607 107 Zitate aus den Jahren 1650–2012 erfasst und deren Anzahl pro Jahr (der Zitation) bestimmt. Die Häufigkeit eines Teils dieser gut ¾ Mrd. Zitate aus der in den Jahren von 1980–2012 publizierten Literatur nach dem Publikationsjahr der zitierten Quelle im Bereich der Medizin hinweg ist in [ Abb. 1 ] wiedergegeben.


Wie [ Abb. 1 ] zeigt, gab es zwischen 1650 und 1750 größere Schwankungen der Publikationszahlen pro Jahr, d. h. Steigerungen und Rückgänge, und insgesamt wenig Wachstum (etwa 0,5 % pro Jahr). Im Zeitraum danach bis etwa zum Ende des 2. Jahrzehnts des letzten Jahrhunderts gab es ein größeres Wachstum von 3 % und weiter bis zum Ende des letzten Jahrhunderts von etwa 8 % pro Jahr ([11], S. 2218f). [ 11 ] Dies entspricht Verdopplungsraten der Zitationen von etwa 150 Jahren, 24 Jahren bzw. 9 Jahren in den genannten Zeiträumen.
Nach van Raan [14] sind diese Daten Ausdruck zweier sich gegenseitig beeinflussender Prozesse, die er (1) „Alterung“ und (2) „Wachstum“ nennt: Wissenschaftler interessieren sich erstens immer weniger für immer ältere Literatur, und zweitens wurde früher weniger publiziert als später, weswegen es früher weniger zu zitieren gibt. Zudem ist anzumerken, dass schnelleres Publizieren auch eine raschere Abnahme der Zitationen über die Zeit mit sich bringt, wie auch schon die statistische Auswertung von gut 5 Mio. Büchern aus den Jahren 1800–2000 ergab [15]. [ 12 ]
Schließlich untersuchten die Autoren noch die Frage, ob das Wachstum der wissenschaftlichen Literatur (-Zitate) von der wissenschaftlichen Disziplin, also vom publizierten Inhalt, abhängt. Sie beziehen sich hierzu zunächst auf die Einteilung von Wissensgebieten nach OECD Kriterien [(1) Naturwissenschaften, (2) Ingenieurwissenschaften und Technologie, (3) Medizin und Gesundheitswissenschaften, (4) Agrarwissenschaften, (5) Sozialwissenschaften und (6) Geisteswissenschaften], analysieren dann aber nur die Naturwissenschaften und die Medizin, für die sie kaum Unterschiede finden, weder zu den Daten aus allen Gebieten noch zwischen den beiden Gebieten. [ 13 ]
In einer weiteren Arbeit verwenden die Autoren zusätzlich zum Web of Science noch weitere Datenbanken (Scopus, gegründet 2004 von Elsevier; Academic, gegründet 2016 von Microsoft; und Dimensions, gegründet 2018 von Digital Science). Ziel der Studie war es u. a., die Ergebnisse der Analysen der 4 Datenbanken miteinander zu vergleichen, um die Reliabilität solcher bibliometrischer Analysen zu Zitationen zu untersuchen. Wieder wurden komplexe, segmentierte exponentielle Wachstumsmodelle verwendet, wobei ein Modell mit 4 Segmenten mit unterschiedlichen Wachstumsraten die Daten am besten approximierte. [ 14 ] Insgesamt ergab die Auswertung (unsegmentiert über die gesamte Zeit und alle 4 Datensätze aggregiert) ein weltweites Wachstum von 4,1 %, entsprechend einer Verdopplungszeit von 17,3 Jahren.
Um das Wachstum in der Wissenschaft mit dem der Wirtschaft zu vergleichen, analysierten die Autoren zusätzlich nur die Zahl der kumulierten Publikationen aus Großbritannien und zogen Daten zum dortigen Bruttosozialprodukt der Jahre 1770–2016 heran (nicht inflationsbereinigt; Quelle: „Nominal Gross Domestic Product at Market Prices in the UK, Millions of British Pounds, Annual, Not Seasonally Adjusted“, Federal Reserve Bank of St. Louis; [17], S. e4). Hierbei zeigte sich ein Publikationswachstum von 4,97 %, die Wachstumsrate des Bruttosozialprodukts betrug 3,05 %. Beide Kurven verlaufen weder parallel, noch sind sie völlig unrelatiert, was die Autoren anhand bestimmter einzelner Zeiträume diskutieren ([17], S. e10).
Es bleibt festzuhalten, dass die quantitative Analyse von Publikationsorganen, Publikationen und Zitaten ein exponentielles Wachstum der Wissenschaft von knapp 3 bis gut 4 % pro Jahr ergibt. Zur Vorgehensweise kommentieren die Autoren: „Natürlich können neben Publikationen auch andere Daten zur Messung des wissenschaftlichen Wachstums herangezogen werden, beispielsweise die Zahl der Wissenschaftler. Allerdings […] gibt es keine Datenbank, die verlässliche Informationen über die Anzahl der Wissenschaftler seit den Anfängen bis heute liefern“ ([11], S. 2221).
#
Kann in der Wissenschaft Wachstum den Fortschritt behindern?
In der Wirtschaft ist Fortschritt gleich Wachstum. Man erkennt dies am besten an der Bezeichnung der Gegenteile: Das Gegenteil von Wachstum ist Schrumpfung, und das Schrumpfen der Wirtschaft wird als Rezession – (wörtlich aus dem Lateinischen) Rückschritt – bezeichnet. In der Wissenschaft könnte man zunächst vermuten, dass es sich ebenso verhält. Vor allem große Teams entwickeln vorhandene Themen weiter und bewirken eine Art organisches Wachstum oder das, was Thomas Kuhn als „normal science“ [18] bezeichnet hat. Kleine Teams dagegen können bahnbrechende Neuerungen (Kuhn nennt sie „Revolutionen“) hervorbringen, auch wenn das keineswegs allen gelingt. Dies zeigte eine bereits im Jahr 2019 publizierte Analyse von mehr als 65 Mio. Veröffentlichungen, Patenten und Softwareprodukten aus dem Zeitraum von 1954–2014 [19]. Es folgt daraus, dass sowohl kleine als auch große Teams für den wissenschaftlichen Fortschritt wichtig sind und dass gute Wissenschaftspolitik unterschiedlich große Teams fördern sollte.
Zudem bringt auch „normales“ Wachstum gelegentlich sprunghafte Veränderung mit sich, wie die folgende Analogie verdeutlichen soll: Jeder noch so unbedeutende (also wenig bahnbrechende) Artikel trägt ein Sandkorn zu einem großen Sandhaufen (Wissenschaft) bei und erhöht damit die Wahrscheinlichkeit, dass an dessen Abhang gelegentlich eine Lawine ausgelöst und damit die wissenschaftliche Landschaft verändert wird. Zudem steigt mit jeder Veröffentlichung die Wahrscheinlichkeit, dass eine von ihnen eine wirklich wichtige Neuerung enthält. Das „Mehr ist besser“-Postulat zeigt sich auch im ganz normalen Wissenschaftsbetrieb, denn die Publikation vieler Artikel innerhalb eines bestimmten Zeitraums wird mit Drittmitteln, Beförderung oder Festanstellung belohnt.
Dennoch muss „mehr“ nicht immer „besser“ bedeuten, wie eine sehr große bibliometrische Studie von 1,8 Mrd. Zitationen in 90 Mio. wissenschaftlichen Arbeiten in 241 Wissenschaftsfeldern bzw. Fachgebieten zeigen konnte [20]. Eine hohe Anzahl von Publikationen in einem bestimmten Jahr und Wissenschaftsgebiet behindert die Sichtbarkeit neuer Ideen ([ Abb. 2 ] links). Darüber hinaus führt eine höhere Zahl an Arbeiten dazu, dass immer wieder die gleichen Arbeiten zitiert werden ([ Abb. 2 ] rechts). Neue Ideen haben es damit immer schwerer, sich durchzusetzen, weil sie in der Flut der Publikationen untergehen. Oder um beim Bild des Berges zu bleiben: Wenn ganz viel Sand von oben kommt, hat ein einzelnes Sandkorn eben keinen sichtbaren Effekt mehr. All dies führt zu einer „Verknöcherung des Kanons“ („ossification of canon“; vgl. [20], S. e1).


Weil wir über Jahrhunderte ein exponentielles Wachstum hatten und noch immer haben, zeigen diese Überlegungen letztlich an, in welch prekärer Situation sich die Wissenschaft gerade befindet. Der Karren scheint schon an die Wand gefahren! Das sehen die Autoren auch so. „Diese Ergebnisse haben besorgniserregende Folgen im Hinblick darauf, wie es weitergehen soll. Wenn zu viele Arbeiten in kurzer Zeit veröffentlicht werden, können neue Ideen nicht sorgfältig gegen alte abgewogen werden. Die Vorteile eines kumulativen Wachstums [gelegentliche, deutlich sichtbare ,Lawinen‘ und vergleichende Auswahl bahnbrechender Arbeiten] bestehen nicht mehr. Die ,mehr-ist-besser‘ quantitativ-metrische Natur des heutigen wissenschaftlichen Betriebs kann ironischerweise den grundlegenden Fortschritt in wissenschaftlichen Bereichen bremsen, je größer sie sind. Die steigende Anzahl von Zeitschriften und die Verwischung der Zeitschriftenhierarchien aufgrund des Online-Zugangs zu Artikeln können dieses Problem noch verschärfen. […] Könnte es sein, dass wir fruchtbare neue Paradigmen verpassen, weil wir in überlasteten wissenschaftlichen Umgebungen gefangen sind?“ ([20], S. e4; Ergänzung zum kumulativen Wachstum in eckigen Klammern durch den Autor).
Die Therapievorschläge der Autoren im Sinne einer Verkleinerung machen wenig Mut und führen vor allem die Ausweglosigkeit der Situation sehr klar vor Augen: „Die Zahl der jährlichen Veröffentlichungen zu begrenzen, Zeitschriften zu schließen, Forschungseinrichtungen zu schließen und die Zahl der Wissenschaftler zu reduzieren, dürfte schwer umzusetzen sein“ ([20], S. e4). Und selbst wenn sich Wissenschaftler in einer Art Selbstverpflichtung dazu durchringen würden, weniger zu publizieren, dann würde jeder, der sich daran auch wirklich hält, seiner Karriere schaden, es sei denn, man ändert das gesamte Bewertungssystem in Richtung Qualität statt Quantität. Hierzu bemerken die Autoren: „Belohnungs- und Beförderungssysteme, vor allem an den renommiertesten Institutionen, die auf quantitative Maßnahmen verzichten, und die (1) weniger, (2) tiefgründigere und vor allem (3) neuartige Beiträge schätzen, könnten die Flut von Veröffentlichungen reduzieren“ ([20], S. e4; Zahlen in eckigen Klammern durch den Autor ergänzt).
#
Testfall Gehirnforschung
Die Neurowissenschaften stellen ein großes und stark interdisziplinär arbeitendes Fachgebiet dar. Neurowissenschaftler arbeiten mit biochemischen und molekularbiologischen Methoden, untersuchen die Struktur und Funktion von Neuronen und Neuronenverbänden auf der zellulären und geweblichen Ebene mittels elektrophysiologischer und optogenetischer Verfahren, stellen Beziehungen zwischen Erleben und Verhalten einerseits und Gehirnaktivität andererseits auf der Ebene ganzer Organismen her und beschreiben die individuelle Entwicklung über die Zeit hinweg von der Verschmelzung von Ei und Samenzelle bis zum Tod. Mit diesem Methodenarsenal (von Molekularbiologie bis Systems Neuroscience) wird auch ein besseres Verständnis von neurologischen und psychiatrischen Krankheitsbildern möglich (man denke nur an die Erkenntnisse zu Neuromodulation und Neuroplastizität), woraus sich wiederum neue therapeutische Ansätze ableiten lassen.
Die Vielfältigkeit der Neurowissenschaft sowohl bezüglich der Methoden als auch der untersuchten Fragen und ihr zugleich ungeheurer Aufschwung in den vergangenen 35 Jahren – nicht umsonst wurden die 90er-Jahre des letzten Jahrhunderts vom US-Amerikanischen Präsidenten George Bush Senior als Jahrzehnt des Gehirns ausgerufen [21] – macht sie zu einem besonders drastischen Fall der oben beschriebenen Probleme. Ihr Wachstum war größer als das Wachstum der Wissenschaft im Durchschnitt, wie eine Analyse von 2 467 708 neurowissenschaftlichen Arbeiten aus den Jahren von 1991–2020 zeigte: Der Anteil neurowissenschaftlicher Arbeiten an allen wissenschaftlichen Publikationen stieg in den 1990er-Jahren von 5 % auf 7 %, um sich dann bis 2020 auf knapp 8 % einzupendeln [22]. [ 15 ] Was für die Wissenschaft als Ganzes gilt, gilt also offensichtlich für die Gehirnforschung in besonderem Ausmaß: Der Karren befindet sich vor der Wand.
#
Eine völlig neue Lösung: KI
Im Jahr 2016 hat Demis Hassabis gezeigt, dass Maschinen beim Brettspiel Go den nächsten Zug so zu setzen lernen, dass sie gewinnen. Berechnen kann man dies prinzipiell nicht, da die Anzahl der Spielmöglichkeiten ca. 10170 beträgt und damit größer ist als die Anzahl der Atome im gesamten bekannten Universum mit ca. 1080. Damit wurde erstmals deutlich, dass Maschinen erstens Zusammenhänge lernen können, die sich nicht berechnen lassen, und zweitens mehr lernen können als Menschen. Sie können dann bessere Spielzüge hervorbringen als Menschen und haben damit bessere Intuitionen – so zumindest nennen wir Einfälle, die wir nicht logisch ableiten. Die etwa 600 000 Keilschrifttafeln, die in den Museen dieser Welt lagern [23], kann kein Mensch lesen und daraus dann eine gute Übersetzung ableiten – eine KI prinzipiell schon [24]. Mit Wetterdaten ist dies ebenso [25], [26], beim Kaffeemischen [27] und Bierbrauen auch [28].
Vor allem in der Medizin wird KI zu diagnostischen Zwecken mit Erfolg eingesetzt: Britische Dermatologen gehörten im Jahr 2017 mit zu den ersten, die eine KI mit 129 450 Hautflecken trainierten und dann erfolgreich zur Unterscheidung benigner von malignen Hautveränderungen einsetzten [29]. Für die Faltung von Proteinen zum Auffinden neuer Medikamente und Pathomechanismen mithilfe von KI erhielt Hassabis im Herbst 2024 den Nobelpreis für Chemie. Das Trainingsset der von ihm entwickelten KI AlphaFold bestand in etwa 50 000, durch langwieriges Experimentieren über einen Zeitraum von gut 50 Jahren gefundenen dreidimensionalen Strukturen von Proteinen mit bekannter Aminosäurensequenz. Innerhalb von 4 Jahren generierte AlphaFold die Struktur von zunächst 24 von 43 (im Rahmen eines Wettbewerbs ausgeschriebenen) Aminosäurensequenzen [30], eineinhalb Jahre später dann die Struktur von etwa 20 000 (d.h. 98.5 % aller beim Menschen vorkommenden) Proteinen [31] und ein weiteres Jahr später [32] die Struktur von 200 000 000 Proteinen (d. h. allen Proteinen in allen Lebewesen, von denen es Proteinsequenzdaten gab). Hassabis und seine Mitarbeiter bei DeepMind haben damit in 4 Jahren 4000-mal so viel Proteinstrukturen aufgeklärt wie die globale Gemeinschaft der mit Proteinstrukturaufklärung befassten Biochemiker in 50 Jahren. Der Nobelpreis für Chemie – an einen Informatiker! – war daher sicherlich berechtigt.
KI könnte eigentlich auch die Abkürzung von „Künstliche Intuition“ sein, denn das Wesen von KI besteht ja genau darin, dass eine Maschine nach selbsttätigem Lernen neue Intuitionen hervorbringt. So lernte beispielsweise die KI AlphaGo zero das Brettspiel Go dadurch, dass sie dieses Spiel unzählige Male gegen sich selbst gespielt und dadurch gelernt hat, welcher Zug bei einer bestimmten Situation auf dem Spielbrett zum Sieg führt und welcher nicht. Es gibt keinen Entscheidungsbaum, keinen Algorithmus und damit nichts, was erlauben würde nachzuvollziehen, wie die KI den Zug hervorgebracht hat. Es gibt lediglich ein paar Milliarden geordnete Zahlen, welche die Stärke der synaptischen Verbindungen im neuronalen Netzwerk festlegen, das bei einem bestimmten Input (Situation auf dem Spielbrett) einen bestimmten Output (den nächsten Zug) generiert. Da AlphaGo zero gegen eine andere KI (AlphaGo) gewann, die ein Jahr zuvor ihrerseits gegen den besten menschlichen Go-Spieler 4 von 5 Spielen gewonnen hatte [33], muss man davon ausgehen, dass sie im Vergleich zum Menschen die besseren Intuitionen hat [34].
Das Überraschende an großen Sprachmodellen wie ChatGPT war unter anderem die Erkenntnis, dass sie zwar mit Sprache, nur mit Sprache, trainiert wurden, nach diesem Training jedoch über ein erhebliches Maß an Wissen über die Welt verfügten. Allerdings beantwortet ChatGPT nicht alle Fragen korrekt, sondern halluziniert [ 16 ] gelegentlich völligen Unsinn.
In der Medizin geben mit medizinischen Daten bzw. medizinischer Literatur trainierte LLM auf klinische Fragen mittlerweile brauchbare Antworten, wenn auch nicht in allen Fällen [35], [36]. Eine kürzlich im Fachblatt Nature Medicine publizierte Arbeit konnte sogar zeigen, dass die Antworten einer jüngst entwickelten KI zur Beantwortung klinischer Fragen von mehr als 50 % der befragten Experten den Antworten anderer menschlicher Experten gegenüber vorgezogen wird [37].
#
BrainBench: Sind große Sprachmodelle die besseren Gehirnforscher?
Dass große Sprachmodelle Texte schreiben und Fragen beantworten, hat sich nach der Freischaltung von ChatGPT am 30. November 2022 rasch herumgesprochen. ChatGPT basiert auf dem großen Sprachmodell GPT-3 (Generative Pre-trained Transformer, Version 3) der Firma OpenAI, das bereits im Mai 2020 vorgestellt wurde und Texte produziert, die so natürlich wirken, dass sie von Texten, die von Menschen geschrieben wurden, nur schwer zu unterscheiden sind. Letztlich verdankt GPT-3 diese Funktion seinen 175 Milliarden Synapsen verschiedener Stärke, durch die es diese Fähigkeit hat. Die Stärken der Synapsen entstanden durch das Training dieses Sprachmodells mit hunderten von Milliarden Wörtern (mit ihrem sprachlichen Kontext) aus dem Internet, Wikipedia, Millionen von Büchern und auch publizierten wissenschaftlichen Arbeiten.
Wie oben bereits erwähnt, werden LLM in der klinischen Medizin mittlerweile mit zunehmendem Erfolg in der Praxis eingesetzt. Es scheint nur noch eine Frage der Zeit zu sein, bis KI nicht nur Dermatologen und Radiologen bei Mustererkennungsprozessen unterstützt, sondern Ärzten bei jeglichen klinischen Fragen beiseite steht. Sofern das wirklich funktioniert, könnte man dann nicht auch LLM dazu verwenden, wissenschaftlich zu arbeiten? Das ist eine völlig andere Fragestellung, denn hierbei ginge es wohlgemerkt nicht mehr nur um das Beantworten von Fragen (das können LLM ja schon, und sie werden darin auch immer besser), sondern letztlich um das Hervorbringen neuer Fragen! Wie würde das funktionieren und was würde dies für die Wissenschaft bedeuten?
Mit genau diesen Fragen, also dem Einsatz von LLM in der Wissenschaft, beschäftigt sich eine kürzlich im Fachblatt Nature Human Behaviour erschienene Arbeit von Luo und 40 weiteren Autoren [38]. Wenn es um wissenschaftliche Forschung geht, dann geht es um die Generierung von neuem Wissen, also nicht nur um die Beantwortung von Fragen mithilfe von bereits vorhandenem Wissen. Weil das maschinelle Lernen immer auf bereits vorhandenes Wissen zurückgreift, könnte man argumentieren, dass es prinzipiell kein neues Wissen generieren könne. Bedenkt man jedoch, dass Maschinen mehr lernen können als Menschen, dann sollten sie – wie beim Brettspiel Go, dem Entziffern von Keilschrift oder dem Falten von Proteinen – auch dazu in der Lage sein, neue Beziehungen oder Verknüpfungen in vorhandenem Wissen aufzuspüren, auf die Menschen noch nicht gekommen sind oder aufgrund ihrer Begrenztheit (Lebenszeit und Denkvermögen sind endlich) auch künftig mit nur sehr geringer Wahrscheinlichkeit kommen würden. Aber wie zeigt man, dass eine Maschine das tatsächlich kann?
Bevor man dies in Angriff nimmt, sollte man zunächst einmal die Frage klären, ob LLM (also eine Maschine) tatsächlich besser als menschliche Wissenschaftler verstehen kann. Aber wie macht man das? Bei Alpha-Go und Alpha-Go zero konnte man die beste Maschine gegen die besten menschlichen Spieler antreten lassen und gegen die zweitbeste Maschine (die ihrerseits gegen Menschen gewonnen hatte), um Überlegenheit zu demonstrieren. Wie aber kann man Maschinen gegen menschliche Wissenschaftler „spielen“ lassen, also jeweils deren Vermögen, Zusammenhänge zu entdecken und daraus die richtigen Schlüsse abzuleiten, miteinander vergleichen?
Hierzu entwickelten die Autoren ein Verfahren, das sie BrainBench nannten, denn es handelt sich um ein neues Verfahren zum Benchmarking (also zum Leistungsvergleich) von künstlicher und menschlicher Intelligenz. Eine Teilgruppe (n = 33) der 41 Autoren war mit der Entwicklung von BrainBench beschäftigt, die darin bestand, neben der originalen Zusammenfassung (Abstract) einer neurowissenschaftlichen Arbeit einen zweiten Abstract mit identischer Einleitung und Methodik, aber mit genau entgegengesetztem Ergebnis zu generieren ([ Abb. 3 ]). Dies geschah für 200 im Jahr 2023 publizierte Abstracts aus dem Journal of Neuroscience aus den Bereichen (in der Reihenfolge abnehmender relativer Häufigkeiten):
-
Verhalten und Kognition (37,5 %),
-
Systeme und Schaltkreise (25,5 %),
-
Neurobiologie von Krankheiten (12,5 %),
-
Molekular- und Zellbiologie (12,5 %) und
-
Entwicklung, Plastizität, Reparatur (12 %).


Für weitere 100 solcher Publikationen generierte das LLM GPT-4 (der im Jahr 2023 publizierte Nachfolger von GPT-3) die Testabstracts. „Alle Testfälle wurden einer umfangreichen Qualitätskontrolle durch menschliche Experten und GPT-4 unterzogen“, kommentieren die Autoren ihr Vorgehen ([38], S. e3).
Diese Prozedur mag zunächst sehr eigenartig klingen; liest man sich jedoch die im angeführten Testbeispiele durch ([ Abb. 3 ], [ Abb. 4 ]), dann wird jedem in der Neurowissenschaft Tätigen deutlich werden, dass sie oder er keineswegs alles so gut überblickt, um die richtigen von den falschen Ergebnissen mit traumwandlerischer Sicherheit zu unterscheiden.


Man verwendete BrainBench dann, um das Abschneiden von neurowissenschaftlichen Experten mit dem Abschneiden von mehreren großen Sprachmodellen zu vergleichen, was die Erkennung der korrekten Version des Testabstracts anbelangt. Schließlich wurden LLM ja u. a. mit Texten zu wissenschaftlichen Sachverhalten trainiert, sodass ihr Weltwissen auch die Gehirnforschung betrifft. Aber sind LLM wirklich bessere Neurowissenschaftler als Menschen? Um dies herauszufinden, wurden 202 Personen mit Erfahrung im Bereich der Neurowissenschaft über soziale Medien und einen E-Mail-Newsletter rekrutiert, von denen 31 aus verschiedenen Gründen nach dem Experiment wieder ausgeschlossen wurden. Ausgewertet wurden die Daten von 171 Personen: 51 Doktoranden, 43 Lehrkräfte bzw. akademische Mitarbeiter, 43 Postdoktoranden, 18 Studenten vor der Promotion und 12 Wissenschaftler; 4 Personen wurden als „Sonstige“ eingestuft. Das Durchschnittsalter betrug 35,2 Jahre, sie hatten im Mittel 10,1 Jahre Erfahrung in den Neurowissenschaften, und 62,5 % waren männlich.
Jedem Teilnehmer wurden nach einer entsprechenden Einführung und einem Versuchsdurchlauf 9 Abstracts (6 von Experten und 3 von GPT-4 erstellte) präsentiert, woraufhin per Mausklick zu entscheiden war, welche Version die Ergebnisse korrekt wiedergibt ([ Abb. 4 ]). Dabei wurde sichergestellt, dass jeder Testfall bei allen Teilnehmern etwa gleich häufig eingesetzt wurde. Um dies zu erreichen, wurde festgehalten, wie oft jeder Abstract verwendet wurde, und die 9 Abstracts für den jeweils nächsten Teilnehmer immer aus den Abstracts gezogen, die bis dahin weniger häufig verwendet worden waren. Zusätzlich gab es zwei sehr einfache Fangfragen-Durchgänge (Catch Trials), deren korrekte Beantwortung anzeigte, dass sich die Teilnehmer auch tatsächlich bemühten, die richtige Lösung anzugeben. Nach jeder Entscheidung mussten die Teilnehmer zudem auf zwei Analogskalen angeben, wie sicher (von „weniger“ bis „mehr“) sie sich jeweils waren und wie hoch sie ihre Expertise im Bereich, um den es im Abstract ging, einschätzten (von „gar keine“ bis „sehr viel“). Dies geschah über simulierte Schieberegler auf dem Bildschirm für einen Bereich von 0 bis 100. Zudem sollten die Teilnehmer angeben, ob sie die jeweilige Publikation kannten (was dazu führte, dass dieser Durchgang nicht in die Auswertung einging).
Nach Abschluss der insgesamt 11 Durchgänge (9 Abstracts und 2 Catch Trials) wurde den Teilnehmern mitgeteilt, welche Durchgänge sie richtig gelöst hatten, und sie wurden gefragt, ob sie während der Studie in irgendeiner Form geschummelt hatten. Schummeln, die falsche oder fehlende Bedienung der Schieberegler und die falsche Beantwortung beider Catch Trials führten zum Ausschluss der Daten des jeweiligen Teilnehmers von der weiteren Analyse (N = 31). Die Kenntnis des Abstracts und Reaktionszeiten unter 5 s führten zum Ausschluss des einzelnen Durchgangs.
Die Evaluation der LLM erfolgte durch eine recht komplexe mathematische Prozedur, die sich kurz wie folgt beschreiben lässt: Gegeben dass ein LLM ein nächstes vorgegebenes Wort mit einer bestimmten Wahrscheinlichkeit produziert, ergibt sich aggregiert über die Wörter in den Ergebnisteilen der Abstracts ein Maß, die „Perplexität“ („perplexity“), die man sich als „Grad der Unsicherheit“ des LLM bei der Vorhersage der Wortfolge in einem bestimmten Text vorstellen kann. Der Abstract mit dem geringeren Grad an Unsicherheit (also mit geringerer Perplexität) galt als vom Modell ausgewählt. Die numerische Größe des Unterschieds der Perplexitäten für die richtige und die falsche Version wurde als Maß für die Sicherheit („confidence“) der Entscheidung verwendet. [ Tab. 2 ] gibt eine Übersicht zu den 4 Typen von LLM, die – jeweils in mehreren Versionen – evaluiert wurden.
LLM |
Firma |
Wurde trainiert bis… |
Freigeschaltet seit… |
Synapsenzahl |
Llama2 |
Meta, USA |
September 2022 |
Juli 2023 |
7–70 Mrd. |
Galactica |
Meta, USA |
Juli 2022 |
November 2022 |
120 Mio. bis 125 Mrd. |
Falcon |
Technology Innovation Institute (TII), Abu Dhabi |
Dezember 2022 |
Mai 2023 |
40 Mrd. |
Mistral |
Mistral AI, Frankreich |
unbekannt |
September 2023 |
7–22 Mrd. |
Zunächst analysierte man nur die Daten aus Durchgängen mit von Menschen konstruierten Abstracts. Das wichtigste Ergebnis des Vergleichs der Trefferquote besteht darin, dass jedes evaluierte LLM die menschlichen Experten übertraf: Während Experten eine Trefferquote von durchschnittlich 63,4 % erreichten, lag die der LLMs im Durchschnitt bei 81,4 %. Dies könnte daran liegen, dass die Experten sich nur in ihrem Teilbereich gut auskannten, also beispielsweise Molekularbiologen nichts über das Frontalhirn und kognitive Neurowissenschaftler nichts über Optogenetik wussten. Um diese Überlegung empirisch zu untersuchen, beschränkte man die Analyse der von den Experten gegebenen Antworten auf diejenigen, die sich in den oberen 20 % der von den Experten selbst angegebenen Expertise für dieses Abstract befinden.
Unter den LLM zeigten kleinere Modelle mit 7 Mrd. Parametern vergleichbare Leistungen wie größere Modelle mit 70 oder 120 Mrd. Parametern. Wurden dieselben Analysen unter Verwendung von GPT-4-generierten Test-Abstracts durchgeführt, schnitten die Experten mit knapp 70 % Trefferquote etwas besser ab, während sich die Trefferquote der LLM kaum veränderte. Interessant ist der Befund, dass die Korrelation der Treffer zwischen einem LLM und den Experten nur 0,15 (± 0,03) betrug, wohingegen die mittlere Korrelation zwischen den LLM bei 0,75 (± 0,08) lag. Um besser zu verstehen, wie die LLM ihre Treffsicherheit bewerkstelligen, wurde untersucht, ob ihre Leistung durch die Integration von Informationen aus dem gesamten Abstract oder durch die ausschließliche Verwendung des lokalen Kontexts im Ergebnisteil, in dem sich die beiden Abstracts unterschieden, bewirkt wurde. Wie sich zeigte, war die Treffsicherheit bei alleiniger Verwendung des Ergebnisteils deutlich geringer (vgl. [ Abb. 5 ] a). Daraus lässt sich ableiten, dass die überlegene Leistung von LLM auf der Integration von Informationen über den gesamten Abstract hinweg beruht.


Weitere Analysen zeigten, dass die gute Leistung der LLM nicht einfach auf abgespeicherte Daten aus dem Training zurückgeführt werden kann. Es gab zudem keinen Zusammenhang zwischen dem Monat der Publikation der verwendeten Abstracts (Januar versus Oktober) und der Treffsicherheit, was dagegen spricht, dass „ältere“ Abstracts vielleicht eine größere Chance hatten, bereits von den LLM „gelesen“ worden zu sein.
Zuletzt wurde noch der Zusammenhang zwischen Treffsicherheit und dem (subjektiv erlebten) Gefühl der Gewissheit bzw. Sicherheit, ob diese Entscheidung richtig war, untersucht. Ganz allgemein vertrauen wir Entscheidungen eher, wenn ein solcher Zusammenhang besteht. Entsprechende Korrelationen wurden für Experten und für LLM berechnet, sie waren bei beiden positiv ([ Abb. 5 ] b). „Wenn LLM Vertrauen in ihre Entscheidungen haben, ist die Wahrscheinlichkeit größer, dass sie richtig liegen“, interpretieren die Autoren diesen Befund ([38], S. e5).
#
BrainGPT – ein besserer Gehirnforscher?
Es ist durchaus üblich, dass man Sprachmodelle vortrainiert, um aufbauend auf diesem Training danach eine Spezialisierung durch ein spezifisches weiteres Training herbeizuführen. So wurde beispielsweise in der oben zitierten Arbeit zur Verwendung von KI zur Entzifferung der Keilschrift ein LLM (namens BERT der Firma Google aus dem Jahr 2018) verwendet, das mit 104 zeitgenössischen Sprachen (Englisch, Deutsch etc.) vortrainiert war. Dieses wurde dann weiter mit etwa 10 000 bekannten (also bereits von Menschen übersetzten) Keilschrifttafeln trainiert, um gleichsam zusätzlich zum allgemeinen Spracherwerb auch noch die Keilschrift lesen zu lernen. Nur durch dieses Vortraining war eine Steigerung der Treffsicherheit bei Textergänzungen um knapp 30 Prozentpunkte auf 89 % möglich geworden [24], [40]. Das Weltwissen von heute nützt also beim Übersetzen und Verstehen 5000 Jahre alter Texte sehr. Kann man in ähnlicher Weise die Treffsicherheit einer gegenwärtig verwendeten LLM im Hinblick auf die Vorhersage des Ausgangs neurowissenschaftlicher Experimente dadurch weiter steigern, dass man sie mit Publikationen aus der Gehirnforschung trainiert? Mit anderen Worten: Können speziell trainierte Maschinen die besseren Wissenschaftler sein?
Um dies herauszufinden, trainierten Luo und Mitarbeiter das LLM Mistral-7B weiter, mit über 1,3 Mrd. Wörtern und Textumgebungen aus neurowissenschaftlichen Publikationen, die in insgesamt 100 Zeitschriften zwischen 2002 und 2022 erschienen waren. Hierzu wurde ein Verfahren verwendet, das low-rank adaptation (LoRA) genannt wird. Es führt neue Adapter-Matrizen – man könnte auch sagen: neue Synapsen – in das bestehende LLM ein, die (und nur die) dann trainiert werden, um die Leistung des Modells zu steigern. Durch LoRA wurden 629 145 600 neue Synapsengewichte in das LLM Mistral-7B eingeführt, was einer Vergrößerung des Modells um 8 % entsprach. Dies verbesserte die Treffsicherheit des Modells, das die Autoren dann BrainGPT nannten, von 83 % auf 86 %. Vor allem aber kam es durch das zusätzliche Training zu einer hoch signifikanten (p < 0,001) Reduktion der Perplexität, also der Unsicherheit des Modells bei richtiger Entscheidung. Dies ist gleichbedeutend mit einer Steigerung der Wahrscheinlichkeit, mit der das Modell den richtigen Ausgang des Experiments vorhersagen konnte.
Bedeutet dies nun, dass Neurowissenschaftler bald durch die KI BrainGPT ersetzt werden? So scheint es zunächst in der von den Autoren durchgeführten Diskussion ihrer Ergebnisse: „Unsere Analysen deuten darauf hin, dass LLMs die grundlegenden Muster entdecken, die den neurowissenschaftlichen Studien zugrunde liegen, was sie in die Lage versetzt, die Ergebnisse von Studien vorherzusagen, die für sie neu sind“ ([38], S. e5). Und weiter: „Die beeindruckenden vorausschauenden Fähigkeiten der LLM lassen auf eine Zukunft schließen, in der LLMs Wissenschaftlern helfen, Entdeckungen zu machen“ ([38], S. e6).
Aber ist die Vorhersage des Ergebnisses künftiger Experimente schon das Gleiche wie Wissenschaft? Schon das zweite Zitat macht deutlich, dass die Autoren selbst das nicht glauben, sonst würden sie nicht davon sprechen, dass BrainGPT den Wissenschaftlern (nur) hilft, Entdeckungen zu machen. Es wäre also nichts weiter als ein Werkzeug, was die Autoren auch etwas später direkt konstatieren: „BrainGPT dient nicht nur als Werkzeug für Neurowissenschaftler, sondern kann auch dazu beitragen, die Struktur des Fachgebiets aufzuzeigen“ ([38], S. e6). Was mehr als ein Werkzeug ist, ist auf jeden Fall ein Werkzeug. Diesen Werkzeugcharakter von BrainGPT wird man durchaus akzeptieren können, aber ein Hammer sagt dem Zimmermann ja gerade nicht, wie er den Dachstuhl zu bauen hat. Kurz: Ein Werkzeug in der Hand eines Experten ersetzt den Experten nicht.
Es besteht allerdings die Möglichkeit, dass Werkzeuge gedankenlos verwendet werden. Und genau diese Gefahr sehen die Autoren für BrainGPT offenbar durchaus: „Ein Risiko besteht darin, dass Wissenschaftler Untersuchungen nicht weiterverfolgen, wenn ihre Vorhersagen denen eines LLM zuwiderlaufen“ ([38], S. e6). Damit würde BrainGPT die Forschungsfreiheit gefährden und dazu führen, dass bevorzugt nur noch das beforscht wird, was kurzfristig Erfolg verspricht. Andererseits könnte BrainGPT „Lücken oder Fehler in der wissenschaftlichen Literatur aufzeigen“ ([38], S. e6), was wiederum zu neuen Studien führen könnte, die einen bedeutenden Durchbruch zur Folge haben [41]. Aber selbst ein von BrainGPT mit hoher Sicherheit vorhergesagtes Studienergebnis könnte als inkrementeller Fortschritt im Sinne von Thomas Kuhns „normal science“ angesehen werden. Welche Wahrscheinlichkeit BrainGPT für den Ausgang eines Experiments auch immer vorhersagen mag, es ist – und es bleibt – der Wissenschaftler, der es dann ausführt oder nicht.
Kehren wir noch zum zweiten Halbsatz des oben angeführten Werkzeug-Statements zurück: Die Autoren sprechen davon, dass BrainGPT „die Struktur [eines] Fachgebiets aufzuzeigen“ in der Lage sei. Damit sind sie „full-circle“ wieder bei den eingangs diskutierten bibliometrischen Überlegungen: „Wir können die Trainingsmenge von BrainGPT variieren und die Auswirkungen auf BrainBench beobachten. Zum Beispiel:
-
Wie wirkt sich die Einbeziehung von Trainingsdaten aus verwandten Bereichen wie der Psychologie aus? Im Hinblick auf die Unterstützung der Vorhersage können wir quantifizieren, wie stark die Bereiche miteinander verbunden sind.
-
Hilft es, Artikel in der Trainingsmenge nach ihrer Aktualität, ihren Zitationen oder ihrem Impact-Faktor zu gewichten?“ ([38], S. e6).
Die Autoren prophezeien, dass BrainGPT und BrainBench solche „metawissenschaftlichen Fragen“ beantworten werden und sehen „LLM als zukunftsweisende generative Modelle der wissenschaftlichen Literatur“ ([38], S. e6). Hier geht es damit nicht um die Wissenschaft selbst, sondern deren Bibliometrie. Hierfür dürfte sich KI als Werkzeug als durchaus brauchbar erweisen. Wird durch die KI BrainGPT im Bereich der Neurowissenschaft die Flut der Publikationen eingedämmt und die Sichtbarkeit neuer Erkenntnisse verbessert? Diese Frage greifen die Autoren am Ende ihrer Diskussion gar nicht mehr auf. Stattdessen werden sie am Schluss allgemeiner: „In diesem Beitrag haben wir uns auf die Neurowissenschaften konzentriert, aber unsere Ziele sind breiter angelegt; wir hoffen, eine Vorlage für jeden wissensintensiven Bereich zu liefern. Keiner der von uns gewählten Ansätze ist spezifisch für die Neurowissenschaften“ ([38], S. e6).
Daran ist nichts zu bemängeln: BrainGPT ist ein weiteres Werkzeug, das von Experten für Neurowissenschaft eingesetzt werden kann. Und für die KI in der Neurowissenschaft gilt, was für Experten in anderen Bereichen gilt: KI wird Experten nicht ersetzen. Aber Experten, die KI verwenden, werden Experten ersetzen, die keine KI verwenden. Mit den Worten der Autoren: „Schließlich sehen wir, auch wenn LLM in der Lage zu sein scheinen, den Menschen bei der Vorhersage zu verdrängen, eine Rolle für menschliche Experten, wenn es um wissenschaftliche Erklärungen geht. Vorhersagen sind sehr wichtig, aber nicht alles“ ([38], S. e6). Man könnte noch ergänzen: In der Wissenschaft braucht es die Experten nicht nur zum Erklären, sondern auch zum Machen und zum Übernehmen der Verantwortung. Verantwortung können nur Menschen haben, Maschinen prinzipiell nicht.
#
#
Interessenkonflikt
Die Autorinnen/Autoren geben an, dass kein Interessenkonflikt besteht.
Fußnoten
1 Das Wort „Akademie“ zur Bezeichnung einer Fachgesellschaft kommt daher, dass vom griechischen Philosophen Platon (428–348) etwa im Alter von 40 Jahren ein Grundstück in einem kleinen Wäldchen im Norden von Athen gekauft wurde (heute im Athener Stadtteil Akadimia Platonos gelegen), um dort seine Schule des Philosophierens bzw. Unterrichtens von Schülern im systematischen Denken zu gründen. Das kleine Wäldchen hatte den Namen des griechischen Sagenhelden Akademos. Im Laufe der Zeit wurde der Name des Wäldchens nicht nur auf die Schule – Akademie – übertragen, sondern auch auf die Schüler – Akademiker. Man stelle sich vor, wie wir heute reden würden, wenn der Wald nach dem Kriegs- und Sonnengott der aztekischen Mythologie –Huitzilopochtli – benannt gewesen wäre!
2 So nennt man den Zeitraum vom Jahr 27 v. Chr. bis zum Jahr 180 n. Chr., während dessen die Stadt Rom eine Zeit des relativen Friedens und Wohlstands erlebte.
3 So wurde bereits im Jahr 1323 die Akademie der floralen Spiele (Académie des Jeux floraux) zur Bewahrung der Lyrik der Troubadoure in Toulouse gegründet. Bereits zuvor hatte der italienische Staatsmann Brunetto Latini (1220–1294), ein Lehrer und Freund des Dichters und Philosophen Dante (1265–1321), im Jahr 1270 die Akademie der schönen Künste in Florenz gegründet und im Jahr 1300 König Friedrich II. von Sizilien in Palermo eine Gesellschaft zur Pflege der italienischen Sprache und Dichtung. In Rom erfolgte um das Jahr 1464 die Gründung der Academia Romana durch den Renaissance-Humanisten Julius Pomponius Laetus. Man traf sich in dessen Haus und diskutierte das antike Rom, dessen Traditionen und vor allem die antiken Quellen, betrieb also das, was wir heute Geschichte und Philologie bzw. Altertumswissenschaft nennen. Im Jahr 1583 wurde schließlich in Florenz die Accademia della Crusc a (wörtlich „Akademie der Kleie“, weil es darum ging, auch sprachlich die Spreu [i. e., Kleie] vom Weizen zu trennen) von einer Gruppe von Dichtern und Literaten gegründet, die ab 1612 das erste Wörterbuch der italienischen Sprache herausgab – das Vocabolario degli Accademici della Crusca. Sie war das Vorbild für die Gründung der Fruchtbringenden Gesellschaft (Societas Fructifera) im Jahr 1617 in Weimar durch Caspar von Teutleben (1576–1629), damals Hofmarschall am Weimarer Hof. Sie wurde auch als Palmenorden bekannt, da ihr Emblem eine Palme zeigte, und hatte die Förderung der deutschen Sprache zum Ziel [1]. Auch für die Académie française (gegründet 1635), der es ebenfalls um die Förderung der Landessprache ging, war sie Vorbild.
4 Die zunächst rein private Gelehrtengesellschaft wurde im Jahr 1677 von Kaiser Leopold I. zur Akademie erhoben und 1687 zur kaiserlichen Akademie erklärt. Er gab ihr den Namen Sacri Romani Imperii Academia Caesareo-Leopoldina Naturae Curiosorum, und es wundert bei dessen Länge nicht, dass man mittlerweile einfach nur von der Leopoldina spricht.
5 Diese ist nicht zu verwechseln mit der Académie française, einer bereits im Jahr 1635 unter Ludwig XIII. auf Betreiben seines Ministers Kardinal Richelieu gegründeten Gelehrtengesellschaft mit Sitz in Paris, welche die Inventarisierung und Pflege der französischen Sprache zur Aufgabe hatte. Entsprechend begann sie 1637 mit der Erstellung eines Wörterbuchs (Dictionnaire de l’Académie), das ab 1694 erschien [2], [3].
6 Im Jahr 1816 wurde die Zeitschrift in Journal des savants umbenannt.
7 Wann immer heute von „Faktenwissen“ die Rede ist, wird so getan, als bestünde Wissen in nichts weiter als der Anhäufung memorierter Einzelheiten. Dies beruht, wie ich im Text zu zeigen versucht habe, auf einem verkürzten und damit falschen Begriff von Wissen.
8 Es ist aus dieser Sicht beunruhigend, dass eine der derzeit größten sozialen Publikationsplattformen, die Elon Musk gehörende Plattform „X“, kürzlich diesen Faktencheck und damit den Anspruch auf Wahrheit gestrichen hat. Nur wenige Tage später, am 7. Januar 2025, gab Marc Zuckerberg, der Chef von „Meta“, bekannt, dass sein Konzern das Faktencheck-Programm auf den Plattformen Facebook und Instagram in den USA einstellen werde [7]. Er begründete seine Entscheidung damit, dass „Faktenprüfer einfach politisch zu voreingenommen“ seien, was in den USA zu einem Verlust des Vertrauens geführt hätte. Das Internationale Faktenchecknetzwerk (IFCN) und die Vereinten Nationen (UN) verweisen mittlerweile aber sehr deutlich auf die Risiken des Weglassens der Überprüfung von Wahrheit: „Einige der mehr als 100 Länder, in denen die beschäftigten Faktenchecker derzeit eingesetzt werden, seien in hohem Maße durch Desinformationskampagnen bedroht, was politische Instabilität, Wahlbeeinflussung, Gewalt und sogar Völkermord zur Folge haben könne“, wird das IFCN hierzu im SPIEGEL Online am 11.1.2025 [8] zitiert. Zudem sind spontane Rückmeldungen von Nutzern (sogenannte „community notes“) kein Ersatz für systematische professionelle Faktenchecks [9]. Nach 375 Jahren gesellschaftlich erwünschter und institutionalisierter Wahrheitssuche wurde damit von 2 Milliardären entschieden, dass Wahrheit bei dem, was etwa 5 Milliarden Menschen untereinander kommunizieren, keine Rolle mehr spielt. Eine Pressesprecherin von Donald Trump erfand „alternative Fakten“ schon kurz nach Beginn von dessen erster Amtszeit. Wie das Regieren und die Politik „gegen die Wahrheit“ aussieht, wissen wir Deutschen aus unserer Geschichte leider nur zu gut. Nicht umsonst sagt man, dass im Krieg zuerst immer die Wahrheit verliert.
9 Seit dem Jahr 2005 gibt es die Standortinitiative “Deutschland – Land der Ideen” der Bundesregierung und des Bundesverbandes der Deutschen Industrie (BDI) mit dem Ziel, ein positives Deutschlandbild als Innovations- und Wissenschaftsstandort zu vermitteln.
10 Die Daten entstammten der Literaturdatenbank der Münchner Max-Planck Gesellschaft, die ihrerseits auf dem Web of Science basiert und von der Max Planck Digital Library (MPDL) gegründet wurde und verwaltet wird. Die Autoren stehen damit in bester bibliometrischer Tradition: Das Web of Science geht auf das Institute for Scientific Information (ISI), zurück, das bereits im Jahr 1960 von Eugene Garfield (1925–2017), einem der Pioniere der empirischen Informationswissenschaft, gegründet wurde. Der hatte bereits 1955 im Fachblatt Science zum Sinn und Kontext der wissenschaftlichen Betrachtung von Zitationen publiziert [13]. Im Jahr 1992 wurde die Datenbank bzw. Recherche-Plattform von Thomson Reuters gekauft und im Jahr 2016 an deren ausgegründete Tochtergesellschaft Clarivate Analytics verkauft. Diese Firma war ursprünglich die Wissenschaftsabteilung von Thomson Reuters, wurde im Jahr 2016 jedoch in ein unabhängiges Unternehmen verwandelt, das später an zwei Private-Equity-Unternehmen (Onex Corporation in Toronto und Baring Private Equity Asia in Hongkong) verkauft wurde (wie man den entsprechenden Einträgen bei Wikipedia entnehmen kann).
11 Die Prozentangaben zum Wachstum wurden durch eine segmentierte nichtlineare Regression mit einem exponentiellen Wachstumsmodell anhand der gesamten Literatur (zur Methodik vgl. [11], S. 2216f).
12 Vgl. hierzu auch meine zusammenfassende Darstellung in der Nervenheilkunde [16].
13 Ihr Fazit sei dem Leser nicht vorenthalten: „Die Regressionsanalyse ergab drei Segmente mit interpretierbarem Inhalt bis zum Beginn des 21. Jahrhunderts, mit ähnlichen Anfangs- und Endpunkten. Nur das mittlere Segment, das im Vergleich zum ältesten Segment ein höheres Niveau wissenschaftlicher Aktivität aufweist, beginnt in den Naturwissenschaften etwas früher als in der Medizin (1720 statt 1750). Zudem sind die Wachstumsraten in der Medizin seit dem 18. Jahrhundert etwas höher als in den Naturwissenschaften“ ([11], S. 2219).
14 Vor 1809 betrug die jährliche Wachstumsrate 2,87 %, danach betrug sie bis 1882 5,62 %, bis 1952 3,78 % und bis 2016 5,08 % ([17], S. e9).
15 Dies war keineswegs in allen Bereichen der Biomedizin der Fall. Zum Vergleich: Der Anteil der Veröffentlichungen im Bereich der Onkologie stieg von 1,5 % bis 1,7 % in den 1990er-Jahren und dann weiter auf 2,18 % im Jahr 2020; die Publikationen im Bereich der Kardiologie hatten 1991–2010 einen konstanten Anteil von 1,4 % an der Gesamtzahl der Veröffentlichungen und wiesen danach bis 2020 einen Rückgang auf 1,1 % auf [22].
16 Als Psychiater, der sich gerade zu Beginn seiner Laufbahn sehr ausführlich mit der psychopathologischen Terminologie befasst hat, kann ich mir diese Anmerkung nicht verkneifen: „Halluzinieren“ ist das falsche Wort für das Hervorbringen eines falschen Gedankens; „halluzinieren bezeichnet vielmehr die Produktion von sinnlichen Erlebnissen wie z. B. das Hören von Stimmen, das Sehen von Tieren, das Riechen oder Schmecken von etwas oder das Erleben leiblicher Empfindungen bis hin zu Schmerzen. Was ChatGPT gelegentlich macht, müsste man eigentlich „Wahn“ (Delusion) nennen. Im Englischen gibt es jedoch kein einigermaßen bekanntes Verb für „wähnen“ („to delude“ something), man findet vielmehr lediglich die Übersetzungen „to imagine“, „to ponder“, „to believe“ und „to think“, die allesamt das Nicht-Zutreffen eines Sachverhalts nicht in ihrer Bedeutung tragen. So verfiel man dann offensichtlich auf das nächstbeste Wort aus dem psychopathologischen Sprachschatz für das Hervorbringen von Unsinn, dem keine Realität entspricht – „to hallucinate“.
-
Literatur
- 1 Conermann KHG. Fruchtbringende Gesellschaft – Der fruchtbringenden Gesellschaft geöffneter Erzschrein, Band I: Vorhaben, Namen, Gemälde und Wörter (Faksimile der Ausgabe von 1629); Band II: Die fruchtbringende Gesellschaft und ihr Köthener Gesellschaftsbuch. Eine Einleitung; Band III: Die Mitglieder der fruchtbringenden Gesellschaft, 1617–1650. Weinheim: VCH Verlagsgesellschaft, Acta Humaniora; 1985
- 2 Evans RJW. Learned societies in Germany in the seventeenth century. Eur Stud Rev 1977; 7: 129-151
- 3 Burr E. Die Akademiebewegung. (09.01.2008). Accessed February 12, 2025 at: https://home.uni-leipzig.de/burr/Intro/html/Akademiebewegung.htm
- 4 Brown H. History and the learned journal. J Hist Ideas 1972; 33: 365-377
- 5 Fyfe A, Moxham N, McDougall-Waters J. et al. A history of scientific journals: publishing at the Royal Society, 1665–2015. London: UCL Press; 2022
- 6 McDougall-Waters J, Moxham N, Fyfe A. Philosophical transactions: 350 years of publishing at the Royal Society (1665–2015). London: The Royal Society; undatiert; Accessed March 28, 2025 at: https://royalsociety.org/-/media/journals/publishing/publishing-350-exhibition-catalogue.pdf
- 7 Stokel-Walker C. Are tech firms giving up on policing their platforms? (07.01.2025). Accessed February 12, 2025 at: https://www.newscientist.com/article/2462974-are-tech-firms-giving-up-on-policing-their-platforms/
- 8 [Anonym]. Zuckerbergs Kehrtwende. Biden bezeichnet Meta-Entscheidung gegen Faktenchecks als »beschämend«. (11.01.2025). Accessed February 12, 2025 at: https://www.spiegel.de/netzwelt/meta-joe-biden-bezeichnet-entscheidung-gegen-faktenchecks-als-beschaemend-a-73e5b389–2c26–46f8-b97b-e2d1ca441af4
- 9 Chuai Y, Tian H, Pröllochs N. et al. Did the roll-out of community notes reduce engagement with misinformation on X/Twitter?. Proc ACM Hum Comput Interact 2024; 8: 1-52
- 10 Nurse P. Foreword from the President. In: McDougall-Waters J, Fyfe A, McDougall-Waters J. Philosophical transactions: 350 years of publishing at the Royal Society (1665–2015). London: The Royal Society; 2015: 3
- 11 Bornmann L, Mutz R. Growth rates of modern science: a bibliometric analysis based on the number of publications and cited references. J Assoc Inf Sci Technol 2015; 66: 2215-2222
- 12 Kronick DA. A history of scientific and technical periodicals. The origins and development of the scientific and technological press 1665–1790. New York: The Scarecrow Press; 1962
- 13 Garfield E. Citation indexes for science. Science 1955; 122: 108-111
- 14 van Raan A. On growth, ageing, and fractal differentiation of science. Scientometrics 2000; 47: 347-362
- 15 Michel JB, Shen YK, Aiden AP. et al. Quantitative analysis of culture using millions of digitized books. Science 2011; 331: 176-182
- 16 Spitzer M. Aschenputtel als Flugsimulator. Mit Darwin und Sprache können Sie rechnen!. Nervenheilkunde 2011; 30: 545-554
- 17 Bornmann L, Haunschild R, Mutz R. Growth rates of modern science: a latent piecewise growth curve approach to model publication numbers from established and new literature databases. Humani Soc Sciences Commun 2021; 8: 224
- 18 Kuhn TS. Die Struktur wissenschaftlicher Revolutionen. (Erstauflage in englischer Sprache 1962 bei University of Chicago Press; deutsche Erstauflage 1967 bei Suhrkamp). Frankfurt: Suhrkamp; 1962. 1967, 2001
- 19 Wu L, Wang D, Evans JA. Large teams develop and small teams disrupt science and technology. Nature 2019; 566: 378-382
- 20 Chu JSG, Evans JA. Slowed canonical progress in large fields of science. PNAS 2021; 118: e2021636118
- 21 Jones EG, Mendell LM. Assessing the decade of the brain. Science 1999; 284: 739-739
- 22 Simard MA, Kozlowski D, Segal J. et al. Trends in brain research: a bibliometric analysis. Can J Neurol Sci 2023; 7: 1-11
- 23 Gordin S, Gutherz G, Elazary A. et al. Reading Akkadian cuneiform using natural language processing. PLoS ONE 2021; 15 (10) e0240511
- 24 Lazar K, Saret B, Yehudai A. et al. Filling the gaps in ancient akkadian texts: a masked language modelling approach. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing 2021; pages 4682-4691
- 25 Lam R, Sanchez-Gonzalez A, Willson M. et al. Learning skillful medium-range global weather forecasting. Science 2023; 382: 1416-1421
- 26 Price I, Sanchez-Gonzalez A, Alet F. et al. Probabilistic weather forecasting with machine learning. Nature 2025; 637: 84-90
- 27 Tanner J. A coffee roastery in Finland has launched an AI-generated blend. The results were surprising. 20.04.2024. https://apnews.com/article/artificial-intelligence-finland-coffee-blend-0cd12d5ae15a6d0e928c4cb4d7635b09 Stand: 12.02.2025
- 28 Schreurs M, Piampongsant S, Roncoroni M. et al. Predicting and improving complex beer flavor through machine learning. Nat Commun 2024; 15: 2368
- 29 Esteva A, Kuprel B, Novoa R. et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 2017; 542: 115-118
- 30 Senior AW, Evans R, Jumper J. et al. Improved protein structure prediction using potentials from deep learning. Nature 2020; 577: 706-710
- 31 Tunyasuvunakool K, Adler J, Wu Z. et al. Highly accurate protein structure prediction for the human proteome. Nature 2021; 596: 590-596
- 32 Callaway E. News: ‘The entire protein universe’: AI predicts shape of nearly every known protein. Nature 2022; 608: 15-16
- 33 Silver D, Huang A, Maddison CJ. et al. Mastering the game of Go with deep neural networks and tree search. Nature 2016; 529: 484-489
- 34 Silver D, Schrittwieser J, Simonyan K. et al. Mastering the game of Go without human knowledge. Nature 2017; 550: 345-359
- 35 Low YS, Jackson ML, Hyde RH. et al. Answering real-world clinical questions using large language model based systems. arXiv 2024; 2407.00541v1
- 36 Wu V, Casauay J. OpenEvidence. Fam Med 2024; 56: 1-2
- 37 Singhal K, Tu T, Gottweis J. et al. Toward expert-level medical question answering with large language models. Nat Med 2025;
- 38 Luo X, Rechardt A, Sun G. et al. Large language models surpass human experts in predicting neuroscience results. Nat Hum Behav 2024;
- 39 Taylor R, Kardas M, Cucurull G. et al. Galactica: a large language model for science. Xiv 2022; 2211.09085
- 40 Stokel-Walker C. Ancient Mesopotamian cuneiform tablets could be decoded by an AI. (16.9.2021). Accessed February 12, 2025 at: https://www.newscientist.com/article/2290324-ancient-mesopotamian-cuneiform-tablets-could-be-decoded-by-an-ai/
- 41 Howells H. AI beats neuroscientists’ predictions. Nat Neurosci 2025; 28: 3
Korrespondenzadresse
Publication History
Article published online:
01 May 2025
© 2025. Thieme. All rights reserved.
Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany
-
Literatur
- 1 Conermann KHG. Fruchtbringende Gesellschaft – Der fruchtbringenden Gesellschaft geöffneter Erzschrein, Band I: Vorhaben, Namen, Gemälde und Wörter (Faksimile der Ausgabe von 1629); Band II: Die fruchtbringende Gesellschaft und ihr Köthener Gesellschaftsbuch. Eine Einleitung; Band III: Die Mitglieder der fruchtbringenden Gesellschaft, 1617–1650. Weinheim: VCH Verlagsgesellschaft, Acta Humaniora; 1985
- 2 Evans RJW. Learned societies in Germany in the seventeenth century. Eur Stud Rev 1977; 7: 129-151
- 3 Burr E. Die Akademiebewegung. (09.01.2008). Accessed February 12, 2025 at: https://home.uni-leipzig.de/burr/Intro/html/Akademiebewegung.htm
- 4 Brown H. History and the learned journal. J Hist Ideas 1972; 33: 365-377
- 5 Fyfe A, Moxham N, McDougall-Waters J. et al. A history of scientific journals: publishing at the Royal Society, 1665–2015. London: UCL Press; 2022
- 6 McDougall-Waters J, Moxham N, Fyfe A. Philosophical transactions: 350 years of publishing at the Royal Society (1665–2015). London: The Royal Society; undatiert; Accessed March 28, 2025 at: https://royalsociety.org/-/media/journals/publishing/publishing-350-exhibition-catalogue.pdf
- 7 Stokel-Walker C. Are tech firms giving up on policing their platforms? (07.01.2025). Accessed February 12, 2025 at: https://www.newscientist.com/article/2462974-are-tech-firms-giving-up-on-policing-their-platforms/
- 8 [Anonym]. Zuckerbergs Kehrtwende. Biden bezeichnet Meta-Entscheidung gegen Faktenchecks als »beschämend«. (11.01.2025). Accessed February 12, 2025 at: https://www.spiegel.de/netzwelt/meta-joe-biden-bezeichnet-entscheidung-gegen-faktenchecks-als-beschaemend-a-73e5b389–2c26–46f8-b97b-e2d1ca441af4
- 9 Chuai Y, Tian H, Pröllochs N. et al. Did the roll-out of community notes reduce engagement with misinformation on X/Twitter?. Proc ACM Hum Comput Interact 2024; 8: 1-52
- 10 Nurse P. Foreword from the President. In: McDougall-Waters J, Fyfe A, McDougall-Waters J. Philosophical transactions: 350 years of publishing at the Royal Society (1665–2015). London: The Royal Society; 2015: 3
- 11 Bornmann L, Mutz R. Growth rates of modern science: a bibliometric analysis based on the number of publications and cited references. J Assoc Inf Sci Technol 2015; 66: 2215-2222
- 12 Kronick DA. A history of scientific and technical periodicals. The origins and development of the scientific and technological press 1665–1790. New York: The Scarecrow Press; 1962
- 13 Garfield E. Citation indexes for science. Science 1955; 122: 108-111
- 14 van Raan A. On growth, ageing, and fractal differentiation of science. Scientometrics 2000; 47: 347-362
- 15 Michel JB, Shen YK, Aiden AP. et al. Quantitative analysis of culture using millions of digitized books. Science 2011; 331: 176-182
- 16 Spitzer M. Aschenputtel als Flugsimulator. Mit Darwin und Sprache können Sie rechnen!. Nervenheilkunde 2011; 30: 545-554
- 17 Bornmann L, Haunschild R, Mutz R. Growth rates of modern science: a latent piecewise growth curve approach to model publication numbers from established and new literature databases. Humani Soc Sciences Commun 2021; 8: 224
- 18 Kuhn TS. Die Struktur wissenschaftlicher Revolutionen. (Erstauflage in englischer Sprache 1962 bei University of Chicago Press; deutsche Erstauflage 1967 bei Suhrkamp). Frankfurt: Suhrkamp; 1962. 1967, 2001
- 19 Wu L, Wang D, Evans JA. Large teams develop and small teams disrupt science and technology. Nature 2019; 566: 378-382
- 20 Chu JSG, Evans JA. Slowed canonical progress in large fields of science. PNAS 2021; 118: e2021636118
- 21 Jones EG, Mendell LM. Assessing the decade of the brain. Science 1999; 284: 739-739
- 22 Simard MA, Kozlowski D, Segal J. et al. Trends in brain research: a bibliometric analysis. Can J Neurol Sci 2023; 7: 1-11
- 23 Gordin S, Gutherz G, Elazary A. et al. Reading Akkadian cuneiform using natural language processing. PLoS ONE 2021; 15 (10) e0240511
- 24 Lazar K, Saret B, Yehudai A. et al. Filling the gaps in ancient akkadian texts: a masked language modelling approach. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing 2021; pages 4682-4691
- 25 Lam R, Sanchez-Gonzalez A, Willson M. et al. Learning skillful medium-range global weather forecasting. Science 2023; 382: 1416-1421
- 26 Price I, Sanchez-Gonzalez A, Alet F. et al. Probabilistic weather forecasting with machine learning. Nature 2025; 637: 84-90
- 27 Tanner J. A coffee roastery in Finland has launched an AI-generated blend. The results were surprising. 20.04.2024. https://apnews.com/article/artificial-intelligence-finland-coffee-blend-0cd12d5ae15a6d0e928c4cb4d7635b09 Stand: 12.02.2025
- 28 Schreurs M, Piampongsant S, Roncoroni M. et al. Predicting and improving complex beer flavor through machine learning. Nat Commun 2024; 15: 2368
- 29 Esteva A, Kuprel B, Novoa R. et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 2017; 542: 115-118
- 30 Senior AW, Evans R, Jumper J. et al. Improved protein structure prediction using potentials from deep learning. Nature 2020; 577: 706-710
- 31 Tunyasuvunakool K, Adler J, Wu Z. et al. Highly accurate protein structure prediction for the human proteome. Nature 2021; 596: 590-596
- 32 Callaway E. News: ‘The entire protein universe’: AI predicts shape of nearly every known protein. Nature 2022; 608: 15-16
- 33 Silver D, Huang A, Maddison CJ. et al. Mastering the game of Go with deep neural networks and tree search. Nature 2016; 529: 484-489
- 34 Silver D, Schrittwieser J, Simonyan K. et al. Mastering the game of Go without human knowledge. Nature 2017; 550: 345-359
- 35 Low YS, Jackson ML, Hyde RH. et al. Answering real-world clinical questions using large language model based systems. arXiv 2024; 2407.00541v1
- 36 Wu V, Casauay J. OpenEvidence. Fam Med 2024; 56: 1-2
- 37 Singhal K, Tu T, Gottweis J. et al. Toward expert-level medical question answering with large language models. Nat Med 2025;
- 38 Luo X, Rechardt A, Sun G. et al. Large language models surpass human experts in predicting neuroscience results. Nat Hum Behav 2024;
- 39 Taylor R, Kardas M, Cucurull G. et al. Galactica: a large language model for science. Xiv 2022; 2211.09085
- 40 Stokel-Walker C. Ancient Mesopotamian cuneiform tablets could be decoded by an AI. (16.9.2021). Accessed February 12, 2025 at: https://www.newscientist.com/article/2290324-ancient-mesopotamian-cuneiform-tablets-could-be-decoded-by-an-ai/
- 41 Howells H. AI beats neuroscientists’ predictions. Nat Neurosci 2025; 28: 3









