Berner KI-Tool für eine verlässlichere Forschung

Psychologe Jamie Cummins hat ein KI-Tool entwickelt, das Forschende bei der Qualitätsprüfung wissenschaftlicher Publikationen unterstützt. Im Interview erklärt er, wie es funktioniert – und warum die KI den Menschen nicht ersetzt.

Jamie Cummins im Gespräch mit Martina Huber, freischaffende Journalistin.

uniAKTUELL: Jamie Cummins, Sie haben an der Universität Bern ein KI-Tool namens RegCheck entwickelt. Wie würden Sie es Laien beim Abendessen in einem Satz erklären?

Jamie Cummins: Im Kern hilft das KI-Tool Forschenden dabei, zwei Dokumente miteinander zu vergleichen und zu prüfen, ob sie übereinstimmen: den ursprünglichen Studienplan und das wissenschaftliche Paper, das nach Abschluss der Forschungsarbeiten publiziert wird. RegCheck steht für Registration Check.

Warum ist das wichtig?

In der Wissenschaft setzt sich zunehmend die Erkenntnis durch, dass es wichtig ist, im Voraus genau festzulegen, was man untersuchen will und wie – und auch, welche Resultate man sich dabei erhofft. Insbesondere in der medizinischen Forschung, aber auch in quantitativen Sozialwissenschaften wie der Psychologie und Ökonomie ist es inzwischen üblich, diese Forschungspläne zum Zeitpunkt des Studienbeginns in einem öffentlich zugänglichen Register oder Repository transparent zu dokumentieren. Wir nennen diese Dokumentation Präregistrierung. So können Kolleginnen und Kollegen, Herausgeberinnen und Herausgeber, Gutachtende oder andere interessierte Personen sie später einsehen und prüfen, ob Forschende von ihren ursprünglichen Plänen abweichen.

Welche Relevanz haben solche Abweichungen?

Medizinische Forschung bildet die Grundlage für medizinische Leitlinien und hat dadurch einen direkten Einfluss auf Patientinnen und Patienten. Insbesondere die so genannten Cochrane Reviews sind hier von zentraler Bedeutung: systematische Übersichtsarbeiten, für die Forschende zu einem bestimmten Thema alle relevanten Studien sammeln, kritisch bewerten und zu einem Gesamtbild zusammenfassen. Wenn die zugrunde liegende medizinische Forschung nicht robust ist, können auch die daraus abgeleiteten medizinischen Leitlinien weniger robust sein. Wenn Forschende zum Beispiel nicht transparent machen, dass ein Resultat einer klinischen Studie nur ein Zufallsbefund war und nicht ein geplantes Resultat, das eine durch viele Daten abgestützte Hypothese bestätigt, kann dies den Resultaten mehr Gewicht geben, als sie verdienen. Im schlimmsten Fall beeinträchtigen sie die Qualität der Cochrane Reviews, auf die Ärztinnen und Ärzte und weitere Akteure im Gesundheitswesen ihre Entscheide stützen.

Können Sie ein konkretes Beispiel nennen?

Stellen Sie sich vor, ich führe eine klinische Studie durch, um die Wirksamkeit einer neuen Therapie gegen Depressionen zu überprüfen. In der Präregistrierung schreibe ich, dass ich die Depressionsrate von Betroffenen mit und ohne Therapie vergleichen werde. Im Verlauf der Studie sehe ich aber, dass die Therapie keine signifikante Wirkung auf die Depressionsrate hat, dafür aber gegen Angststörungen wirkt. Dann ist die Versuchung gross, den Artikel so zu schreiben, als hätte ich immer geplant, einen Effekt der Therapie auf Angststörungen zu finden. In der Forschung sprechen wir hier von «Outcome Switching» oder von «HARKing» – Hypothesising After Results are Known.

Gerade Neuentdeckungen und wissenschaftliche Durchbrüche basieren doch oft auch auf Zufallsbefunden und Ergebnissen, die nicht im Voraus geplant waren …

Das ist absolut richtig. Ziel von RegCheck ist nicht, dass Forschende auf das eingeschränkt sein sollten, was sie ursprünglich geplant haben. Im Gegenteil: Einige der besten Entdeckungen entstehen aus genau dieser Offenheit für alle möglichen Ergebnisse.

Aber es ist wichtig, dass Forschende transparent machen, was unerwartet war oder unbeabsichtigt erforscht wurde und was geplant war – und weshalb die Ergebnisse am Ende vielleicht von den ursprünglich geplanten Resultaten abweichen. Es ist also völlig in Ordnung, zu schreiben: «Die Therapie hat sich nicht auf die Depressionsrate ausgewirkt. Stattdessen haben wir einen Effekt bei Angststörungen gefunden. Das hatten wir nicht erwartet, und wir werden in weiteren Studien genauer untersuchen, ob sich dieser Effekt auf die Angstzustände bestätigt.» Wenn Abweichungen von der Präregistrierung so transparent gemacht werden, ist das grossartig.

Cochrane Reviews – zentrale Entscheidungsgrundlagen der Medizin

Gesundheitsentscheide sollen auf aktueller, verlässlicher Evidenz beruhen. Das gemeinnützige Cochrane Netzwerk erstellt dazu systematische Übersichten, sogenannte Cochrane Reviews: Autor:innen sammeln relevante Studien, bewerten sie kritisch und fassen sie zu einem Gesamtbild zusammen. Fehlerhafte Studien können Resultate verzerren und die Entscheidungsgrundlagen für Ärzt:innen, Patient:innen und Politik beeinträchtigen. Das Tool INSPECT-SR unterstützt die Qualitätsprüfung der einbezogenen Studien. Das an der Universität Bern entwickelte KI-Tool RegCheck wird künftig in INSPECT-SR integriert und stärkt so die Qualität der Cochrane Reviews.

Ihr Tool soll künftig mithelfen, die Cochrane Reviews zu verbessern … Wie genau geschieht das?

Einerseits können Forschende RegCheck vor dem Einreichen einer Publikation verwenden, um zu prüfen, ob ihr Artikel die ursprüngliche Registrierung transparent und korrekt wiedergibt und ihn falls nötig überarbeiten. Auch Gutachtende oder Herausgeberinnen und Herausgeber können das Tool im Review-Prozess verwenden und falls nötig Autorinnen und Autoren auffordern, solche Abweichungen transparenter zu machen. Natürlich wollen wir niemanden zwingen, RegCheck zu verwenden, aber wenn es genutzt wird, kann es helfen, die Qualität publizierter Studien zu verbessern.

Vor allem aber sind Cochrane-Autor:innen bereits heute explizit dazu angehalten, zu prüfen, ob es bei Studien, die sie für ein Cochrane Review sichten, wesentliche Abweichungen zwischen einer Publikation und der Präregistrierung gibt. Bisher wird das kaum gemacht, weil es sehr aufwändig ist. Mit RegCheck erhalten sie ein Instrument, das ohne viel Aufwand zu tun.

Und was geschieht, wenn sie solche Abweichungen finden?

Studien, bei denen Probleme auffallen – ob es sich nun um Diskrepanzen zwischen Registrierung und Publikation oder um andere Auffälligkeiten handelt – können in systematischen Reviews entsprechend markiert, niedriger gewichtet oder im schlimmsten Fall sogar ganz ausgeschlossen werden. Die Qualität der Reviews wird dadurch besser.

Wie genau funktioniert RegCheck?

RegCheck arbeitet in vier Schritten. Zuerst werden Präregistrierung und Publikation eingelesen und als reiner Text aufbereitet – Literaturverzeichnisse etwa werden entfernt. Dann definiert die forschende Person selbst, was genau sie vergleichen will: Stichprobengrösse, Hypothesen, Outcomes. Das ist bewusst so: Wir wollen nicht der KI überlassen, was relevant ist und worauf der Fokus liegen soll. Sie ist nur ein Werkzeug, das Menschen dabei helfen soll, Entscheidungen zu treffen.

«Die KI kann keine Verantwortung übernehmen. Die wichtigen Entscheidungen muss am Ende immer ein Mensch treffen.»

Jamie Cummins

Und dann?

Im dritten Schritt extrahiert ein klassisches Sprachverarbeitungssystem die für den gewünschten Vergleich relevanten Textstellen aus beiden Dokumenten. Das Verfahren ist vollständig deterministisch: gleiche Eingabe ergibt immer dieselbe Ausgabe, Halluzinationen sind ausgeschlossen. Erst im letzten Schritt bekommt ein generatives Sprachmodell diese ganz spezifischen Textausschnitte und wird gefragt: Stimmen diese in Bezug auf die gewünschte Dimension überein? So minimieren wir den Spielraum für Fehler.

Was bekommt die Forscherin oder der Forscher am Ende zu sehen?

Einen Bericht mit Originalzitaten aus beiden Dokumenten sowie einer Einschätzung des Sprachmodells, ob diese übereinstimmen. Aber am Ende liegt die Verantwortung beim Forschenden, sich das selbst anzuschauen und zu entscheiden, ob die Abweichungen relevant und ausreichend begründet sind oder nicht.

Die KI ersetzt also die Einschätzung der Forschenden nicht?

Nein, auf keinen Fall! Gerne möchte ich hier aus einem IBM-Trainingshandbuch von 1979 zitieren, das festhielt: «Ein Computer kann niemals zur Verantwortung gezogen werden, deshalb sollte ein Computer niemals eine Managemententscheidung treffen.» Das ist genau der Grund, warum «the Human in the Loop» so wichtig ist: Nicht nur, weil menschliche Expertise erhalten bleiben muss. Sondern vor allem, weil die KI keine Verantwortung für Fehler oder Halluzinationen übernehmen kann. Die wichtigen Entscheidungen muss am Ende immer ein Mensch treffen.

Warum kamen Sie eigentlich genau an die Universität Bern, um RegCheck zu entwickeln?

Die Universität Bern ist sehr stark sowohl im Bereich der KI-Werkzeuge und -Methoden als auch in der Metawissenschaft, die untersucht und verbessert, wie Forschung durchgeführt, finanziert und veröffentlicht wird. Insbesondere das Institut für Psychologie hat eine der weltweit führenden Forschungsgruppen im Bereich der Metawissenschaft. Neben RegCheck haben wir auch weitere KI-Tools mitentwickelt, die Forschende bei ihrer Arbeit unterstützen und zur Qualitätssicherung beitragen. Und erst kürzlich haben wir vom Schweizerischen Nationalfonds Forschungsgelder für ein weiteres solches Projekt erhalten.

Die Tools, die wir hier in Bern entwickeln, sind nicht nur für Forschende in der Schweiz relevant: Ich habe bereits Rückmeldungen von Menschen aus anderen Teilen Europas, Amerika und Australien erhalten, die alle sagen, dass sie RegCheck verwendet haben und dass es ihre Arbeit erleichtert hat. Das ist wirklich motivierend!

Zur Person

Jamie Cummins studierte Psychologie in Irland, wo er 2017 seinen Master abschloss. Danach promovierte er an der Universität Gent und forschte dort über sechs Jahre – mit Schwerpunkt auf Messinstrumente für Überzeugungen und Einstellungen sowie auf computergestützte Trainings zur Förderung schulischer Leistungen von Kindern. Heute arbeitet er an der Universität Bern, wo er das KI-Tool RegCheck entwickelte.

uniAKTUELL-Newsletter abonnieren

Entdecken Sie Geschichten rund um die Forschung an der Universität Bern und die Menschen dahinter.