NEWSLETTER
ABO / EPAPER
- Abo-Shop
- ePaper
- OÖNplus
- OÖNcard
- Mein Abo
unused Logincontainer
Lade Login-Box ...

Anmeldung

Bitte E-Mail-Adresse eingeben

Bitte geben Sie Ihre E-Mail-Adresse oder Ihren nachrichten.at Benutzernamen ein.

Error

Something went wrong.

Benutzername oder E-Mail-Adresse

Diese E-Mail-Adresse ist bereits registriert!
Der Account wurde am zuletzt verwendet.

Es wird ein Code an diese E-Mail-Adresse gesendet. Sie werden anschließend zur Eingabe dieses Codes aufgefordert und können dann ein neues Passwort eingeben.

Ländervorwahl

expand_more

Handy-Vorwahl (zB. 0664, 0676,...)

Handynummer

Diese Telefonnummer ist bereits registriert!
Der Account wurde am zuletzt verwendet.
Ich möchte die Telefonnummer ändern
Es wird ein Code an diese Telefonnummer gesendet. Sie werden anschließend zur Eingabe dieses Codes aufgefordert und können dann ein neues Passwort eingeben.

Handy-Verifizierungscode

Benutzername

Passwort

Passwort wiederholen

Passwortcode

Name

Ja, ich bin einverstanden von den OÖ Nachrichten über elektronische Medien wie E-Mail, SMS oder Telefon über Neuigkeiten informiert zu werden.

Ich willige in die AGB der OÖNachrichten ein.

Registrieren Anmelden oder Passwort vergessen?

oder

Mit Apple anmelden

oder

Angemeldet bleiben

Passwort vergessen?

Mit Ihrer Registrierung nehmen Sie die Datenschutzhinweise der OÖ Nachrichten zur Kenntnis.

Mit Ihrer Anmeldung erklären Sie sich mit unseren AGB einverstanden.

merken

KI-Chatbots sind bei historischem Wissen noch keine Experten

Von nachrichten.at/apa, 21. Jänner 2025, 20:48 Uhr

Am besten schnitt GPT-4 Turbo vom ChatGPT-Entwickler OpenAI mit einer Trefferquote von 46 Prozent ab. Bild: APA/AFP/OLIVIER MORIN

WIEN. So gut manche KI-Chatbots bei vielen Aufgaben abschneiden, so durchwachsen war das Ergebnis eines Leistungsvergleichs im Hinblick auf das historische Wissen und Verständnis, den ein internationales Forscherteam unter Beteiligung des Wiener Complexity Science Hub (CSH) durchgeführt hat.

Am besten unter sieben getesteten Modellen schnitt noch GPT-4 Turbo ab. Überrascht über das schlechte Abschneiden bei den Fragen auf akademischem Niveau zeigte sich Peter Turchin, der die Forschungsgruppe Social Complexity and Collapse am CSH leitet. Er sammelt seit vielen Jahren zusammen mit Kolleginnen und Kollegen Wissen über die Menschheitsgeschichte in der "Seshat Global History Databank". Diese Datenbank diente auch als Grundlage, um KI-gestützte Chatbots, die auf sogenannten Großen Sprachmodellen (Large Language Model, LLM) basieren, auf ihr Verständnis von historischem Wissen zu testen.

GPT-4 Turbo schnitt am besten ab

Dabei mussten sieben Modelle aus vier Antwortmöglichkeiten die richtige auswählen. Die Zufallsrate von 25 Prozent wurde von allen überboten, wenn auch nicht mit großer Deutlichkeit. Am besten schnitt GPT-4 Turbo vom ChatGPT-Entwickler OpenAI mit einer Trefferquote von 46 Prozent ab, das Schlusslicht bildete Llama-3.1-8B vom Facebook-Konzern Meta mit 33,6 Prozent. Zu berücksichtigen ist, dass kein Allgemeinwissen abgefragt wurde, sondern die Fragen auf Expertenniveau - entsprechend der Datenbank, die Wissen über 600 Gesellschaften weltweit umfasst - lagen.

Getestet wurde zudem nicht nur, ob die Modelle Fakten korrekt identifizieren, sondern auch, ob sie diese aus indirekten Beweisen ableiten können, erklärte Erstautor Jakob Hauser vom CSH in einer Aussendung. Wobei sich laut der Studie, die kürzlich auf der NeurIPS-Konferenz in Vancouver (Kanada), einem prominenten Treffpunkt der KI-Community, präsentiert wurde, bereichspezifisch große Unterschiede gezeigt hätten.

Unterschiede nach Themen, Regionen und Epochen

Abstriche gab es etwa bei der Einschätzung der Charakteristika vergangener Gesellschaften außerhalb Nordamerikas und Westeuropas. Erhebliche Lücken im historischen Verständnis zeigten sich auch bei jüngeren Epochen bis zur Gegenwart, während Fragen zur Frühgeschichte, insbesondere aus der Zeit zwischen 8.000 v. Chr. und 3.000 v. Chr., sehr treffsicher beantwortet wurden. Hinsichtlich der Themenkategorie schwächelten die Modelle bei Diskriminierung und sozialer Mobilität.

Für die Vermittlung grundlegender Fakten würden sich die Modelle hervorragend eignen, "aber wenn es um eine differenziertere historische Untersuchung geht, sind sie der Aufgabe noch nicht gewachsen", wird Ko-Autorin Maria del Rio-Chanona, externes Fakultätsmitglied des CSH und Assistenzprofessorin am University College London, zitiert. Künftig sollen in den Leistungsvergleich mehr Daten aus unterrepräsentierten Regionen einbezogen und mehr Modelle getestet werden.

mehr aus Web

Aktuelle Meldungen

04:45

Registrieren Anmelden oder Passwort vergessen?

oder

oder

GPT-4 Turbo schnitt am besten ab

Unterschiede nach Themen, Regionen und Epochen

Jetzt ePaper lesen!

So vermeiden Sie Fettnäpfchen in WhatsApp-Gruppen

Papst spricht erstmals im TikTok-Format

Datenschützer Max Schrems will gegen TikTok und Shein vorgehen

Deutlich weniger Anrufe mit gekaperten Telefonnummern

Meine Themen

Leserfavoriten »

Millionenforderungen gegen Pleiterestaurants bei Kika/Leiner

Guide Michelin Österreich zeichnete 82-Sterne-Restaurants aus

Molkerei Berglandmilch streicht Hofabholungsgebühr

Traktor stürzte in Klaffer am Hochficht um: 64-Jähriger von Kameraden befreit

Nach schwerer Krankheit: Fleischerei Riepl in Sarleinsbach muss schließen

Strabag und Raiffeisen sollen zwei Milliarden zahlen

Aufregung um Vilimsky-Posting mit Daten einer Journalistin

Hündin kämpft ums Überleben: Warnung vor Giftködern im Wasserwald

60-Jähriger stürzte in Kletterhalle in Mondsee 5 Meter ab

KTM: Betriebsrat und Mitarbeiter blicken gespannt Richtung Freitag

Milliardenstreit mit Russen: Raiffeisens Konter und Deripaskas pikante Rolle

Der rote Anti-Kickl

Jugendliche Autodiebe: "Es ist frustrierend, wenn die Polizei nichts tun kann"

Deutschnationale Burschenschaften am Verhandlungstisch der Koalition

Ein Fall für die Koalitionsverhandler: Wieder Leistungsgruppen in Mittelschulen?

Anrainer fürchten um ihren "schönen Römerberg"

Zwei Oberösterreicherinnen waren bei Trumps Inauguration

VP-Parteitag Ende März geplant

Trumps Gnade für die Kapitol-Stürmer

Daniel Hemetsberger: "Es ist bitter, dass der Vinc nicht da ist"

WHO und Klimaschutzabkommen: Trump startete seine Amtszeit mit mehreren Dekreten

Steinkellner: „Tempo 150 auf der Autobahn kann ich mir sehr gut vorstellen“

Hitlergruß? Empörung über Geste von Elon Musk

Thema des Tages: Tempo 150 auf der Autobahn?

Raml kritisiert fehlende Kreuze in Linzer Schulen

Freistädterin Johanna Jachs zieht für Volkspartei in den Nationalrat ein

Änderung bei ÖBB-Vorteilskarten

"Blau-Schwarz macht das Leben teurer und komplizierter"

Jugendliche Autodiebe: "Es ist frustrierend, wenn die Polizei nichts tun kann"

"Beleidigung des Rechtssystems": Trump-Begnadigung für Kapitol-Erstürmer

Aktuelle Meldungen

Selbstbewusst

Verlängert Trump Europas Krise?

"Der Graf von Monte Christo" im Kino: Ein aristokratischer Racheengel für die Anbetung der Asche

Niederösterreich: Blaues Plus, schwarzes Minus?

Wo Donald Trump die EU auf die Probe stellt