Lade Inhalte...
  • NEWSLETTER
  • ABO / EPAPER
  • Lade Login-Box ...
    Anmeldung
    Bitte E-Mail-Adresse eingeben
    Bitte geben Sie Ihre E-Mail-Adresse oder Ihren nachrichten.at Benutzernamen ein.

gemerkt
merken
teilen

KI-Chatbots sind bei historischem Wissen noch keine Experten

Von nachrichten.at/apa, 21. Jänner 2025, 20:48 Uhr
ChatGPT gibt’s als App, die Anwendung mit einer „Wissens- und Wahrheitsmaschine gleichzusetzen, ist ein Missverständnis“, sagte Ars-Electronica-Chef Gerfried Stocker einmal.
Am besten schnitt GPT-4 Turbo vom ChatGPT-Entwickler OpenAI mit einer Trefferquote von 46 Prozent ab. Bild: APA/AFP/OLIVIER MORIN

WIEN. So gut manche KI-Chatbots bei vielen Aufgaben abschneiden, so durchwachsen war das Ergebnis eines Leistungsvergleichs im Hinblick auf das historische Wissen und Verständnis, den ein internationales Forscherteam unter Beteiligung des Wiener Complexity Science Hub (CSH) durchgeführt hat.

Am besten unter sieben getesteten Modellen schnitt noch GPT-4 Turbo ab. Überrascht über das schlechte Abschneiden bei den Fragen auf akademischem Niveau zeigte sich Peter Turchin, der die Forschungsgruppe Social Complexity and Collapse am CSH leitet. Er sammelt seit vielen Jahren zusammen mit Kolleginnen und Kollegen Wissen über die Menschheitsgeschichte in der "Seshat Global History Databank". Diese Datenbank diente auch als Grundlage, um KI-gestützte Chatbots, die auf sogenannten Großen Sprachmodellen (Large Language Model, LLM) basieren, auf ihr Verständnis von historischem Wissen zu testen.

GPT-4 Turbo schnitt am besten ab

Dabei mussten sieben Modelle aus vier Antwortmöglichkeiten die richtige auswählen. Die Zufallsrate von 25 Prozent wurde von allen überboten, wenn auch nicht mit großer Deutlichkeit. Am besten schnitt GPT-4 Turbo vom ChatGPT-Entwickler OpenAI mit einer Trefferquote von 46 Prozent ab, das Schlusslicht bildete Llama-3.1-8B vom Facebook-Konzern Meta mit 33,6 Prozent. Zu berücksichtigen ist, dass kein Allgemeinwissen abgefragt wurde, sondern die Fragen auf Expertenniveau - entsprechend der Datenbank, die Wissen über 600 Gesellschaften weltweit umfasst - lagen.

Getestet wurde zudem nicht nur, ob die Modelle Fakten korrekt identifizieren, sondern auch, ob sie diese aus indirekten Beweisen ableiten können, erklärte Erstautor Jakob Hauser vom CSH in einer Aussendung. Wobei sich laut der Studie, die kürzlich auf der NeurIPS-Konferenz in Vancouver (Kanada), einem prominenten Treffpunkt der KI-Community, präsentiert wurde, bereichspezifisch große Unterschiede gezeigt hätten.

Unterschiede nach Themen, Regionen und Epochen

Abstriche gab es etwa bei der Einschätzung der Charakteristika vergangener Gesellschaften außerhalb Nordamerikas und Westeuropas. Erhebliche Lücken im historischen Verständnis zeigten sich auch bei jüngeren Epochen bis zur Gegenwart, während Fragen zur Frühgeschichte, insbesondere aus der Zeit zwischen 8.000 v. Chr. und 3.000 v. Chr., sehr treffsicher beantwortet wurden. Hinsichtlich der Themenkategorie schwächelten die Modelle bei Diskriminierung und sozialer Mobilität.

Für die Vermittlung grundlegender Fakten würden sich die Modelle hervorragend eignen, "aber wenn es um eine differenziertere historische Untersuchung geht, sind sie der Aufgabe noch nicht gewachsen", wird Ko-Autorin Maria del Rio-Chanona, externes Fakultätsmitglied des CSH und Assistenzprofessorin am University College London, zitiert. Künftig sollen in den Leistungsvergleich mehr Daten aus unterrepräsentierten Regionen einbezogen und mehr Modelle getestet werden.

mehr aus Web

So vermeiden Sie Fettnäpfchen in WhatsApp-Gruppen

Papst spricht erstmals im TikTok-Format

Datenschützer Max Schrems will gegen TikTok und Shein vorgehen

Deutlich weniger Anrufe mit gekaperten Telefonnummern

Lädt

info Mit dem Klick auf das Icon fügen Sie das Schlagwort zu Ihren Themen hinzu.

info Mit dem Klick auf das Icon öffnen Sie Ihre "meine Themen" Seite. Sie haben von 15 Schlagworten gespeichert und müssten Schlagworte entfernen.

info Mit dem Klick auf das Icon entfernen Sie das Schlagwort aus Ihren Themen.

Fügen Sie das Thema zu Ihren Themen hinzu.

0  Kommentare
0  Kommentare
Die Kommentarfunktion steht von 22 bis 6 Uhr nicht zur Verfügung.
Zu diesem Thema wurden noch keine Kommentare geschrieben.
Neueste zuerst Älteste zuerst Beste Bewertung
Aktuelle Meldungen