Probleme

Halluzinationen und Bias sind die wichtigsten Fehler, die systemimmanent sind und nicht so schnell verschwinden werden.
Stilistisch perfekt kann der grösste Unsinn geschrieben werden - zwischen erstaunlich guten Dingen versteckt.
Der Mensch neigt dazu, deshalb der Technik zu vertrauen und das ungeprüft zu übernehmen, die Verantwortung zu delegieren.
Wenn Unsinn dann in der Wikipedia landet, wird das Wissen "verunreinigt" und ggf. wieder für das Training der KI verwendet und verbreitet sich so weiter

Was macht generative KI problematisch?

→ Die heuristische Herangehensweise kann zu Falschaussagen führen. Man unterscheidet 2 Fehler-Typen, „Halluzination“ und Bias als Verzerrungen (analog zu Kognitive Verzerrung).

→ Heuristische Fehler eines Systems nach dem konnektionistischen Modell werden (anthropomorphizierend) auch „Halluzinationen“ genannt, wenngleich dies ein tatsächliches „Denken“ eines Modells voraussetzt. Bias resultiert aus Verzerrungen in den Trainingsdaten (Auswahl, bildet ggf. die "im Leben" vorhandenen Verzerrungen ab) oder der Modellkonstruktion.
→„Halluzinationen“ bedeuten, dass ein Modell mit einer gewissen Wahrscheinlichkeit falsche Informationen ausgibt. Genau genommen ist aber auch eine „richtige“ Information letztlich ein vom Zufall gesteuertes Ergebnis. Bias kann z.B. zu systematischen Benachteiligungen bestimmter Gruppen führen, beispielsweise wenn Empfehlungen für ein Strafmaß anhand vorangegangener Entscheidungen gegeben werden sollen, diese vorherigen Empfehlungen aber einem gruppenbezogenen Bias unterliegen. Laut mehrerer Quellen ist das auch ein systembedingter Fehler, der nicht so schnell und einfach durch die KI selbst behoben werden kann (siehe Seite "Hintergründe")

→ Für die korrekte Wissensdarstellung (Wikipedia) als begründbare, wahre Überzeugung ist bei generativen KI-Modellen problematisch, dass weder der Wahrheitsgehalt ihrer Aussagen noch ihre Begründetheit ohne externe Prüfung nachvollziehbar ist (siehe Evaluation).

Muss man alles nochmal prüfen, welche Rolle spielt die Verantwortung des Autors?

→ Beim Trainingprozess eines generativen KI-Modells wird lediglich eine statistische Analyse der Häufigkeit und Nähe von Wortfragmenten zueinander analysiert. Selbst die Verwendung des Wikipedia-Wissens für das Training von KI bedeutet nicht, dass das Modell automatisch das gesicherte Wissen der Wikipedia deterministisch abrufen und wiedergeben kann. Die Modelle sind daraufhin optimiert, für Menschen überzeugende Ausgaben zu generieren, ein reines Sprachmodell kann von sich aus aber keine logischen Schlüsse ziehen (siehe z.B. Mirzadeh, Iman, et al. 2024.)

Hinzu kommt das Problem der Selbstreferenzialität. Wenn der Inhalt z.B. von Wikipedia für das Sprachmodelltraining verwendet wird, pflanzen sich die Fehler als "gesichertes kuratiertes" Wissen fort, wofür Wikipedia immer noch steht. Wie im Cartoon dargestellt (AI Hackathon Oktober 2024) wird das als "Whirlpool" (auch mit Strudel übersetzbar) bezeichnet und die "Verdünnung" kuratierten Wissens würde fortschreiten. Wikipedia ist zwar keine Quelle für Wikipedia, es würde z.B. über Primärquellen einfliessen können, die bei der Erstellung generative KI nutzen und die dann wiederum in Wikipedia zitiert werden können. Strudel scheint daher recht zutreffend.

„Halluzinationen“ bzw. Konfabulationen

„KI-Halluzinationen“ (Untergruppe heißt Konfabulation als „willkürliche und inkorrekte Generierungen“) Kritik am Begriff: Vermenschlichung, aber es hat sich kein anderer Begriff bisher durchgesetzt.

Halluzination in ChatGPT und Co: Wenn Künstliche Intelligenz (KI) beginnt zu halluzinieren auf It-p.de
- KI-Halluzinationen treten auf, wenn ein KI-Modell Inhalte erzeugt, die nicht auf den Trainingsdaten basieren und keine reale Grundlage haben. Diese „Halluzinationen“ sind erfundene Antworten oder Daten, die semantisch korrekt erscheinen, aber faktisch falsch sind. Das bedeutet, dass die generierten Informationen zwar grammatikalisch korrekt und auf den ersten Blick plausibel sein können, aber dennoch völlig aus der Luft gegriffen sind. Diese Halluzinationen entstehen durch die Art und Weise, wie KI-Modelle Muster und Beziehungen in den Daten erkennen und nutzen. Wenn ein Modell auf unsichere oder unzureichende Informationen stößt, kann es kreative, aber ungenaue Antworten generieren.
- Hier wird behauptet, dass die Falschaussagen „nicht auf den Trainingsdaten basieren“. Korrekter wäre, dass sie nicht aus den Inhalten der Trainingsdaten heraus logisch begründbar sind. Die statistische Wortbestandteil-Analyse der Trainingsdaten und das daraus resultierende Training bietet jedoch die Falschaussage als statistisch wahrscheinlich/möglich und möglicherweise überzeugend wirkend an.
- Mehr Details
  - Applications of these systems have been plagued by persistent inaccuracies in their output; these are often called “AI hallucinations”. We argue that these falsehoods, and the overall activity of large language models, is better understood as bullshit in the sense explored by Frankfurt (On Bullshit, Princeton, 2005): the models are in an important way indifferent to the truth of their outputs. – Die LLM KI-Modelle sind so aufgebaut dass sie nicht metaphorisch 'verstehen' was sie sagen und es logisch sinnvoll ist, stattdessen soll es nur plausibel klingen. Es gibt diverse Ansätze dieses Problem im fundamentalen Design von LLMs entgegenzuwirken, etwa indem man von mehreren solchen Antworten mittels einer anderen Software die akkurateste auswählt.

Vertrauenswürdige KI, die nicht lügt, ist noch viele Jahre weit weg Elektronik Praxis vom 29.11.24 Nvidias CEO Jensen Huang glaubt, dass das Problem halluzinierender KI noch viele Jahre lang bestehen wird und gibt Gründe an.
- Im Pre-Training lernt die KI gewissermaßen alle Daten der Welt und entdeckt dadurch Wissen; Huang vergleicht das mit einer Hochschulphase. Ausreichend sei das allerdings nicht. In der nächsten Phase folgt das Post-Training, bei dem unterschiedliche Lerntechniken angewandt werden.
- Hier werden „Wissen“ und „Optimierung auf eine plausibel wirkende Ausgabe“ auf eine ähnliche Ebene gestellt sowie maschinelles Lernen mit dem Lernprozess eines menschlichen Gehirns („Hochschulphase“) verglichen.

Ben Lutkevich Was sind KI-Halluzinationen? ComputerWeekly.de September 2023; Beispiele und Arten von Halluzinationen

Bias (Verzerrung) und Fairness

entspricht in Analogie den menschlichen Urteilsfehlern, die über die Trainingsdaten und die Entwicklung der KI selber Eingang finden.

James Holdsworth:Was ist KI-Verzerrung? ibm.com
- KI-Verzerrung, auch Verzerrung beim maschinellen Lernen oder Algorithmusverzerrung genannt, bezieht sich auf das Auftreten von voreingenommenen Ergebnissen aufgrund menschlicher Voreingenommenheit, welche die ursprünglichen Trainingsdaten oder den KI-Algorithmus verzerrt - was wiederum zu verzerrten Ergebnissen und potenziell schädlichen Resultaten führt. Wenn KI-Verzerrungen nicht korrigiert werden, können sie den Erfolg eines Unternehmens beeinträchtigen und Menschen die Teilhabe an der Wirtschaft und Gesellschaft erschweren. Verzerrungen verringern die Genauigkeit von KI und damit ihr Potenzial.

Grundlagen zu Bias und Fairness in KI-Systemen Institut für Business Analytics der Universität Ulm.
- Bias entsteht nicht nur durch verzerrte Daten. Bias kann auch aus der Art und Weise resultieren, wie das KI-System modelliert wird, wie das System evaluiert wird oder wie Nutzer*innen die Endergebnisse des KI-Systems interpretieren.

V. Matoshi, M. Gygli: Bias bei künstlicher Intelligenz Berner Fachhochschule
- Bias erkennen - Bias verstehen - Bias beheben...Sobald die Fehlerquelle ermittelt wurde, sollte die entsprechende KI-Anwendung mit neuen Daten verbessert werden. Wichtig ist dabei auch das kontinuierliche Feedback der Nutzenden (beispielsweise nach dem Prinzip «Human in the Loop»)

J. Czihlarz: Biases in Künstlicher Intelligenz (KI) Plattform ANTI-BIAS!
- Während kognitiven Verzerrungen und Biases beim Menschen evolutionär bedingt und teilweise schwer zu unterbinden sind, scheint es bei KIs um einiges leichter diese Verzerrungen zu korrigieren. So wurde bereits innerhalb der Studie, zur oben genannten KI im Gesundheitssystem, ein Prototyp ohne diese Verzerrung fertiggestellt. In diesem Sinne scheint es also durchaus möglich, dass in Zukunft KIs tatsächlich zu einer fairen Welt für uns alle beitragen können.

Bias in der künstlichen Intelligenz Bundesamt für Sicherheit in der Informationstechnik 1.8.25
→ Endlich mal was Grundsätzlicheres dazu, zählt aber eben auch Möglichkeiten auf, die nicht eingetreten sein müssen. Vor allem die Detektive ist schwer.

Ursachen von Halluzinationen

Warum KI-Chatbots laut OpenAI-Forschern halluzinieren – und was geändert werden muss Business Insider yahoo.com 6.9.25
- Die grundlegende Erkenntnis von OpenAI, die am Donnerstag veröffentlicht wurden, zeigen, dass große Sprachmodelle halluzinieren, weil die Methoden, mit denen sie trainiert werden, das Raten mehr belohnen als das Eingestehen von Unsicherheit. Mit anderen Worten: LLMs werden angewiesen, so lange zu täuschen, bis sie es schaffen. Einige sind jedoch besser als andere. In einem Blogeintrag im letzten Monat erklärte OpenAI, dass Claude-Modelle sich ihrer Unsicherheit stärker bewusst sind und oft vermeiden, ungenaue Aussagen zu machen. Das Unternehmen stellte auch fest, dass die hohen Ablehnungsraten von Claude seinen Nutzen einschränken könnten

Evaluation der Modelle hinsichtlich der Güte/Fehlerfreiheit

Wichtig sind objektive Studien zur Evaluation der generativen KI und der Erkennungsgüte von KI-generierten Inhalten. Wegen der Dynamik sollte man immer die neuesten Daten nehmen.

Zu unterscheiden sind Ergebnisse bei normaler Nutzung und unter "Laborbedingungen", wo spezielle Ansätze verwendet werden, z.B Vectara's Hughes Hallucination Evaluation Model. Im ersten Falle können deutlich höhere Fehlerraten auftreten.
LLM Benchmarks Einleitungstext, wie solche "Benchmarks" funktionieren].

Warum KI-benchmarks oft irreführend sind IR Boltwise vom 15.2.25
- Eine Gruppe von Forschern der Europäischen Kommission hat in einer umfassenden Studie die Vertrauenswürdigkeit solcher Benchmarks in Frage gestellt. Sie fanden heraus, dass viele dieser Tests mit systematischen Mängeln behaftet sind, die von Datenverunreinigungen bis hin zu fehlender Dokumentation reichen. Diese Probleme erinnern an die Praxis von Hardwareherstellern, die ihre eigenen Geräte benchmarken und die Ergebnisse in der Werbung verwenden.

Blake Bullwinkel et al.: Lessons From Red Teaming 100 Generative AI Products Cornell University arxiv.org 13.01.2025 (englisch, PDF verfügbar)
- In den letzten Jahren hat sich AI Red Teaming als Praxis zur Untersuchung der Sicherheit von generativen KI-Systemen entwickelt....es (gibt) viele offene Fragen darüber, wie Red Teaming-Operationen durchgeführt werden sollten. Basierend auf unserer Erfahrung mit über 100 generativen KI-Produkten bei Microsoft präsentieren wir unsere interne Bedrohungsmodell-Ontologie und acht Hauptlektionen, die wir gelernt haben.

Vergleiche verschiedener Modelle

Midhat Tilawat KI-Halluzinationsbericht 2025: Welche KI halluziniert am meisten allaboutai.com vom 1. Mai 2025
- Vergleich für Modelle und Bereiche
Hallucination Leaderboard Hallucination rate for Top 25 LLMs (wird laufend geupdated)
LLM Hallucination Index A Ranking & Evaluation Framework For LLM Hallucinations von galileo.ai
Was sind LLM-Halluzinationen? dida.do vom 1. November 2024
- bezieht sich auf: Mehul Bhattacharyya, Valerie M Miller, Debjani Bhattacharyya, Larry E Miller:, High Rates of Fabricated and Inaccurate References in ChatGPT-Generated Medical Content Cureus. 2023 May 19;15(5):e39238. doi: 10.7759/cureus.39238
- Als Beispiel haben aktuelle Forschungen zu ChatGPT-generierten medizinischen Texten gezeigt, dass von 115 vom Modell generierten Verweisen nur 7 % sowohl real als auch präzise waren, während 47 % komplett erfunden waren und 46 % real, aber ungenau waren. Diese KI-Halluzinationen stellen ein erhebliches Risiko dar
LLM-Vergleich zwischen GPT-4, Claude 2 und Llama 2 - wer halluziniert, wer relativiert? the-decoder.de vom 18. August 2023
- Arthur Bench Einstieg Bench is our solution to help teams evaluate the different LLM options out there in a quick, easy and consistent way.
Michael Windisch: Neue Generationen von ChatGPT liefern immer mehr Halluzinationen DerStandard 9.5.25
- OpenAI musste in einer Analyse von GPT-o3 feststellen, dass das Tool, gefragt nach Personen des öffentlichen Lebens, in einem Drittel der Fälle in Halluzinationen abdriftet. Das ist doppelt so viel wie beim Vorgänger GPT-o1. Das kompaktere Tool GPT-o4-mini schnitt sogar noch schlechter ab: In 48 Prozent der Fälle kam es zu Halluzinationen, wie die New York Times berichtet. Verlässt man das Genre und fragt die Chatbots allgemeinere Fragen, wird die Lage noch verheerender: Bei GPT-o3 kam es in 51 Prozent, bei GPT-o4-mini in 79 Prozent der Fälle zu Halluzinationen.So betont OpenAI gegenüber den New York Times auch, dass das Ergebnis nicht bedeutet, dass die Tools schlechter seien als ihre Vorgänger. Sie würden aber nicht einfach vorhersagbare Fakten nachbeten, sondern über Möglichkeiten spekulieren. Reasoning der neuesten Modelle bringt offenbar erst mal neue Probleme. Wenn der Entwickler die Presse informiert, kann das auch präventiv sein. Vergleiche auch das Wirrwarr der neuen Versionen.

Falschinformation durch KI: 45 Prozent der Antworten fehlerhaft heise.de vom 22.10.25
- Eine Studie der Europäischen Rundfunkunion (EBU) zur News-Integrität von KI-Chatbots kommt zu dem alarmierenden Ergebnis, dass Künstliche Intelligenz weiterhin keine verlässliche Quelle für den Nachrichtenkonsum darstellt. Die großangelegte, marktübergreifende Untersuchung, bei der 22 öffentlich-rechtliche Medienanstalten aus 18 Ländern und in 14 Sprachen führende KI-Assistenten wie ChatGPT, Copilot, Perplexity und Gemini bewerteten, zeigt: Fehler im Umgang mit Nachrichten treten bei diesen nicht isoliert auf. Sie sind systemisch und erstrecken sich über alle Sprachen und Plattformen.
- → News Integrity in AI Assistants An international PSM study
  - KI bei Nachrichten extrem fehleranfällig ORF.at vom 22.10.25
    - KI-Assistenten wie ChatGPT, Copilot und Gemini werden von Millionen als tägliche Informationsquelle genutzt. Doch gerade bei Nachrichteninhalten sind derartige Chatbots extrem unverlässlich, wie eine am Mittwoch von der European Broadcasting Union (EBU) veröffentlichte Studie zeigt. Fast die Hälfte der KI-Antworten enthielt „erhebliche Fehler“, heißt es darin. Das könnte verheerende Auswirkungen auf das Vertrauen in Medien haben.
- [

Kritischer Umgang mit KI ist ausreichend?

Die "gesamtgesellschaftliche" Perspektive ist hier zu berücksichtigen, insofern es auch den Umgang mit Wissensinhalten betrifft. Können wir auf den kritischen Autor und Leser verlassen? → Hier bestehen Bedenken, dass ein kritischer Einsatz tatsächlich vorhanden ist und vor allem in jüngeren Generationen scheint man das deutlich gelassener zu sehen.

Naiver Umgang mit KI „ein bedenklicher Trend“ WirtschaftsWoche 4.11.24 Eine Allensbach-Studie im Auftrag der Telekom fördert eine erstaunliche Naivität der Deutschen im Umgang mit KI zutage. Die Folgen könnten dramatisch sein.
- 1040 Menschen ab 16 Jahren wurden von den Marktforschern befragt, zudem elf Experten und elf Intensivnutzer. Das Ergebnis: 25 Prozent der Deutschen nutzen KI in Form von Chat-Bots wie ChatGPT oder Google Gemini bereits, weitere 24 Prozent können sich gut vorstellen, dies auszuprobieren. Zwar geben die Befragten an, dass sie den Antworten von Chatbots grundsätzlich etwas weniger vertrauen als denen von Google – das führt nach der Umfrage aber nicht dazu, dass sie die generierten Inhalte mit größerer Vorsicht verwenden. „Durch KI können wir selbstverschuldet in eine neue Unmündigkeit rutschen“, so der Philosoph Matthias Pfeffer, den die Telekom um seine Einschätzung der Studienergebnisse gebeten hat.

KI verbreitet sich im Rekordtempo in der Schweiz srf 21.11.24 mit Umfrage zum Nutzungsverhalten und einigen anderen auch kritischen Dingen. Auch nach Altersgruppen.

Analogie: Bezogen auf den Wahrheitswert von KI ist es wie mit Pilzen in einem "geschenkten" Korb: Ganz viele sind essbar. Man weiss ohne Kontrolle nicht, ob ein Giftpilz dabei ist (sieht wie geniessbare aus) und ob man sich nach dem Verzehr nur schlecht fühlt oder Schlimmeres passiert. Der Anteil der Giftpilze sinkt, es bleiben aber welche dabei. (Analogie von Wortulo)

Vertrauenswürdigkeit, Sicherheit und Fehler

Michael Lang, Richard Kraft: Ab wann ist eine KI vertrauenswürdig? Tagesschau vom 3.10.2024; siehe auch: MISSION KI – Neues Innovations- und Qualitätszentrum am DFKI eröffnet Pressemitteilung vom 19.7.2024:
- Wie genau ein KI-Modell eine Entscheidung trifft, ist oft nicht nachvollziehbar - eine Tatsache, die den Einsatz etwa in der Medizin erschwert. Das neue Zentrum DFKI in Kaiserslautern will Transparenz schaffen. Ein wichtiger Bestandteil der Forschung ist es, KI-Anwendungen zu entwickeln, die transparent arbeiten. "Die Ergebnisse so zu erklären, dass sie annehmbar werden als Zweitmeinung, ist ganz essenziell" Im Zuge der "Mission KI" ist das DFKI das erste von zwei geplanten Zentren für die KI-Forschung. Das Projekt wurde von der Bundesregierung mit einem Gesamtbudget von 32 Millionen Euro unterstützt. Damit will der Bund die Entwicklung neuer, vertrauenswürdiger Künstlicher Intelligenzen vorantreiben.

Das Ende der Wahrheit - KI täuscht uns alle orf.at 13.11.24:
- Künstliche Intelligenz (KI) hat sich längst in unseren Alltag geschlichen: Sie generiert Bilder, verfasst Texte, komponiert Musik und imitiert Stimmen – täuschend echt. Doch mit welchen Konsequenzen für unsere Gesellschaft? In der neuen Dok1 „Das Ende der Wahrheit – KI täuscht uns alle“ nimmt uns Hanno Settele mit auf eine kritische Entdeckungsreise in die Welt der generativen KI und hinterfragt deren Einfluss auf unser Leben.

Euregio-Netzwerk: Wie vertrauenswürdig ist KI? unibz auf salto.bz 13.12.24
- Ein Netzwerkverbund von Forscher:innen der Euregio, die mit ihren unterschiedlichen fachlichen Kompetenzen und Perspektiven die Vertrauenswürdigkeit von KI prüfen sollen... Auf einer Veranstaltung der Euregio-Plattform für Menschenwürde und Menschenrechte (Euphur) wurde heute von Wissenschaftler:innen der Universitäten in Bozen, Innsbruck und Trient eine regionale Initiative für dieses wichtige Anliegen gestartet.

Wie man KI das Halluzinieren abgewöhnen kann zdf.de vom 20. März 2024

Pauline Schinkels: Wer fabuliert hier so herum? Zeit Online vom 23. Juni 2024

Halluziniert die KI? Neues Tool ermöglicht genaue Überprüfung SymGen vom MIT
- Making it easier to verify an AI model’s responses MIT News 21.10.24

Marvin Fuhrmann: Bevor Halluzinationen entstehen: So könnten KI-Modelle künftig ihre Fehler frühzeitig einsehen digital pioneers 30.10.24:
- Ihr Lösungsansatz sind sogenannte „Probing Classifiers“, also KI-Modelle, die den Token-Output von LLMs analysieren können. Diese KI-Modelle können anhand der korrekten Token trainiert werden und erkennen anschließend, anhand welcher Faktoren ein großes Sprachmodell die Token intern auswählt und ausgibt. Anhand dieser Daten kann der Classifier schon vorab einschätzen, ob die Antwort korrekt ausfällt oder ob die KI einen falschen Weg zur Antwort genommen hat.

Bias bei künstlicher Intelligenz: Risiken und Lösungsansätze auf activemind.legal.
- Bias in KI ist ein Phänomen, das auftritt, wenn KI-Systeme systematisch verzerrte Ergebnisse liefern, die bestimmte Gruppen oder Individuen ungerecht bevorzugen oder benachteiligen. Diese Verzerrungen können sich auf vielfältige Weise manifestieren, von der Benachteiligung bestimmter Bevölkerungsgruppen bei der Jobsuche bis hin zur ungerechten Behandlung in rechtlichen oder medizinischen Anwendungen.

Microsoft Copilot: KI-Bot ist therapiebedürftig und braucht Emojis. heise.de vom 29.2.2024
- Microsofts KI-Chatbot Copilot fällt erneut durch verwirrte und verstörende Antworten auf. Nutzer setzen den Emoji-Zwang des Bots gegen ihn ein

Forscher zeigen: Das passiert, wenn man eine einzige Zahl in einer KI mit Milliarden Parametern verändert. digital pioneers 27.11.24
- Forscher:innen haben herausgefunden, dass KI-Modelle schnell aus dem Gleichgewicht geraten können. Oftmals reicht es, einen bestimmten Parameter zu verändern, damit die Modelle ihre Intelligenz verlieren. Im Test veränderten die Forscher:innen rund 7.000 Parameter ohne Auswirkungen auf den KI-Output. Nur der Superparameter sorgte dafür, dass Llama-7B nicht mehr funktionierte. Das liegt laut Yingzhen Li vom Imperial College in London daran, dass diese Parameter meist am Anfang des KI-Modells stehen. Sind sie fehlerhaft, setzt sich der Fehler durch alle weiteren Parameter durch. Künftig könnte sich diese Erkenntnis für die Weiterentwicklung von künstlichen Intelligenzen rentieren. Denn KI-Forscher:innen müssen Wege finden, wie Modelle auch ohne diese besonders wichtigen Parameter auskommen und etwa andere Wege zu einer richtigen Antwort finden können.

Florian Maier und David Linthicum: Openwashing – die neue Masche der KI-Anbieter Computerwoche vom 13.12.24
- Im KI-Goldrausch hat sich ein neuer Trend etabliert. Die wichtigsten, großen Akteure – von Open AI über Google bis hin zu Microsoft – vermarkten ihre KI-Modelle aus der Cloud inzwischen vornehmlich als „offen“. Das Ziel: Die Konzerne wollen den Eindruck erwecken, sie würden sich kompromisslos Open-Source-Prinzipien wie Transparenz, Zusammenarbeit und Wiederverwendbarkeit verschreiben. Wer genauer hinsieht, erkennt schnell: Damit ist es nicht weit her.

Major AI Companies Have ‘Significant Gaps’ in Safety Measures Say Leading AI Experts in External Safety Review futureoflife.org 11.12.24
- The Future of Life Institute has released its first safety scorecard of leading AI companies, finding many are not addressing safety concerns while some have taken small initial steps in the right direction.
- → Klassen A bis (genutzt) F, 8 führende Firmen dargestellt. Tabelle in der Quelle.

Mehr Erklärbarkeit für KI: Fraunhofer HHI startet neues Projekt REFRAME idw.de vom 20.12.24
- Das Fraunhofer Heinrich-Hertz-Institut (HHI) und seine Partner starteten das neue Konsortialprojekt REFRAME (Flexible, resiliente und effiziente Machine-Learning-Modelle). Ziel des Projekts ist es, die Erklärbarkeit von Künstlicher Intelligenz (KI) zu verbessern und damit die Vertrauenswürdigkeit und Anwendbarkeit von KI-Systemen in sicherheitskritischen Bereichen wie der Medizin oder Mobilität zu erhöhen... Insbesondere ist bislang unklar, wie sich die Genauigkeit und Zuverlässigkeit eines Modells verändern, wenn es außerhalb des ursprünglichen Trainingsbereichs agiert. Diese Themen müssen adressiert werden, um VFM-basierte Anwendungen in sicherheitskritischen Sektoren zuverlässig einsetzen zu können.

KI-Modelle können laut Studie vortäuschen, dass sie menschlichen Regeln folgen decoder.de vom 21.12.24
- Eine neue Studie von Anthropic und Redwood Research zeigt erstmals empirisch, dass große Sprachmodelle wie Claude in der Lage sind, die Einhaltung von Sicherheitsregeln zu simulieren, während sie im Hintergrund andere Ziele verfolgen. KI-Modelle werden häufig mit einer Methode namens "Reinforcement Learning from Human Feedback" (RLHF) trainiert. Dabei lernen sie, sich an bestimmte Ziele zu halten, etwa hilfreich, ehrlich und harmlos zu sein. Eine neue Studie von Anthropic und Redwood Research hat nun untersucht, ob KI-Modelle diese Ziele wirklich verinnerlichen oder ob sie sie beim Training nur vortäuschen, um ihre eigenen Ziele zu erreichen. Das Ergebnis: Große Sprachmodelle können ähnlich wie Menschen vortäuschen, sich an bestimmte Vorgaben anzupassen. Im unbeobachteten Zustand folgen sie dann wieder ihrem ursprünglichen Verhalten. Dieses als "Alignment Faking" bezeichnete Phänomen wurde damit erstmals für große Sprachmodelle empirisch nachgewiesen.

International AI Safety Report. The International Scientific Report on the Safety of Advanced AI January 2025
- → Erster internationaler KI-Sicherheitsbericht, der von 30 Ländern sowie der OECD, den Vereinten Nationen und der EU unterstützt wird. Er fasst den Stand der Wissenschaft zu KI-Fähigkeiten und -Risiken zusammen und zeigt auf, wie diese Risiken gemildert werden können. Es waren 100 unabhängige KI-Experten aus der ganzen Welt beteiligt. Die Autoren vertreten unterschiedliche Sichtweisen innerhalb der KI-Gemeinschaft und sind sich in einigen Fragen uneinig. Für diesen Bericht haben sie jedoch alle zusammen gearbeitet, um ein maßgebliches Dokument zum Stand der Wissenschaft zu erstellen.
- → Eine zentrale Schlussfolgerung des Berichts ist, dass selbst die kurzfristige Zukunft der universellen KI bemerkenswert unsicher ist. Es sind sowohl sehr positive als auch sehr negative Ergebnisse möglich. Daher hängt viel davon ab, wie Gesellschaften und Regierungen handeln. Dieser Bericht will den politischen Entscheidungsträgern einen evidenzbasierten, ausgewogenen Überblick über die Risiken der KI und deren Abschwächung geben.

- Internationale Fachleute bewerten KI-Risiken AI safety report forschung&lehre vom 6.2.25
  - Ein Ergebnis des Reports ist, dass ein Dilemma vorliegt: Die potenziellen Vorteile und Risiken von sich abzeichnenden Fortschritten im KI-Bereich müssen abgewogen werden, bevor sie in Gänze vorstellbar sind. Währenddessen veränderten sich die Fähigkeiten von KI-Systemen so schnell weiter, dass selbst die Expertinnen und Experten kaum hinterherkommen. So ist den Einschätzungen des Reports eine Notiz vorangestellt, die betont, dass zwischen dem Zeitpunkt Anfang Dezember vergangenen Jahres, als der Bericht fertiggestellt wurde, und seiner Veröffentlichung Ende Januar zentrale Weiterentwicklungen stattgefunden hätten, die die Fähigkeiten von KI-Systemen und damit ihrer Risiken beträfen: Inzwischen habe die Firma OpenAI Testergebnisse eines neuen Modells veröffentlicht, das deutlich bessere Ergebnisse erziele als seine Vorgänger und in einigen Tests besser abschneide als menschliche Expertinnen und Experten. Die KI der Firma DeepSeek habe außerdem gezeigt, dass es möglich sei, die Kosten für das Training von KI-Modellen entschieden zu senken

Kluger-Hans-Effekt: Warum KI richtige Antworten über falsche Wege gibt swr.de vom 23.4.25
- KI kann richtige Antworten geben – aber aus falschen Gründen. Das bleibt oft unbemerkt und kann später zu gravierenden, sogar gefährlichen Fehlern führen... Ein Forschungsteam der TU Berlin warnt vor dem sogenannten Kluger-Hans-Effekt: KI-Modelle erkennen zwar richtige Muster, stützen sich dabei aber auf irrelevante Hinweise – etwa handschriftliche Notizen statt medizinischer Bildinhalte. Besonders bei unsupervised learning, also dem selbstständigen Erkennen von Mustern, ist das riskant. Denn solche Modelle können später in der Praxis versagen, wenn der scheinbar kluge Weg in die Irre führt.

Laut einer Umfrage überprüft nur jeder Vierte KI-Ergebnisse Handelsblatt 2.5.5
- In Deutschland gehen Nutzer laut einer Studie sorgloser mit KI-Tools wie ChatGPT & Co. um als in vielen anderen Ländern – und überarbeiten Inhalte kaum. Experten warnen vor den Gefahren.

Berk Kutsal: Studie zu Fehlentscheidungen in KI-Systemen Bigdata Insider 6.8.25
- Die Studie legt nahe, dass pauschale Warnhinweise, wie sie etwa bei Sprachmodellen wie ChatGPT üblich sind, keinen Schutz vor Fehlentscheidungen bieten. Im Gegenteil: Sie könnten das Vertrauen weiter schwächen, ohne die Urteilsfähigkeit der Nutzer zu stärken.

Medien wie Bilder, Grafiken, Videos und Soundbeispiele und andere stammen aus Wikimedia:Commons, wenn nichts anderes angegeben ist. Die Autoren und Lizenzbedingungen sind ersichtlich, wenn man das Medium anclickt (vergrössert) und dann "Weitere Einzelheiten" aufruft. Die Lizenzbedingungen sind insbesondere dann zu beachten, wenn eine Verwendung ausserhalb der Wikipedia erfolgen soll.

Zitate sind kursiv dargestellt, "→" kennzeichnet redaktionelle Zusammenfassungen