KI ist ein mathematisch-technisches Regelwerk, das wegen seiner Komplexität von der Mehrheit der Menschen nicht oder nicht richtig verstanden wird.
"KI" ist erst mal ein kaum noch abzugrenzender Begriff, weil so weit verwässert. Teilweise geht es ja schon so weit, dass man schon jede Berechnung einer Formel als "KI" bezeichnet.
Häufig sind damit Künstliche Neuronale Netze gemeint, die durch Maschinen-Lernen trainiert werden. Beim Training werden die Gewichte ermittelt (beginnend mit Zufalls-Gewichten; da haben wir also ein gewisses Chaos drin) mit denen die "Neuronen" verknüpft werden (das ist i.d.R. sogar ein recht einfacher mathematischer Zusammenhang), um die Eingabe-Ausgabe-Zusammenhänge aus den Trainingsdaten möglichst gut nachzubilden. Man setzt darauf, dass es bei späterer Nutzung ähnlich gut funktioniert. Warum ein Zusammenhang funktioniert lässt sich am Ende aus den Gewichten (im Allgemeinen) nicht ablesen, vor allem bei großen Modellen. Ähnlich gute Trainings-Resultate können komplett unterschiedliche Gewichte haben. Deshalb gibt es auch Interesse an "Explainable-AI".
Jede KI-Ausgabe eines Chatbots kann zurückverfolgt werden, im Zweifel kann man gar den Chatbot selbst fragen, wie er auf seine Antwort gekommen ist. Die zunehmende Kompexität stellt jeden Menschen vor ein Verständnisproblem. Komplex sind die Vorgänge für uns, weil eine riesige Menge an Daten binnen Bruchteilen von Sekunden ausgewertet werden können und für uns damit der Eindruck einer höheren Intelligenz entsteht.
Der kann es Dir aber nicht wirklich sagen. Daten als solche stecken in den Modellen nicht mehr direkt drin, sondern nur noch indirekt in den Gewichten versteckt. Es findet dann auch keine Auswertung von Daten statt, sondern "nur" noch eine Berechnung von sehr Formeln mit sehr sehr vielen Gewichten.
Was du hier verlinkt hast, ist ein bekanntes Problem, das eigentlich nicht vorkommen dürfte, weil eine KI von den Programmierern ein Regelwerk vorgeschrieben bekommt und somit verhindert wird, dass ein Chatbot z.B. Menschen bedroht oder beleidigt. Vereinfacht gesagt, die KI muss immer freundlich antworten. Da die KI nur mathematischen Formeln (Algorithmen) folgt, wird sie auch nie gegen diese Regeln verstoßen.
Diese Blackboxen sind halt gerade keine Systeme die ein algorithmisch definiertes Verhalten haben und auch nicht in der Lage sind ein Regelwerk zu verstehen. Das was hier passiert ist nur ein herumpfuschen um bekannte Symptome zu vermeiden, in dem man davor und dahinter noch versucht zu filtern. Schönes aktuelles Beispiel siehe https://blog.fefe.de/?ts=99c7cdc1
Der Usprung des Problems liegt im Traininsmaterial: Das erhält im großen Stil Kommunikation von Menschen die sich wir Arschlöcher verhalten. Das lernt das System dann halt auch. Und wäre man in der Lage diese Verhalten automatisiert zu erkennen, dann könnte man es bereits aus den Trainingsdaten herausfiltern...