Die Datenwirtschaft #2: Alles Gold?

Ausgabe 2 - Alles Gold?

Willkommen

Die zweite Ausgabe! Diesmal beschäftige ich mich kritisch mit dem Einsatz von Algorithmen, Interpretationen von Statistiken und dem Trend, KI erklärbar zu machen.

Viel Spaß beim lesen!

Der Computer ist nicht voreingenommen, oder?

Der Computer entscheidet immer richtig. Ein Computer hat keine Gefühle, ist unvoreingenommen und lässt sich nicht durch Sympathie, Antipathie oder Empathie beeinflussen. Somit muss eine Entscheidung eines Algorithmus korrekt und unabhängig sein. Menschen sind beeinflussbar und haben teilweise rassistische Vorurteile.

Was liegt also näher, als wichtige Entscheidungen durch einen trainierten Algorithmus fällen zu lassen?

Das Problem sind die zugrundeliegenden Trainingsdaten. Meist sind das Daten, gewonnen aus vergangenen Entscheidungen durch Menschen. Somit sind diese Daten bereits vorbelastet. Das hatte bereits 2014 dazu geführt, dass ein Algorithmus zur Erkennung von Verbrechen rassistische Tendenzen hatte. Die Trainingsdaten sind mit Vorbehalten und teilweise Rassismus bespickt. Werden die so gewonnen Erkenntnisse wieder als Trainingsdaten zurückgeführt, geraten in eine negative Feedbackschleife.

Gleiches gilt für Algorithmen, die bei der Personalsuche und der Bewertung von Bewerber eingesetzt werden. Eine von Amazon verwendete Software hat systematisch weibliche Bewerber benachteiligt und aussortiert. Der Grund? Die Trainingsdaten basierten auf überwiegende männlichen Bewerbern in einer von Männern dominierten Welt. Amazon hat das Programm glücklicherweise wieder beendet, nachdem dieser Fehler erkannt wurde.

Die Trainingsdaten sind der Schlüssel. So auch in einem Experiment von Facebook. Sie haben einen Chatbot mit Reddit-Posts trainiert. Es war nicht anders zu erwarten: Der Bot hat angefangen, Menschen zu beleidigen. Shit in, Shit out.

Die Datengrundlage muss klar und vorbehaltlos sein. Das ist schwer zu gewährleisten, daher ist es umso wichtiger, dass die Trainingsdaten hinter den Entscheidungen transparent sind. Leider sind das viel zu oft Blackboxen. Regulierung ist nicht sinnvoll möglich, am Ende kommen immer die Anwälte.

Es ist wichtig, nicht alleine auf Grundlage eines Algorithmus zu entscheiden, sondern weiterhin den Menschenverstand hinzuziehen. Interessant ist, dass das Future Today Institute (FTI) um Amy Webb herum, diese Problematik als Trend im Report 2020 aufgenommen hat.

Der KI-Erklärbär

Damit die oben beschriebenen Szenarien nicht überhandnehmen, etabliert sich mehr und mehr Explainable AI. Wunsch ist, dass die neuronalen Netzwerke und Entscheidungen der Algorithmen erklärbar werden. Ethik erhält Einzug in die Entscheidungsfindung. Wenn selbst Google dieses Thema als wichtig erkannt hat, habe ich Hoffnung, dass wir verständliche KI-Algorithmen bekommen werden. Ein Schritt weiter gehen Self-explaining AI, also selbsterklärende KI. Doch das wird noch ein längerer Weg, befürchte ich.

Statistische Grundlage

Um Daten auszuwerten, wird auf Statistik gesetzt. Problematisch wird es, wenn die Grundlagen der Statistik teilweise ignoriert oder kreativ eingesetzt werden. Leider auch im Zusammenhang mit der Corona-Krise. In der sog. Heinsberg-Studie wurden nach SWR-Recherchen vermutlich Rückschlüsse gezogen, die viel Interpretationsspielraum haben. Entstanden durch nicht korrekte statistische Rückschlüsse und Betrachtungen.

Wer selbst ein paar Korrelationen erstellen möchte, die völlig ohne Grundlage sind, kann das auf Spurious Correlations anschauen und auch selbst damit spielen. Deshalb immer aufpassen, dass Korrelation nicht mit Kausalität vermischt wird.

Der Wahrheitsgehalt einer Statistik wird gerne gedehnt. Das RWI Essen betreibt schon seit Langem die Seite mit der Unstatistik des Monats. Die kreativ interpretierten Statistiken schaffen es leider meist auch in die Medien. Damit wird manchmal Hoffnungen gemacht, die so nicht korrekt sind.

Links gegen die Langeweile

Die Vorstellung des Emerging Tech Trend Reports von Amy Webb fand dieses Jahr nicht auf der SXSW, sondern remote statt. Immer wieder interessant und ein must-watch! KI und Daten kommen nicht zu kurz.

Wer eine Idee im Bereich Daten sucht, kann das mit dem Data Innovation Board durchführen. Ein schönes Format zum strukturiertem Vorgehen bei der Innovationssuche.

Damit haben wir wieder das Ende der dieser Ausgabe erreicht! Ich freue mich über Verbesserungsvorschläge und Tipps für Themen, Links oder Meinungen. Gerne per Mail an hallo@datenwirtschaft.online oder einfach per Twitter an mich senden.

Dir hat der Newsletter gefallen? Empfiehl ihn doch weiter.