Willkommen
Diese Ausgabe lÀuft unter dem Motto: Da lÀuft doch was schief.
Ein kritischer Blick auf Vorbehalte in Trainingsdaten, schlecht trainierte TĂŒrsteher und fehlgeleitete Sprachmodelle.
Aber immer daran denken: Es ist nicht alles verloren, wir mĂŒssen nur immer wieder ganz genau schauen, warum und was passiert und nicht einfach alles hinnehmen, weil es so ist. Vielleicht wird die nĂ€chste Ausgabe euphorischer. Mal sehen.Â
Wen ich jetzt nicht abgeschreckt habe, dem wĂŒnsche ich viel SpaĂ beim Lesen!
Woher kommen diese komischen Ergebnisse?
Immer wieder liest man davon, dass eine KI diskriminierend ist. Auch ich habe schon in diversen Ausgaben des Newsletters darĂŒber berichtet. Es ist kein Geheimnis, dass die Modelle nur so gut sein können, wie die Daten, die zugrunde liegen. Beinhalten die Daten bereits Vorbehalte, kann das Modell naturgemÀà nicht besser sein. Shit in, Shit out.
The Economist hat sich diesem Thema angenommen (Achtung Paywall) und in zwei Bild-Datenbanken geschaut, wie Personen gekennzeichnet wurden.
The two image databases we analysed contained many pictures of women in bikinis, black rappers and white men in front of laptops. When these images are used to train algorithms it is perhaps no surprise that computer models reflect pervasive stereotypes.
Die Visualisierung der Daten ist in der frei zu lesenden Version ersichtlich.Â
Meine persönliche BefĂŒrchtung ist, dass wir noch sehr lange mit diesen Stereotypen umgehen mĂŒssen. Die Hoffnung liegt auf den Data Scientists dieser Erde, die das erkennen und nicht einfach irgendwelche Bilder fĂŒr ihr Training nutzen. Leider sind wir davon aber noch weit entfernt.
Virtueller Aufpasser - NICHT! đ
Soziale Netzwerke haben die Mammutaufgabe BeitrĂ€ge auf rassistische Inhalte, persönlich beleidigende oder andere Anfeindungen zu prĂŒfen. Es ist naheliegend auf âintelligenteâ Algorithmen und Modelle zu setzen. Wie bei Bilddaten ist das jedoch ein schwieriges Unterfangen. Wie trainiert man solche Modelle? Gerade bei Satire oder Ironie versagen sie rasant.Â
Twitter versucht wĂ€hrend der EM 2020(21?) rassistische und beleidigende Posts gegenĂŒber dunkelhĂ€utigen FuĂballern zu verhindern. Manche Nutzer haben scheinbar das Ăffchen-Emoji (đ”, đ, đ, đ) zu nutzen, um besagte FuĂballer zu beleidigen - praktisch virtuelle Affenlaute statt Geblöke aus dem Stadion.
Doch der Algorithmus war etwas zu genau â oder er hat es sich zu einfach gemacht. Was nicht beachtet wurde, ist, dass das Emoji đ in der Regel genutzt wird, um klarzumachen: âIch habe nichts gesehenâ oder âIch will das nicht sehenâ. Wie nicht anders zu erwarten passierte Folgendes:
Allem Anschein nach wurden Tweets gesperrt, die das Affen-Emoji im Kontext der Europameisterschaft gepostet haben. Muster erkannt, Muster angewandt â leider ohne Kontext.
Ein anderer Nutzer wurde von Facebook gesperrt, weil er einen Keks(!) töten wollte.
Das zeigt mal wieder: Das Erstellen von Modellen ohne Vorbehalt ist schwierig. Vor allem bei Themen, bei denen auch noch Emojis ins Spiel kommen. Das trainierte Modell hat stur ein erkanntes Muster angewendet. Und wenn es einen Kontext zu beachten gibt (Facebook-Eintrag â Kommentar), wird es fĂŒr das Modell schnell zu komplex.
Sprachmodelle und Desinformation
Aktuelle Sprachmodelle sind faszinierend. Mit GPT-3 können beeindruckende Texte generiert werden. NatĂŒrlich gibt es auch Dinge, die solche Modelle nicht perfekt können. Dazu gehören zum Beispiel mangelnder Fokus bei Narrativen.
Es gibt Einsatzgebiete, in denen eine gute Geschichte irrelevant ist. Eins davon ist die Manipulation von Nachrichten/Quellen, bzw. Desinformation. GPT-3 kann zur narrativen Manipulation eingesetzt werden und bereits bestehende Artikel aus einer neuen Perspektive generieren lassen. Weiterhin kann das Modell so trainiert werden, dass es mit dem Schreibstil von bspw. QAnon Texte verfasst etc.Â
Das Center of Security and Emerging Technology (CSET) Gerogetown hat sich dem Thema ausfĂŒhrlich gewidmet und ein Paper dazu verfasst.
FĂŒr Leser von Artikeln bedeutet das umso mehr, dass man die vermeintlichen Fakten immer prĂŒft und nichts einfach hinnimmt, das lauthals ins Netz gebrĂŒllt wurde. FĂŒr Autoren bedeutet das im Umkehrschluss, dass eine gute Quellenangabe Bestandteil ist, doch das ist bei seriösen Artikeln ĂŒberwiegend der Fall.
Links gegen die Langeweile
Nightingale, die Publikation der Data Visualization Society hat den Shift von Medium zu einer eigenen Webseite vollzogen. Wer sich fĂŒr Visualisierung interessiert, wird hier garantiert fĂŒndig!Â
Tableau gilt als eines der beliebtesten Tools fĂŒr professionelle Datenvisualisierung. Wer weniger Geld hat oder nicht alles öffentlich speichern möchte, findet in Apache Superset eine gute Open Source Alternative.
Du hast eine tolle Idee fĂŒr ein Projekt, aber nicht die Daten und Zeit Modelle von Grund auf zu trainieren? Oder du hast ein groĂartiges Modell trainiert und möchtest es vermarkten? Schau mal auf den Pre-Trained Model-Marketplace