Die Datenwirtschaft #4: Standards und Algorithmen

Ausgabe 4- Standards und Algorithmen

Willkommen

Ausgabe vier ist da! Bisher bin ich fast in einem wöchentlichen Rhythmus, verschiebe den angepeilten Erscheinungstag jetzt auf Freitag. Damit habt ihr eine prima Lektüre fürs Wochenende!

Diesmal dreht sich alles um die standardisierte Durchführung von daten-lastigen Projekten. Man mag es kaum glauben, aber darüber hat man sich schon 1996 Gedanken gemacht.

Viel Spaß beim Lesen!

Durchführung eines Datenprojekts

Oftmals beginnt ein Datenprojekt damit, das in Jupyter Notebooks erste Experimente durchgeführt werden. Irgendwann werden Projekte größer, es gibt viele neue Anforderungen und die Zahl der Stakeholder wächst exponentiell. Daher ist es immer ratsam ein ordentlich strukturiertes Projekt durchzuführen. Bereit 1996 erkannten das einige Unternehmen (u.a. Daimler Chrysler und SPSS) und erarbeiteten CRoss-Industry Standard Process for Data Mining (CRISP-DM). Der Prozess geht vom Verständnis des Geschäfts zum Verständnis der Daten. Daraus abgeleitet werden die Daten vorbereitet und im nächsten Schritt Modelle trainiert/erstellt. Abschließend erfolgt ein Test der Modelle und das Deployment in die Produktivumgebung. Der Prozess iteriert, denn neue Daten oder neue Businessanforderungen erfordern neue Modell usw. Was anfangs sehr agil klingt ist leider etwas starr, da die Iteration nur im Gesamtprozess erfolgt und die Abarbeitung der einzelnen Schritte sequenziell ist.

IBM hat das erkannt und 2015 einen neuen Vorschlag veröffentlicht: Analytics Solutions Unified Method for Data Mining/Predictive Analytics (ASUM-DM). Diesmal mit fünf Schritten: Analyse, Design, Konfiguration & Herstellung, Inbetriebnahme und Betrieb & Optimierung. Im Unterschied zu CRISP-DM sind die Schritte in sich iterativ.

Die Unterschiede der Prozesse sind in etwa vergleichbar mit dem Unterschied zwischen V-Model und SCRUM.

Es gibt noch viele andere Möglichkeiten ein Datenprojekt durchzuführen. Wichtig ist, dass die Entwicklung agil ist. Ähnlich zu Scrum, muss nicht alles angewandt werden. Der Prozess muss sich den Anforderungen des Projekts anpassen. IBM hat mit der IBM DataFirst Method ein weiteres agiles Vorgehensmodell zu bieten, das auf IBM Cloud Garage Prinzipien aufbaut und diesen Umstand berücksichtigt.

Ist man sich einig, wie ein Projekt durchgeführt werden soll, können sich die Teams an die Arbeit machen. Einen guten Vorschlag, wie man ein Data Science Projekt im doing strukturieren kann, unterbreitet Rebecca Vickery.

Wichtig ist, dass keine potenziellen Benutzer ausgeschlossen werden. Zugänglichkeit ist auch bei der Datenvisualisierung ein sehr wichtiges Thema. Gute Tipps dazu gibt es von Doug Shepers.

Und einen Vorschlag, wie man Data Science Projekte mittels Design Thinking-Schritten verbessern kann, hat David Yakobovitch aufgeschrieben.

Man sieht: Viele Wege führen zu einem guten Projekt. Und eine gewisse Struktur hilft dabei.

Algorithmen sind überall

In der heutigen Welt sind Algorithmen die Grundlage von so ziemlich allen Systemen. Mit der Verbreitung von Machine Learning verschwimmt für viele die Einordnung, was ist ein „normaler“ und was ein ML-Algorithmus. Diesem Umstand hat sich Alexandre Gonfalonieri gewidmet und einen informativen Artikel dazu verfasst.

Wer jetzt den Drang verspürt einen Machine Learning Algorithmus zu entwickeln, sollte vorher Athreya Anand Artikel lesen. Er beschreibt darin die seiner Meinung nach populärsten ML-Algorithmen.

Vor der Programmierung muss natürlich eine geeignete Programmiersprache gelernt werden. Neun der für Data Science wichtigsten Programmiersprachen hat Rashi Desai in ihrem Artikel auserkoren. Wenig verwunderlich ist, dass Python und R ganz vorne stehen. Irritiert bin ich persönlich von Perl und Haskell. JavaScript ist gar nicht aufgeführt, obwohl mit D3.js ein de facto Standard bei der Datenvisualisierung im Web auf JavaScript basiert.

Links gegen die Langeweile

Die Gier nach Daten zu COVID-19 führt dazu, dass manche Quellen nicht ganz „sauber“ sind. Das haben Recherchen von CNN zu den Worldometer-Daten ergeben.

Folgendes Szenario: Man ist unterwegs, hat nur ein iPhone dabei, aber den unbändigen Drang seiner Data Scientist-Leidenschaft nachzukommen.
Carnets - Jupyter hilft dir, dieses Bedürfnis zu stillen. Standalone Jupyter Notebooks für iOS/iPadOS.

Wie komplex menschliche Intelligenz ist, hat Spektrum aufgeschrieben. Da sind noch einige Herausforderungen für die künstliche Intelligenz zu meistern. Es sind mehr als nur Neuronen, die vernetzt werden müssen.

Damit haben wir wieder das Ende der dieser Ausgabe erreicht! Ich freue mich über Verbesserungsvorschläge und Tipps für Themen, Links oder Meinungen. Gerne per Mail an hallo@datenwirtschaft.online oder einfach per Twitter an mich senden.

Dir hat der Newsletter gefallen? Empfiehl ihn doch weiter.