Darstellung von Kaffee Flecken zur illustration von Daten, die erfasst werden

Sie hinterlassen Spuren: Kaffee-Spuren!

Stellen Sie sich vor, Sie sitzen im Büro und arbeiten. Es ist nachmittags und Sie sind bereits etwas müde. Wenige Sekunden bevor Ihnen die Idee kommt, dass ein frisch gebrühter Kaffee da gut helfen könnte, springt der Vollautomat in der Büroküche an und kocht Ihnen eine Tasse Ihres Lieblingskaffees! Geht nicht? Geht doch! Ihre Kaffeemaschine kennt Sie besser, als Sie denken. Wir zeigen Ihnen, welche Magie dahinter steckt!

Schritt 1: Was Ihre Maschine alles weiß

Die Grundlage jeglicher "künstlichen Intelligenz" sind Daten - wie auch der Mensch lernt eine Maschine anhand von Erfahrungen. Ihre Kaffeemaschine möchte Sie also schon eine zeitlang kennen, bevor sie vorhersagen kann, wann Sie Kaffeegelüste bekommen.

Die Tabelle erfasst alle Zeiten, zu denen ein Kaffee gebrüht wurde um diese mit Machine Learning auszuwerten.

Ihre Maschine weiß, wann sie brüht

Die Kaffeemaschine führt akribisch Buch darüber, wann genau sie einen Kaffee brüht. Diese Kombination aus Uhrzeit, Tag, Monat und Jahr wird bei jedem Kaffee erfasst und in einer Datenbank abgespeichert. Die Maschine führt somit detailliert Protokoll darüber, wann in Ihrem Büro Kaffee getrunken wird und wann nicht.

Anzeige zusätzlicher Daten wie Wochentag, Wochenende, Monat, Stunde des Tages, Anzeige ob ein Kaffee in dieser Zeit gebrüht wurde.

Reichern Sie die Daten sinnvoll an

Wir haben nun also guten Kaffee und ein Protokoll über die Brühvorgänge. Im nächsten Schritt werden ein paar simple Formeln auf das Protokoll angewandt, um die Details, die in diesem Protokoll versteckt sind, aufzubereiten. Hierzu wird die erfasste Uhrzeit in volle Stunden umgewandelt. Die Datumsangabe wird genutzt, um eine Aussage über den Wochentag treffen zu können – und somit auch darüber, ob das jeweilige Ereignis an einem Wochenende oder einem Werktag stattfand. Schließlich wird eine Auflistung aller vollen Stunden der einzelnen Tage erstellt und eine binäre Variable genutzt, um zu markieren, ob ein Kaffee gebrüht wurde – oder nicht.

Transformation der Daten in numerische Werte

Bringen Sie die Werte auf eine numerische Basis

Da wir diese aufbereiteten Daten nutzen wollen, um unsere Maschine Vorhersagen treffen zu lassen, müssen wir die Daten maschinenlesbar machen. Das heißt, dass wir alle Werte, die keine Zahlen sind, in solche umwandeln müssen. Hierzu eignen sich zum Beispiel Faktorvariablen bei Elementen, die eine endliche und „überschaubare“ Anzahl von Ausprägungen haben. So können beispielsweise die Wochentage in eine Faktorvariable mit den Ausprägungen 1 bis 7 umgewandelt werden, ohne einen Informationsverlust zu erleiden. Das gleiche wird bei den Monaten durchgeführt und die Variablen "Wochenende" und "Kaffee gebrüht" werden mit 0 und 1 codiert, da wir eine binäre Ausprägung haben.

Darstellung der normalisierten Tabelle mit vereinheitlichtem numerischem Niveau der Daten auf Werte zwischen 0 und 1

Und vereinheitlichen Sie dann das numerische niveau

Der letzte Schritt der Datenaufbereitung ist schließlich das normalisieren der Daten. Hierzu können verschiedene Normalisierungslogiken angewandt werden. In unserem Beispiel haben wir alle Zahlen in der Form transformiert, dass sich diese im Rahmen zwischen 0 und 1 befinden. Das ursprüngliche Verhältnis der einzelnen Werte zueinander bleibt dabei erhalten – somit können die Variablen später wieder in ihre Ausgangswerte transformiert werden.

Schritt 2: Die Vorhersage als mathematisches Problem begreifen

Neben den Daten ist die Grundlage jeder klugen Maschine Mathematik. Ein intelligenter Algorithmus stellt eine Verbindung zwischen den Eingabewerten und dem Zielwert her.

Normalisierte Tabelle mit Formel zur Prediction des Kaffeekonsums

Die Formel, die aus den Eingabewerten einen Ausgabewert macht

Im Grunde lässt sich unser vorliegendes Problem ("Hat in dieser Stunde jemand Lust auf Kaffee?") auch mathmatisch begreifen: Es ist - wie im wirklichen Leben - der Zusammenhang zwischen Umwelteinflüssen (Uhrzeit, Wochentag, Wochenende; sogenannten "Eingabewerten") und unserer Vorhersage ("Möchte jemand Kaffee?"; der sogenannte Zielwert). Die Intelligenz eines Data Science Algorithmus steckt also in mathematischen Operationen: Mit welchen Werten, Formeln und Operationen lassen sich bestimmte Eingabewerte in einen korrekten Zielwert übertragen?

Illustration mit Decision Tree, Random Forest, k-Nearest-Neighbors und Support Vektor Machine

Viele Formeln führen zur Vorhersage

Ziel des Algorithmus ist es also, den Zusammenhang zwischen den Eingabewerten und unserem Zielwert zu ermitteln. Das Suchen und Finden dieses Zusammenhangs ist dann das sogenannte "lernen" der Maschine. Für dieses lernen gibt es zahlreiche Methoden und Ansätze, beispielsweise sogenannte "Entscheidungbäume" (Decision Trees / Random Forests) oder mathematisch komplexere Methoden wie die "Support Vector Machine" oder "Neuronale Netze", die von der Funktion des menschlichen Gehirn inspiriert sind. Auf mathematische Details wollen wir verzichten, aber es sei gesagt: Mal mehr und mal weniger gut finden all diese Ansätze einen mathematischen Zusammenhang.

Schritt 3: Das Modell trainieren

Das Identifizieren des mathematischen Zusammenhangs zwischen Eingabe- und Zielwerten wird als "Training" oder "Fitting" bezeichnet

Diagramm, welches die Performance von Decision Tree, Random Forest, k-Nearest-Neighbors, Support Vektor Machine, Logistische Regression und Naive Bayes im Verhältnis zur Anzahl der erhoben Daten zeigt.

Je mehr Daten, desto besser

Im Rahmen des Trainings versucht jeder Ansatz (Support Vector Machine, Decision Tree, Neuronales Netz und unzählige andere) den Zusammenhang zwischen Eingabewerten und Zielwert anhand der zur Verfügung stehenden Erfahrung (der bereits gebrühten Kaffees und den damit zusammenhängenden Daten) zu berechnen. Je mehr Daten zur Verfügung stehen, desto besser wird die Leistung eines Modells. Rechts sehen Sie, wie sich die Akkuranz (der Anteil von Kaffeegelüsten, die korrekt vorhergesagt wurden) mit immer mehr Trainingsdaten verbessert. Eine Akkuranz von 1 würde bedeuten, dass der Algorithmus in einer Testphase jede Kaffeelust und jede Kaffeeunlust fehlerfrei vorhergesagt hat.

Diagramm zum Vergleich der Performance verschiedener Machine Learning Modelle

Ein Modell auswählen

Abhängig vom Datensatz und der Problemstellung funktioniert ein Ansatz besser als ein anderer. Für unseren Anwendungsfall möchten wir nicht nur eine künstliche Intelligenz, die vohersagt, wann wir Kaffeelust haben, sondern eine, die erst dann Kaffee brüht, wenn sie sich sehr sicher ist, dass wir auch wirklich Kaffeelust haben. Links sehen Sie zahlreiche Datenpunkte, die durch Linien verbunden sind. Jeder Datenpunkt ist ein alleinstehendes Modell und Sie können auf der vertikalen Achse das Verhältnis zwischen "Erkannten Kaffeegelüsten" und "Übersehenen Kaffeegelüsten" und auf der horizontalen Achse das Verhältnis zwischen "Unnötigem Kaffeebrühen" und "Richtig erkannter Kaffee-Unlust" ablesen. Bei Modellen die jede Kaffeelust erkennen wird die Menge der "falschen Alarme", der "unnötig gebrühten Kaffees" üblicherweise steigen.

Schritt 4: Der Einsatz der klugen Maschine

Entscheiden Sie, ob Sie die autonome Kaffeemaschine in Ihrem Büro haben möchten. So oder so - wir hoffen, wir konnten Ihnen die Idee des Machine Learnings näherbringen

Kaffee Flecken

Nagut, die Kaffeemaschine muss die Kaffeelust nicht vorhersehen

Nicht alles was man kann, muss man. Der Einsatz des hier beschriebenen Modells würde höchstwahrscheinlich keinen Businessmehrwert bringen und außerdem zu dem ein oder anderen Kaffee führen, der dann doch im Ausguss landet. Die meisten Kaffeemaschinen verfügen auch nicht über die notwendige Anbindung ans Internet, um eine solche Datenbank zu pflegen und die Berechnungsschritte durchführen zu lassen. Das Beispiel soll aber verdeutlichen, dass es möglich ist mit unscheinbaren Datensätzen intelligente Entscheidungen automatisiert durch eine Maschine treffen zu lassen.

Darstellung eines zufriedenen Kunden, nachdem das Machine Learning Modell erfolgreich als API deployed wurde

Aber sie könnte - mit einer sogenannten API

Wenn Sie sich dennoch dafür entscheiden sollten, ein solches Modell in Ihrem Unternehmen zu implementieren, so wäre dies ein simples Unterfangen. Angenommen wir würden auf unseren Servern dieses Modell für Sie entwickeln, so könnten wir Ihnen über eine Programmierschnittstelle (API) Zugang zu diesem Modell geben und ggf. die Kaffeemaschine darauf zugreifen lassen. Ebenso denkbar wäre die Implementierung in Excel, damit Ihr Kaffeebauftragter in seiner Dokumentation genau angezeigt bekommt, wann der nächste Kaffee gebrüht werden muss.

Ausblick und Möglichkeiten

Zugegeben: Im Bereich Data Science und Machine Learning spielen Kaffeemaschinen lediglich als Zulieferer von Betriebsmitteln eine Rolle. Teil einer Vorhersage sind sie selbst meistens nicht.

Büroarbeitsplatz mit Laptop, Aktenordnern, Lampe und Schreibmaterial

Vertrieb, Marketing, Personal, Logistik,...

Wenn wir das Kaffeebeispiel auf businessrelevantere Themenbereiche übertragen, wird schnell klar, welches Potenzial im maschinellen Lernen steckt. Mit ähnlichen Methoden könnte beispielsweise im Vertrieb vermieden werden, dass Kunden nach dem Zufallsprinzip adressiert und angesprochen werden. Eine KI wäre dazu in der Lage eine Einschätzung abzugeben, welcher Kunde als nächster kontaktiert werden sollte. Die Marketingabteilung könnte Informationen darüber bekommen, wann gewisse Click-Gebote bei AdWords ansteigen, die Personaler könnten Vorhersagen darüber bekommen, wann eine Krankheitswelle durch das Unternehmen gehen wird, um Ressourcen entsprechend zu verteilen und die Logistik könnte Stauwarnungen bekommen, bevor es zum Stau kommt.

Bild einer Kopfform, welche die komplexität von Prozessen im Machine Learning Darstellt

Komplexere Algorithmen und die stetige Verbesserung

Das Beispiel des intelligenten Kaffeeautomaten ließe sich auch noch weiter optimieren. Durch den Einsatz von Deep Learning Modellen, lassen sich noch komplexere Zusammenhänge aus noch komplexeren Datensätzen ermitteln. Würden wir also eine Aussage darüber treffen wollen, zu welcher Minute ein Kaffee getrunken wird, ob dieser Kaffee mit Milch aber ohne Zucker sein soll und wer diesen Kaffee trinken wird, so könnten auch diese Fragestellungen modelliert werden. Darüber hinaus lässt sich ein solchen Modell in der Form gestalten, dass der Algorithmus sich ständig weiter entwickelt und auf neue Gegebenheiten eingeht. Denkbar wäre die Berücksichtigung der Erweiterung des Automaten um die Getränke Tee, Wasser und Kakao, eine steigende Anzahl an Kaffeetrinkern etc.

Treffen Sie uns

Sie möchten mehr über Machine Learning und Data Science erfahren? Wir freuen uns, von Ihnen zu hören

LIMEBIT DIGITALAGENTUR

  • Rathenower Straße 38, 10559 Berlin
  • 030 - 120 86 0 64 (ortstarif)
  • info@limebit.de

Schreiben Sie uns

Oder direkt schreiben

Foto von Philipp Koch

Philipp Koch Data Science & Development

Foto von Oliver Franke

Oliver Franke Infrastruktur & Development

Foto von Florian Richter

Florian Richter Data Science & Marketing