Ein Garantie für erfolgreiche Machine Learning Projekte gibt es nicht - wir zeigen Ihnen aber, wie Sie das Projekt auf die richtige Bahn lenken und Ihre Chancen für die Zielgerade erhöhen. Mit der Beachtung des vorgestellten Machine Learning Workflow oder Lifecycle (mit dem Uber für skalierbares und angewendetes Machine Learning sorgt) setzen Sie den richtigen Fokus in den einzelnen Projektphasen und beachten alle Teilaspekte zum passenden Zeitpunkt.
Die vorgestellte Definition konzentriert sich neben den technischen Aspekten auch auf die Effektivität des gesamten Projekts und schließt so die Lücke zu dem geschäftlichen Kontext. Dieser Blogartikel zeigt wie Sie den Machine Learning (ML) Workflow für sich nutzen können und gibt einen Überblick in die verschiedenen Phasen des ML Workflow.
Der Machine Learning Workflow kann grob in vier Phasen unterteilt werden. Dabei ist zu beachten, dass die Phase “Prototyp” selbst einen iterativen Prozess darstellt.
Abbildung angelehnt an Uber ML Stack
Die erste Phase bringt den Fokus auf das zu behandelnde Problem. Es geht darum, das Thema übergreifend zu betrachten und alle Teammitglieder mit einzubinden. Sobald ein gemeinsames Verständnis der Ausgangslage geschaffen ist, wird die Erwartung an das Projekt und die Definition der Ergebnisse daraus abgeleitet. Die grundlegende Form der Lösung (Bsp. Echtzeitanwendung) und der Modelltyp werden ersichtlich, während die Details bewusst offen bleiben. In jedem Fall wird hier Inspiration für die Umsetzung entstehen. Eine empfehlenswerte Workshop-Methode findet sich im Design Thinking wieder. Folgende Leitfragen werden in dieser Phase beantwortet:
Nach Abschluss der Phase ist sichergestellt, dass das richtige Problem behandelt wird und die Rahmenbedingungen gesetzt sind. Für mehr Information zu den Möglichkeiten von Machine Learning und Anwendungsideen für verbreitete unternehmerische Herausforderungen empfehlen wir Ihnen die Lektüre unseres Whitepapers "So kurbeln Sie Ihr Business durch Künstliche Intelligenz und Machine Learning an".
Die Machbarkeit wird in der zweiten Phase überprüft. Wichtige Tätigkeiten sind die Beschaffung der Daten, die Vorbereitung auf die Analyse und eine erste Modellauswahl. Die Datenexperten genießen jetzt Sonderrechte und haben beinah uneingeschränkte Experimentierfreiheit bei dem Entwurf des Modells und der zugehörigen Datenbasis. Iterativ werden neue Einflussgrößen aus den Daten gewonnen und ihre Wirkung auf das Modell analysiert. Aufgrund der speziellen Freiheiten wird diese Arbeitsumgebung oft als Data Lab (Daten Labor) bezeichnet.
Am Ende dieser Experimentierphase soll ein funktionierender Prototyp eines Modells entstehen. Tatsächlich spiegelt der Prototyp eine passende aber nicht unbedingt perfekte Lösung des Problems wider. Aufwendige Optimierungen hinter der vierten Nachkommastelle sind nur in wenigen Fällen ausschlaggebend, ob ein Modell in der Praxis taugt oder nicht. Diese Phase dient primär dazu, die folgenden Fragen zu beantworten:
Sobald der Modellentwurf die Anforderung erfüllt, kann in die nächste Phase übergegangen werden, da das Modell im späteren Verlauf ohnehin iterativ optimiert wird.
Im Übergang zu der Production-Phase fällt die Entscheidung für oder gegen den Machine Learning Ansatz. Erweist sich das Modell als vielversprechend, kann es in eine Produktionsumgebung überführt werden. Falls die Umsetzbarkeit durch die Prototypen nicht belegt werden kann, sollten Sie Ihr Machine Learning Projekt hier stoppen. Die bisherigen Aufwendungen sind geschehen und sollten keinesfalls den Entscheidungsprozess verfälschen. Ganz unnütz sind die bisherigen Ergebnisse jedoch nicht. Zur Vermeidung von Fehlentscheidungen kann es hilfreich sein, eine externe Person hinzu zu ziehen.
Im Zuge der Produktivsetzung muss das Modell weitere organisatorische und kulturelle Hürden bestehen. In dieser Phase sollten Maßnahmen zur Akzeptanzsteigerung in den Anwenderkreis durchgeführt werden. Hinsichtlich der technischen Umsetzung profitiert das Deployment von einer möglichst durchgängigen und integrierten Machine Learning Pipeline zwischen dem Data Lab und der Laufzeitumgebung. Je nach Art der Pipeline kann die Verwendung von State-of-the-Art Technologien nur eingeschränkt möglich sein, da die neusten Modelltypen nicht sofort unterstützt werden. In dem Zug der Automatisierung wird auch die bedarfsgerechte Transformation der Daten in die Pipeline aufgenommen.
Folgende Fragen werden unter anderem in dieser Projektphase geklärt:
Am Ende der Produktivsetzung ist das Modell unter Realbedingungen einsatzfähig. Die Produktivsetzung geht oft mit einem Wechsel der Verantwortlichkeiten einher. Besonders bei innovativen Ansätzen in der Modellgestaltung entstehen Probleme bei der Übergabe. Mit MLOps werden wichtige Strukturen für die Zusammenarbeit von Datenwissenschaftlern und Betriebsexperten geliefert.
Die vierte Phase stellt sicher, dass Ihr Projekt einen nachhaltigen Mehrwert für Ihr Unternehmen liefert. Dafür wird die Performance des Modells im Regelbetrieb überwacht. In der hoch agilen Welt entstehen viele Veränderungen, die die Ergebnisqualität des Modells negativ beeinflussen. Beispiele hierfür sind das Verschieben von Trends oder das Wandern von Marktanteilen. Die Ergebnisqualität des Modells kann dadurch negativ beeinflusst werden. Deshalb sollten die Ergebnisse in regelmäßigen Abständen kritisch hinterfragt und falls möglich mit einem Vergleichswert abgeglichen werden. Die Abstände sind unter anderem von der betriebswirtschaftlichen Bedeutung des Modells und Schnelllebigkeit der Ergebnisse abhängig.
Die Annahmen des Modells sind ebenfalls zu überprüfen. Sofern diese noch zutreffend sind, kann ein Neutraineren des Modells mit weiteren frischen Daten einen Performance-Boost gewähren. Bei tiefgreifenden Neuerungen wird eine strukturelle Anpassung des Modells oder das Hinzufügen einer neuen Datenquelle notwendig. Zusammenfassend beschäftigt diese Phase sich mit folgenden Fragen:
Im Zuge der kontinuierlichen Verbesserung des Modells ist eine Versionierung der Modelle wichtig. Sofern die Ergebnisse eines Modells wegen beispielsweise rechtlicher Ansprüche bei einer Kreditanfrage jederzeit reproduzierbar sein müssen, gewinnt dieser Punkt an zentraler Bedeutung.
Der Machine Learning Workflow zeichnet sich durch seine Flexibilität aus. Statt fest verankerten Zielen zu folgen, werden die Möglichkeiten durch die Machbarkeitsstudie offen gelegt. Bis zu diesem Punkt herrscht Ungewissheit, welche Ergebnisse mit den zur Verfügung stehenden Daten realisierbar sind und welche Anforderungen die Implementierung mit sich bringt. Somit birgt jede Phase ihre eigenen Herausforderungen und Chancen. Die Berater von NextLytics begleiten Sie gerne durch Teile oder durch den gesamten Workflow und unterstützen Sie mit ihrer Praxiserfahrung das maximale Potential freizusetzen.
Wenn Sie Unterstützung bei der Planung und Ausführung von Machine Learning Projekten benötigen, sprechen Sie uns gerne an. Unsere Beratern besitzen unterschiedlichen Schwerpunkten und ergänzen ihr Projektteam mit den gewünschten Kompetenzen.