Die PyCon DE und PyData Berlin sind ein etablierter Leuchtturm im jährlichen Terminkalender der Python Community. Entwickler, Experten und Enthusiasten verschiedenster Hintergründe sind in diesem Jahr zur gemeinsamen Konferenz für drei Tage in Berlin zusammengekommen. Insgesamt 1500 Personen waren vor Ort anwesend und haben an Vorträgen und Workshops aus nicht weniger als sieben meist parallelen Tracks teilgenommen und Wissen ausgetauscht.
Wir waren für Sie dabei und möchten unsere Eindrücke der Konferenz gerne teilen: Heute schauen wir auf Neuerungen und Trends aus dem Themenkomplex des Machine Learning und seiner Anwendungsfelder. In einem späteren Beitrag folgen die Eindrücke und Highlights aus der Perspektive des Data Engineering.
KI ist hier, ML ist abgelöst?
Das große Modewort der jüngeren Zeit ist einmal wieder KI, künstliche Intelligenz, oder - in der internationalen Form - AI, artificial intelligence. Auch im Programm der PyData Konferenz haben sich somit 2024 viele Beiträge zur Umsetzung von “KI” mittels Python, zur Anwendung in verschiedenen Szenarien oder zur technischen Optimierung der sogenannten Generative AI (GenAI) und Large Language Models (LLM) wiedergefunden. Den wichtigsten Beitrag dazu hat aus unserer Perspektive Prof. Ricardo Baeza-Yates in seiner Keynote geliefert: Welche Fragen man sich stellen sollte, bevor man auf den KI-Zug aufspringt. Rechtliche, ökologische aber auch ingenieurwissenschaftliche Aspekte sollten bei der Entscheidung berücksichtigt werden, ob die Verwendung hochkomplexer und extrem energieintensiver statistischer Modelle für eine bestimmte Anwendung überhaupt sinnvoll ist.
Im Kielwasser des AI-Hype werden die Methoden des maschinellen Lernens (Machine Learning, ML) immer besser, immer leichter zugänglich für die Verwendung im wirtschaftlichen Alltag. John Sandall hat in einem sehr unterhaltsamen Vortrag praktisch live am eigenen Laptop ein leichtgewichtiges Tool zur vollautomatischen Audiotranskription und inhaltlichen Zusammenfassung von Sprachaufnahmen entwickelt. Ein tolles Beispiel, wie modernste Technologien zur Optimierung des Arbeitsalltags auch ohne teure und datenschutzrechtlich bedenkliche Cloud-Services genutzt werden können.
John Sandall demonstriert ein in Python geschriebenes Open-Source-Audiotranskriptions- und Zusammenfassungswerkzeug.
Während er spricht, transkribiert und fasst die Software seine Worte mit geringer Verzögerung zusammen. (Quelle: PyConDE/PyData Berlin)
Machine Learning in Datenbanken
Immer mehr Datenbank- und Data-Warehouse-Systeme haben mittlerweile typische Machine Learning Methoden direkt integriert oder bieten Schnittstellen für die Definition und Integration eigener Methoden und Modelle an. Der Trend ist lange bekannt: es ist leichter, den Algorithmus zu den Daten zu bringen als umgekehrt. Gregor Bauer hat dieses Konzept am Beispiel der NoSQL Datenbank Couchbase vorgestellt: Beliebiger Python Code für ein ML-Modell kann per Schnittstelle in die Datenbank eingehängt und in der Engine als benutzerdefinierte Funktion registriert werden. Die Funktion steht fortan in sämtlichen SQL-Abfragen auf die Inhalte der Datenbank zur Verfügung. Umsatzprognosen und Planungszahlen können so live aus dem Datenbestand erzeugt werden, ohne langwierige Transformations- und Berechnungs-Routinen.
Viele SQL- und NoSQL-Datenbanksysteme unterstützen Plug-in-Ins für maschinelles Lernen.
Anstatt eine komplexe Infrastruktur wie Feature Stores und Model Registry zu betreiben, wird ein ML-Modell trainiert, verpackt und direkt in die Datenbank Engine hochgeladen. Die Inferenz kann dann wie eine native Datenbankfunktion abgefragt werden, um sie zu nutzen.
Laden Sie unser Whitepaper herunter und entdecken Sie das Potenzial von Künstlicher Intelligenz und Machine Learning!
Machine Learning überall
Nicht nur in modernen Datenbanksystemen können ML-Modelle direkt integriert werden. Mit dem MicroPython Framework lassen sich einfache Machine Learning Applikationen selbst auf Mikrocontrollern ausführen, also kleinsten Prozessoren, die im “Internet of Things” verbaut werden. Jon Nordby hat unter anderem die Anwendung in Industriesensoren zur Schwingungsmessung vorgestellt. Mittels Python-ML-Screening direkt auf dem Mikrocontroller an einer Turbine werden Sensordaten auf Muster untersucht, die einen Störfall darstellen könnten. Das Datenvolumen, das an ein zentrales Monitoringsystem übertragen werden muss, kann so drastisch reduziert werden.
Alle ML-Probleme gelöst?
ML-Anwendungen sind heutzutage überall. Sie sind in Cloud-Plattformen, BI-Tools und Datenbanksystemen direkt verfügbar. Gleichzeitig gilt das alte Sprichwort: Der Teufel steckt im Modell. Oder so ähnlich. Auch auf der PyData Berlin 2024 haben wir einige Beiträge gesehen, die Lösungsvorschläge für bestimmte Herausforderungen angeboten und gleichzeitig untermauert haben, dass diese Probleme nur schwer pauschalisiert werden können.
So haben beispielsweise Miguel de Benito Delgado und Kristof Schröder aktuelle Ansätze aus dem noch aktiven Forschungsgebiet der “data valuation” vorgestellt: Data Valuation steht im Kontext von Machine Learning Modellen für die Frage, welchen Informationsgewinn (oder -verlust) bestimmte Datensätze oder Datenpunkte für die Vorhersagequalität eines Modells bedeuten. In der Praxis können hier verschiedene mathematische Ansätze genutzt werden, um mögliche Fehler oder Unreinheiten in einem Trainingsdatensatz zu identifizieren oder das Feature Engineering für ein ML-Modell zu optimieren.
Daria Mokrytska stellt auf der PyData Konferenz das Kaltstartproblem bei Zeitreihenprognosen vor:
Für ein bestimmtes Objekt von Interesse sind keine Trainingsdaten verfügbar. (Quelle: PyConDE/PyData Berlin)
Das Kaltstartproblem bei Zeitreihenprognosen beschreibt, dass reale Anwendungsfälle beispielsweise bei Umsatz- oder Absatzprognosen immer auch für Produkte Aussagen treffen sollen, für die wenig oder keine historischen Daten vorliegen. Modelle können grundsätzlich keine Aussagen über das zukünftige Verhalten bislang unbekannter Objekte machen. Daria Mokrytska und Alexander Meier haben einige Ansätze vorgestellt, wie das Wissen über bekannte Objekte auf bislang unbekannte Objekte übertragen werden kann. Perfekte Lösungen gibt es hier keine, aber es können mit relativ einfachen Heuristiken gute Näherungen erzielt werden.
Neben diesen rein technisch-fachlichen Herausforderungen hat Katherine Jarmul in ihrem Vortrag eindrücklich auf Risiken von Deep Learning Modellen hinsichtlich Vertraulichkeit aufmerksam gemacht. Insbesondere Trainingsdaten, die weit von der Norm oder dem Durchschnitt abweichen, werden teilweise vollständig im Modell gespeichert und können so über gezielte Abfragen auch wieder reproduziert werden. Modelle, die mit schützenswerten personenbezogenen Daten oder Geschäftsgeheimnissen trainiert werden, stellen somit eine potenzielle Sicherheitslücke dar. Technische Lösungsansätze sind hier in aller Regel kompliziert. Dedizierte, in bestimmten eigenverantwortlichen Domänen entwickelte, trainierte und verwendete KI-Modelle könnten einen kulturellen Gegenentwurf zu den großen, globalen Modellen der aktuellen Generation darstellen.
Sehen wir uns nächstes Jahr?
Der Besuch auf der PyCon / PyData Berlin Konferenz hat uns in diesem Jahr viele spannende Eindrücke vermittelt. Mit Fokus auf das Thema Machine Learning im geschäftlichen Kontext lässt sich feststellen, dass ein hoher Reifegrad erreicht zu sein scheint, wenngleich es fortlaufend Optimierungsbedarf und Herausforderungen gibt. Selbstläufer sind Machine Learning und KI-Anwendungen auch im Jahr 2024 noch nicht. Zur gewinnbringenden Anwendung benötigen Sie spezifisches Expertenwissen über die verwendeten Methoden, ihre Fall- und Hintertüren. Sprechen Sie gerne mit uns über Ihre Vorhaben oder aktuelle Herausforderungen aus den Bereichen ML und KI.
In Kürze folgt ein zweiter Teil unseres Rückblicks mit dem Fokus auf Data Engineering Themen. Auf der Konferenz gibt es dennoch weit mehr zu sehen und zu erleben, als sich in diesen kurzen Berichten einfangen lässt. Vielleicht treffen wir Sie ja im nächsten Jahr persönlich auf der PyCon/PyData?