Machine Learning Workflows
mit Apache Airflow

Digitales Workflowmanagement gewinnt an Bedeutung

Der heutige Geschäftsalltag ist voll und ganz mit digitalen Prozessen durchzogen. Nicht zuletzt wegen der steigenden Bedeutung an Machine Learning Anwendungen nimmt die Anzahl an digitalen Prozessen und deren Umsetzung als Workflow stark zu. Analysen und Prognosen werden heutzutage nur als Prototyp manuell gestartet, ein produktives System setzt auf Automatisierung. Hier ist die Wahl der Workflowmanagement-Plattform ein wesentlicher Faktor für den langfristigen Erfolg.

Dabei entsteht die Herausforderung, dass diese digitalen Prozesse zentral verwaltet und organisiert werden müssen. Besonders bei geschäftskritischen Prozessen ist die zuverlässige Ausführung und die Flexibilität in der Gestaltung essenziell. Neben der reinen Ausführung kommt auch der Optimierung und dem Fehlermanagement eine hohe Bedeutung zu. Idealerweise sind die Prozesse zudem so gestaltet, dass sie einfach hochskaliert werden können. 

Nur wenn sowohl die technische als auch fachliche Seite der Anwender eingebunden wird, entsteht eine Akzeptanz und eine nachhaltige Integration der digitalen Prozesse in den Arbeitsalltag. Die Ausführung als Workflows sollte demnach so einfach und nachvollziehbar wie möglich sein.

GenderBox
Aufgrund der besseren Lesbarkeit wird im Text das generische Maskulinum verwendet. Gemeint sind jedoch immer alle Menschen.
Whitepaper  Workflow management mit Apache Airflow  Wie funktioniert Workflowmanagement  mit Apache Airflow? Welche Anwendungsszenarien sind möglich? Mit welchen  Neuerungen reagiert das neue Major-Release auf die aktuelle Herausforderungen  des Workflowmanagement?   Jetzt exklusives Whitepaper herunterladen  

Digitale Workflows mit der Open-Source Plattform Apache Airflow

Airflow-Workflow

Erstellen von komplexen Workflows in Python

In Apache Airflow werden die Workflows mit der Programmiersprache Python angelegt. Die Einstiegshürde ist dabei gering. In wenigen Minuten definieren Sie selbst komplexe Workflows mit externen Abhängigkeiten zu Drittsystemen und bedingten Verzweigungen.

Airflow-Workflow

Planen, Ausführen und Monitoren von Workflows

Die programmgesteuerte Planung, Ausführung und Überwachung der Workflows klappt dank dem Zusammenspiel der Komponenten reibungslos. Die Performance und Verfügbarkeit lässt sich auch an Ihre strengsten Anforderungen anpassen.

Airflow-Datenbank

Perfekt für Machine Learning

Hier werden Ihre Anforderungen des Machine Learnings bestens erfüllt. Auch deren komplexe Workflows lassen sich ideal über Apache Airflow orchestrieren und managen. Die unterschiedlichen Forderungen bezüglich Soft- und Hardware sind leicht umsetzbar.

Sicherheit

Robuste Orchestrierung von Drittsystemen

Bereits im Standard von Apache Airflow sind zahlreiche Integrationen zu gängigen Drittsystemen enthalten. Hiermit realisieren Sie im Handumdrehen eine robuste Anbindung. Ohne Risiko: Die Verbindungsdaten werden verschlüsselt im Backend gespeichert.

Skalierung

Ideal für den Enterprise Context

Die Anforderungen von Start-ups und Großkonzernen werden gleichermaßen durch die hervorragende Skalierbarkeit erfüllt. Als Top Level Projekt der Apache Software Foundation und mit den Ursprüngen bei Airbnb war der wirtschaftliche Einsatz im großen Maßstab von Beginn an vorgesehen.

Ein Blick in die umfangreiche intuitive Weboberfläche

Ein wesentlicher Vorteil von Apache Airflow ist das moderne, umfangreiche Webinterface. Mit rollenbasierter Authentifizierung liefert die Oberfläche Ihnen einen schnellen Überblick oder dient als einfacher Zugriffspunkt für die Verwaltung und das Monitoring der Workflows.

Die Orchestrierung von Drittsystemen wird durch zahlreiche vorhandene Integrationen realisiert.

  • Apache Hive
  • Kubernetes Engine
  • Amazon DynamoDB
  • Amazon S3
  • Amazon SageMaker
  • Databricks
  • Hadoop Distributed File System (HDFS)
  • Bigtable
  • Google Cloud Storage (GCS)
  • Google BigQuery
  • Google Cloud ML Engine
  • Azure Blob Storage
  • Azure Data Lake
  • ...
Orchestrierung

Die Workflowmanagement-Plattform für Ihre Bedürfnisse

20_HG_R_Zahnrad

Flexibilität durch benutzerdefinierte Anpassungen 

Die Anpassbarkeit ist durch zahlreiche Plugins, Makros und individuelle Klassen gegeben. Da Airflow komplett auf Python basiert, ist die Plattform theoretisch bis in die Grundzüge veränderbar. Passen Sie Apache Airflow jederzeit an Ihre aktuellen Bedürfnisse an.

Einfach skalierbar

Die Skalierung mit verbreiteten Systemen wie Celery, Kubernetes und Mesos ist jederzeit möglich. Im Zuge dessen kann eine leichtgewichtige Containerisierung eingebaut werden.

HG_L_Skalierung_1
20_HG_R_Kosten

Kostenlos nutzbar

Ohne Lizenzgebühren und mit geringem Installationsaufwand steht Ihnen die Workflowmanagement-Plattform schnell zur Verfügung. Nutzen Sie stets die aktuellste Version im vollem Umfang.

Profitieren von einer ganzen Community

Als de-facto Standard des Workflowmanagements sind in der Airflow Community nicht nur Anwender involviert, sondern die Plattform profitiert auch von engagierten Entwicklern aus der ganzen Welt. Aktuelle Ideen und die Umsetzung im Code finden Sie online.

HG_L_Community
HG_R_Userfriendly_1

Agilität durch Einfachheit

Die Workflowdefinition wird durch die Umsetzung in Python stark beschleunigt und die Workflows profitieren von der gebotenen Flexibilität. In der Weboberfläche mit hervorragender Bedienbarkeit sind die Fehlerbehebung und Änderungen an den Workflows schnell umsetzbar.

State-of-the-art Workflowmanagement mit Apache Airflow 2.0

Das neue Major Release von Apache Airflow bringt neben einem modernen User-Interface neue Funktionen mit:

  • Vollfunktionale REST API mit zahlreichen Endpunkten für die beidseitige Integration von Airflow in verschiedene Systeme wie das SAP BW
  • Funktionale Definition von Workflows zur Realisierung von Datenpipelines für einen verbesserten Datenaustausch zwischen den Aufgaben im Workflow mit der TaskFlow API
  • Intervallbasiertes Überprüfen einer Ausgangslage mit Smart Sensors, welche die Auslastung des Workflowmanagement-Systems so gering wie möglich halten
  • Erhöhte Benutzerfreundlichkeit an vielen Stellen (vereinfachter KubernetesOperator, wiederverwendbare Task-Groups, automatisch Aktualisierung der Weboberfläche)
Pipeline
Haben Sie noch Fragen oder benötigen Unterstützung bei Ihrem nächsten  KI-Projekt?   Wir stehen Ihnen bei der Implementierung oder Optimierung Ihrer  KI-basierten Anwendung mit unserem Know-how gerne zur Verfügung und zeigen  Ihnen, wie Machine Learning einen Mehrwert für Sie und Ihr Unternehmen  generieren kann.   Unverbindlich beraten lassen   
Möchten Sie mehr über Machine Learning erfahren? 
In unserem Blog finden Sie weitere interessante Artikel zu diesem Thema
zwei Hände, die Händeschütteln_Databricks Partner

Meilenstein erreicht: NextLytics wird Databricks Partner

NextLytics wird offizieller Databricks Partner, um Kunden durch modernste Daten- und KI-Lösungen zu unterstützen.

Puzzleteile_Databricks_MLflow

Databricks und MLflow: Ideales Match für skalierbares Machine Learning

Erfahren Sie, wie Databricks & MLflow Machine Learning-Projekte von der Datenverarbeitung bis zur Modellbereitstellung effizienter gestalten.

Schloss vor blauer Wand_Single Sign On

Implementierung von Single Sign On Authentifizierung in Apache Airflow

Erfahren Sie, wie die Integration von Single Sign On (SSO) in Apache Airflow die Sicherheit und Benutzerfreundlichkeit verbessern kann.

Kamera_schwarz weiße Wand_Continuous Deployment

Effiziente Überwachung von Continuous Deployment mit Apache Airflow

Erfahren Sie, wie Continuous Deployment mit Apache Airflow die Überwachung von Docker-Containern verbessern kann.

Fahnen_Data_Engineering_Trends

Data Engineering Trends auf der PyCon und PyData Konferenz 2024

Highlights der PyCon DE und PyData Berlin 2024: Erfahren Sie mehr über die neuesten Data Engineering Trends und deren Anwendungsfelder.

Machine_Learning_Trends_Gebäude_PyCon

Machine Learning Trends auf der PyCon und PyData Konferenz 2024

Entdecken Sie die neuesten Machine Learning Trends und KI-Anwendungen, die auf der PyCon DE und PyData Berlin vorgestellt wurden. Wir waren für Sie dabei.

Bunte_Pipelines_NextLytics

Apache Airflow Parameter: Optimieren Sie Ihre Data Pipeline

Erfahren Sie, wie Sie mit Apache Airflow Ihre Data Pipeline optimieren können, indem Sie Parameter auf DAG- und Task-Ebene nutzen.

Brücke_Lichter_ELT-Prozess

Datenflüsse nach dem ELT-Prozess mit Apache Airflow

In diesem Blogbeitrag erfahren Sie wie der ELT-Prozess mit Apache Airflow Ihre Datenverarbeitung optimieren kann.

Lupe_Daten_AzureML

Ein maschinelles Lernsystem für die Vertriebsplanung in AzureML

Erfahren Sie, wie Sie mithilfe von AzureML und präzisen Absatzprognosen Ihre Ressourcen effizienter einsetzen & realistische Umsatzziele festlegen können.

weißer_und_schwarzer_Laptop_Datenplattformen

Orchestrierung von Datenplattformen: Apache Airflow vs Databricks Jobs

Orchestrierung von Datenplattformen: Databricks Jobs und Apache Airflow bieten robuste Lösungen. Finden Sie die perfekte Lösung für Ihre Anforderungen.