Skip to content
NextLytics
Megamenü_2023_Über-uns

Shaping Business Intelligence

Ob clevere Zusatzprodukte für SAP BI, Entwicklung aussagekräftiger Dashboards oder Implementierung KI-basierter Anwendungen - wir gestalten zusammen mit Ihnen die Zukunft von Business Intelligence. 

Megamenü_2023_Über-uns_1

Über uns

Als Partner mit tiefem Prozess-Know-how, Wissen der neuesten SAP-Technologien sowie hoher sozialer Kompetenz und langjähriger Projekterfahrung gestalten wir die Zukunft von Business Intelligence auch in Ihrem Unternehmen.

Megamenü_2023_Methodik

Unsere Methodik

Die Mischung aus klassischem Wasserfallmodell und agiler Methodik garantiert unseren Projekten eine hohe Effizienz und Zufriedenheit auf beiden Seiten. Erfahren Sie mehr über unsere Vorgehensweise.

Produkte
Megamenü_2023_NextTables

NextTables

Daten in SAP BW out of the Box bearbeiten: Mit NextTables wird das Editieren von Tabellen einfacher, schneller und intuitiver, egal ob Sie SAP BW on HANA, SAP S/4HANA oder SAP BW 4/HANA nutzen.

Megamenü_2023_Connector

NextLytics Connectoren

Die zunehmende Automatisierung von Prozessen erfordert die Konnektivität von IT-Systemen. Die NextLytics Connectoren ermöglichen eine Verbindung Ihres SAP Ökosystems mit diversen open-source Technologien.

IT-Services
Megamenü_2023_Data-Science

Data Science & Engineering

Bereit für die Zukunft? Als starker Partner stehen wir Ihnen bei der Konzeption, Umsetzung und Optimierung Ihrer KI-Anwendung zur Seite.

Megamenü_2023_Planning

SAP Planning

Wir gestalten neue Planungsanwendungen mithilfe von SAP BPC Embedded, IP oder  SAC Planning, die einen Mehrwert für Ihr Unternehmen schaffen.

Megamenü_2023_Dashboarding

Dashboarding

Mit unserer Expertise verhelfen wir Ihnen auf Basis von Tableau, Power BI, SAP Analytics Cloud oder SAP Lumira zu aussagekräftigen Dashboards. 

Megamenü_2023_Data-Warehouse-1

SAP Data Warehouse

Planen Sie eine Migration auf SAP HANA? Wir zeigen Ihnen, welche Herausforderungen zu beachten sind und welche Vorteile eine Migration bringt.

Business Analytics
Megamenü_2023_Procurement

Procurement Analytics

Transparente und valide Zahlen sind vor allem in Unternehmen mit dezentraler Struktur wichtig. SAP Procurement Analytics ermöglicht die Auswertung von SAP ERP-Daten in SAP BI.

Megamenü_2023_Reporting

SAP HR Reporting & Analytics

Mit unserem Standardmodell für Reporting von SAP HCM mit SAP BW beschleunigen Sie administrative Tätigkeiten und stellen Daten aus verschiedenen Systemen zentral und valide zur Verfügung.

Megamenü_2023_Dataquality

Data Quality Management

In Zeiten von Big Data und IoT kommt der Vorhaltung einer hohen Datenqualität eine enorm wichtige Bedeutung zu. Mit unserer Lösung für Datenqualitätsmanagement (DQM) behalten Sie stets den Überblick.

Karriere
Megamenü_2023_Karriere-2b

Arbeiten bei NextLytics

Wenn Du mit Freude zur Arbeit gehen möchtest und dabei Deine berufliche und persönliche Weiterentwicklung nicht zu kurz kommen soll, dann bist Du bei uns genau richtig! 

Megamenü_2023_Karriere-1

Berufserfahrene

Zeit für etwas Neues? Gehe Deinen nächsten beruflichen Schritt und gestalte Innovation und Wachstum in einem spannenden Umfeld zusammen mit uns!

Megamenü_2023_Karriere-5

Berufseinsteigende

Schluss mit grauer Theorie - Zeit, die farbenfrohe Praxis kennenzulernen! Gestalte bei uns Deinen Einstieg ins Berufsleben mit lehrreichen Projekten und Freude an der Arbeit.

Megamenü_2023_Karriere-4-1

Studierende

Du möchtest nicht bloß die Theorie studieren, sondern Dich gleichzeitig auch praktisch von ihr überzeugen? Teste mit uns Theorie und Praxis und erlebe wo sich Unterschiede zeigen.

Megamenü_2023_Karriere-3

Offene Stellen

Hier findest Du alle offenen Stellenangebote. Schau Dich um und bewirb Dich - wir freuen uns! Falls keine passende Stelle dabei ist, sende uns gerne Deine Initiativbewerbung zu.

Blog
NextLytics Newsletter Teaser
Hier für unseren monatlichen Newsletter anmelden!
Newsletter abonnieren
 

Einlesen von Daten in Databricks Unity Catalog aus Apache Airflow mit Daft

Offenheit als Kernstück des Data Lakehouses

Data Lakehouse ist das Architekturmuster der Zukunft, das die Verwaltung von Unternehmensdaten, Analysen und KI in großem Maßstab ermöglicht. Das Data Lakehouse kombiniert die SQL-basierten logischen und semantischen Strukturen des klassischen Data Warehouse mit der skalierbaren Rechen- und Speichertechnologie des Data Lake. Ursprünglich als Nebenprodukt dieses technologischen Paradigmenwechsels, den wir bei allen großen Anbietern und Produkten von Datenplattformen beobachten, wird Offenheit als ein wesentlicher struktureller Vorteil beworben: Wählen Sie Ihre eigene Compute-Engine, Ihr BI-Tool, Ihre Machine-Learning- oder GenAI-Anwendung, um auf Ihre Daten dort zuzugreifen, wo sie sich befinden, anstatt sich mit großen und unhandlichen Duplikaten herumschlagen zu müssen.

Hinter den Kulissen ist Apache Spark derzeit die De-facto-Standard-Engine, die für den Zugriff auf jedwede Data Lakehouse-Architektur gebraucht wird. Das heißt, um auf Daten zuzugreifen, die sich in einem Lakehouse-Katalog in Databricks, Dremio, Trino usw. befinden, benötigen Sie zunächst Zugang zu einem Spark-Cluster oder zumindest einer Single-Node-Engine. In Python geschriebene Abfragen werden auf die zugrunde liegende Java-basierte Engine übertragen und gegen die Daten ausgeführt, was einen gewissen Overhead und Kosten für die verwendeten Rechenressourcen verursacht.

Jetzt tauchen native Python-Bibliotheken wie Daft auf, die eine Schnittstelle zu Data Lakehouse-Protokollen bilden und die versprochene Zugänglichkeit und Interoperabilität wirklich ermöglichen. Hier zeigen wir, wie Apache Airflow Worker Nodes genutzt werden können, um auf Daten aus Azure Databricks Unity Catalog zuzugreifen.

Ein moderner, schlanker Ansatz für die Datenerfassung

Die Datenerfassung ist ein grundlegender Bestandteil jeder Datenplattform, doch führen gängige Methoden oft zu unnötiger Komplexität und Overhead. Eine übliche Methode zur Bewältigung dieser Herausforderungen ist der Einsatz von Apache Spark für die Transformation, auch wenn der Funktions- und Leistungsumfang von Spark-Clustern in keinem Verhältnis zu der tatsächlich benötigten einfachen Verarbeitung steht. Dies kann zu ineffizienten Prozessen führen, bei denen die Rechenkosten steigen und zusätzliches spezifisches technisches Wissen erforderlich ist, wodurch sich die Implementierung verlangsamt und weniger kosteneffizient ist.

Mit dem Aufkommen von Daft, einer neuen Open-Source-gestützten Hochleistungsdaten-Engine, steht Unternehmen nun eine leichtgewichtige, Spark-freie Alternative für die Dateneingabe zur Verfügung. In Kombination mit dem Scheduling-Framework von Apache Airflow ermöglicht Daft einen effizienten, skalierbaren Ingest in eine Vielzahl von Quellen, darunter auch den Databricks Unity Catalog, ohne dass ein kompletter Spark-Cluster für die Verarbeitung erforderlich ist.

graphic_spark_daft_ingestion_Databricks Unity Catalog

In diesem Blogbeitrag wird untersucht, wie Entwicklungsteams Daft mit Airflow einsetzen können, um Daten in den Databricks Unity Catalog zu übertragen und so die Effizienz zu maximieren und die Infrastrukturkosten zu minimieren.

Was spricht für Daft bei der Datenerfassung?

Viele Data Engineering-Teams verwenden standardmäßig Spark-basierte Ingestion-Methoden in Databricks, selbst wenn der Transformationsbedarf minimal ist. Dies führt zu unnötigem Ressourcenverbrauch und hoher betrieblicher Komplexität. Daft bietet eine überzeugende Alternative:

  • Leichtgewichtig und Spark-frei: Daft ermöglicht Datentransformationen, ohne dass ein Spark-Cluster erforderlich ist, und reduziert so den Infrastruktur-Overhead.
  • Nahtlose Airflow-Integration: Daft arbeitet nativ in Python und lässt sich daher leicht in Apache Airflow DAGs integrieren.
  • Effiziente Verarbeitung: Daft optimiert E/A und Berechnungen und ist damit ideal für Streaming und Batch-Ingestion ohne die schwergewichtige Verarbeitung von Spark.
  • Integration in Kataloge: Die Daten können direkt in Databricks Unity Catalog aufgenommen werden, wodurch Governance und Zugänglichkeit gewährleistet sind.

Durch den Einsatz von Daft können Datenproduktteams Kosten senken, Abläufe rationalisieren und die Effizienz von Dateneingabe-Pipelines verbessern.

Implementierung von Daft-basiertem Einlesen in Apache Airflow

Mithilfe des DAG-Frameworks von Airflow können Dateningenieure Daft-basierte Ingestion in Databricks Unity Catalog orchestrieren, ohne sich bei der Verarbeitung auf Spark zu verlassen. Der Arbeitsablauf folgt den folgenden Hauptschritten:

  1. Daten extrahieren: Daft liest Rohdaten aus verschiedenen Quellen wie S3, Azure Blob Storage oder On-Premise-Datenbanken.
  2. Daten transformieren (falls erforderlich): Geringfügige Transformationen (z.B. Filterung, Deduplizierung, Schema-Validierung) werden in Daft durchgeführt.
  3. Laden in Unity Catalog: Die verarbeiteten Daten werden als Delta Lake-Tabelle in Databricks Unity Catalog geschrieben.

Optimieren Sie Ihr Workflowmanagement mit Apache Airflow!

NextLyitcs Whitepaper Apache Airflow DE


Ein vereinfachter Airflow-DAG für Daft-basierte Ingestion unter Verwendung der DataFrame-Bibliothek könnte so aussehen:

from airflow import DAG

from datetime import datetime 

from airflow.decorators import dag, task

from airflow.operators.python import PythonOperator

import daft

from daft.unity_catalog import UnityCatalog, UnityCatalogTable

DATABRICKS_URL = "https://adb-1234.azuredatabricks.net"

DATABRICKS_TOKEN = "..."

STORAGE_BASE = "abfss://databricks-metastore@databricksunicat.dfs.core.windows.net/ingest_test"

@dag(
  dag_id="daft_ingestion_pipeline",
  schedule_interval="@daily",
  start_date=datetime(2025, 1, 1),
  catchup=False
)
def daft_ingestion_pipeline():


    @task

    def ingest_data():

        unity = UnityCatalog(endpoint=DATABRICKS_URL, token=DATABRICKS_TOKEN)

        # Load data from local file

        df = daft.read_csv("./myfile.csv")

        df = df.drop_nulls()

        delta_table = unity \

                .load_table("nextlytics.nextlytics-demo.daft_test_consumption", \

                new_table_storage_path=STORAGE_BASE + "/consumption")

        df.write_deltalake(delta_table, mode="overwrite")

    ingest_data()

daft_ingestion_dag = daft_ingestion_pipeline()

Mit diesem Ansatz können Ingestion-Workflows effizient in Airflow ausgeführt werden, ohne dass Databricks-Cluster während der gesamten Pipeline-Ausführung aktiv sein müssen.

Ein Nachteil, den unsere Tests ergeben haben, ist, dass der Speicherpfad für eine neu erstellte Delta-Tabelle derzeit vorkonfiguriert werden muss, selbst wenn dem Schema des Unity-Katalogs ein Standardspeicherpfad zugewiesen ist. Wir führen diese Unannehmlichkeit darauf zurück, dass sowohl Daft als auch die Unity

Catalog Python-Bibliotheken noch in einem frühen Entwicklungsstadium sind. Bei der Geschwindigkeit, mit der wir in diesem Ökosystem Verbesserungen sehen, werden solche Unannehmlichkeiten in naher Zukunft beseitigt werden.

Business Vorteile für Engineering Manager

Aus Sicht der technischen Leitung bringt die Einführung von Daft mit Airflow for Databricks Ingestion greifbare geschäftliche Vorteile mit sich:

  • Kosteneinsparungen: Eliminiert die unnötige Nutzung von Spark-Clustern und senkt die Rechenkosten für Databricks.
  • Skalierbarkeit und Leistung: Die leichtgewichtige Ausführung ermöglicht eine schnellere Einspeisung großer Datenmengen mit weniger Engpässen.
  • Weniger betriebliche Komplexität: Die nahtlose Airflow-Integration ermöglicht eine zentralisierte Planung und Überwachung und verbessert die Zuverlässigkeit der Datenpipeline.
  • Governance & Sicherheit: Die direkte Übernahme in den Unity Catalog gewährleistet die Einhaltung der Datenreihenfolge, Zugriffskontrolle und Audits.
  • Leichte Implementierung: Da Daft auf dem weit verbreiteten Python-Konstrukt der DataFrames aufbaut, das ursprünglich von der Pandas-Bibliothek eingeführt wurde, wird die eigentliche Implementierung des Codes erheblich erleichtert.

Durch die Verlagerung von Ingestion-Workloads auf Daft-gestützte Airflow-DAGs können Unternehmen ihre Datenarchitektur optimieren und gleichzeitig Databricks als leistungsstarke Analyseplattform beibehalten.

Unser Fazit: Nutzen Sie die Expertenhilfe von NextLytics

Die Integration von Daft mit Airflow für Databricks Unity Catalog Ingestion bietet eine moderne, kosteneffiziente Alternative zu traditionellen Spark-basierten Ingestion-Methoden. Mit diesem Ansatz können Entwicklungsteams die Infrastrukturkosten senken, die Erfassungsgeschwindigkeit verbessern und das Pipeline-Management vereinfachen.

Unternehmen, die Databricks- und Airflow-basierte Erfassungsstrategien implementieren oder optimieren möchten, bietet NextLytics fachkundige Beratung in den Bereichen Data Engineering, Workflow-Orchestrierung und skalierbare Cloud-Architekturen. Wenden Sie sich an unser Team, um herauszufinden, wie wir Ihnen helfen können, Ihre Dateneingabe-Pipelines zu optimieren und die Effizienz Ihrer Datenplattform zu maximieren.

Erfahren Sie mehr über Apache Airflow

,

avatar

Robin Brandt

Robin Brandt ist Berater für Machine Learning und Data Engineering. Durch langjährige Erfahrung im Software und Data Engineering bringt er Expertise in den Bereichen Automatisierung, Datentransformation und Datenbankmanagement mit - speziell im Bereich der Open Source Lösungen. Seine Freizeit verbringt er mit Musizieren oder dem Kreieren scharfer Gerichte.

Sie haben eine Frage zum Blog?
Fragen Sie Robin Brandt

Gender Hinweis Aufgrund der besseren Lesbarkeit wird im Text das generische Maskulinum verwendet. Gemeint sind jedoch immer alle Menschen.
Einlesen von Daten in Databricks Unity Catalog aus Apache Airflow mit Daft
9:07

Blog - NextLytics AG 

Welcome to our blog. In this section we regularly report on news and background information on topics such as SAP Business Intelligence (BI), SAP Dashboarding with Lumira Designer or SAP Analytics Cloud, Machine Learning with SAP BW, Data Science and Planning with SAP Business Planning and Consolidation (BPC), SAP Integrated Planning (IP) and SAC Planning and much more.

Informieren Sie mich über Neuigkeiten

Verwandte Beiträge

Letzte Beiträge