Mit fortschreitender Digitalisierung wächst neben der Datenmenge auch die Datenvielfalt, die von Unternehmen verarbeitet werden muss. Neben den strukturierten Daten aus dem ERP kommen Unmengen an unstrukturierten Daten in Form von Dokumenten oder Massendaten aus IoT Systemen dazu. Um wettbewerbsfähig bleiben zu können, wächst der Bedarf nach einer modernen Datenplattform Architektur. Diese soll eine nahtlose Integration, Skalierbarkeit und fortschrittliche Analysen mithilfe von Machine Learning (ML) und AI ermöglichen.
Daher setzen immer mehr Unternehmen auf Lakehouse-Architekturen, die die Vorteile von Data Lakes und Data Warehouses vereinen. Der Lakehouse-Ansatz bietet eine einheitliche Plattform für strukturierte und unstrukturierte (Massen-)Daten, die kosteneffiziente Speicherung, performante Abfragen und integrierte Governance-Funktionen kombiniert. Als Basis für ML- und AI-Anwendungen ermöglicht diese Architektur Unternehmen, datengetriebene Entscheidungen zu treffen, Prozesse zu optimieren und neue Geschäftschancen zu erschließen.
Vor dem Hintergrund dieser Trends stellt sich die Frage, ob SAP Datasphere als Datenplattform diesen Anforderungen gewachsen ist. Kommen ggf. auch andere Lösungen wie Databricks ins Spiel? In diesem Artikel erkunden wir die Stärken und Schwächen dieser beiden Tools und analysieren, ob eine Kombination der beiden Werkzeuge das Fundament für eine solche moderne Datenarchitektur schaffen kann.
Framework für die Evaluierung
Um einen konsistenten Vergleich sicherzustellen, bedarf es eines strukturierten Frameworks. Basierend auf unserer jahrelangen Erfahrung haben wir die relevanten Kriterien in der folgenden Übersicht zusammengefasst. Diese stellt das volle Spektrum der Funktionen einer modernen Datenplattform dar. Dabei bewerten wir u.a. die Integrationsmöglichkeiten verschiedener Quellsystemklassen sowie die Storage-Möglichkeiten und Datenverarbeitungsoptionen. Darüber hinaus spielen auch die Datenmodellierung sowie die anschließende Nutzung der Daten eine wichtige Rolle. Die Querschnittsfunktionen einer modernen Datenplattform werden in Form von Governance, Auffindbarkeit, Kollaboration und Sicherheit abgebildet.
Für jede Lösung haben wir die Funktionen bewertet und mit Ampelfarben versehen. Grün gibt eine native, solide Unterstützung der Funktionalität an, während Gelb auf Einschränkungen hindeutet. Bei rot markierten Zellen fehlt die Funktion, oder wird nur sehr eingeschränkt unterstützt. Die nachfolgende Darstellung stellt unsere Einschätzung diesbezüglich zur SAP Datasphere dar.
Stärken und Schwächen von SAP Datasphere
Wie Sie sehen, deckt SAP Datasphere vor allem die klassischen Data Warehouse Komponenten gut ab. Als SAP Lösung punktet Datasphere mit einer starken Integration mit dem SAP Ökosystem, bietet aber auch Unterstützung vieler non-SAP Datenquellen an. Allerdings müssen beim letzteren manchmal Abstriche bei der Erfassung von Deltas hingenommen werden. Event Streaming wird momentan nur in Form einer Integration mit Kafka unterstützt.
Zur Erweiterung der Funktionalitäten, v.a. für komplexere Anwendungsfälle, positioniert die SAP ihre Business Technology Platform (BTP) mit diversen Subservices als go-to Lösung. Dies führt jedoch zu Design-Brüchen und zusätzlichen Kosten. SAP Open Connectors (Teil des BTP Services Integration Suite) beispielsweise ermöglicht die Anbindung von REST APIs an Datasphere, führt jedoch zu zusätzlichen Fix- und verbrauchsbasierten Kosten.
In puncto Modellierung bietet SAP Datasphere ein ausgereiftes semantisches Modell, das eine starke Integration mit v.a. S/4 HANA aufweist. Hier punktet Datasphere auch mit einem mächtigen Self-Service Konzept - auch für nicht-technische User. Bei der Konsumierung von Daten profitiert SAP Datasphere von der Integration mit SAP Analytics Cloud und deckt damit Dashboards und Business Planning ideal ab.
SAP Datasphere bietet mit HANA Predictive Analysis Library (PAL) und Automated Predictive Library (APL) die Möglichkeit Modelltraining und Vorhersagen direkt in der darunterliegenden SAP HANA Cloud Datenbank auszuführen. Da die Berechnungen direkt auf der Datenbank erfolgen, ergeben sich große Performance Vorteile. Der Datentransfer zwischen Client und Server entfällt. Allerdings ist die Unterstützung für Machine Learning Anwendungen im Vergleich zu Mitbewerbern (z.B. Databricks) stark unterentwickelt. Es gibt u.a. keine Möglichkeit, beliebige Python Bibliotheken zu nutzen. Ein Data Science & Machine Learning Workspace mit entsprechenden Funktionalitäten ist ebenfalls nicht vorhanden.
Seit Dezember 2024 befindet sich der Datasphere Object Store, also die Grundlage für eine Lakehouse-Architektur, im restricted release. Dieser ist ein großer Schritt nach vorne. Leider fehlen noch einige wichtige Features, um unsere Bewertung hier zu verbessern. So ist die Interoperabilität (also die Nutzung von externen Object Stores durch Datasphere und die Nutzung des Datasphere Object Stores von extern) noch schlecht bis gar nicht gegeben. Auch innerhalb von Datasphere ist der Object Store nicht gut genug integriert, so dass kein direktes und performantes Reporting darauf möglich ist.
Sehen Sie sich die Aufzeichnung unseres Webinars an:
"SAP Datasphere and the Databricks Lakehouse Approach"![Aufzeichnung Webinar SAP Datasphere Insights and the Databricks Lakehouse Approach Aufzeichnung in englischer Sprache Zur Aufzeichnung](https://no-cache.hubspot.com/cta/default/5396071/2f9c610c-cfb0-4bf4-a5a0-60fb5be5b8c3.png)
Stärken und Schwächen von Databricks
Demgegenüber bietet Databricks eine gute Integration von Datenquellen außerhalb des SAP Ökosystems. Databricks erlaubt die Anbindung von beliebigen Datenquellen über Python-Programmroutinen, sodass alle denkbaren Kombinationen von Dateiformaten, Übertragungsprotokollen, Authentifizierungsmechanismen und Datenmodellierung im Zweifelsfalle mit dedizierter Programmierung abgedeckt werden können. Die Extraktion aus den SAP Systemen wird momentan von SAP eingeschränkt und soll über SAP Datasphere erfolgen.
Databricks ist der Vorreiter und Namensgeber im Bereich Data Lakehouse. Diese Architektur trennt Storage- und Compute-Ressourcen voneinander und ermöglicht, beide Komponenten unabhängig voneinander zu skalieren. Die Kommunikation zwischen Storage und Compute Schichten nutzt Protokolle und Konzepte, die Parallelisierung und horizontales Scaling nativ unterstützen. Auf diese Weise können sehr viel größere Datenvolumen vorgehalten und deutlich effizienter prozessiert werden, als bei klassischen Datenbanksystemen.
Außerdem ist Databricks eine ausgereifte und ständig weiterentwickelte Entwicklungsplattform für ML, Deep Learning, Generative AI, Retrieval Augmented Generation, Agentensysteme und sämtliche weiteren Spielarten der aktuellen Data Science Trends.
Datenhaltung, Feature Store und Model Registry sind allesamt im Unity Catalog (UC) als zentralen Index der Lakehouse-Plattform integriert. Das zugehörige Open Source ML-Entwicklungsframework mlflow, der de facto Branchenstandard, wird für das Tracking von Experimenten, Trainingsdaten, Modellversionen, Evaluations- und Nutzungsmetadaten verwendet und ist eine originäre Eigenentwicklung von Databricks.
Machine Learning Worflow und Tool-Support in Databricks. Quelle: Databricks, 2025
Kombinierter Ansatz
Da sich die Stärken der beiden Werkzeuge gegenseitig ergänzen, bietet eine Kombination ein enormes Potential. Die nachfolgende Grafik stellt die Stärken von SAP Datasphere in blau dar, während die Stärken von Databricks in rot dargestellt sind. Die Integration sollte basierend auf der jeweiligen Quellsystemklasse evaluiert werden. SAP Datasphere überzeugt als Business-Layer in einem standardisierten Data-Warehouse-Ansatz. Zudem bietet es eine nahtlose Integration mit SAP-Systemen und stellt mit SAP Analytics Cloud eine leistungsstarke Konsumschicht für Business Intelligence und Reporting bereit. Databricks hingegen ist besonders stark im Bereich Machine Learning und ermöglicht eine Data-Lakehouse-Architektur, die große Datenmengen kosteneffizient verwalten kann. Durch die Kombination dieser Stärken können Unternehmen eine moderne, skalierbare und intelligente Datenplattform aufbauen.
Fazit und Ausblick
Auch in Zukunft wird die Data Lakehouse Architektur eine führende Rolle einnehmen, um mit stetig wachsenden Datenmengen und herausfordernden ML & AI Anforderungen umzugehen. Mit dem restricted release des embedded object stores hat SAP einen Schritt in die richtige Richtung gewagt, wird sich aber dennoch schwer tun, den Rückstand in diesen Bereichen in den nächsten Jahren auszugleichen. Für Unternehmen, die hierauf nicht warten können oder wollen, ist die Kombination aus Datasphere und Databricks ein optimaler Weg. Wenn Sie mehr zu diesem Thema erfahren wollen, können wir Ihnen unser Webinar ans Herz legen. Sehen Sie sich hier die Aufzeichnung unseres Webinars "SAP Datasphere and the Databricks Lakehouse Approach - How to build a Future-Proof Data Platform" an.
Wir bleiben gespannt, wie SAP auf diese Herausforderungen im Wettbewerb mit der Konkurrenz reagiert. Zwar gibt es bereits seit längerem eine Partnerschaft mit Databricks, doch sind die Resultate für den Endkunden hieraus bisher ernüchternd.
Beide Seiten haben jedoch angekündigt, dass sie an etwas Großem arbeiten. Wird das den kombinierten Ansatz schwächen oder bestärken? Wir bleiben gespannt und berichten.
Haben Sie Fragen zu Databricks und SAP Datasphere? Wir helfen Ihnen gerne dabei. Nehmen Sie einfach Kontakt zu uns auf!
Danke an unser Data Science and Engineering Team, die mit ihrer Databricks-Expertise zu diesem Artikel beigetragen haben.
Machine Learning, Datasphere, SAP Data Warehouse
![avatar](https://www.nextlytics.com/hs-fs/hubfs/Profile-Pictures/2023_Profilbilder/Irvin.png?width=290&name=Irvin.png)