Skip to content
NextLytics
Megamenü_2023_Über-uns

Shaping Business Intelligence

Ob clevere Zusatzprodukte für SAP BI, Entwicklung aussagekräftiger Dashboards oder Implementierung KI-basierter Anwendungen - wir gestalten zusammen mit Ihnen die Zukunft von Business Intelligence. 

Megamenü_2023_Über-uns_1

Über uns

Als Partner mit tiefem Prozess-Know-how, Wissen der neuesten SAP-Technologien sowie hoher sozialer Kompetenz und langjähriger Projekterfahrung gestalten wir die Zukunft von Business Intelligence auch in Ihrem Unternehmen.

Megamenü_2023_Methodik

Unsere Methodik

Die Mischung aus klassischem Wasserfallmodell und agiler Methodik garantiert unseren Projekten eine hohe Effizienz und Zufriedenheit auf beiden Seiten. Erfahren Sie mehr über unsere Vorgehensweise.

Produkte
Megamenü_2023_NextTables

NextTables

Daten in SAP BW out of the Box bearbeiten: Mit NextTables wird das Editieren von Tabellen einfacher, schneller und intuitiver, egal ob Sie SAP BW on HANA, SAP S/4HANA oder SAP BW 4/HANA nutzen.

Megamenü_2023_Connector

NextLytics Connectoren

Die zunehmende Automatisierung von Prozessen erfordert die Konnektivität von IT-Systemen. Die NextLytics Connectoren ermöglichen eine Verbindung Ihres SAP Ökosystems mit diversen open-source Technologien.

IT-Services
Megamenü_2023_Data-Science

Data Science & Engineering

Bereit für die Zukunft? Als starker Partner stehen wir Ihnen bei der Konzeption, Umsetzung und Optimierung Ihrer KI-Anwendung zur Seite.

Megamenü_2023_Planning

SAP Planning

Wir gestalten neue Planungsanwendungen mithilfe von SAP BPC Embedded, IP oder  SAC Planning, die einen Mehrwert für Ihr Unternehmen schaffen.

Megamenü_2023_Dashboarding

Dashboarding

Mit unserer Expertise verhelfen wir Ihnen auf Basis von Tableau, Power BI, SAP Analytics Cloud oder SAP Lumira zu aussagekräftigen Dashboards. 

Megamenü_2023_Data-Warehouse-1

SAP Data Warehouse

Planen Sie eine Migration auf SAP HANA? Wir zeigen Ihnen, welche Herausforderungen zu beachten sind und welche Vorteile eine Migration bringt.

Business Analytics
Megamenü_2023_Procurement

Procurement Analytics

Transparente und valide Zahlen sind vor allem in Unternehmen mit dezentraler Struktur wichtig. SAP Procurement Analytics ermöglicht die Auswertung von SAP ERP-Daten in SAP BI.

Megamenü_2023_Reporting

SAP HR Reporting & Analytics

Mit unserem Standardmodell für Reporting von SAP HCM mit SAP BW beschleunigen Sie administrative Tätigkeiten und stellen Daten aus verschiedenen Systemen zentral und valide zur Verfügung.

Megamenü_2023_Dataquality

Data Quality Management

In Zeiten von Big Data und IoT kommt der Vorhaltung einer hohen Datenqualität eine enorm wichtige Bedeutung zu. Mit unserer Lösung für Datenqualitätsmanagement (DQM) behalten Sie stets den Überblick.

Karriere
Megamenü_2023_Karriere-2b

Arbeiten bei NextLytics

Wenn Du mit Freude zur Arbeit gehen möchtest und dabei Deine berufliche und persönliche Weiterentwicklung nicht zu kurz kommen soll, dann bist Du bei uns genau richtig! 

Megamenü_2023_Karriere-1

Berufserfahrene

Zeit für etwas Neues? Gehe Deinen nächsten beruflichen Schritt und gestalte Innovation und Wachstum in einem spannenden Umfeld zusammen mit uns!

Megamenü_2023_Karriere-5

Berufseinsteigende

Schluss mit grauer Theorie - Zeit, die farbenfrohe Praxis kennenzulernen! Gestalte bei uns Deinen Einstieg ins Berufsleben mit lehrreichen Projekten und Freude an der Arbeit.

Megamenü_2023_Karriere-4-1

Studierende

Du möchtest nicht bloß die Theorie studieren, sondern Dich gleichzeitig auch praktisch von ihr überzeugen? Teste mit uns Theorie und Praxis und erlebe wo sich Unterschiede zeigen.

Megamenü_2023_Karriere-3

Offene Stellen

Hier findest Du alle offenen Stellenangebote. Schau Dich um und bewirb Dich - wir freuen uns! Falls keine passende Stelle dabei ist, sende uns gerne Deine Initiativbewerbung zu.

Blog
NextLytics Newsletter Teaser
Hier für unseren monatlichen Newsletter anmelden!
Newsletter abonnieren
 

Wie Sie Text Mining und NLP zur Steigerung Ihres Blogerfolgs einsetzen

Das Potential von Machine Learning und Advanced Analytics liegt nicht nur in den strukturierten Daten, die sich leicht aus einer Datenbank oder einen Data Warehouse extrahieren lassen. Eine noch größere Datenmenge liegt versteckt in Dokumenten, E-Mails, Kommentaren und natürlich dem Internet.

Diese unstrukturierten Daten enthalten Informationen, welche nicht direkt zugänglich sind. Unter den Schlagwörtern Text Mining und Natural Language Processing (NLP) finden sich Methoden wieder, die es ermöglichen, vielfältige Erkenntnisse aus den Textdaten zu bergen.

In diesem Artikel lernen Sie grundlegende Methoden und zugehörige Frameworks anhand eines konkreten Anwendungsbeispiels aus dem Bereich Marketing kennen und erschließen so ein weiteres Datenfeld für Ihre Analysen.

Text Mining kann neben der reinen Analyse und Inhaltsextraktion aus Textdaten wie bei Reklamationskommentaren und Wartungsnotizen oft gewinnbringend eingesetzt werden. Beispielsweise werden die Textdaten genutzt, um Prognosefaktoren für ein Machine Learning Projekt abzuleiten. Neben der quantitativen Einstufung des Kundens anhand der Bestellhistorie (siehe RFM-Analyse) sind mit Text Mining auch qualitative Einschätzungen möglich.

Wir stellen Ihnen nachfolgend den Anwendungsfall Erfolgsprognose bei Blogartikeln vor.
Dazu werden folgende Schritte durchlaufen:

  1. Festlegen des konkreten Analyseziels
  2. Schaffen der Datenbasis
  3. Bilden von Features aus dem Textinhalt und Titel
  4. Erstellen eines Prognosemodells
  5. Interpretation der Ergebnisse

Festlegung des Analyseziels

Bevor Textdaten analysiert werden, sollte ein passendes Analyseziel gebildet werden, um für einen Mehrwert zu sorgen. Aus Marketingsicht ist der Erfolg eines Blogartikels ausschlaggebend und dieser ist erstmal mit verschiedenen KPIs messbar. Beispielsweise kann die Anzahl der Ansichten, die Verweildauer auf dem Artikel oder der Website, die Weiterleitung auf Conversion-Content o.ä. interessant sein. Sobald ein Zielwert ins Auge gefasst und näher definiert wird, kann die Auswahl der Datengrundlage und die Extraktion der relevanten Prognosefeatures beginnen. In unserem Beispiel wurde die Anzahl der durchschnittlichen Ansichten in den ersten 6 Monaten nach Veröffentlichung des Beitrages betrachtet.

Schaffen der Datenbasis

Je nach Beschaffenheit der Datenquelle ist das Verfügbarmachen ein einfacher oder aufwendiger Prozess. Im einfachsten Fall sind die Textdaten direkt als Datenbankfeld, eine leicht lesbare Datei oder über eine API verfügbar. Für alle Arten von Textdateien (Word, PowerPoint, PDF) finden sich eine Reihe an nützlichen Python Bibliotheken, die für die Extraktion verwendet werden können. Liegen die gewünschten Daten im Internet verborgen, kann ein sogenannter Web-Scrapper automatisiert Webseiten abarbeiten und Texte und andere Information herausziehen. Richtig gestaltet stehen so aktuelle Daten mit externen Informationen zur Bereicherung der Datenmenge zur Verfügung. Es sollte jedoch auf die Rechtmäßigkeit des Vorgangs und die Vermeidung von datenschutzrechtlichen Konflikten geachtet werden. In unserem Anwendungsbeispiel werden die Blogdaten über eine Webextraktion generiert. Der Aufwand ist gerechtfertigt, da dort der finale Stand der Artikel liegt, wie er im Internet den Lesern zur Verfügung steht.

 

Data_Text Mining
  • Direkter Zugang in Dateiform oder über APIs
  • Konformes Web-Mining mit dem Frameworks Scrapy oder BeautifulSoup
  • Extraktion aus PDF Dokumenten mithilfe von pdfplumber, PyPDF4 oder Optical Character Recognition

Sollen die Textdaten nach der Extraktion in einer Datenbank aufgefangen werden, bietet sich hierfür eine SAP HANA Datenbank an. Dort kann der Text als NCLOB-Datentyp neben anderen Metadaten wie Titel, Datum und Tags gespeichert werden. Die SAP HANA Datenbank bietet die Möglichkeit einen Textindex zu erstellen, welcher den Text in seine Bestandteile zerlegt und Wortklassen, Positionen im Dokument etc. ergänzt. Diese Aufschlüsselung ist für die Datenanalyse hervorragend geeignet.


Kurbeln Sie Ihr Business an mit
Machine Learning und Künstlicher Intelligenz

KI und ML für Ihr Business


Bilden von Features

Im nächsten Schritt geht es um die Exploration der Daten und das Bilden der Prognosefaktoren. Dieser Prozess ist kreativer und umfangreicher als bei strukturierten Daten. Auf Basis der vorhandenen Texte können eine Reihe an möglichen Einflussfaktoren gebildet und evaluiert werden.
Neben Textcharateristika wie die Wortanzahl und Satzlänge sind auch die verwendeten Wörter von Bedeutung. Hierfür gibt es eine Reihe an NLP-Techniken, welche zur Bildung der Features genutzt werden können. Beispielsweise kann anhand der verwendeten Wörter bestimmt werden, ob der Blogartikel in Form einer Anleitung geschrieben wurde. Eine andere NLP-Technik wie die Sentimentanalyse beurteilt die Texte anhand der Subjektivität (objektiv vs. subjektiv) und der Polarität (negativ, neutral, positiv) und liefert entsprechende Kennzahlen. Mithilfe des Topic-Modellings werden thematisch ähnliche Dokumente geclustert. Die Clusterzuordnung selber kann auch als Feature verwendet werden. Schlussendlich sind auch vorhandene Metadaten hilfreich. Da bei Blogartikeln ein Zeitfaktor bezüglich des Communityaufbaus mitwirkt, ist der Veröffentlichungszeitpunkt der jeweiligen Blogartikel wichtig. Der Communityaufbau wurde latent eingebaut, indem die durchschnittlichen Webseitenbesuche im Monat vor dem Zeitpunkt der Veröffentlichung als Faktor einfließen.

Features_Text Mining

  • Textcharakteristika wie Wortanzahl, durchschnittliche Satzlänge und Titellänge
  • Metadaten wie Themen-Tags und das Veröffentlichungsdatum
  • Erstellte Features auf Basis der verwendeten Wörter 
  • Ergebnisse einer Sentimentanalyse
  • Themenzuordnung durch Topic Modelling

Erstellen eines Prognosemodells

Sobald die Daten inklusive Einflussfaktoren vorbereitet sind, ist das Bilden eines ersten Prognosemodells ein leichtes Unterfangen. Das Modell leitet anhand der Daten und des zugehörigen Zielwerts zugrundeliegende Regeln von selbst her. Deshalb spricht man auch von Künstlicher Intelligenz und Machine Learning. Im Prinzip werden Modellparameter mit Hilfe der Daten gesetzt. Dabei kommt es zu Abweichungen zwischen dem Modellergebnis und der Realität. Das Ziel der Modellbildung ist es, diese Abweichung bei neuen Daten auf ein Minimum zu reduzieren. Dafür werden verschiedene Modelltypen, Modelleinstellungen und Vorbereitungsschritte für die Datenbasis systematisch evaluiert.

In unserem Fall dienen als Zielwert die Ansichten des Blogartikels in den ersten 6 Monaten. Die Vorhersage bezieht sich also auf einen numerischen Wert. Es handelt sich um ein Regressionsproblem. Für die verwendete Datenbasis war ein Random-Forest-Modell am aussichtsreichsten. Wenn das Modell auf neue, unveröffentlichte Blogartikel angewendet werden soll, müssen diese analog aufbereitet werden. Die ins Modell integrierten Einflussfaktoren sind zwingend für jeden neuen Datenpunkt zu generieren. Die Implementierung und Orchestrierung solcher Datenpipelines sind ein entscheidender Punkt für den langfristigen Mehrwert eines Machine Learning Modells.

Interpretation der Ergebnisse

Mit der reinen Vorhersage von neuen Ergebnissen hört das Erfolgsversprechen einer Machine Learning Anwendung noch nicht auf. Angenommen, manche Blogartikel werden von dem Modell als besonders erfolgsträchtig eingestuft. Wenn sich diese Behauptung wiederholt bewahrheitet, würden Sie nicht stoppen wollen. Interessant ist es jetzt, herauszufinden, weshalb die Vorhersage eintrifft und welche Stellschrauben es gibt, um die Reichweite zu erhöhen.
Bei einigen Modellen sind die Erkenntnisse leichter extrahierbar als bei anderen. Beispielsweise geben die Entscheidungsregeln eines trainierten Entscheidungsbaums einen Hinweis über die Wichtigkeit der Einflussfaktoren. Für komplexere Modelle werden spezielle Explainable-AI-Frameworks verwendet. Beispielsweise wird hier der Featureeinfluss mittels Ansätzen aus der Spieltheorie ermittelt.

Bei der Analyse der Reichweite unserer Blogartikel konnten wir interessante Erkenntnisse ableiten und quantifizieren. Zum Beispiel generiert ein Artikel zum Thema SAP Analytics Cloud oder SAP Dashboarding im Schnitt die doppelte Reichweite eines Artikels. Oder sobald der Titel eines Blogbeitrages auf eine Anleitung schließen lässt, ist ebenfalls die Reichweite besonders groß.

Text Mining - Unser Fazit

Die Analyse von unstrukturierten Textdaten kann interessante Erkenntnisse hervorbringen und stellt auch Analysten vor eine neue spannende Herausforderung. Die Open-Source Toollandschaft ist dabei für erste Anwendungsfälle geeignet, wobei Bibliotheken für deutschsprachige Analysen im Allgemeinen weniger ausgearbeitet sind. Im Zuge einer Modellierung liegt der wahre Mehrwert in der Extraktion der Erkenntnisse mittels ExplainableAI-Methoden, welche die Black Box des Modells transparent werden lassen.

Möchten Sie erörtern, welche Machine-Learning Anwendungsfälle für Textmining in Ihrem Umfeld bestehen oder haben Sie sogar ein konkretes Problem im Visier? Wir erarbeiten gerne mit Ihnen gemeinsam eine Strategie für Ihre Textdaten und unterstützen Sie vollumfänglich in der Konzipierung, Implementierung und dem Betrieb der Lösung. Sprechen Sie uns gerne an!

Erfahren Sie mehr über Machine Learning und KI

avatar

Luise Wiesalla

Luise Wiesalla ist seit 2019 als Werkstudentin / studentische Beraterin im Bereich Data Analytics und Machine Learning bei der NextLytics AG tätig. Sie hat Erfahrung mit Full-Stack-Data-Science-Projekten und dem Einsatz der open-source Workflow-Management-Lösung Apache Airflow. Ihre Freizeit verbringt sie gerne damit, ihre Umgebung zu erkunden und in Bewegung zu sein.

Sie haben eine Frage zum Blog?
Fragen Sie Luise Wiesalla

Gender Hinweis Aufgrund der besseren Lesbarkeit wird im Text das generische Maskulinum verwendet. Gemeint sind jedoch immer alle Menschen.

Blog - NextLytics AG 

Welcome to our blog. In this section we regularly report on news and background information on topics such as SAP Business Intelligence (BI), SAP Dashboarding with Lumira Designer or SAP Analytics Cloud, Machine Learning with SAP BW, Data Science and Planning with SAP Business Planning and Consolidation (BPC), SAP Integrated Planning (IP) and SAC Planning and much more.

Informieren Sie mich über Neuigkeiten

Verwandte Beiträge

Letzte Beiträge