Nachhaltigkeit im Unternehmen ist angesagt. Egal ob die Nachhaltigkeit der Produkte gesteigert oder der interne ökologische Fußabdruck herabgesetzt wird. Damit der Trend auch langfristig in Unternehmen Einzug halten kann, ist es wichtig, Kennzahlen aufzubauen und zu verfolgen. Als Maßzahl für ökologische Nachhaltigkeit ist dabei der CO2-Fußabdruck prominent. Hier werden die verursachten Treibhausgasemissionen von Systemen, Prozessen und Ressourcen in ein Kohlenstoffdioxidäquivalent umgerechnet. Auch im Bereich Data Science ist eine Erfassung wichtig, um eine Verbesserung hinsichtlich der nachhaltigen Gestaltung von Künstlicher Intelligenz (KI) zu bewirken.
Unter dem Begriff “Carbon Accounting” wird die systematische Erfassung der Emissionen in einem Kohlenstoffdioxidäquivalent in Unternehmen eingeführt. Dies ist ein komplexes Unterfangen, da verschiedene Daten bezüglich des Messgegenstandes eingepflegt oder gemessen werden müssen. Im Falle von Künstlicher Intelligenz ist besonders die Emissionserzeugung während der Modelllaufzeit und des Trainings von Bedeutung, während die Hardwarebereitstellung oftmals vernachlässigt wird. Die Erfassung stärkt trotzdem das Bewusstsein und ist der erste Schritt für einen positiven Wandel.
In diesem Artikel werden wir Ihnen Maßzahlen und Frameworks vorstellen, um den Fußabdruck Ihrer KI-Anwendungen messen zu können. Zunächst erklären wir Ihnen, welchen Nutzen Sie aus dem Tracking der Emissionen ziehen können.
Die Messbarkeit eines Sachverhalts gewährt einen Einblick auf den aktuellen Status und ermöglicht es, Veränderungen in eine richtige Richtung zu initiieren. Für die Kommunikation an das Management kann ein Reporting aufgebaut werden, das den Wandlungsprozess abbildet. Hier kann nachverfolgt werden, ob der Fußabdruck aller KI-Anwendungen zunimmt oder durch das Einführen von Maßnahmen sogar auf einem Abwärtstrend ist. Die Ursachenforschung zum Ableiten von Maßnahmen wird durch die Erfassung ermöglicht. Welche Modelle haben den höchsten Fußabdruck und warum?
Besonders dann, wenn qualitative Daten über die Carbon Intensity der Energie zur Verfügung stehen, können Zeitpunkte und Orte bestimmt werden, die zu erhöhten Emissionen führen. Der Vergleich von Alternativen kann eine Antwort liefern, welche Option für eine nachhaltige Gestaltung der Künstlichen Intelligenz geeignet sein kann. Beispielsweise können verschiedene Hardwaretypen miteinander verglichen werden. Dabei können in Tools die Parameter für eine Prognose angepasst werden, ohne dass ein wirklicher Wechsel der Hardware oder des Standortes stattfinden muss. Hier kann auch die theoretische Ausführungszeit angepasst werden. So gibt es Untersuchungen, welche zeigen, dass ein aufwendiges Modelltraining im Laufe der Woche einen 5.7-8.5 % höheren Fußabdruck hat als ein Training, welches am Wochenende bei geringerer Serverlast erfolgt. Weitere Maßnahmen finden Sie in unserem Whitepaper zum Thema Green AI.
Viele Einflussfaktoren bestimmen den tatsächlichen Fußabdruck von KI Anwendungen.
Für Unternehmen ist das Einbeziehen aktueller Werte des Energiemixes und der Carbon Intensity zur genaueren Abschätzung des Fußabdrucks sehr komplex. Zum einen liegen die Daten nicht vor oder sind nur schwer zugänglich. Zum anderen ist das Zuordnen zu den Ausführungszeiten von Prozessen aufwendig und muss mit einer eigenen Infrastruktur geplant und umgesetzt werden.
Für den betrieblichen Alltag haben sich deshalb einige Ersatzmetriken etabliert, welche für den ersten Einblick genügen.
Über den gemessenen Energieverbrauch und eine gegebene, durchschnittliche Carbon Intensity kann der Fußabdruck angenähert werden. Das reine Monitoring über Kosten birgt die Gefahr, dass selbst bei konstantem Instanztyp und gleichbleibender Konfiguration ein anbierterseitiger Preisanstieg das System verfälscht.
Tatsächlich ist der Schritt der Erfassung von Emissionen für das aufkommende Themengebiet Green AI so grundlegend, dass es bereits eine Reihe an Emissionsrechnern gibt. Erste Unternehmen binden diese in Self-Service Systemen ein. Business Anwender bekommen beispielsweise bei der Auswahl eines Time Series Forecasting Models ein Bewusstsein über die verursachten Emissionen.
Für Entwickler gibt es grundsätzlich die Option, den Emissionsrechner als Programmbibliothek einzubinden oder auf eine webbasierte Variante zuzugreifen.
Machine Learning Emissions Calculator
Seit 2020 ist aus einer Forschungsarbeit heraus der webbasierte Machine Learning Emissions Calculator entstanden. Hier werden öffentliche Datenquellen genutzt, um stets aktuelle Werte bezüglich des Energieverbrauches der Hardware und des Energiemixes des Standortes zu erhalten. Als erste Hochrechnung ist der Calculator geeignet. Hier können Unterschiede in der Verwendung unterschiedlicher Hardware und Cloud-Locations leicht sichtbar gemacht werden. Eine Berechnung in der eigenen Infrastruktur kann ebenfalls angegeben werden.
Machine Learning CO2 Impact Calculator: Der webbasierte Machine Learning Emissions Calculator benötigt nur wenige Informationen, um eine erste Hochrechnung zu ermöglichen.
CodeCarbon
CodeCarbon ist eine Python Bibliothek, welche den Fußabdruck von Software bestimmt. Hier kann auch die Ausführung auf einem Personal Computer beziffert werden. Das öffentlich verfügbare Package ist einfach anzuwenden und hat als Ausgabe eine CSV Datei mit den aktuellen CO2 Emissionen. Eine API, die den Zeitverlauf der Emissionen trackt, ist aktuell in der Alpha Version verfügbar. Die Emissionen werden auch in gefahrene Kilometer umgerechnet, um eine einfache Kommunikation nach Außen zu ermöglichen. Durch die einfache Integration in einen bestehenden Code ist CodeCarbon zu empfehlen.
from codecarbon import EmissionsTracker tracker = EmissionsTracker() tracker.start() # code to track tracker.stop() |
CarbonTracker
Für die Entwicklung von Deep Learning Modellen mit Jupyter Notebooks ist CarbonTracker eine gute Möglichkeit, über eine Bibliothek den Fußabdruck abzuschätzen. Hier wird der Energieverbrauch über eine gegebene Anzahl an gemessenen Epochen hochgerechnet. Die Ausgabe erfolgt direkt im Output.
CarbonTracker: The following components were found: CPU with device(s) cpu:0. CarbonTracker: Carbon intensity for the next 2:59:06 is predicted to be 107.49 gCO2/kWh at detected location: Copenhagen, Capital Region, DK. CarbonTracker: Predicted consumption for 1000 epoch(s): Time: 2:59:06 Energy: 0.040940 kWh CO2eq: 4.400445 g This is equivalent to: 0.036549 km traveled by car CarbonTracker: Finished monitoring. |
https://github.com/lfwa/carbontracker
EnergyVis
Basierend auf der CarbonTracker Bibliothek kann EnergyVis ein Dashboard zum Live-Tracking der Emissionen bieten. Der Nachteil ist jedoch, dass in der aktuellen Version nur Regionen in den USA eingepflegt sind. In weiteren Iterationen sollen jedoch auch Regionen in Europa hinzugefügt werden. Eine Livedemo kann unter https://poloclub.github.io/EnergyVis/ betrachtet werden.
Die Erfassung des Fußabdruckes von Machine Learning Modellen ist ein wichtiger Grundstein, um ein Bewusstsein für ökologische Nachhaltigkeit im Data Science Bereich zu schaffen. Grundsätzlich können erste Schritte auch ohne Quantifizierung des Einflusses unternommen werden - die Kommunikation des Erfolges wird dadurch aber geschmälert.
Haben Sie weitere Fragen zur nachhaltigen Gestaltung Ihres Data Science Bereiches? Wir beraten Sie gerne zu möglichen Schritten und unterstützen Sie in der Umsetzung. Sprechen Sie uns gerne an.