Green Data – Jetzt im #Confare Blog mehr über was es für eine nachhaltige Datenwirtschaft noch braucht
Seit vielen Jahren hat sich Confare dem Aufbau eines DACH-weiten CIO Ecosystems gewidmet und dem Erfahrungsaustausch, dem Networking, der Inspiration über Unternehmensgrenzen hinweg. Denn in einer Digitalen Welt ist niemand alleine erfolgreich. Auf dem Weg ins Data Driven Business gilt das genauso.
Die wertvollsten, erfolgreichsten und profitabelsten Unternehmen unserer Zeit sind jene, die davon angetrieben sind, aus Daten Wert zu schaffen. Der Confare #DataDrive 2022 liefert Ihnen Erfahrungsberichte aus erfolgreichen Unternehmen.
Nachhaltige Datenwirtschaft
Daten sind ein Rohstoff unserer Zeit. Rohstoffe werden üblicherweise abgebaut und in unveränderter Form direkt verwendet, oder prozessiert und in verarbeiteter Form konsumiert. Dasselbe passiert auch mit Daten. Daten werden erzeugt bzw. erhoben. Die aus Daten gewonnenen Informationen können direkt weiterverwendet werden, oder die Daten werden prozessiert, um die gewünschte Information zu erhalten. Diese Prozesse für den Abbau, die Prozessierung und Weiterverarbeitung von Rohstoffen sind in vielen Fällen ressourcenintensiv – dasselbe gilt auch für die Verarbeitung von Daten.
Nachhaltigkeit ist auch auf Datenebene wichtig. Im Bereich Datenwirtschaft liegt das Hauptaugenmerk der Initiativen derzeit auf der gemeinsamen Nutzung von Daten und die Schaffung der dazu benötigten Infrastrukturen (z.B. GAIA-X, European Open Science Cloud). Die Qualität rückt außerdem immer mehr in den Vordergrund. Hier liegt der Fokus aber primär auf der Qualität der Datensätze (Vollständigkeit, Konsistenz, Aktualität und Konformität) bzw. der Dokumentation (z.B. ISO 9000, ISO 25000, ISO 19158, ISO 19157, ISO 25010, ISO 8000(-61)). In manchen Fällen wird die Eignung in einem bestimmten Anwendungsfall betrachtet.
Derzeit gibt es jedoch noch keine Zertifikate oder Standards für Daten, welche nachhaltig erhoben, prozessiert und wiederverwendet wurden. Blauer Engel entwickelte einen ersten Ansatz für Ressourcen- und energieeffiziente Softwareprodukte. Durch die steigende Verwendung von Daten und die Entwicklung von zahlreichen datengetriebenen Unternehmen ist es unerlässlich die Nachhaltigkeitsaspekte zu berücksichtigen. Dazu gehören Fragestellungen wie
- Woher kommen die Daten mit denen wir arbeiten?
- Wie klimaschädlich oder klimafreundlich wurden diese Daten erhoben?
- Ist die Sensorik für die Datenerhebung aus umweltverträglichen Materialien?
- Welchen Einfluss hat Speicherung oder Prozessierung der Daten auf das Klima?
- Welche Prozesse sollen nachhaltiger gestaltet werden?
Nachhaltigkeitsaspekte rund um den Datenlebenszyklus
Daten durchlaufen einen Lebenszyklus wie auch andere Rohstoffe. Konkret werden die Daten generiert/erhoben, prozessiert, analysiert, aufbewahrt und schlussendlich (nach-)genutzt oder vernichtet. In all den Phasen dieses Datenlebenszyklus wird mit Ressourcen-verbrauchenden Technologien und Infrastrukturen gearbeitet, um die Daten zu erheben, verändern oder zu verarbeiten. Schätzungen zufolge verbrauchen Rechenzentren über 200 Terawattstunden (TWh) pro Jahr; das ist mehr als der gesamte Energieverbrauch einiger Länder. Zusätzlich gibt es durch Kryptowährungen weiteren enormen Energieverbrauch; deren Leistung beläuft sich auf über 50 Gigawatt pro Tag, was der benötigten Leistung eines Jahres in Polen entspricht. Die Prognose des zukünftigen Energiebedarfs von datenverarbeitenden Systemen stammt von Anders Andrae (Huawei Technologies Schweden); er prognostiziert, dass sich der Stromverbrauch von Rechenzentren bis 2030 voraussichtlich auf 8 % des prognostizierten weltweiten Bedarfs erhöhen wird. Im Folgenden werden diese Ressourcen-nutzenden Aspekte in den jeweiligen Phasen entlang des Datenlebenszyklus erläutert, sowie relevante Fragestellungen zur Bewertung der Nachhaltigkeit der Daten definiert.
Datengenerierung bzw. -erhebung
Daten werden zunächst generiert oder erhoben. Das kann auf verschiedenste Arten erfolgen: durch Messinstrumente, Sensorik, aber auch durch die manuelle Erhebung (z.B. manueller Eintrag in Datenbank, Transkription von Interviews). Hier kann vor allem die Verwendung von nicht ressourceneffizienten Sensoren eine tragende Rolle für die Umwelt spielen. Es gibt bereits viele Ansätze um umweltfreundlichere Sensoren zu entwickeln wie beispielsweise aus naturfaserverstärkten Biopolymeren.
Der Großteil der generierten Daten stammt aus drei Hauptquellen: Daten von sozialen Medien, Maschinendaten (inkl. 5G) und Transaktionsdaten. Daten von sozialen Medien werden produziert durch die Erstellung von Likes, Tweets & Retweets, Kommentaren, Video-Uploads und allgemeinen Medien, die hochgeladen werden. Diese Art von Daten bietet unschätzbare Einblicke in das Verhalten von Kund*innen und sind essentiell für Marketinganalysen. Maschinendaten sind Informationen, die von Industrieanlagen und unterschiedlichsten Arten von Sensoren (z.B. Druck- oder Schallsensoren, Medizingeräte, Satelliten). Es wird erwartet, dass diese Art von Daten exponentiell anwächst, da das Internet der Dinge (zu Englisch: Internet of Things (IoT)) immer allgegenwärtiger wird. Darüber hinaus wird das globale Datenwachstum in naher Zukunft weiter angekurbelt, da viele Länder den Ausbau von 5G-Netzen vorantreiben. So hat beispielsweise China Anfang November 2019 ein umfangreiches 5G-Netz für seine Telekommunikationsbetreiber*innen eingerichtet.
Transaktionsdaten werden aus allen täglichen Transaktionen generiert, die sowohl online als auch offline stattfinden. Rechnungen, Zahlungsaufträge, Lageraufzeichnungen, Lieferscheine – alle werden als Transaktionsdaten bezeichnet. Auch bei der Erhebung bzw. Generierung von Daten können irrelevante Daten entfernt werden.
Relevante Fragestellungen
- Wie werden die Daten erzeugt?
- Werden im Falle von Messdaten energieeffiziente Sensoren verwendet?
- Welche Speicherressourcen werden für die Daten verwendet?
- Wie werden irrelevante Daten bei der Erhebung bzw. Generierung von Daten behandelt?
Datenprozessierung
Die Datenprozessierung ist jener Schritt, bei dem die Daten bereinigt und für Analysen vorbereitet werden oder auch Umsetzung von Rohdaten in höherwertige Datenprodukte. Hier kann vor allem Datenbereinigung die Menge der gespeicherten Daten reduzieren, durch die Entfernung von unnötigen Replikaten (z.B. durch Deduplikationssoftware). Zusätzlich kann die Verwendung von Speicher- und Rechenressourcen mit erneuerbaren Energien den ökologischen Fußabdruck um ein Vielfaches verbessern.
Relevante Fragestellungen
- Werden unnötige Datenmengen durch Datenbereinigungsprozesse entfernt?
- Welche Speicher- und Rechnertechnologien werden für die Verarbeitung und Prozessierung verwendet?
- Wird in allen verfügbaren Bereichen auf Energieeffizienz geachtet (inkl. Abwärmenutzung)?
- Welchen Einfluss auf das Klima haben diese Technologien?
Datenanalyse
Bei der Datenanalyse werden Informationen aus vorhandenen Daten gewonnen. Hier greift man oft auf anspruchsvolle Auswerteroutinen zurück. Hierbei hilft die Nutzung von hybriden Modellen den Energiebedarf zu minimieren durch die reduzierte Zahl der benötigten Simulationen. In Zukunft können neue Ansätze wie Quantencomputer auch zu einer starken Reduktion von Rechenzeiten und somit Energieersparnis führen. Zusätzlich kann Förderung von Open-Source Projekten, also eine vereinfachte, gemeinsame Optimierung von Algorithmen, zu erhöhter Energieeffizienz führen.
Relevante Fragestellungen
- Welche Speicher- und Rechenressourcen werden für die Analysen verwendet?
- In welchen Fällen wird auf Virtualisierung und Cloud Computing zurückgegriffen?
- Mit welcher Energieform wird die Cloud angetrieben (Erneuerbare)?
- Welche Algorithmen werden für die Analysen verwendet?
Datenaufbewahrung
Nachdem die Daten analysiert wurden und somit Information generiert wurde, werden die Daten aufbewahrt. In vielen Fällen werden dazu interne Speicherressourcen verwendet, oder auch Cloud Ressourcen. Hier empfiehlt sich eine Berechnung, welche Form der Speicherung höhere Energieeffizienz aufweist.
Relevante Fragestellungen
- Welche Speicherressourcen werden für die Aufbewahrung der Daten verwendet?
- In welchen Fällen wird auf Virtualisierung und Cloud-Speicherressourcen zurückgegriffen?
- In welchen Fällen wird auf föderierte Infrastruktur zurückgegriffen?
Daten (Nach-)Nutzung und Datenvernichtung
In der letzten Phase des Datenlebenszyklus endet jedoch nicht die Nutzbarkeit der Daten. Im Optimalfall werden die Daten für neue Fragestellungen nachhaltig genutzt. In einigen Unternehmen gibt es jedoch große Datenmengen, die auf Speicherressourcen verbleiben und nicht mehr genutzt werden. In vielen Fällen ist das die günstigere Variante, da die Bewertung der Nutzbarkeit der Daten ein neuer Prozess ist, der spezielle Humane Ressourcen erfordert.
Relevante Fragestellungen
- Welche Sichtbarkeit haben die Daten, um mögliche Nachnutzung zu maximieren?
- Welche Prozesse gibt es zur effizienten Daten (Nach-)nutzung?
- Welche Prozesse zur Vernichtung von Daten werden angewandt?
Weitere Nachhaltigkeitsaspekte für Daten
Zusätzlich zu den Aspekten um den Datenlebenszyklus können weitere Ansätze zur Entwicklung zu Green Data helfen.
Die Nutzung von energieeffizientem Equipment (z.B. Serverdimensionierung, Blade Server, Passiv statt Aktivkühler, Thermal Design Power CPUs, OLED Displays, SSD statt HDD), langjährige Nutzungsdauer, ökologische Bilanz in der Herstellung sowie das Recycling von IT Equipment ist ein weiterer umweltschonender Ansatz.
Es werden jährlich Milliarden von elektronischen Geräten produziert, verkauft und wieder entsorgt. Das bringt einen großen Profit für die Elektronikhersteller*innen, geht jedoch auch einher mit einer großen Belastung für unseren Planeten. Hier sollte vor allem an die Nutzung von erneuerbaren Rohstoffen gesetzt werden. Wichtig sind außerdem Herkunft der Rohstoffe – seltene Erden, Lithium, Gold, Kupfer usw. – sowie der Verzicht auf den Einsatz umweltgefährlicher Chemikalien wie PVC oder bromierte Kohlenwasserstoffe. Außerdem hat die geplante Obsoleszenz von Produkten einen großen Einfluss auf die Umwelt
Im Bereich Humanressourcen kann die Reduktion von Dienstreisen durch effiziente online Kollaborationsmöglichkeiten auf Datenebene einen Beitrag zur Ressourcenschonung leisten. Zusätzlich ermöglichen mobile Arbeitsplätze sowie z.B. auch solarbetriebene Kleinanlagen am Rucksack und Schulungen zum Thema Energieeffizienz Abhilfe und erhöhen das Bewusstsein für grüne Daten.
Zusätzlich können die Daten auch für einen nachhaltigen Anwendungszweck erhoben werden (z.B. Datengetriebene Optimierung von Abfallverwertungsprozessen, Datengetriebene Optimierung von Energienutzung).
Was es braucht um Green Data voranzubringen
Jetzt gilt es für diese Aspekte Metriken zu definieren, um eine Messbarkeit zu ermöglichen. Diese Metriken können dann eine Messgrundlage für eine Standardisierung bieten. Dies ermöglicht in Zukunft ein Gütesiegel für Grüne Daten auszustellen. Gütesiegel helfen Verbraucher*innen bei der Bewertung von Produkten. Produkte aus ökologischem Anbau werden mit einem BIO-Siegel gekennzeichnet, Lebensmittel, die unter bestimmten sozialen und ökologischen Kriterien produziert wurden, werden mit dem Fairtrade Siegel markiert. Ein solches Gütesiegel wäre auch im Bereich Datenwirtschaft denkbar. Mit dem Selbstbewertungsfragebogen im Annex (Tabelle 1) möchten wir dazu beitragen dieses Ziel in Zukunft erreichen zu können. Dieser Fragebogen behandelt jene Aspekte, die für grüne Daten relevant sind, und ermöglicht Unternehmen und Institutionen sich mit den Aspekten im Detail auseinanderzusetzen. Das soll ein erster Schritt in die Richtung grüne Datenwirtschaft in Österreich sein.
Um diese Prozesse auch nachhaltig in Unternehmen zu integrieren sollten diese Metriken in unternehmensinternen Systemen integriert werden und mit Recommender Systemen Empfehlungen für die Ökologisierung der Daten gegeben werden.
Autor*innen
Dr. Sarah Stryeck – Senior Researcher (Know-Center GmbH), PostDoc (Technische Universität Graz), Data Steward (DIO). Sarah koordiniert das Projekt Innovative Data Environments @ Styria, leitet im Projekt EuroCC die Task Competence Mapping für HPC, Big Data und AI und befasst sich mit den Themen Datenplattformen und Vertrauenswürdige KI.
Dr. Claire Jean-Quartier – PostDoc & Data Steward (Technische Universität Graz). Claire ist Forschungsassistentin an der TU Graz und bringt Erfahrung aus Qualitätsmanagement, Bioinformatik und Grundlagenforschung mit, die alle Schritte des Datenzyklus einbezieht.
DI Mag. Günther Tschabuschnig – Präsident (DIO) – Günther leitet die Data Intelligence Offensive und legt seinen Fokus auf Data Intelligence, Data Driven Buisness development und nachhaltige Datenverarbeitung.
Kontakt für Rückfragen:
DIO – Verein für Dataintelligence
Thurngasse 8 1090 Wien
Günther Tschabuschnig – guenther.tschabuschnig@dataintelligence.at