Thomas Ramge: Raus aus den Silos, rein in die Lakes.
-
Erfüllt Ihre Dateninfrastruktur alle wichtigen technischen und rechtlichen Anforderungen?
Susanne Zach, EY: Im Wesentlichen müssen hier drei Ziele erreicht werden:
- Datenverfügbarkeit: Daten müssen aus den Abteilungssilos herausgeholt und dem gesamten Unternehmen einfach und schnell zur Verfügung gestellt werden. Dies beinhaltet auch den Aufbau entsprechender technischer Infrastruktur, welche performante Auswertungen aktueller Daten etc. ermöglicht.
- Datenqualität: Die Daten müssen in angemessener Qualität vorliegen, sodass auch eine Verwendung abseits des ursprünglichen Zwecks möglich ist.
- Daten Compliance: Die Einhaltung von Datenschutz- und Datensicherheitsanforderungen muss über den ganzen Lebenszyklus von Daten gewährleistet bleiben.
Für Firmen mit geringem Datenaufkommen reichen bewährte Technologien (z.B. SQL, einfache Kenntnisse in R oder Analysetools in Python). Bei großem Datenvolumina muss mit entsprechenden Technologien aufgewartet werden. Hier empfiehlt es sich, einen Data-Engineer mit entsprechenden Kenntnissen zu Rate zu ziehen, der mit Big-Data-Technologien vertraut ist (Stichwort: Hadoop, Apache Kafka, ElasticSearch, etc.)”
Stefan Gindl
Research Studios Austria
Data-Driven Business, Nachhaltigkeit, Leadership, Collaboration, Cyber Security, Kulturwandel sowie die wichtigsten IT-Management Events im DACH-Raum. Abonnieren Sie den Confare NEWSLETTER – Gemeinsam. Besser. Informiert. Wir halten Sie auf dem Laufenden.
-
Wie wähle ich für meine Initiativen die richtigen Tools aus?
Ingrid Kriegl
Sphinx IT Consulting
Aus technischer Sicht gibt keine Showstopper mehr. Moderne Analytics Tools bieten alles, was man braucht. Man sollte bei der Auswahl nur darauf achten, dass sie “durchfeuern”, also keine eigenen “Cubes” aufbauen. Nur wenn das Tool direkt auf die Daten zugreift, kann es die Power der Datenbank nutzen, für die man ja viel Geld gezahlt hat. Wenn herkömmliche Datenbanken die Last von hohen Analytics-Anforderungen nicht bewältigen – oder der entsprechende Ausbau zu teuer wäre – gibt es inzwischen eine gute Auswahl an leistungsfähigen und leistbaren MPP Systemen, die man daneben stellen kann. Darunter Technologien wie z.B. Exasol, die von der gratis Community Edition bis zu Cluster-Installationen von mehreren 1000 Knoten skalieren. Da ist für jeden Geldbeutel und jede Anforderung etwas dabei. Die Stärke von Hadoop Systemen sehe ich in der Verarbeitung großer Mengen von unstrukturierten Daten. Für strukturierte und semi-strukturierte Daten sind sie meines Erachtens im Regelfall nicht die erste Wahl.”
Was sich durch enorme Fortschritte in der Technologie massiv geändert hat sind Aufwände und Komfort:
-
- wo früher der Aufbau eines DWH ein paar Jahre gedauert hat dauert es jetzt ein paar Wochen oder Monate
- wo früher aufwändig modelliert werden musste fügt man heute neue Datenquellen “as is” hinzu
- wo früher Business Layer materialisiert werden mussten werden sie heute weitgehend virtuell (als Views) angelegt
- wo früher adhoc Analysen einigen wenigen Anwendern vorbehalten waren (wenn überhaupt) kann heute jeder über ein Dashboard nach Belieben mit seinen Daten arbeiten
- wo sich früher der Anwender mit vor-aggregierten Daten begnügen musste drillt man heute selbstverständlich bis zum Einzelsatz hinunter
- wo früher für eine zufriedenstellende Performance laufend getuned werden musste, sind gute DWH Systeme heute fast wartungsfrei und trotzdem hoch performant
Der Fachbereich ist erstmalig wirklich Herr über seine Daten – so wie es sein soll.
-
Wie gut ist Ihre IT bei Automatisierung, DevOps oder gar NoOps?
Aktuell betrachte ich das Konzept von „NoOps“ als einer der wichtigsten Voraussetzungen für datenrelevante Entwicklungen. NoOps (No Operations) ist ein Konzept, wonach die IT soweit automatisiert und von der zugrunde liegenden Infrastruktur abstrahiert wird, sodass kein spezielles Team mehr für Produktionspflege & Instandhaltung von Datenmodellen benötigt wird. Somit verschwindet einmal mehr die Barriere zwischen IT & Business in Sachen Datenverarbeitung. Wenn man solche Herangehensweisen obendrauf mit Governance & Rollen verbindet, fallen weiter mittel- oder langfristige Show Stopper aus der Liste.
Grundsätzlich bin ich der Ansicht: „Im Zweifelsfall lieber DevOps als irgendetwas“. Das heißt Organisationen wären besser dran, wenn sie im ersten Schritt DevOps implementiert haben als ein Mischmasch und Unübersichtlichkeit zwischen Research/Development & Operation. Ohne DevOps oder NoOps mag es im klassischen Softwareumfeld bei kleineren Unternehmen vielleicht noch irgendwie funktionieren aber im hochprofessionellen Umfeld sind sie unumgänglich für die Datenverarbeitung geworden.”
Alin Kalam
Lufthansa Group / Austrian Airlines
-
Cloud oder On-Premise?
Stefan Zierlinger
VERBUND
Im Bereich Cloud lautet das Stichwort “dynamisches Compute” (Modellentwicklung und -ausführung). Bei den On-Premises braucht es hingegen “definiertes Compute” und Ad-hoc-Analysen. Zudem müssen ein günstiger Datenspeicher bzw. ein Archiv gefunden werden. Metadaten-Tools, sowie ein pragmatischer Ansatz für Data Governance sind ebenfalls erforderlich.”
Dateninfrastrukturen müssen skalieren können- dies sowohl technisch, als auch vor allem organisatorisch. Wenn man Green Field vorfindet, beginnt man mit BI Plattformen und Data Science Werkzeugen lokal und setzt dann am besten auf einer einfachen Big Data Umgebung auf. Später entwickelt man den Bereich Analytics in einem Enterprise Datawarehouse bei hoher Business Verfügbarkeit weiter.
Die Lösungen müssen zumindest in der Industrie Hybrid-Lösungen sein, damit ein operativer Betrieb, insbesondere bei kritischer Infrastruktur, auch in Notsituationen on premise möglich ist.”
Martin Dusek-Lippach
Wiener Linien
-
Schnittstellen und Formate – Ist Ihre Dateninfrastruktur in Daten-Ecosystemen und Datamarkets handlungsfähig?
Stefan Gindl
Research Studios Austria
Datamarkets helfen Unternehmen dabei, ihre eigenen unternehmensinternen Daten mit externen Daten zu vernetzen, die sie in Datamarkets einkaufen. Hier sind dann wieder Konzepte wie Datenschutz, Anonymisierung von Daten, etc. wichtig.”
Da sich ihr wahrer Wert gemäß den Regeln der Wissensökonomie nur durch Vernetzung und Verbindung realisieren lässt, tut man sich in isolierten, abgeschotteten Infrastrukturen schwer Aspekte wie Data Sharing, Data Souveränität und Analytics sinnvoll umzusetzen. Es benötigt eine föderierte Infrastruktur wie es mit GAIA X beispielsweise erste Schritte in Europa gibt.”
Günther Tschabuschnig
ZAMG/DIO
Confare Digital CIO ThinkTank:
Auf dem Weg zum Data Driven Business: Technologie, Infrastruktur, Organisation
28. Oktober 2020 | 13.30 – 15 Uhr JETZT ANMELDEN:
GPT-3 – Bahnbrechende Entwicklungen im Bereich Sprachmodelle und AI
GPT-3 – hinter diesem recht sperrigen Namen steckt die neueste Errungenschaft der Firma OpenAI. Es handelt sich dabei um ein auf neuronalen Netzen basierendes Sprachmodell. Dieses Sprachmodell kann unterschiedliche Aufgaben im Zusammenhang mit gesprochener Sprache bewältigen, die uns Menschen von Kindesbeinen an leichtfallen, bis vor Kurzem aber für Computer unmöglich schienen. Es ist in der Lage, mit nur einer geringen Menge an vorgegebenem Text eigenständig eine Geschichte darüber zu verfassen. Wer es nicht glaubt kann sich davon leicht selbst überzeugen. Ein Beispiel dafür ist die berühmte Unicorn-Story von GPT-2, dem Vorgängermodell. Man kann mit dem Modell auch interagieren und selbst Geschichten verfassen lassen. Waren die Ergebnisse von GPT-2 schon beeindruckend, so scheint GPT-3 aber noch einmal um eine Größenordnung beeindruckender zu sein. Es wurde mit riesigen Mengen von Textdaten angelernt und kann jetzt Texte schreiben, Witze erzählen und spricht unterschiedliche Sprachen. Ausserdem hat es, zumindest in Grundzügen, programmieren gelernt. Im Moment ist es nur für einen kleinen Kreis von Entwicklern zugänglich. OpenAI plant aber, das Modell über eine eigene Schnittstelle zur Verfügung zu stellen. Ab dann kann man sich selbst ein Bild von den Fähigkeiten von GPT-3 machen. Wenn die Entwicklung der Sprachmodelle weiterhin so anhält, darf man gespannt sein, mit welchen Fähigkeiten uns die Nachfolgerversionen (GPT-4?) überraschen werden.
Autor: Stefan Gindl