Data Scientist Stefan Gindl über datengetriebenes Business

Was die Erfolgsvoraussetzungen für die Arbeit des Data Scientist sind
Welche offensichtlichen und weniger offensichtlichen Datenschutzrisiken bei Big Data und Data Science bestehen
Was KI wirklich leistet und was den Wert von Datenschätzen im Unternehmen wirklich ausmacht

Kameras, Sensoren, Social Networks, Smartphones – das moderne Unternehmen und jede Person produzieren eine gigantische Anzahl an Daten. Internetkonzerne wie Google und Facebook zeigen vor, wie sich aus diesem Datenschatz Umsatz machen lässt. Dr. Stefan Gindl ist einer jener aktuell besonders gefragten Menschen, die sich als Data Scientist und Data Engineer damit befassen, dass Österreichs Wirtschaft im Bereich data-driven Business wettbewerbsfähig bleibt. Er tut dies einerseits im Rahmen der Research Studios Austria und andererseits als Lehrender auf der Modul Universität in Wien.

Dr. Gindl, Data is the new oil, sagen die Analysten von Gartner. Aber welches sind die wirklich wertvollen Datenschätze des Unternehmens? Wieviel davon wird bereits gut genützt? Welche Potenziale gilt es noch zu heben?

Stefan Gindl: Die Frage nach den wirklich wertvollen Daten eines Unternehmens kann man nicht pauschal beantworten. Das hängt stark vom Betätigungsfeld des jeweiligen Unternehmens ab. Während ein Unternehmen die Daten aus den eigenen Sensoren des Maschinenparks gut verwerten kann, sind für ein anderes Unternehmen Daten aus den sozialen Medien relevanter. Generell kann aber gesagt werden, dass Daten von einer engen Vernetzung miteinander profitieren. Analysen und Vorhersagen, die aus einem Datensatz entsteht gewinnen oft an Relevanz, wenn sie mit anderen Daten (unternehmensintern oder extern) kombiniert werden.

Was waren bisher die Show Stopper dabei, die Möglichkeiten für Big Data und Analytics auszuschöpfen?

Hier sehe ich das fehlende Wissen um Anwendungen und Use-Cases als ein Problem. Weiters fehlt es oft auch an der nötigen Datenqualität, Daten werden nicht systematisch genug und in ausreichender Menge gesammelt. Dazu kommt noch die Überschätzung der Leistungsfähigkeit von KI und maschinellem Lernen. Es herrscht der Glaube, man braucht die KI nur anzuwerfen, und dann sprudeln die Erkenntnisse. Leider ist das nicht so, es bedarf systematischer Datenqualitätskontrollen und oft auch einer Nacherfassung, wenn bestimmte Daten fehlen.

Wie ist dabei die Rolle der Data Scientists? Was sind die Voraussetzungen für ihre Arbeit?

Die Data Scientists mit ihrer Spezialisierung auf den analytischen und vorhersagenden Teil der Datenverarbeitungspipeline kümmern sich um die Erstellung deskriptiver, prediktiver, und vermehrt auch preskriptiver Modelle. Sie wenden Methoden aus der Statistik, des Software-Engineerung und dem maschinellen Lernen an, um Daten zu beschreiben, Vorhersagen zu machen, oder Entscheidungen vorzuschlagen. Hierbei ist die Datenqualität aber auch die Datenquantität von entscheidender Bedeutung. Unterstützt werden die Data Scientist beispielsweise von Data Engineers, die sich hauptsächlich mit der hochverfügbaren und sicheren Bereitstellung von Daten befassen.

Welche Anforderungen ergeben sich an die Daten-Infrastruktur?

Für Firmen mit geringem Datenaufkommen reichen bewährte Technologien (z.B. SQL, einfache Kenntnisse in R oder Analysetools in Python). Bei großem Datenvolumina muss mit entsprechenden Technologien aufgewartet werden. Hier empfiehlt es sich, einen Data-Engineer mit entsprechenden Kenntnissen zu Rate zu ziehen, der mit Big-Data-Technologien vertraut ist (Stichwort: Hadoop, Apache Kafka, ElasticSearch, etc.)

Wenn Daten geschäftlich an Bedeutung gewinnen, was bedeutet das für die Sicherheitsanforderungen? Wo gibt es hier Handlungsfelder?

Sicherheitsbedenken sind gleichermaßen förderlich, als auch ein Hemmschuh. Zu restriktive Sicherheitsbedenken führen dazu, dass Firmen Chancen ungenutzt verstreichen lassen. Jedoch muss die Privatsphäre des Individuums geschützt werden. Ein offensichtliches Risiko sind persönliche Daten, wie sie beispielsweise im Rahmen des Anlegens eines Accounts auf einer Online-Plattform angegeben werden. Dazu gehören Name, Alter, Geschlecht, E-Mail-Adresse, etc. Ein weniger offensichtliches Risiko entstammt dem Bereich der industriellen Produktion. Das Bedienungsverhalten einer Person an einer Maschine kann Rückschlüsse auf diese Person zulassen, z.B. deren Produktivität. Diese Daten lassen ein Profiling ad personam und Benchmarking unter Mitarbeitern zu. Anonymisierungsmethoden werden auch diesem Sachverhalt Rechnung tragen müssen.

Hier geht´s zur Data Science Blogreihe

Confare Digital CIO ThinkTank Cyber Security – Worin investieren CIOs jetzt?

Abonnieren Sie den Confare YouTube-Channel

Data Driven Business Data Engineer Data Scientist data-driven Daten Datengetrieben Digitalisierung Künstliche Intelligenz Stefan Gindl

Man darf die Fähigkeiten von AI nicht überschätzen! Die Erfolgsvoraussetzungen für datengetriebenes Business

Dr. Gindl, Data is the new oil, sagen die Analysten von Gartner. Aber welches sind die wirklich wertvollen Datenschätze des Unternehmens? Wieviel davon wird bereits gut genützt? Welche Potenziale gilt es noch zu heben?

Was waren bisher die Show Stopper dabei, die Möglichkeiten für Big Data und Analytics auszuschöpfen?

Wie ist dabei die Rolle der Data Scientists? Was sind die Voraussetzungen für ihre Arbeit?

Welche Anforderungen ergeben sich an die Daten-Infrastruktur?

Wenn Daten geschäftlich an Bedeutung gewinnen, was bedeutet das für die Sicherheitsanforderungen? Wo gibt es hier Handlungsfelder?

Confare Digital CIO ThinkTank Cyber Security – Worin investieren CIOs jetzt?

Abonnieren Sie den Confare YouTube-Channel

Wie CDOs Business, IT und Data Science die Digitale Zukunft der Wiener Linien gestalten

Prescriptive Analytics bei Verbund – Tools, Infrastruktur und Sicherheit auf dem Weg zum Data driven Business

Für Sie ausgewählt

Leave a Comment Cancel Reply