Es ist nicht leicht, ein klar umrissenes Jobprofil des Data Scientist zu beschreiben, zumal der Aufgabenbereich sehr vielfältig ist. Bei Mapegy beschäftigten wir uns mit der Analyse und Visualisierung von Technologiedaten.
Für mich steht am Anfang der Arbeit meist das Data Cleaning. Tauchen in unseren Daten zum Beispiel Einträge zu „Volkswagen“, „Volkswagen AG“, „Volkswagen Deutschland“ und so weiter auf, müssen wir dem Computer beibringen, dass es sich um dasselbe Unternehmen handelt. Diese „Aufräumarbeiten“ sind eine wichtige Grundlage unserer Arbeit. Ein weiteres hochinteressantes Feld wird als Machine Learning bezeichnet. So arbeite ich derzeit daran, dem Computer das Lesen beizubringen. Letztendlich soll die Maschine selbst entscheiden können, ob das Thema eines Textes etwa dem Bereich Elektrotechnik oder dem der Chemie zuzuordnen ist.
Bei Mapegy wird nun insbesondere auf Visualisierungen großer Wert gelegt. Neben den beschriebenen Arbeiten stellt sich nämlich immer die Frage, wie ich als Data Scientist meine Ergebnisse nützlich darstelle. Gerade bei Big Data sind die Daten oft so komplex, dass sie mit einer einfachen Excel-Tabelle nicht mehr durchschaut werden können. Erst mit der richtigen Visualisierung kann ich Zusammenhänge und Strukturen entdecken.
Wir nutzen hierzu unter anderem Informationslandkarten. Diese Landkarten sehen zwar aus wie Karten eines zerklüfteten Südsee-Archipels, es handelt sich dennoch um keine geographische Abbildung. Die Karten dienen vielmehr dazu, die Patentlandschaft in einem bestimmten Technologiefeld zu visualisieren. Thematisch ähnliche Patente ballen sich zusammen und bilden eine Insel oder einen Berg. Besteht wenig Ähnlichkeit zwischen Patenten, stoßen sie sich so weit ab, dass zwischen den Landmassen „Meere“ entstehen. Im Gegensatz zu endlosen Zahlenkolonnen kann ich hier also sofort erkennen, in welchem Technologiebereich gerade besonders intensiv geforscht wird.
Als Data Scientist baue ich ein Fenster, mit dem ich in die Daten schauen kann.