Data scientist a data engineer

Marcin Sarna, 18.01.2021 r.

Tych drugich potrzeba więcej.

Dane

Są wszędzie, a my dostajemy ich do przetworzenia tylko więcej. Przez ostatnie 5-10 lat nauka o danych przyciągała nowicjuszy, próbujących zasmakować pracy w szerzej rozumianym IT. Ale jak obecnie wygląda rekrutacja w tych specjalnościach?

W skrócie rzecz ujmując w firmach jest o 70% więcej otwartych miejsc pracy w inżynierii danych w porównaniu z nauką o danych. Szkoląc kolejne pokolenie praktyków zajmujących się danymi i uczeniem maszynowym, pracodawcy kładą większy nacisk na umiejętności inżynierskie. A więc data engineer > data scientist.

Za co odpowiadają osoby zajmujące się przetwarzaniem danych?

Oto cztery role, związane z przetwarzaniem danych:

Naukowiec danych (data scientist) - wykorzystuje różne techniki statystyki i uczenia maszynowego do przetwarzania i analizowania danych. Często odpowiedzialny za budowanie modeli w celu zbadania tego, czego można się nauczyć z jakiegoś źródła danych, choć często na poziomie prototypu, a nie produkcji.
Inżynier danych (data engineer) - opracowuje solidny i skalowalny zestaw narzędzi / platform do przetwarzania danych. Musi znać się na zarządzaniu bazami danych SQL / NoSQL oraz tworzeniu i utrzymywaniu potoków ETL.
Inżynier uczenia maszynowego ( machine learning engineer, ML) - często odpowiedzialny zarówno za szkolenia modeli, jak i ich wdrożenie produkcyjne. Ta praca wymaga znajomości niektórych platform ML wysokiego poziomu, a także trzeba czuć się komfortowo w tworzeniu skalowalnych potoków szkoleniowych, wnioskowania i wdrażania dla modeli.
Naukowiec zajmujący się uczeniem maszynowym (machine learning scientist, ML) - pracuje nad najbardziej nowatorskimi badaniami. Zwykle jest odpowiedzialny za odkrywanie nowych pomysłów, takich które można publikować na konferencjach naukowych. Często zajmuje się tworzeniem prototypów nowych modeli przed przekazaniem ich inżynierom ML do produkcji.

Dobre perspektywy dla inżynierów danych

Na inżynierów danych istnieje coraz większe zapotrzebowanie. Jest to widoczne zwłaszcza w porównaniu do innych zawodów związanych z przetwarzaniem danych. Kiedy uczenie maszynowe stało się popularne 5-8 lat temu, firmy zauważyły, że potrzebują ludzi, którzy potrafią klasyfikować dane. Ale potem frameworki takie jak Tensorflow i PyTorch stały się naprawdę dobre, niejako demokratyzując możliwość rozpoczęcia pracy z deep learningiem i uczeniem maszynowym.

To uczyniło zestaw umiejętności modelowania danych cennym towarem na rynku pracy.

Wszystko to sprowadza się do posiadania dobrych umiejętności inżynierskich

Może się to wydawać nudne ale inżynieria oprogramowania ze starej szkoły z nastawieniem na dane może być tym, czego rynek potrzebuje w tej chwili. Ale czy solidna inżynieria to coś, na co jest kładziony wystarczający nacisk w szkoleniach z zakresu nauki o danych lub programach edukacyjnych?

Konkurencja będzie trudniejsza. Ale też zawsze będzie potrzeba ludzi, którzy potrafią skutecznie analizować i wydobywać z danych przydatne informacje. Ale muszą to być dobrzy fachowcy, z konkretnymi podwalinami teoretycznymi. Pobranie wstępnie wytrenowanego modelu ze strony Tensorflow w zestawie danych Iris prawdopodobnie już nie wystarczy, aby uzyskać zlecenie w dziedzinie nauki o danych.

Sprawdź oferty pracy na TeamQuest

Przy dużej liczbie ofert pracy inżynierów ML firmy często oczekują osoby zajmującej się danymi hybrydowymi: osoby, która może tworzyć i wdrażać modele. Lub mówiąc bardziej zwięźle, kogoś kto może korzystać z Tensorflow ale może również zbudować go ze źródła.

Badania nad uczeniem maszynowym zwykle cieszą się sporym zainteresowaniem, ponieważ tam właśnie mają obecnie miejsce wszystkie nowatorskie rozwiązania, wszystkie AlphaGo, GPT-3 i inne. Jednak dla wielu firm, zwłaszcza tych na wczesnym etapie rozwoju, najnowocześniejsze rozwiązania mogą nie być już tym, czego potrzeba. Nie oznacza to, że nie ma ważnego miejsca dla badań nad uczeniem maszynowym. Absolutnie nie. Ale prawdopodobnie znajdziesz więcej takich ról w branżowych laboratoriach badawczych, które mogą sobie pozwolić na podejmowanie kapitałochłonnych nakładów przez długi czas, a nie w przeciętnym startupie.

Poprzedni artykuł Jak zacząć z Pythonem

Następny artykuł Node.js 15.0.0