Data Science i Big Data Analytics: branża, w której brakuje ekspertów

W Polsce rośnie zainteresowanie Data Science. Na rynku brakuje ekspertów rozumiejących dane i potrafiących wyciągać z nich wiedzę.

O polskim rynku Data Science, problemach z jakimi się boryka i wyzwaniach, jakie przed nim stoją rozmawiamy z Łukaszem Gralą, Microsoft MVP w kategorii Data Platform, architektem i ekspertem TIDK - Data Scientist as a Service, trenerem Hexcode, autorem szkoleń i warsztatów, wykładowcą akademickim specjalizującym się w tematyce baz danych, hurtowni danych, eksploracji danych i uczenia maszynowego.


Zacznijmy od początku. Dlaczego takie hasła jak Data Science czy Big Data Anlytics, nie mówiąc już o IoT (Internet of Things) wywołują takie zainteresowanie środowiska biznesu i całej branży IT?

Ze wszystkich stron otaczają nas obecnie rozwiązania zbierające dane. W marketach i na stacjach paliwowych korzystamy z kart lojalnościowych, płacimy kartą, robimy zakupy przez Internet (czyli nie jesteśmy anonimowi), oglądamy filmy w serwisach VOD, słuchamy muzyki online, dzielimy się wszystkim z ludźmi poprzez sieci społecznościowe typu Facebook, Instagram, LinkedIn, gdzie umieszczamy wiele treści, zdjęć, czy też filmów wideo. Czytamy elektroniczną prasę i książki. Do tego dochodzą inteligentne rozwiązania klasy IoT, które nie działają przecież w oderwaniu od sieci. Poza tym wszędzie jesteśmy z naszymi smartfonami, smart-zegarkami, opaskami fitness, które są swoistą kopalnią informacji na nasz temat. To wszystko powoduje, że wzrost generowanych danych jest niewyobrażalny. Istniejące moce obliczeniowe nie są wstanie ich przetworzyć. Stąd tak duże i coraz szybciej rosnące zapotrzebowanie na ekspertów i specjalistów w obszarach analizy danych, czy też popularnego obecnie określenia Data Science.

Łukasz Grala tidk Hexcode Data Science SQL

No dobrze, ale co kryje się za tym terminem?

W dużym skrócie Data Science to dziedzina analityki skupiona wokół ludzi rozumiejących dane, znających metody ich eksploracji, czy też uczenia maszynowego, a także potrafiących biegle pracować z bazami danych, językami SQL, R czy Python. Poza tym znają oni rozwiązania wykorzystujące uczenie maszynowe, jak chociażby TensorFlow. Oczywiście, aby móc dokonywać zaawansowanej analizy i tworzyć modele ucznia maszynowego, trzeba połączyć siły kilku ekspertów. Koniecznie jest zaangażowanie specjalistów od Big Data, którzy będą w stanie zebrać i przetworzyć dane strumieniowe, pochodzących chociażby od urządzeń (IoT), ekspertów Business Intelligence, którzy dostarczą platformy do wizualizacji i konsumpcji tych modeli, a także osób odpowiadających za infrastrukturę. Mam tutaj na myśli zarówno administratorów baz danych relacyjnych, jak chociażby SQL Server, ale także rozwiązań NoSQL, HADOOP itd. Kolejną rzeczą niezbędną do przetwarzania tych wszystkich informacji jest infrastruktura i tutaj dużą rolę odgrywa chmura. Może być to chmura publiczna, jak chociażby Azure czy Amazon, ale w grę wchodzą także rozwiązania chmury prywatnej, czy też najpopularniejsze w tego typu scenariuszach chmury hybrydowe.

Jakie są tutaj najważniejsze technologiczne trendy?

Trendy w technologii należałoby rozważać w kilku warstwach. Pierwsza, najniższa, to infrastruktura, czyli w ujęciu danych, którymi się interesuję, to rozwiązania chmury publicznej Azure, Amazon, Google, ale także w niektórych zastosowania IBM Watson. Według firmy Gartner w obszarze baz danych liderem jest Microsoft ze swoim SQL Server, natomiast w przypadku wizualizacji danych pojawia się ponownie Microsoft ze swoim PowerBI, oraz Tableau. Co do aspektów Data Science, to tutaj jest dużo obszarów języki R i Python, ale także inne w zależności od stosowanych technologii. Jeśli chodzi o same środowiska do tworzenia modeli uczenia maszynowego, jest tutaj duża różnorodność. Przytoczę tylko kilka z nich: TensorFlow, H2O, Keras, theano, torch, caffe, czy Microsoftowy Cognitive Toolkit. Jest też wiele rozwiązań w chmurze, a także bibliotek dla języków R, Python, Java, czy C.

Jak wygląda polski rynek tych rozwiązań w porównaniu do USA i innych krajów Europy?

Warto pamiętać, że rynek amerykański wyprzedza Europę o rozwiązania dotyczące zarówno Data Science, jak i tzw. Big Data. Związane jest to z kapitałem, wielkością firm i rozmiarem danych posiadanych przez te firmy. Widać jednak chociażby po firmach europejskich, że trendy te przeniosły się już do bardziej rozwiniętych krajów w Europie. Widoczne jest to także w dużych firmach w Polsce i różnych startupach, które wykorzystują i rozwijają tego typu rozwiązania. Niektórzy nazywają ten efekt Big Data 2.0, gdzie zaczynamy umieć korzystać z dużych wolumenów różnorodnych danych - także małe firmy zaczynają inwestować w tego typu rozwiązania. Microsoft oraz inni znaczący gracze rynkowi, widząc w tym potencjał, przygotowują gotowe interfejsy już nauczonych modeli, które możemy wykorzystać w naszych rozwiązaniach.

Jak wygląda w Polsce rynek ekspertów zajmujących się Data Science, Big Data Analytics i IoT?

Patrząc na oferty pracy, zwłaszcza na ich ilość, można powiedzieć, że z całą pewnością już teraz brakuje specjalistów od zaawansowanej analizy danych. Widoczny jest tutaj trend wzrostu zapotrzebowania. Tak jak wspomniałem, już nie tylko duże korporacje i banki, ale mniejszych rozmiarów przedsiębiorstwa zaczynają inwestować w analitykę, bo tak należy patrzeć na wchodzenie w obszary związane z analizą danych. Tworzą własne komórki, działy dotyczące analizy, badań, czy też szeroko rozumianego Data Science. Praca tych specjalistów ma bardzo konkretne przełożenie na kondycję finansową i bezpieczeństwo każdej firmy. Pomagają m.in. wykrywać nadużycia, dokonywać predykcji zapasów magazynowych czy też zapotrzebowania, przewidywać wystąpienia awarii, oceniać szanse skuteczności akcji marketingowych, czy też optymalizować procesy biznesowe.

Moim zdaniem, obecnie w obszarze uczenia maszynowego i szeroko rozumianej inżynierii danych, gdzie należałoby łączyć doświadczenie, znajomość technologii z wiedzą akademicką, takich ekspertów jest jednak naprawdę niewielu. Firmy mają problem ze znalezieniem odpowiednich osób. Najprostszym rozwiązaniem wydaje się nawiązanie współpracy ze środowiskiem akademickim i rekrutowanie odpowiednich ekspertów z grona naukowców. Niestety okazuje się, że z kilku powodów, nie jest to takie łatwe zadanie. Po pierwsze, w ujęciu naukowym obszar Data Science może nie być aż tak ciekawy i "publikowalny" w znanych czasopismach na świecie, a poza tym naukowcy bardzo często działają jednak w oderwaniu od technologii. A potrzebni są właśnie ludzie mający chociaż w części wiedzę naukową i umiejący ją wdrożyć w konkretnych zastosowaniach biznesowych.

Jacy eksperci IT mają największe szanse na rozwój zawodowy w obszarze Data Science i Big Data Analytics?

W tym przypadku bardzo dużą zaletą może być wszechstronność. Im więcej dany specjalista zna technologii i rozwiązań, tym lepiej. Najlepiej sprawdzą się tutaj eksperci od zbierania i składowania danych, czyli SQL Server, bazy danych NoSQL, bazy danych w chmurze, HADOOP, czy Spark. Firmy poszukują również ludzi, którzy znają modele matematyczne, zasady uczenia maszynowego i potrafią tę wiedzę przełożyć na język technologii. Na brak ofert nie będą narzekać również specjaliści zajmujący się wizualizacją danych, chociażby budując raporty w narzędziach typu PowerBI, czy Shiny.

Od czego powinien zacząć ktoś, kto dopiero wchodzi na rynek pracy i chciałby rozpocząć karierę w nowoczesnej analityce danych? Skąd czerpać wiedzę? Gdzie najlepiej stawiać pierwsze kroki?

Metod jest kilka. Po pierwsze zależy, czy edukacyjną bazą takiego kandydata jest obszar informatyki, czy raczej dziedzina statystyki, ekonometrii lub inny obszar matematyki. Pierwsza grupa musi poznać lepiej algorytmy, metody statystyczne, czy też ich użycie chociażby w językach R i Python, druga grupa powinna też zagłębić się w obszary informatyczny od baz danych począwszy, poprzez języki programowania, chociażby język R. Obie grupy powinny umieć dane zwizualizować, czyli poznać narzędzia typu PowerBI, Shiny, czy też biblioteki do wizualizacji danych. Jestem architektem rozwiązań, ale też czasami prowadzę szkolenia i nagrywam webinaria. W mojej ocenie każda metoda poszerzania wiedzy jest dobra. Oczywiście zdaję sobie sprawę z tego, że w dobie Internetu dla wielu specjalistów może być prostsze np. oglądanie webinarów lub branie udziału w szkoleniach online. Ja akurat preferuję kontakt z ludźmi, czyli klasyczne szkolenia i wykłady. Już w dniach 20-22 listopada poprowadzę w Hexcode Data Science od podstaw, a w dniach 5-6 grudnia - praktyczny warsztat z PowerBI, na który zapraszam. 

Czy konieczne jest, aby analityk baz danych rozumiał biznes, jego złożoność i cele realizowane przez firmę? Czy w rzeczywistości jest operatorem aplikacji i systemów, które dostarczają danych na potrzeby firmy?

Znajomość biznesu to absolutna konieczność. Powinien pamiętać o tym nie tylko analityk, ale każdy, kto zajmuje się IT. Analityk szczególnie, bo on rozwiązuje problemy biznesowe i bez wiedzy biznesowej się nie obejdzie. Podejście w firmie, gdzie właśnie zaawansowaną analitykę traktuje się jako aktywa, czyli inwestycję, jest podstawą. Oznacza to właściwe jej wykorzystanie, a właściwie postawione cele przekładają się wówczas na korzyści biznesowe, np.: usprawnienie procesów biznesowych, konkurencyjność, czy też innowacyjność, co w efekcie przekłada się na zysk dla organizacji. Podsumowując, analityk, data scientist, czy też osoby zajmujące się danymi, koniecznie muszą rozumieć biznes. Podkreślam to przy każdym wdrożeniu, szkoleniu czy konsultacji.

Jaka przyszłość czeka Data Science i Big Data Analytics w Polsce?

Może zabrzmi to górnolotnie, ale uważam, że świetlana. Jeśli polska gospodarka chce się rozwijać, musi postawić na nowoczesność, innowacyjność, konkurencyjność. Nie da się w obecnych czasach tego osiągnąć bez wydobywania wiedzy z informacji. A od danych do informacji, a tym bardziej do wiedzy, to długa droga i nie obejdzie się bez wspominanych tutaj ekspertów w obszarze Data Science i Big Data Analytics.

 

Dziękuję za rozmowę.

Z Łukaszem Gralą rozmawiał Marcin Dulnik.

© 2012 HEXCODE All Rights Reserved