Di chi e di cosa c’è bisogno per fare Data Science?

La Data Science è la scienza che studia come trattare i Big Data al fine di immagazzinarli, filtrarli, aggregarli, incrociarli, analizzarli, modellarli e visualizzarli (giusto per citare alcune azioni compiute su di essi). Per fare tutto ciò, il Data Scientist ha bisogno di competenze trasversali che garantiscano il pieno utilizzo delle informazioni provenienti ad alta frequenza da grandi volumi di dati. Inoltre, le competenze devono essere affiancate da una tecnologia adeguata che riesca a sostenere le azioni del Data Scientist.

Data Science: tecnologia, ma soprattutto… persone

Bisogna considerare che la tecnologia utilizzata per i Big Data è varia e fa capo a diversi applicativi, che hanno tra loro diversità e similitudini. Per questo, un’azienda che vuol fare Data Science dovrebbe affidarsi a professionisti capaci di suggerire la tecnologia più conforme alle esigenze aziendali. Parliamo dei cosiddetti Data Engineers, ossia figure con variegata esperienza in ambito tecnologico oppure di società di consulenza specializzate nel consigliare e installare la tecnologia (anche detta Architettura).

Oltre alla questione di quale architettura usare, va deciso soprattutto a chi farla usare in modo che il costo dell’investimento si trasformi in un valore aggiunto per l’azienda. Bisogna dunque chiedersi: “Che CV deve avere un data scientist?”

Che curriculum deve avere il Data Scientist?

Il Data Scientist ricopre una posizione di collante e intermediazione tra l’aspetto meramente tecnico-analitico (tecnologia e dati) e la parte dell’azienda più orientata al business. Con queste premesse, è più chiaro che un Data Scientist debba saper ben figurare nelle seguenti macro-aree:

Area tecnologica
C’è bisogno di competenze nella programmazione informatica, soprattutto nei linguaggi di analisi dei dati come Python e R. Ancor meglio se ha anche una conoscenza base di linguaggi a più basso livello come Java e Scala. È ben gradita, inoltre, la conoscenza di linguaggi di interrogazione dei database (SQL e NoSQL). È chiaramente complesso trovare personale che abbia conoscenze perfettamente in linea con la tecnologia utilizzata. Per questo motivo, il vero obiettivo è avere persone duttili nel cercare soluzioni e nell’imparare linguaggi nuovi se necessario.

Area statistica
Il ruolo prioritario del Data Scientist è descrivere i dati, trovare delle eventuali relazioni nei processi aziendali e fare delle previsioni sull’andamento di alcune variabili di interesse. Per far ciò, bisogna avere delle conoscenze approfondite in campo matematico-statistico.

Area business
C’è la necessità che il Data Scientist abbia ben chiare le visioni del business aziendale al fine di poterne analizzare i processi e quindi le criticità.

Area della comunicazione
Affinché il lavoro tecnico possa essere di aiuto per l’azienda, c’è bisogno di saper comunicare i risultati tramite grafici, tabelle, indici che siano comprensibili anche e soprattutto a un’audience non tecnica.

Provenienza dei Data Scientist

È abbastanza ovvio che una persona che debba districarsi in aree così eterogenee non provenga sempre dallo stesso percorso di studi. Secondo Indeed Engineering, infatti, il curriculum di un Data Scientist è tra i più ibridi, nonostante siano comunque riscontrabili tipi di formazione ricorrenti. La formazione informatica (prevalente), quella di business, quella statistica e quella ingegneristica compongo tre quarti dei  percorsi di studio, mentre la parte residua dei curricula è contraddistinta da percorsi eterogenei e più lontani dal focus della data science. Va comunque sottolineato che ogni azienda ha le proprie esigenze di analisi, le quali sono più congeniali a un tipo di curriculum rispetto a un altro. Dunque, nella scelta di un Data Scientist vanno tenute a mente quali siano le mansioni prevalenti che ricoprirebbe e non è sempre detto che curricula meno standard siano meno arruolabili.