Lo scopo dell’analisi dei dati è quello di ridurre l’incertezza: moderandola possiamo prendere decisioni sagge. Nel mondo degli affari e della ricerca, le decisioni informate sono basate sull'analisi di opportune attività che devono essere misurabili. Scopo di queste attività è di cercare di aumentare i ricavi, massimizzare la redditività e ridurre i rischi.

“Quasi tutte le più importanti decisioni, devono comunque essere effettuate in condizioni di parziale incertezza.”

Il processo decisionale si basa sull'accettazione di una parziale ignoranza: tutti i dati o fatti non sono noti, per cui questa forma di consapevolezza porta a migliorare il processo decisionale.

In realtà, l’incertezza è essenziale per evitare rischi eccessivi. Come creature razionali dobbiamo sempre chiederci: l’attuale riduzione dell’incertezza è sufficienti per procedere in questo momento con una decisione? O dobbiamo attendere e raccogliere più dati?

I metodi per quantificare l’incertezza sono ben definiti nella teoria dell’informazione, tali criteri esistono per essere applicati con rigore a problemi di inferenza attraverso il campo noto come analisi bayesiana.

Questi criteri di analisi dei dati sono stati in gran parte sviluppati da fisici, sulla base della definizione fondamentale di Claude Shannon dell’informazione.

Le idee di base possono essere fatte risalire al lavoro di Edwin Thompson Jaynes, Phil Gregory, David Mackay e Devinderjit Sivia, il loro lavoro è stato fondamentale per lo sviluppo dell’apprendimento automatico ( che oggi conosciamo con il termine Machine Learning) e intelligenza artificiale (AI).Le aziende più preparate in questo settore, come Amazon e Google, mettono in pratica questi modelli e metodi, ogni giorno, in ogni loro progetto, il livello che hanno raggiunto in queste discipline è una delle ragioni per il loro spettacolare successo rispetto ai loro concorrenti.

Il Data Scientist

Trovare Data Scientist oggi è un impresa ardua, l’offerta supera la disponibilità di professionisti adeguatamente preparati.  Di recente cominciano ad essere disponibili offerte formative adeguate nelle università,  mentre i corsi e certificazioni, in questa disciplina di una qualche reale utilità, si contano sulle dita di una mano.

Gli “scienziati dei dati” oppure Data Scientist fanno il surf tra i dati“grezzi” di una azienda e ne ricavano qualcosa di utile per la stessa che potrà fare la differenza.

Dati e tendenze raccolti potranno essere utilizzati per incrementare le vendite o capire perché un certo prodotto “non va” e invertire la tendenza.

In realtà vi è poco o nulla di nuovo in tutto ciò, gli analisti conoscevano questi strumenti e tecniche in parte già da tempo, ma non vi era una disciplina specifica, un percorso organico e codificato che  che permettesse di avere un approccio realmente scientifico e non sciamanico.

Il Data Scientist è un insieme di varie figure: matematico, programmatore e giocatore esperto di domino. Ad esempio: sei un brillante matematico, scrivi codice in modalità sublime, devi lavorare nel settore assicurativo ma non conosci l’ambiente, difficilmente riuscirai a risolvere un qualche tipo di problema.

Matematica

In molti articoli può capitare di leggere affermazioni del tipo: “Data Scientist: The sexiest job of the 21st Century”.

Il pensiero successivo è Fantastico! Una professione sexy, anzi la più sexy del 21° secolo ed è pure ben retribuita!

Non fraintendetemi, mi piace la matematica, tanto, amo il mio lavoro, e ritengo che sia fondamentale aver solide basi in matematica e logica per un programmatore professionista, ma mai mi sarei spinto tanto da definire il tutto sexy!

Quali sono quindi le parti che dovresti assolutamente conoscere per iniziare?Certamente la matematica discreta, basi insiemistica, diseguaglianze funzioni e piano cartesiano, serie numeriche, le basi di probabilità e statistica, concetti come media, mediana, moda e varianza, senza tralasciare tangenti a funzioni, esponenti e logaritmi, tutte cose che servono per valutare il tasso di variabilità di una certa misura.

Non lasciarti spaventare dalla mole di argomenti citati, nei prossimi articoli verranno indicati fonti e corsi per raggiungere un livello adeguato di conoscenza per  per cominciare a muoversi nel mondo della Data Science

Questi strumenti matematici ti permetteranno di capire i modelli più complessi alla base del Machine learning e delle altre “discipline”, alla fine potrai usare funzioni di libreria già pronte in linguaggi come R, Python e anche Java!

Capire cosa c’è sotto il cofano non solo è utile ma spesso necessario.

Se dopo tutta questa indigestione di matematica, non sarai più d’accordo con l’aggettivo Sexiest ti capirò, ma se sei interessato alla Data Science, almeno provaci, la matematica aiuta a capire il mondo ed è divertente più di quanto la maggior parte delle persone pensi.

Programmazione

R è un linguaggio di programmazione, sviluppato dal matematico Robert Gentleman e dallo statistico Ross Ihaka. L’intento iniziale era quello di sviluppare un linguaggio di programmazione per la statistica, nel tempo si è evoluto diventando il linguaggio di riferimento per la Data Science.Oggi R è un linguaggio supportato da un ampia comunità ed è open source.

Buona parte dei corsi di Data Science prevede l’apprendimento e l’utilizzo di R.

Alla data della stesura di questo articolo, R occupa la 18° posizione nell’indice TIOBE (indicatore della popolarità dei linguaggi di programmazione). R è anche un linguaggio con forti caratteristiche ad oggetto (con il supporto di generics per le funzioni) ma permette anche la programmazione imperativa. R è interpretato e dotato di una command line.

Le strutture dati di R sono ricche e includono vettori e matrici, data frame (oggetti assimilabili alle tabelle in un database relazionale).

Python non necessita di presentazioni, come R, ha una nutrita libreria di funzioni per la Data Science, negli ultimi tempi sta guadagnando terreno rispetto ad R (vedistoria indici TIOBE R dal 2014 ad oggi), Python è largamente conosciuto e utilizzato in progetti web e desktop, permette di manipolare dati per il Data Science e Machine Learning, molto più versatile di R. Vi sono altri linguaggi e ambienti utili per la DS: Ocave, MATHLAB, Wolfram Mathematica ma il loro utilizzo è marginale rispetto a R e Python.

Piccola Nota su Java: linguaggio in testa all'indice TIOBE da tempo immemore, lo utilizzo da circa 20 anni per realizzare applicazioni gestionali, e posso assicurare che Java è in grado di fare Data Science, si avete letto bene, in uno degli articoli futuri illustrerò la modalità.

Conclusioni

Se vuoi fare lo scienziato dei dati avrai molteplici opportunità di formazione nei prossimi anni.Se invece come me, sei un programmatore, e al momento non ti interessa cambiare mestiere, considera che una formazione di base in Data Science ti permetterà di poter interagire con Data Scientist, capire cosa fanno, cosa ti chiedono di fare per loro come programmatore, è questo potrebbe fare la differenza nella tua carriera, migliorandola, o semplicemente salvaguardando la tua posizione lavorativa nel prossimo futuro.