Cos’è la Data Science?
Secondo Oracle, che di dati se ne intende, la Data Science è un settore interdisciplinare che utilizza metodi scientifici, processi, algoritmi e sistemi per estrarre valore dai dati.
Il suo scopo principale è quello di evidenziare trend e dare suggerimenti da utilizzare all’interno di quello che è il processo decisionale sia in ambito Aziendale, sia in ambito Scientifico.
Quali sono gli strumenti da utilizzare per la Data Science?
Per introdurre la Data Science all’interno dei processi decisionali è importante avere a disposizione gli strumenti giusti che devono essere preparati e configurati da esperti per poter dare il massimo e per non essere invece di intralcio a quello che è il flusso regolare delle attività.
Magazzino Dati
Sicuramente il primo e principale strumento per introdurre la Data Science nei processi decisionali è il magazzino dei dati.
Nel magazzino dati vengono memorizzate tutte quelle informazioni, il più possibile, in maniera strutturata e organizzata per essere poi interrogate ed utilizzate dagli strumenti successivi.
Lo strumento principe per raccogliere e conservare i dati è il DataBase; progettato e realizzato a questo scopo è fondamentale per raccogliere e organizzare i dati.
La base dati va progettata, installata ed organizzata da una figura esperta chiamata Data Engineer (o ingegnere dei dati) il quale solitamente è una figura tecnica molto specializzata, un informatico o un ingegnere.
Machine Learning
Le tecniche di Machine Learning e Intelligenza Artificiale operano sui dati raccolti per effettuare soprattutto delle previsioni, perchè è questo il vero scopo della Data Science, analizzare i dati per fare delle previsioni e quindi aiutare il processo decisionale.
Si comincia con la selezione e la pulizia dei dati che generalmente provengono dal Magazzino Dati ma non solo, non è raro avere più sorgenti dei dati.
Si continua poi con l’indagine e la selezione degli algoritmi da utilizzare sui dati, è importante scegliere l’algoritmo di intelligenza artificiale che meglio si adatta al caso specifico, si parla quindi di Classificazione, di Regressione o di Clustering.
Una volta individuato l’algoritmo si passa infine all’addestramento del modello e poi al test con i dati che si hanno a disposizione. Terminate queste procedure siamo pronti per fare delle previsioni e per passare allo stato successivo, la visualizzazione dei dati e dei risultati.
Anche per questa attività è richiesta una figura tecnica molto specializzata, generalmente un informatico, un ingegnere o anche un matematico.
Data Visualization
Una volta raccolti i dati ed eseguiti gli algoritmi, è necessario visualizzarli per poterli interpretare. Grafici a torta, istogrammi o scatter plot vengono utilizzati per visualizzare i dati all’interno di tool di Business Intelligence come Tableau o Power BI.