La classificazione nella Data Science

Data Science

Intro.

La classificazione è un metodo di machine learning che permette di impostare, e poi studiare, problemi in cui si vuole distinguere tra più categorie. La sua principale fonte di ispirazione è la regressione logistica: i modelli di classificazione sono lo strumento che viene utilizzato quando si vogliono generare previsioni usando un determinato numero di categorie predefinite. Un modello può essere considerato una funzione che prevede la probabilità che un individuo appartenga a un certo gruppo (ad esempio, se il gruppo sia colpito da una certa malattia) basandosi sui valori di vari parametri (ad esempio quante ore dormite). Questo tipo di approccio ha dato molto frutto nelle scienze sociali e nell’elaborazione dei dati in altri settori; ad esempio, Google utilizza il machine learning per migliorare il suo algoritmo di targhettizzazione usando immagini estratte dal Web con alcuni algoritmi di machine learning.

Classificazione binaria.

La classificazione binaria è una tipologia di classificazione che fa riferimento ad un insieme di dati ugualmente divisi (binned) in due classi. In pratica, i dati vengono suddivisi in due categorie tra cui gli elementi possono essere distribuiti più o meno uniformemente. I campioni sono ordinati basandosi sull’insieme di parametri ottenuti dalla loro misurazione; cioè, si assegna a ciascun campione il valore più vicino al parametro medio della stessa classe. Questo tipo di modello ha la caratteristica di essere molto semplice da implementare ed utilizzare, ma presenta anche numerose limitazioni:

  • non permette l’identificazione delle anomalie;
  • è vulnerabile all’errore delle assegnazioni perché può essere influenzata dalle differenze nella lunghezza della catena dello spettro delle frequenze;
  • non prevede differenziazioni tra sottoclassifiche e quindi può non accorgersene se i modelli si trovano a misurare variabilità inferne a quella ammissibile

Classificazione multiclasse.

In una classe con più di due classi, la logistic regression può essere usata per classificare le oggetti nella classe che corrisponde all’insieme minimo delle probabilità (MLE). Questo approccio è particolarmente utile quando i dati sono stati appositamente costruiti per fornire una modalità di classificazione multiclasse. Per esempio, è possibile creare un dataset in cui tutte le scale sono uguali e utilizzare il MLE come modalità di rappresentazione della distribuzione delle frequenze delle diverse scale. Se l’obiettivo è valutare la differenza tra due gruppi di persone con disabilità visive (il gruppo A ha problemi visivi lievi e il gruppo B ha problemi visivi gravi), occorreranno due valori massimi: i primi rappresenteranno il gruppo A e i secondi rappresenteranno il gruppo B.

Regressione logistica.

La regressione è uno strumento statistico che permette di trovare la relazione tra una o più variabili di input e una o più variabili di output. Le tecniche di regressione sono utili quando si tenta di prevedere un valore di una variabile di output sulla base di punti dati con i valori corrispondenti delle variabili di input. In questo senso, potremmo dire che la regressione riguarda la previsione di variabili (o eventi) in cui esiste una relazione tra di loro. Ad esempio: prevedere l’aspettativa di vita in base all’età, al sesso, al fumo e ad altre caratteristiche personali; prevedere se qualcuno acquisterà qualcosa dopo che gli è stata mostrata una pubblicità; prevedendo se domani sarà soleggiato o piovoso a seconda dei dati meteorologici dei giorni precedenti. Il tipo più semplice di analisi di regressione consiste nell’adattare una linea retta attraverso tutti i punti (linea di regressione). Tuttavia, esistono molti altri modelli per l’adattamento di curve come funzioni polinomiali e funzioni esponenziali.


Il machine learning è costituito da un’ampia varietà di algoritmi, che vengono usati per risolvere le principali problematiche che i Data Scientist si trovano ad affrontare quotidianamente. Ogni metodologia ha la sua specifica funzione e viene utilizzata in base allo scopo che si vuole raggiungere. In questo capitolo cercheremo di descrivere cosa è il machine learning e come si applica in diversi contesti, con particolare riferimento a quello dell’analisi di dati.

Ti è piaciuto?

Vuoi saperne di più?
Contattami per una consulenza gratuita, scopriremo assieme come la Data Science è applicabile al tuo business e come può aiutarti nei tuoi processi decisionali

    Invia un messaggio

    Usa il modulo per inviare un messaggio:





    Leggi altri articoli