ANALISI E GESTIONE DEI BIG DATA PER L'INFORMAZIONE
(obiettivi)
Il corso ha l’obiettivo di fornire agli studenti gli strumenti necessari per produrre in maniera indipendente elaborati analitici basati su dati reperiti in rete (data journalism), a partire dai dati presenti sul web, sia forniti da istituzioni in formato open, sia ottenuti attraverso tecniche di scraping. Il corso prevede un’introduzione alla programmazione in Python, alle basi di dati e alle modalità di interrogazione delle stesse, per consentire l’importazione dei dati a partire da fonti e formati differenti, la loro esplorazione e pulizia per la successiva analisi, utilizzando le principali misure statistiche. I dati analizzati verranno visualizzati attraverso Tableau per realizzare infografiche interattive. Nel corso verranno esaminate le modalità per comunicare dati in maniera più immediata e efficace, in termini di stile di grafici, contrasti cromatici, font e modalità di interazione, tenendo presente che un buon stile grafico è fondamentale sia per la leggibilità dei dati sia per la possibilità di scoprire nessi causali all'interno di essi (data discovery). Per facilitare la gestione di elevate quantità di dati (BigData) e per estrarre informazioni da esse, verranno illustrate le principali caratteristiche del framework Apache Spark Python in combinazione con Spark SQL, e l’uso del framework in combinazione con gli strumenti di visualizzazione.
Si apprenderà inoltre come utilizzare i tool di IA, in particolare GitHub copilot come assistenti alla programmazione per produrre analisi attraverso prompt in linguaggio naturale.
Conoscenze e capacità di comprensione: Conoscenze relative alla programmazione con linguaggio ad alto livello per eseguire task di analisi dati utilizzando misure statistiche basilari. Utilizzazione delle conoscenze e capacità di comprensione: lo studente apprenderà come svolgere un task di analisi dati: raccolta dei dati (sull’argomento scelto), pulizia dei dati, trasformazione dei dati ovvero analisi utilizzando misure statistiche e algoritmi di apprendimento automatico, visualizzazione dei risultati con Tableau. Autonomia di giudizio: lo studente quale esperto della comunicazione, sarà in grado di valutare i risultati di un'analisi e capire i dati di partenza. Abilità comunicative: lo studente apprenderà la terminologia adeguata per comunicare con gli esperti del dominio per l'analisi (con Python e Spark) e la visualizzazione dei dati (con i tool di data visualization). Capacità di apprendere: lo studente sarà in grado di applicare gli algoritmi di analisi sviluppando un pensiero computazionale e di applicare tali algoritmi nel suo lavoro.
|