ANALISI E GESTIONE DEI BIG DATA PER L'INFORMAZIONE
(obiettivi)
Il corso ha l’obiettivo di fornire agli studenti gli strumenti necessari per produrre in maniera indipendente elaborati analitici basati su dati reperiti in rete (data journalism), a partire dai dati forniti dalle istituzioni nei formato open. Il corso prevede un’introduzione alla programmazione in Python, alle basi di dati SQL e NoSQL e alle modalità di interrogazione delle stesse, per consentire l’importazione dei dati a partire da fonti e formati differenti, la loro esplorazione e pulizia per la successiva analisi, utilizzando le principali misure statistiche, anche per la produzione di infografiche (con Tableau). Per facilitare la gestione di elevate quantità di dati (BigData) e per estrarre informazioni da esse, verranno illustrate le principali caratteristiche del framework Apache Spark Python in combinazione con Spark SQL, e l’uso del framework in combinazione con le basi di dati SQL e NoSQL e gli strumenti di visualizzazione. L’esame prevede l’esposizione orale di un proprio progetto di analisi dati, sotto forma di articolo di giornale o dashboard, e uno scritto teorico/pratico sugli argomenti del corso.
|