ANALISI E GESTIONE DEI BIG DATA PER L'INFORMAZIONE
(obiettivi)
Il corso ha l’obiettivo di fornire agli studenti gli strumenti necessari per produrre in maniera indipendente elaborati analitici basati su dati reperiti in rete (data journalism), a partire dai dati forniti dalle istituzioni nei formato open. Il corso prevede un’introduzione alla programmazione in Python, alle basi di dati SQL e NoSQL e alle modalità di interrogazione delle stesse, per consentire l’importazione dei dati a partire da fonti e formati differenti, la loro esplorazione e pulizia per la successiva analisi, utilizzando le principali misure statistiche, anche per la produzione di infografiche (con Tableau e Google Data Studio). Per facilitare la gestione di elevate quantità di dati (BigData) e per estrarre informazioni da esse, verranno illustrate le principali caratteristiche del framework Apache Spark Python in combinazione con Spark SQL, e l’uso del framework in combinazione con le basi di dati SQL e NoSQL e gli strumenti di visualizzazione.
Conoscenze e capacità di comprensione: Conoscenze relative alla programmazione con linguaggio ad alto livello per eseguire task di analisi dati utilizzando misure statistiche basilari. Utilizzazione delle conoscenze e capacità di comprensione: L* student* apprenderà come svolgere un task di analisi dati: raccolta dei dati (sull’argomento scelto), pulizia dei dati, trasformazione dei dati ovvero analisi utilizzando misure statistiche e algoritmi di apprendimento automatico, visualizzazione dei risultati con Tableau. Autonomia di giudizio: L* student*, quale esperto della comunicazione, sarà in grado di valutare i risultati di un'analisi e capire i dati di partenza. Abilità comunicative: L* student* apprenderà la terminologia adeguata per comunicare con gli esperti del dominio per l'analisi (con Python e Spark) e la visualizzazione dei dati (con i tool di data visualization). Capacità di apprendere: L* student* sarà in grado di applicare gli algoritmi di analisi sviluppando un pensiero computazionale e di applicare tali algoritmi nel suo lavoro.
|
Codice
|
18515 |
Lingua
|
ITA |
Tipo di attestato
|
Attestato di profitto |
Crediti
|
8
|
Settore scientifico disciplinare
|
INF/01
|
Ore Aula
|
48
|
Attività formativa
|
Attività formative caratterizzanti
|
Canale Unico
Docente
|
Pasquini Daniele
(programma)
Introduzione al Data Journalism, formati open dei dati, programmazione in Python propedeutica all'analisi dati, introduzione al linguaggio SQL. Come eseguire analisi di grandi moli di dati (BigData) tramite framework distribuito Apache Spark, data visualization con Tableau.
(testi)
Slide del docente, libro PDF (gratuito) Pensare in Python, (consigliato) Learning Spark, 2nd Edition (Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee) edito da O’Reilly.
|
Date di inizio e termine delle attività didattiche
|
Dal al |
Modalità di erogazione
|
Tradizionale
A distanza
|
Modalità di frequenza
|
Non obbligatoria
|
Metodi di valutazione
|
Prova scritta
Prova orale
Valutazione di un progetto
|
|
|