Docente
|
CASTRIGNANO TIZIANA
(programma)
Il seguente corso e’ incentrato sullo studio delle tecnologie necessarie per trasformare e manipolare dati biologici. In particolare è focalizzato sugli strumenti che permettono l’analisi di grandi set di dati di sequenziamento con lo scopo di ottenere risultati biologici riproducibili e robusti. Per questo motivo 2 crediti del corso sono dedicati all'introduzione dell’ambiente linux e degli strumenti con esso inclusi per la manipolazione dei dati. I secondi 2 crediti del corso sono dedicati ai fondamenti della programmazione illustrati mediante il linguaggio python ed applicati all'analisi delle sequenze. Gli ultimi 2 crediti sono dedicati all’introduzione alla programmazione in R. Si tratta di un linguaggio di programmazione e un ambiente di sviluppo specifico per l'analisi statistica dei dati.
Linux: - Impostazione e gestione di un progetto di bioinformatica in ambiente linux - Directory di progetto e strutture di directory - Perché utilizziamo Linux in bioinformatica? Modularità e la filosofia di Linux - Le variabili d’ambiente - Lavorare con i flussi e il reindirizzamento - Gestire e interagire con i processi - Lavorare con macchine remote - Recupero di dati bioinformatici - Compressione dei dati e utilizzo dei dati compressi - Quando utilizzare le pipeline unix - Ispezionare e manipolare dei dati con gli strumenti linux - Un'introduzione agli intervalli genomici - Lavorare con i dati di sequenza - Script di base di Bash - Script di bash in ambito HPC (High-Performance-Computing)
Python: Operazioni preliminari - Installazione di Python - Illustrazione delle librerie Biopython Manipolazione dei dati - Operatori aritmetici - Tipi di dati (numerici, booleani, set, dizionari, sequenze) - Variabili, espressioni, istruzioni - Istruzioni di controllo (if, while, for, break, continue) - Le funzioni - Le librerie biopython
R: Operazioni preliminari - Installazione di R - Illustrazione dell'interfaccia di R e di RStudio - Directory di lavoro, script e console Manipolazione dei dati - Creazione e importazione di dati - Classi di dati - Utilizzo e creazione di funzioni - Grafici: scatterplot, boxplot, barplot Metodi statistici per l'analisi dei dati - Cenni di statistica: variabili aleatorie, distribuzioni di probabilità, test di ipotesi - Test statistici in ambiente R: correlazioni, t-test, test del chi-quadro - Modelli di regressione lineare
(testi)
Testo suggerito per Linux: verrà fornito del materiale didattico dal docente.
Testo suggerito per Python: Allen Downey - “Pensare in Python”. Casa editrice O’REILLY.
Testo suggerito per R: verrà fornito del materiale didattico dal docente.
|