Percorsi di Formazione in Data Science



  • Questo corso introdurrà brevemente i più importanti linguaggi di programmazione e strumenti che gli scienziati dei dati utilizzano quotidianamente.
  • Il contesto e lo scopo in cui vengono tipicamente utilizzati saranno delineati e verranno presentati i comandi più preziosi per i principianti:
    • SQL è diventata una pietra miliare della moderna gestione dei dati. In questo corso, esploreremo diversi modi in cui SQL può essere utilizzato per recuperare i dati dai database.
    • Discuteremo di cosa è GitHub, quali caratteristiche offre e come gli sviluppatori di software possono trarne beneficio.
  • Al termine del corso, gli studenti conosceranno il campo di attività e i comandi più comuni.

Go to course

Questo corso presenta il concetto di software RStudio. Impareremo la storia dell'ambiente di calcolo Analysis Techniques Community, come installarlo ed esploreremo RStudio creando un Project Notebook.

Go to course

In questo modulo di formazione verrai introdotto all'uso dell'analisi discriminante lineare (LDA). LDA è un metodo per trovare combinazioni lineari di variabili che meglio separa le osservazioni in gruppi o classi, ed è stato originariamente sviluppato da Fisher (1936).

Questo metodo massimizza il rapporto tra la varianza tra classi e la varianza all'interno della classe in un particolare set di dati. In questo modo, la variabilità tra gruppi è massimizzata, il che si traduce in massima separabilità.

LDA può essere utilizzato con scopi puramente di classificazione, ma anche con obiettivi predittivi.

Go to course

In questo modulo di formazione verrai introdotto alle basi della teoria del campionamento. In riferimento alla teoria dell'inferenza statistica, più specificamente ciò che riguarda gli strumenti che consentono di calcolare gli intervalli di confidenza, studieremo le procedure che vengono utilizzate per trovare le dimensioni ottimali del campione, a seconda della caratteristica da stimare e della tecnica di campionamento utilizzata.
In questo modulo studieremo le differenze tra i dati provenienti dai campioni e i dati provenienti dalla popolazione. Inoltre, studieremo le tecniche di campionamento più comunemente applicate: campionamento semplice e stratificato. Esploreremo le regole per trovare le dimensioni ottimali del campione, condizionate ad alcuni obiettivi relativi alla fiducia e al margine di errore che vogliamo avere nelle nostre inferenze.

Go to course

In questo modulo formativo verrai introdotto all'uso della modellazione lineare di base per capire come le differenze medie possono essere attribuite o meno all'effetto di variabili categoriali.

L'analisi qui presentata è alla base della regressione lineare, che considera anche l'effetto delle variabili continue. Le tecniche descritte in questo modulo formativo si limitano al caso di variabili categoriali (qualitative). A questo proposito, puoi affrontare i contenuti di questo modulo come un'introduzione al Modello lineare generalizzato (MLG) che utilizza solo fattori categoriali per spiegare la variabilità in una variabile (continua) di interesse.

La procedura qui presentata si basa sulla scomposizione della variabilità totale misurata nel campione in diverse fonti: alcune sono residuali (o non spiegate dai fattori considerati) mentre altre provengono da una parte sistematica riconducibile alle diverse categorie dei fattori categoriali.

Go to course

Questa scrittura fornisce definizioni dei concetti fondamentali nell’apprendimento automatico, così come descrizioni dei principali metodi utilizzati, tra cui alcuni esempi specifici e applicazioni.  È possibile scegliere di leggere il copione a livello superficiale, per acquisire una conoscenza di base del campo, o leggere le descrizioni più approfondite, in particolare la sezione metodi, per ottenere una comprensione intermedia dell’apprendimento automatico. 

Le statistiche e l’apprendimento automatico forniscono gli strumenti principali per il tuo lavoro come scienziato dei dati. Comprendere i vari metodi di apprendimento automatico - come funzionano, quali sono i loro principali vantaggi e come valutare le loro prestazioni su un determinato compito - può aiutarti a prendere decisioni migliori su quando utilizzarli e ti renderà un esperto di scienza dei dati più versatile.

Go to course

In questo corso, daremo un’occhiata alle molte applicazioni della scienza dei dati che possono rendere il mondo un posto leggermente migliore. Entreremo poi nel dettaglio sul monitoraggio dei social media condotto per conto di Amnesty International Italia per capire come tale applicazione può funzionare.

Nella prossima sezione, esploreremo alcuni degli effetti dannosi che la scienza dei dati e l’intelligenza artificiale possono avere. Questo ci aiuterà a capire perché è necessario che i sistemi di IA siano affidabili.

Infine, prenderemo familiarità con alcune delle sfide delle metriche di equità e vedremo cosa possono significare queste metriche nella pratica.

Go to course

In questo modulo formativo verrà presentata la tecnica di analisi multidimensionale denominata Analisi in Cluster, detta anche analisi automatica dei gruppi.

Le cluster analysis sono utilizzate per raggruppare unità statistiche che hanno caratteristiche in comune ed assegnarle a categorie non definite a priori. I gruppi che si formano devono essere il più possibili omogenei all’interno (intra-cluster) ed eterogenei all’esterno (inter-cluster).

L’applicazione di questo tipo di analisi è molteplice: informatica, medicina, biologia, marketing.

L’ultima parte del modulo sarà dedicata all’applicazione dell’analisi in cluster con il software R.

Go to course

In questo modulo formativo verrà presentata la tecnica di analisi multidimensionale denominata Analisi delle Corrispondenze, AC.

L’Analisi delle Corrispondenze è una forma di scaling multidimensionale, che essenzialmente costruisce una sorta di modello spaziale che mostra le associazioni tra un insieme di variabili categoriali. Se l’insieme include solo due variabili, il metodo è usualmente chiamato Analisi delle Corrispondenze Semplici (SCA). Se l’analisi coinvolge più di due variabili, allora è usualmente chiamata Analisi delle Corrispondenze Multiple (MCA). In questo modulo si tratterà l’analisi delle corrispondenze semplici, l’obiettivo di tale analisi è quello di ridurre la dimensionalità del fenomeno oggetto di indagine preservando l’informazione da esso contenuta. La tecnica è applicabile a fenomeni misurati con variabili qualitative.

L’ultima parte del modulo sarà dedicata all’applicazione dell’AC con il software R.

Go to course

In questo modulo formativa verrà presentata la tecnica di analisi multidimensionale denominata Analisi in Componenti Principali (ACP) il cui obiettivo è quello di ridurre la dimensionalità di un fenomeno oggetto di indagine preservando l’informazione in quest’ultimo contenuta. La tecnica `e applicabile a fenomeni misurati con variabili quantitative, distinguendosi così da altre tecniche di riduzione della dimensionalità, come l’analisi delle corrispondeze semplici (AC) o l’analisi delle corrispondenze multiple (ACM), sviluppate per l’analisi di variabili qualitative.

L’ultima parte del modulo sarà dedicata all’applicazione dell’ACP con il software R.

Go to course

Questo corso presenta i concetti di giornalismo e narrazione dei dati. Questi concetti sono descritti e spiegati in relazione al mondo dei dati. Si spiega come unire la scienza dei dati, un campo di studio caratterizzato da difficili competenze, con competenze trasversali e quali sono i vantaggi di questa combinazione.

Go to course

Partner

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI