Instruire pentru Stiinta Datelor



SQL (Structured Query Language) este un limbaj folosit pentru procesarea și interogarea datelor, în baze de date relaționale.
SQL este unul dintre cele mai utilizate limbaje pentru baze de date la nivel Mondial.
SQL este puternic și flexibil si oferă suport pentru analiza și procesarea datelor în diferite moduri.
SQL este utilizat în multe industrii și domenii, precum finanțe, comerț electronic, asistență medicală și administrație publică.
SQL este destul de ușor de învățat și reprezintă o metodă standard pentru procesarea flexibilă și gestiunea unor volume mari de date.

Go to course

  • Proiectul R s-a născut în departamentul de statistică al Universității din Auckland, Noua Zeelandă;
  • Fondatorii proiectului sunt Robert Gentleman și Ross Ihaka, acum profesori asociați;
  • Proiectul a început în 1991, dar prima lansare a fost în 1996;
  • Software-ul R este acum considerat cel mai puternic limbaj de calcul statistic din lume;

Go to course

În acest modul de instruire veți fi introdus în utilizarea analizei discriminante lineare (LDA). LDA este o metodă de găsire a combinațiilor liniare de variabile care separă cel mai bine observațiile în grupuri sau clase și a fost dezvoltată inițial de Fisher (1936).

Această metodă maximizează raportul dintre variația dintre clase și varianța în interiorul clasei în orice anumit set de date. Făcând acest lucru, variabilitatea între grupuri este maximizată, ceea ce are ca rezultat separabilitatea maximă.

LDA poate fi folosit cu scopuri pur de clasificare, dar și cu obiective predictive.
 

Go to course

În acest modul de specializare veți face cunoștință cu elementele de bază ale teoriei eșantionării. În legătură cu teoria inferenței statistice, mai exact cu instrumentele care permit calcularea intervalelor de încredere, vom studia procedurile utilizate pentru a găsi mărimea optima ale eșantioanelor, în funcție de caracteristica care urmează să fie estimată și de tehnica de eșantionare utilizată.

În acest modul vom studia diferențele dintre datele bazate pe eșantion și datele bazate pe populație, precum și cele mai des aplicate tehnici de eșantionare: eșantionarea simplă și stratificată. În plus, vom explora regulile pentru găsirea dimensiunilor optime ale eșantionului, condiționate de anumite obiective legate de încrederea și marja de eroare pe care dorim să le avem în inferențele noastre.

Go to course

Statistica și învățarea automată oferă principalele instrumente pentru munca unui cercetător în domeniul datelor. Înțelegerea diferitelor metode de învățare automată - cum funcționează, care sunt principalele lor avantaje și cum se evaluează performanța lor - vă poate ajuta să luați decizii mai bune referitoare la când să le utilizați și oferă versatilitate în analiza datelor.

Go to course

În acest curs, vom arunca o privire asupra numeroaselor aplicații ale Data Science care pot face lumea un loc mai bun. Vom intra apoi în detaliu asupra monitorizării rețelelor sociale efectuate în numele Amnesty International Italia, pentru a înțelege cum poate funcționa o astfel de aplicație.
În secțiunea următoare, vom explora unele dintre efectele dăunătoare pe care le pot avea Data Science și AI (Inteligența Artificială). Acest lucru ne va ajuta să înțelegem de ce este nevoie ca sistemele AI să fie de încredere.
În cele din urmă, ne vom familiariza cu unele dintre provocările măsurătorilor sau metricilor de echitate și vom vedea ce pot însemna aceste metrici în practică.

Go to course

În acest modul de învățare va fi prezentată tehnica multidimensională a Analizei Cluster, cunoscută și sub numele de Analiză automată a grupurilor.
Analizele cluster sunt utilizate pentru a grupa unitățile statistice care au caracteristici comune și pentru a le aloca pe categorii care nu sunt definite a priori. Grupurile formate trebuie să fie cât mai omogene în interior (intra-cluster) și cât mai eterogene între ele (inter-cluster).
Aplicațiile acestui tip de analiză se regăsesc în mai multe domenii: informatică, medicină, biologie, marketing. 
Ultima parte a modulului este dedicată aplicațiilor analizei cluster cu ajutorul software-ului R. 

Go to course

În acest modul de instruire vă va fi prezentată tehnica de analiză multidimensională numită Analiză a Corespondenței, AC.

Analiza Corespondenței este o formă de scalare multidimensională, care construiește în esență un fel de model spațial care arată asocierile între un set de variabile categoriale. Dacă setul include doar două variabile, metoda este de obicei numită Analiză Simplă a Corespondenței (ASC). Dacă analiza implică mai mult de două variabile, atunci este de obicei numită Analiză Multiplă a Corespondenței (AMC). În acest modul ne vom ocupa de analiza corespondențelor simple, obiectivul acestei analize este de a reduce dimensionalitatea fenomenului investigat păstrând totuși informațiile conținute de acesta. Tehnica este aplicabilă la fenomene măsurate cu variabile calitative.

Go to course

În acest modul de învățare este prezentată tehnica multidimensională denumită Analiza Componentelor Principale (ACP), al cărei obiectiv este de a reduce dimensionalitatea unui fenomen investigat, păstrând în același timp informația conținută de acesta. Tehnica poate fi aplicată fenomenelor măsurate cu variabile cantitative, deosebindu-se astfel de alte tehnici de reducere a dimensionalității, cum ar fi analiza corespondențelor – cazul bidimensional sau multidimensional, dezvoltată pentru analiza variabilelor calitative.
Ultima parte a acestui modul de învățare va fi dedicată aplicării tehnicii ACP în R.

Go to course

Acest curs prezintă conceptele jurnalismului de date și narațiunii bazate pe date. Aceste concepte sunt descrise și explicate în relație cu o lume bazată de date. Este explicat modul în care se poate îmbina domeniul data science, caracterizat în general de abilități tehnice (”hard skills”) cu abilitățile soft, și care sunt avantajele combinării celor două.

Go to course

Parteneri

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI