DataScience Training



Data Science & Impactul Social: Obținerea rezultatelor pozitive
Feedback form    |       Redare audio    |   Download:    |   


Data Science & Impactul Social: Obținerea rezultatelor pozitive

Introducere

Obținerea rezultatelor pozitive Click to read  

Data Science și AI au o mare varietate de aplicații cu impact social pozitiv. De exemplu, data science este utilă pentru a investiga modul în care rețelele sociale influențează drepturile omului. Pe de altă parte, data science și aplicațiile AI implică, de asemenea, riscuri pentru sănătate, siguranță, mediu și drepturile omului. Prejudecățile și discriminarea, preocupările legate de confidențialitate și efectele nocive asupra mediului sunt doar câteva dintre efectele posibile.

Pentru a ne asigura că aplicațiile de data science aduc beneficii oamenilor și planetei, este necesar să se înțeleagă atât capacitățile, cât și riscurile acestora. În acest curs, vor fi introduse ambele aspecte și, de asemenea, vor fi introduse și unele metode de adresare a riscurilor.
 

Utilizarea data science pentru binele social

Prezentare generală a cazurilor în care se poate utiliza data science pentru binele general Click to read  

Exemple din industrie

• Detectarea adiacenței abilităților și formarea țintită a abilităților lipsă: SkillsFuture Singapore, https://www.skillsfuture.gov.sg/AboutSkillsFuture
• Reducerea amprentei de carbon a oțelului reciclat: Fero Labs folosește inteligența artificială pentru a ajuta producătorii de oțel să reducă utilizarea ingredientelor extrase cu până la 34%, prevenind producerea a aproximativ 450.000 de tone de emisii de CO2 pe an:  https://gpai.ai/projects/responsible-ai/environment/climate-change-and-ai.pdf
• Încărcarea adaptivă înlătură barierele în calea adoptării vehiculelor electrice. Încărcarea bi-direcționala și tehnologiile ”de la vehicul la rețea” au nevoie de algoritmi de programare inteligenți.  https://ev.caltech.edu/info

• Utilizarea AI pentru a detecta munca forțată în lanțul de aprovizionare: https://www.altana.ai/blog/illuminating-xinjiang-forced-labor-ecosystem

• Utilizarea Machine learning poate crește valoarea energiei eoliene:  https://www.deepmind.com/blog/machine-learning-can-boost-the-value-of-wind-energy

 

Cazul Amnesty Italy Click to read  

Barometro dell‘Odio:  Monitorizare anuală a campaniilor Social Media din 2018.  

Care este tonul discursului online, în special al discuțiilor politice și legate de drepturile omului? În ce măsură intoleranța și discriminarea modelează peisajul rețelelor sociale și care este impactul asupra grupurilor dezavantajate?

Data Science în serviciul evaluării impactului asupra drepturilor omului.

Modalități:

ØConținut public descărcat via Twitter și Facebook, prin intermediul API
ØColectat dintr-o listă de conturi/profiluri publice determinate de Amnesty Italy
ØMonitorizare de 4-8 săptămâni (excepție: 2021 cu 16 săptămâni de monitorizare)
ØEșationare aleatorie a comentariilor din cele mai active conturi
Ø Între 30.000 și 100.000 de comentarii selectate în acest mod
ØEtichetare manuală de către 50 – 150 voluntari pregătiți Amnesty: subiect și gradul caracterului ofensator
ØVerificare încrucișată (același comentariu etichetat de 2-3 voluntari) a tuturor comentariilor
Ø Rezolvarea etichetărilor inconsistente și determinarea țintei și a tipului de ofensă  - de către experții Amnesty („Tavolo dell‘Odio“)
 

Exemplu: Alegerile Parlamentare Europene 2019

Au fost monitorizate profilurile publice de Twitter și Facebook a 461 de candidați, plus liderii de partid.

Ø6 săptămâni (din 15 Aprilie până la  24 Mai, 2019)
ØPeste 27 de mii de postări și 4 milioane de comentarii au fost colectate
ØAvând în vedere volumul mare de comentarii, a trebuit să se facă o selecție a feed-urilor politicienilor care să fie evaluate. Criteriile au fost: amploarea activității pe rețelele de socializare, asigurând în același timp o reprezentare a tuturor partidelor, a tuturor regiunilor și a cel puțin o femeie/bărbat per partid. Ca urmare, au fost evaluate feed-urile a 77 de politicieni.
Ø80% din postări și o eșantionare aleatorie de 100 de mii de comentarii au fost etichetate de 150 de voluntari Amnesty 
 

Discursul de Ură nu este distribuit aleator: Fiecare dreptunghi are exact același număr și dimensiune a punctelor albastre

Conform datelor Amnesty Italia, prevalența discursului de ură este de aproximativ 1%. Dar tinde să se concentreze asupra anumitor grupuri și subiecte. De asemenea, are vârfuri de concentrare în anumite perioade.

Topicuri ”fierbinți”: Migrație/Refugiați/Azilanți; Roma; Minorități religioase; Femei și drepturile femeilor, ...

Discursul ofensator este:

ØUn catalizator pentru și mai mult discurs ofensator
ØMai popular: în medie, postările ofensatoare atrag mai multe interacțiuni – distribuiri, reacții, răspunsuri
ØUn obstacol pentru libertatea de expresie: în timpul perioadei de monitorizare (Noiembrie – Decembrie 2019) pentru ediția„Sessismo da Tastiera“,  s-a observat că trei femei au fost țintă și două femei au fost înlăturate de pe platformele social medie prin campanii de ură. 
Øhttps://www.amnesty.it/barometro-dellodio-sessismo-da-tastiera/#sintesi
ØReport, p.20
 

 

Data science nu face întotdeauna bine

Exemple majore cunoscute Click to read  

Prejudecată, discriminare, stereotipuri … 

ØZiad Obermeyer et al. Dissecting racial bias in an algorithm used to manage the health of populations. https://science.sciencemag.org/content/366/6464/447
ØThe Guardian, Amazon a renunțat la instrumentul de recrutare AI care favoriza bărbații pentru joburi tehnice, Octombrie, 2018. 
https://www.theguardian.com/technology/2018/oct/10/amazon-hiring-ai-gender-bias-recruiting-engine
ØDupă Gorilele Google vin Primatele Facebook:  Facebook își cere scuze după ce AI eticheteaza drept ”Primate” videoclipuri cu bărbați de culoare, Septembrie 2021.  https://www.nytimes.com/2021/09/03/technology/facebook-ai-race-primates.html
 
Prejudecată, discriminare, stereotipuri … muncă, și mediu
ØSemuels, A., Internetul permite un nou tip de ias prost plătit, în The Atlantic, 23 Ianuarie, 2018.  
https://www.theatlantic.com/business/archive/2018/01/amazon-mechanical-turk/551192/
ØGeiger, G., Curtea decide Deliveroo a folosit un algoritm ‘Discriminatoriu’, Motherboard, Ianuarie 2021. 
https://www.vice.com/en/article/7k9e4e/court-rules-deliveroo-used-discriminatory-algorithm
ØHao, K., Antrenarea unui singur model AI poate emite la fel de mult carbon cât cinci mașini în timpul vieții lor, în MIT Technology Review,  6 Iunie, 2019 
https://www.technologyreview.com/s/613630/training-a-single-ai-model-can-emit-as-much-carbon-as-five-cars-in-their-lifetimes/
 
Fii un detectiv de imparțialitate

Da, poți încerca acest experiment acasă!*

 

Introdu următorul text în Google Translate și tradu din Engleză în Germană:
 

Engleză:  My doctor is clever. She immediately found the solution

Google Germană:

 

Engleză:  My secretary is clever. He immediately found the solution

Google Germană:

*Hat tip Liad Magen pentru idee

 

 

 

Prezentare generală a principalelor riscuri Click to read  

Aplicațiile Data science nu sunt  nici obiective, nici neutre:

De la utilizarea roboților pentru a crea nuduri deepfake nudes peTelegram, generarea de avatare sexualizate ale femeilor (dar nu ale bărbaților), nedezvoltarea de funcționalități  utile unui anumit grup de persoane sau subminarea identității de gen prin clasificare binară, aplicațiile Data Science pot provoca daune.

ØReflectați la ce poate face aplicația dvs., pentru ce este utilizată, cine este inclus/exclus și cine ar putea fi afectat în moduri diferite - consecințele pot avea multiple ramificații!
 
Aplicațiile date science nu sunt perfecte și erorile lor nu sunt distribuite aleator:
 

Algoritmii de clasificare de gen care utilizează recunoașterea facială, clasificau în mod frecvent greșit femeile cu pielea mai închisă decât bărbații (și femeile) cu pielea mai deschisă. Acest lucru se datora faptului că seturile de date pe care modelele investigate de Joy Buolamwini și Timnit Gebru au fost instruite conțineau o pondere disproporționată de imagini cu bărbați și femei cu pielea deschisă la culoare

Citește aici studiul din 2018 al celor doi specialiști în analiza datelor!

Algoritmii utilizați pentru a detecta discursul ofensator pe platformele online aveau mai multe șanse să clasifice tiparele de vorbire comune în rândul americanilor de culoare ca fiind ofensatoare – iar seturile de date au afișat, în mod similar, o părtinire larg răspândită față de engleza afro-americană. Aceasta arată cât de importantă este etichetarea setului de date: dacă datele sunt etichetate într-un mod părtinitor, rezultatele vor fi și ele părtinitoare.

Citește aici articolul din 2019 și cele două studii la care face referire!

 

În plus, aplicațiile Data Science pot consuma foarte mult date, implicând diferite probleme:

ØConfidențialitate
ØProtecția datelor 
ØCalitate slabă a datelor (”garbage in, garbage out”)
 
 
Etică – Ghiduri
 

 

 

Trustworthy AI

AI de încredere Click to read  

HLEG UE a stabilit următoarele caracteristici ale unui sistem de AI de încredere, bazat pe Carta drepturilor fundamentale a UE:
(1) agenție umană și supraveghere, 

(2) robustețe tehnică și siguranță, 

(3) confidențialitate și guvernanța datelor, 

(4) transparență, 

(5) diversitate, nediscriminare și corectitudine, 

(6) bunăstarea mediului și a societății și 

(7) responsabilitate

 

Prejudecăți, echitate, nediscriminare Click to read  

ØCe este prejudecata (bias)?  

în contextul Data Science și al învățării automate în general, multe definiții diferite ale părtinirii se întâlnesc și se pot contrazice (utilizare colocvială vs. Statistică vs. Deep Learning)
În contextul unui AI de încredere, vom considera părtinirea (bias) drept o prejudecată care favorizează un grup în detrimentul altuia.

ØCe este echitatea?
 

Prejudecată socială 

Prejudecată de confirmare

Prejudecată de grup

Prejudecată automată

Prejudecată temporală

Denaturare determinată de variabile omise

Erori de eșantionare (sampling bias)

Erori de reprezentare

Erori de măsurare

Erori de evaluare    ... Și altele ...

 

Cum poate fi detectată și măsurată părtinirea?

Primul pas, verificarea calității datelor.

Și apoi ... 

 

... De fapt, se poate detecta doar ca efect asupra rezultatelor modelului

Prin măsurare cu o Metrică de Echitate!

 

 

Metrici de echitate Click to read  

Corectitudinea grupului

Paritate statistică condiționată

Rata de eroare fals pozitivă

Rata de eroare fals negativă

Rata de acuratețe a utilizării condiționate

Rata de acuratețe generală

Corectitudinea testelor

Calibrarea corectă

Echitate prin neconștientizare

Corectitudine contrafactuală    ... Și multe altele ...

 

Proporția de riscuri ridicate prezise corect este aceeași, indiferent de criteriile demografice

Paritate predictivă

(Toate grupurile au aceeași PPV)

În cadrul fiecărei categorii de risc real, procentul de predicții false este egal pentru fiecare grup demografic

 

Cote egalizate

(Toate grupurile au același FNR și același FPR)

 

Ce definiție ai spune că este echitabilă?

Ce se întâmplă când prevalența riscului ridicat este mai mare pentru un grup decât pentru altul?

Dacă p este proporția indivizilor cu risc ridicat în populație:

.... Atunci această formula ne spune că nu putem avea

atât cote egalizate, cât și paritate predictivă

Pentru a înțelege de ce, să presupunem că atât cotele egalizate, cât și paritatea predictivă sunt adevărate. Introduceți în formulă și câteva elemente de algebră vă vor arăta că atunci prevalența p ar trebui să fie aceeași pentru ambele populații ... 

Să ne amintim un exemplu larg dezbătut:

În mai 2016, ProPublica a publicat un articol care indica faptul că predicțiile realizate de un model larg răspândit pentru recidivism (COMPAS), erau părtinitoare:
https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing


Pentru explicații în detaliu, vezi:

Julia Dressel and Hany Farid, The accuracy, fairness, and limits of predicting recidivism, Science Advances, 17 Jan 2018: Vol. 4, no. 1. https://advances.sciencemag.org/content/4/1/eaao5580.full https://advances.sciencemag.org/content/4/1/eaao5580.full
 
 

PARITATE PREDICTIVĂ

Proporția cazurilor cu risc ridicat previzionate corect este aceeași indiferent de grupul demografic

 

Toate grupurile au același PPV

 

Northpointe spune... este echitabil, deoarce în fiecare categorie de risc, proporția inculapaților care recidivează este aproximativ aceeași indiferent de rasă

 

COTE EGALIZATE

Toate grupurile au FNR și FPR egale

ProPublica spune … nu este echitabil, deoarece în cazul inculpaților care în cele din urmă nu au recidivat, cei de culoare au fost de două ori mai probabil decât cei albi să fie clasificați cu risc mediu sau ridicat (42% vs. 22%)

 

Rata generală de recidivă pentru inculpații de culoare este mai mare decât cea pentru inculpații albi (52 de procente vs. 39 de procente)

Rata de recidivă generală pentru inculpații de culoare este mai mare decât pentru cei albi (52 procente vs. 39 de procente)
Așa cum am văzut mai devreme, când două populații au prevalențe diferite, Cotele Egalizate și paritatea predictivă nu pot fi simultan adevărate.
Deci ce definiție a echității este corectă?

Problema ...

Rata generală de recidivă pentru inculpații de culoare este mai mare decât pentru inculpații albi (52 procente vs. 39 procente)

... Este prejudecata sistemică

Poate fi periculos să implementezi sisteme automatizate pentru a lua sau a sprijini decizii în contexte sociale în care prejudecățile sunt profund înrădăcinate. 

Implicarea diferitelor părți interesate și a experților din diferite domenii, în decizia privind metrica de echitate utilizată este una vitală.

Și, în sfârșit, rețineți că, uneori, data science ar putea să nu fie abordarea potrivită...



Keywords

Impact Social, Date pentru binele general, metrici de echitate, monitorizarea social media

Objectives/goals:

1.    Utilizarea data science pentru binele social

2.    Înțelegerea principalelor riscuri ale tehnologiei și identificarea exemplelor

3.    Să fiți capabili să enumerați caracteristicile ”AI de încredere”

4.    Să înțelegeți provocările măsurării echității


Description:

În acest curs, vom arunca o privire asupra numeroaselor aplicații ale Data Science care pot face lumea un loc mai bun. Vom intra apoi în detaliu asupra monitorizării rețelelor sociale efectuate în numele Amnesty International Italia, pentru a înțelege cum poate funcționa o astfel de aplicație.
În secțiunea următoare, vom explora unele dintre efectele dăunătoare pe care le pot avea Data Science și AI (Inteligența Artificială). Acest lucru ne va ajuta să înțelegem de ce este nevoie ca sistemele AI să fie de încredere.
În cele din urmă, ne vom familiariza cu unele dintre provocările măsurătorilor sau metricilor de echitate și vom vedea ce pot însemna aceste metrici în practică.

Bibliography


Related training material

Parteneri

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI