DataScience Training



Data Science & Impactul Social: Ob?inerea rezultatelor pozitive
Feedback form    |       Redare audio    |   Download:    |   


Data Science & Impactul Social: Ob?inerea rezultatelor pozitive

Introducere

Ob?inerea rezultatelor pozitive Click to read  

Data Science ?i AI au o mare varietate de aplica?ii cu impact social pozitiv. De exemplu, data science este util? pentru a investiga modul în care re?elele sociale influen?eaz? drepturile omului. Pe de alt? parte, data science ?i aplica?iile AI implic?, de asemenea, riscuri pentru s?n?tate, siguran??, mediu ?i drepturile omului. Prejudec??ile ?i discriminarea, preocup?rile legate de confiden?ialitate ?i efectele nocive asupra mediului sunt doar câteva dintre efectele posibile.

Pentru a ne asigura c? aplica?iile de data science aduc beneficii oamenilor ?i planetei, este necesar s? se în?eleag? atât capacit??ile, cât ?i riscurile acestora. În acest curs, vor fi introduse ambele aspecte ?i, de asemenea, vor fi introduse ?i unele metode de adresare a riscurilor.
 

Utilizarea data science pentru binele social

Prezentare general? a cazurilor n care se poate utiliza data science pentru binele general Click to read  

Exemple din industrie

• Detectarea adiacen?ei abilit??ilor ?i formarea ?intit? a abilit??ilor lips?: SkillsFuture Singapore, https://www.skillsfuture.gov.sg/AboutSkillsFuture
• Reducerea amprentei de carbon a o?elului reciclat: Fero Labs folose?te inteligen?a artificial? pentru a ajuta produc?torii de o?el s? reduc? utilizarea ingredientelor extrase cu pân? la 34%, prevenind producerea a aproximativ 450.000 de tone de emisii de CO2 pe an:  https://gpai.ai/projects/responsible-ai/environment/climate-change-and-ai.pdf
• Înc?rcarea adaptiv? înl?tur? barierele în calea adopt?rii vehiculelor electrice. Înc?rcarea bi-direc?ionala ?i tehnologiile ”de la vehicul la re?ea” au nevoie de algoritmi de programare inteligen?i.  https://ev.caltech.edu/info

• Utilizarea AI pentru a detecta munca for?at? în lan?ul de aprovizionare: https://www.altana.ai/blog/illuminating-xinjiang-forced-labor-ecosystem

• Utilizarea Machine learning poate cre?te valoarea energiei eoliene:  https://www.deepmind.com/blog/machine-learning-can-boost-the-value-of-wind-energy

 

Cazul Amnesty Italy Click to read  

Barometro dell‘Odio:  Monitorizare anual? a campaniilor Social Media din 2018.  

Care este tonul discursului online, în special al discu?iilor politice ?i legate de drepturile omului? În ce m?sur? intoleran?a ?i discriminarea modeleaz? peisajul re?elelor sociale ?i care este impactul asupra grupurilor dezavantajate?

Data Science în serviciul evalu?rii impactului asupra drepturilor omului.

Modalit??i:

ØCon?inut public desc?rcat via Twitter ?i Facebook, prin intermediul API
ØColectat dintr-o list? de conturi/profiluri publice determinate de Amnesty Italy
ØMonitorizare de 4-8 s?pt?mâni (excep?ie: 2021 cu 16 s?pt?mâni de monitorizare)
ØE?ationare aleatorie a comentariilor din cele mai active conturi
Ø Între 30.000 ?i 100.000 de comentarii selectate în acest mod
ØEtichetare manual? de c?tre 50 – 150 voluntari preg?ti?i Amnesty: subiect ?i gradul caracterului ofensator
ØVerificare încruci?at? (acela?i comentariu etichetat de 2-3 voluntari) a tuturor comentariilor
Ø Rezolvarea etichet?rilor inconsistente ?i determinarea ?intei ?i a tipului de ofens?  - de c?tre exper?ii Amnesty („Tavolo dell‘Odio“)
 

Exemplu: Alegerile Parlamentare Europene 2019

Au fost monitorizate profilurile publice de Twitter ?i Facebook a 461 de candida?i, plus liderii de partid.

Ø6 s?pt?mâni (din 15 Aprilie pân? la  24 Mai, 2019)
ØPeste 27 de mii de post?ri ?i 4 milioane de comentarii au fost colectate
ØAvând în vedere volumul mare de comentarii, a trebuit s? se fac? o selec?ie a feed-urilor politicienilor care s? fie evaluate. Criteriile au fost: amploarea activit??ii pe re?elele de socializare, asigurând în acela?i timp o reprezentare a tuturor partidelor, a tuturor regiunilor ?i a cel pu?in o femeie/b?rbat per partid. Ca urmare, au fost evaluate feed-urile a 77 de politicieni.
Ø80% din post?ri ?i o e?antionare aleatorie de 100 de mii de comentarii au fost etichetate de 150 de voluntari Amnesty 
 

Discursul de Ur? nu este distribuit aleator: Fiecare dreptunghi are exact acela?i num?r ?i dimensiune a punctelor albastre

Conform datelor Amnesty Italia, prevalen?a discursului de ur? este de aproximativ 1%. Dar tinde s? se concentreze asupra anumitor grupuri ?i subiecte. De asemenea, are vârfuri de concentrare în anumite perioade.

Topicuri ”fierbin?i”: Migra?ie/Refugia?i/Azilan?i; Roma; Minorit??i religioase; Femei ?i drepturile femeilor, ...

Discursul ofensator este:

ØUn catalizator pentru ?i mai mult discurs ofensator
ØMai popular: în medie, post?rile ofensatoare atrag mai multe interac?iuni – distribuiri, reac?ii, r?spunsuri
ØUn obstacol pentru libertatea de expresie: în timpul perioadei de monitorizare (Noiembrie – Decembrie 2019) pentru edi?ia„Sessismo da Tastiera“,  s-a observat c? trei femei au fost ?int? ?i dou? femei au fost înl?turate de pe platformele social medie prin campanii de ur?. 
Øhttps://www.amnesty.it/barometro-dellodio-sessismo-da-tastiera/#sintesi
ØReport, p.20
 

 

Data science nu face ntotdeauna bine

Exemple majore cunoscute Click to read  

Prejudecat?, discriminare, stereotipuri … 

ØZiad Obermeyer et al. Dissecting racial bias in an algorithm used to manage the health of populations. https://science.sciencemag.org/content/366/6464/447
ØThe Guardian, Amazon a renun?at la instrumentul de recrutare AI care favoriza b?rba?ii pentru joburi tehnice, Octombrie, 2018. 
https://www.theguardian.com/technology/2018/oct/10/amazon-hiring-ai-gender-bias-recruiting-engine
ØDup? Gorilele Google vin Primatele Facebook:  Facebook î?i cere scuze dup? ce AI eticheteaza drept ”Primate” videoclipuri cu b?rba?i de culoare, Septembrie 2021.  https://www.nytimes.com/2021/09/03/technology/facebook-ai-race-primates.html
 
Prejudecat?, discriminare, stereotipuri … munc?, ?i mediu
ØSemuels, A., Internetul permite un nou tip de ias prost pl?tit, în The Atlantic, 23 Ianuarie, 2018.  
https://www.theatlantic.com/business/archive/2018/01/amazon-mechanical-turk/551192/
ØGeiger, G., Curtea decide Deliveroo a folosit un algoritm ‘Discriminatoriu’, Motherboard, Ianuarie 2021. 
https://www.vice.com/en/article/7k9e4e/court-rules-deliveroo-used-discriminatory-algorithm
ØHao, K., Antrenarea unui singur model AI poate emite la fel de mult carbon cât cinci ma?ini în timpul vie?ii lor, în MIT Technology Review,  6 Iunie, 2019 
https://www.technologyreview.com/s/613630/training-a-single-ai-model-can-emit-as-much-carbon-as-five-cars-in-their-lifetimes/
 
Fii un detectiv de impar?ialitate

Da, po?i încerca acest experiment acas?!*

 

Introdu urm?torul text în Google Translate ?i tradu din Englez? în German?:
 

Englez?:  My doctor is clever. She immediately found the solution

Google German?:

 

Englez?:  My secretary is clever. He immediately found the solution

Google German?:

*Hat tip Liad Magen pentru idee

 

 

 

Prezentare general? a principalelor riscuri Click to read  

Aplica?iile Data science nu sunt  nici obiective, nici neutre:

De la utilizarea robo?ilor pentru a crea nuduri deepfake nudes peTelegram, generarea de avatare sexualizate ale femeilor (dar nu ale b?rba?ilor), nedezvoltarea de func?ionalit??i  utile unui anumit grup de persoane sau subminarea identit??ii de gen prin clasificare binar?, aplica?iile Data Science pot provoca daune.

ØReflecta?i la ce poate face aplica?ia dvs., pentru ce este utilizat?, cine este inclus/exclus ?i cine ar putea fi afectat în moduri diferite - consecin?ele pot avea multiple ramifica?ii!
 
Aplica?iile date science nu sunt perfecte ?i erorile lor nu sunt distribuite aleator:
 

Algoritmii de clasificare de gen care utilizeaz? recunoa?terea facial?, clasificau în mod frecvent gre?it femeile cu pielea mai închis? decât b?rba?ii (?i femeile) cu pielea mai deschis?. Acest lucru se datora faptului c? seturile de date pe care modelele investigate de Joy Buolamwini ?i Timnit Gebru au fost instruite con?ineau o pondere dispropor?ionat? de imagini cu b?rba?i ?i femei cu pielea deschis? la culoare

Cite?te aici studiul din 2018 al celor doi speciali?ti în analiza datelor!

Algoritmii utiliza?i pentru a detecta discursul ofensator pe platformele online aveau mai multe ?anse s? clasifice tiparele de vorbire comune în rândul americanilor de culoare ca fiind ofensatoare – iar seturile de date au afi?at, în mod similar, o p?rtinire larg r?spândit? fa?? de engleza afro-american?. Aceasta arat? cât de important? este etichetarea setului de date: dac? datele sunt etichetate într-un mod p?rtinitor, rezultatele vor fi ?i ele p?rtinitoare.

Cite?te aici articolul din 2019 ?i cele dou? studii la care face referire!

 

În plus, aplica?iile Data Science pot consuma foarte mult date, implicând diferite probleme:

ØConfiden?ialitate
ØProtec?ia datelor 
ØCalitate slab? a datelor (”garbage in, garbage out”)
 
 
Etic? – Ghiduri
 

 

 

Trustworthy AI

AI de ncredere Click to read  

HLEG UE a stabilit urm?toarele caracteristici ale unui sistem de AI de încredere, bazat pe Carta drepturilor fundamentale a UE:
(1) agen?ie uman? ?i supraveghere, 

(2) robuste?e tehnic? ?i siguran??, 

(3) confiden?ialitate ?i guvernan?a datelor, 

(4) transparen??, 

(5) diversitate, nediscriminare ?i corectitudine, 

(6) bun?starea mediului ?i a societ??ii ?i 

(7) responsabilitate

 

Prejudec??i, echitate, nediscriminare Click to read  

ØCe este prejudecata (bias)?  

în contextul Data Science ?i al înv???rii automate în general, multe defini?ii diferite ale p?rtinirii se întâlnesc ?i se pot contrazice (utilizare colocvial? vs. Statistic? vs. Deep Learning)
În contextul unui AI de încredere, vom considera p?rtinirea (bias) drept o prejudecat? care favorizeaz? un grup în detrimentul altuia.

ØCe este echitatea?
 

Prejudecat? social? 

Prejudecat? de confirmare

Prejudecat? de grup

Prejudecat? automat?

Prejudecat? temporal?

Denaturare determinat? de variabile omise

Erori de e?antionare (sampling bias)

Erori de reprezentare

Erori de m?surare

Erori de evaluare    ... ?i altele ...

 

Cum poate fi detectat? ?i m?surat? p?rtinirea?

Primul pas, verificarea calit??ii datelor.

?i apoi ... 

 

... De fapt, se poate detecta doar ca efect asupra rezultatelor modelului

Prin m?surare cu o Metric? de Echitate!

 

 

Metrici de echitate Click to read  

Corectitudinea grupului

Paritate statistic? condi?ionat?

Rata de eroare fals pozitiv?

Rata de eroare fals negativ?

Rata de acurate?e a utiliz?rii condi?ionate

Rata de acurate?e general?

Corectitudinea testelor

Calibrarea corect?

Echitate prin necon?tientizare

Corectitudine contrafactual?    ... ?i multe altele ...

 

Propor?ia de riscuri ridicate prezise corect este aceea?i, indiferent de criteriile demografice

Paritate predictiv?

(Toate grupurile au aceea?i PPV)

În cadrul fiec?rei categorii de risc real, procentul de predic?ii false este egal pentru fiecare grup demografic

 

Cote egalizate

(Toate grupurile au acela?i FNR ?i acela?i FPR)

 

Ce defini?ie ai spune c? este echitabil??

Ce se întâmpl? când prevalen?a riscului ridicat este mai mare pentru un grup decât pentru altul?

Dac? p este propor?ia indivizilor cu risc ridicat în popula?ie:

.... Atunci aceast? formula ne spune c? nu putem avea

atât cote egalizate, cât ?i paritate predictiv?

Pentru a în?elege de ce, s? presupunem c? atât cotele egalizate, cât ?i paritatea predictiv? sunt adev?rate. Introduce?i în formul? ?i câteva elemente de algebr? v? vor ar?ta c? atunci prevalen?a p ar trebui s? fie aceea?i pentru ambele popula?ii ... 

S? ne amintim un exemplu larg dezb?tut:

În mai 2016, ProPublica a publicat un articol care indica faptul c? predic?iile realizate de un model larg r?spândit pentru recidivism (COMPAS), erau p?rtinitoare:
https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing


Pentru explica?ii în detaliu, vezi:

Julia Dressel and Hany Farid, The accuracy, fairness, and limits of predicting recidivism, Science Advances, 17 Jan 2018: Vol. 4, no. 1. https://advances.sciencemag.org/content/4/1/eaao5580.full https://advances.sciencemag.org/content/4/1/eaao5580.full
 
 

PARITATE PREDICTIV?

Propor?ia cazurilor cu risc ridicat previzionate corect este aceea?i indiferent de grupul demografic

 

Toate grupurile au acela?i PPV

 

Northpointe spune... este echitabil, deoarce în fiecare categorie de risc, propor?ia inculapa?ilor care recidiveaz? este aproximativ aceea?i indiferent de ras?

 

COTE EGALIZATE

Toate grupurile au FNR ?i FPR egale

ProPublica spune … nu este echitabil, deoarece în cazul inculpa?ilor care în cele din urm? nu au recidivat, cei de culoare au fost de dou? ori mai probabil decât cei albi s? fie clasifica?i cu risc mediu sau ridicat (42% vs. 22%)

 

Rata general? de recidiv? pentru inculpa?ii de culoare este mai mare decât cea pentru inculpa?ii albi (52 de procente vs. 39 de procente)

Rata de recidiv? general? pentru inculpa?ii de culoare este mai mare decât pentru cei albi (52 procente vs. 39 de procente)
A?a cum am v?zut mai devreme, când dou? popula?ii au prevalen?e diferite, Cotele Egalizate ?i paritatea predictiv? nu pot fi simultan adev?rate.
Deci ce defini?ie a echit??ii este corect??

Problema ...

Rata general? de recidiv? pentru inculpa?ii de culoare este mai mare decât pentru inculpa?ii albi (52 procente vs. 39 procente)

... Este prejudecata sistemic?

Poate fi periculos s? implementezi sisteme automatizate pentru a lua sau a sprijini decizii în contexte sociale în care prejudec??ile sunt profund înr?d?cinate. 

Implicarea diferitelor p?r?i interesate ?i a exper?ilor din diferite domenii, în decizia privind metrica de echitate utilizat? este una vital?.

?i, în sfâr?it, re?ine?i c?, uneori, data science ar putea s? nu fie abordarea potrivit?...



Keywords

Impact Social, Date pentru binele general, metrici de echitate, monitorizarea social media

Objectives/goals:

1.    Utilizarea data science pentru binele social

2.    În?elegerea principalelor riscuri ale tehnologiei ?i identificarea exemplelor

3.    S? fi?i capabili s? enumera?i caracteristicile ”AI de încredere”

4.    S? în?elege?i provoc?rile m?sur?rii echit??ii


Description:

În acest curs, vom arunca o privire asupra numeroaselor aplica?ii ale Data Science care pot face lumea un loc mai bun. Vom intra apoi în detaliu asupra monitoriz?rii re?elelor sociale efectuate în numele Amnesty International Italia, pentru a în?elege cum poate func?iona o astfel de aplica?ie.
În sec?iunea urm?toare, vom explora unele dintre efectele d?un?toare pe care le pot avea Data Science ?i AI (Inteligen?a Artificial?). Acest lucru ne va ajuta s? în?elegem de ce este nevoie ca sistemele AI s? fie de încredere.
În cele din urm?, ne vom familiariza cu unele dintre provoc?rile m?sur?torilor sau metricilor de echitate ?i vom vedea ce pot însemna aceste metrici în practic?.

Bibliography


Related training material

Parteneri

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI