DataScience Training



Teoria E?antion?rii
Feedback form    |       Redare audio    |   Download:    |   


Teoria E?antion?rii

Introducere

Introducere Click to read  

În analiza statistic?, o popula?ie este un set de date pentru care dorim s? tragem anumite concluzii. Un sondaj este o procedur? prin care ob?inem datele care urmeaz? s? fie analizate. Sondajele se pot baza pe întreaga popula?ie (bazate pe recens?mânt) sau am putea dori s? select?m un subgrup reprezentativ al acestei popula?ii. Acest subgrup este definit drept "e?antion" dac? structura sa reflect? aceea?i structur? ca ?i în cazul popula?iei, iar datele colectate în urma sondajelor se numesc ”date bazate pe e?antion”.

De ce s? colectezi seturi de date sub forma unui e?antion în loc s? investighezi întreaga popula?ie (anchete bazate pe recens?mânt)? Anchetele bazate pe recens?mânt sunt necesare în cazul cercet?rilor de num?rare ?i al cercet?rilor aprofundate, dar necesit? utilizarea unor resurse uria?e, ceea ce duce la costuri ridicate. Dimpotriv?, anchetele pe baz? de e?antion sunt adecvate în cazul în care popula?ia este omogen?, deoarece acestea vor constitui o bun? reprezentare a popula?iei. În plus, acestea sunt singura op?iune atunci când popula?ia este infinit? ?i se afl? în proces de distrugere a informa?iilor. În orice caz, e?antioanele economisesc timp ?i costuri.

În termeni practici, în mod normal, nu dispunem de resursele necesare pentru a efectua studii bazate pe recens?mânt (popula?ie), astfel încât alternativa este de a ne baza analiza pe e?antioane. Bazarea concluziilor noastre pe date din e?antioane, implic? faptul c? va exista o marj? de eroare implicit?, asupra c?reia pot avea un impact mai mul?i factori.

Marja de eroare va depinde, în principiu, de trei factori determinan?i:

 

a. Cât de omogene sunt datele în cadrul popula?iei: cu cât sunt mai eterogene, toate celelalte lucruri fiind egale, cu atât marja de eroare este mai mare.
b. Marimea e?antionului: cu cât dimensiunea este mai mic?, toate celelalte lucruri fiind egale, cu atât marja de eroare este mai mare.
c.  Tehnica de e?antionare: se alege în func?ie de caracteristicile datelor dumneavoastr?.

 

Nu putem face prea multe în ceea ce prive?te punctul (a), dar exist? o anumit? posibilitate de a interveni la punctele (b) ?i (c). În ceea ce prive?te punctul (c), este important de men?ionat c? exist? o mare varietate de tehnici de e?antionare disponibile pe care le putem aplica. Diagrama de mai jos prezinta aceasta varietate in termini vizuali:

Putem controla marja de eroare a concluziilor noastre doar dac? lucr?m cu e?antioane aleatorii, iar cele mai frecvente tehnici de e?antionare aleatorie sunt e?antionul aleatoriu simplu ?i e?antionul aleatoriu stratificat.

 

 

 
 

 

Tehnici de e?antionare

E?antionare aleatorie simpl? Click to read  

E?antionarea aleatorie simpl? este cea mai elementar? tehnic? de e?antionare care se bazeaz? pe selectarea aleatorie a observa?iilor studiate. Ea const? în selectarea aleatorie a n unit??i din popula?ie, pornind de la o list? de unit??i ale popula?iei. Dar chiar ?i în cadrul acestei tehnici simple, se pot decide unele particularit??i ale procesului de selec?ie aleatorie. De exemplu, putem decide dac? e?antionarea va avea loc cu sau f?r? înlocuire. În cazul în care e?antionarea se realizeaz? cu înlocuire, aceasta înseamn? c? fiecare unitate selectat? aleatoriu pentru a face parte din e?antion este repus? în popula?ie dup? fiecare tragere la sor?i a selec?iei aleatorii. Acest lucru implic?, în mod evident, c? o unitate poate fi selectat? de mai multe ori, dar garanteaz? c? condi?iile în care are loc fiecare extragere de selec?ie sunt egale ?i constante, iar rezultatele fiec?reia dintre ele sunt independente una de cealalt?.
Dimpotriv?, în cazul în care se efectueaz? o e?antionare aleatorie simpl? f?r? înlocuire, fiecare unitate este e?antionat? o singur? dat?, dar nu putem garanta c? condi?iile sunt constante de-a lungul selec?iei.  E?antionarea cu ?i f?r? înlocuire poate produce rezultate semnificativ diferite pentru popula?iile mici. Ele sunt echivalente numai dac? dimensiunea popula?iilor (N) este foarte mare.

 

E?antionare stratificat? Click to read  

În multe ocazii, observa?iile sunt grupate în mod natural pe baza caracteristicilor pe care le au în comun. De exemplu, datele privind distribu?ia salariilor sunt grupate în func?ie de sectorul economic al lucr?torilor, de sexul acestora sau de regiunea de re?edin??. Straturile sunt definite ca p?r?i ale popula?iei de interes care prezint? o mare omogenitate intern?, chiar dac? exist? o mare variabilitate între straturi. E?antionarea stratificat? profit? de aceste grup?ri ale observa?iilor ?i selecteaz? aleatoriu un num?r de unit??i pe fiecare strat L (nL), astfel încât dimensiunea total? a e?antionului s? fie ob?inut? prin însumarea elementelor e?antionate pe fiecare strat. Exist? mai multe criterii de repartizare a m?rimii totale a e?antionului pe straturi, cele mai frecvente fiind urm?toarele:

  • Uniform: aceea?i dimensiune a e?antionului pe orice strat
  • Propor?ional: propor?ia membrilor e?antionului este aceea?i cu propor?ia membrilor popula?iei din fiecare strat.
  • Optim: propor?ional cu m?rimea ?i eterogenitatea (varian?a) pe fiecare strat.

În acelea?i condi?ii ?i cu acelea?i cerin?e de precizie ?i încredere, putem afirma c?, în general, e?antionarea stratificat? necesit? o dimensiune mai mic? a e?antionului decât e?antionarea simpl?, dar aspectele legate de calcularea dimensiunilor e?antionului vor fi detaliate la punctul urm?tor.

 

 

 

 

Calcularea m?rimii optime a e?antioanelor

Calculating Optimal Sample Sizes Click to read  

The golden rule in terms of relating the sample size with the precision of our estimates is that the larger the same size, all other things being equal, the smaller the margin of error. However, getting statistical data, even if it is in the form of a sample, can be costly and sometimes we do not have resources to have large samples. As a consequence, there is a compromise solution that sets the optimal (minimum) sample size that we need, given our requirements in terms of precision (margin of error) and confidence of our estimates, and the heterogeneity (variance) of the variable of interest in the population.

Regula: cu cât dimensiunea e?antionului este mai mare, cu atât marja de eroare este mai mic?

 
 

 

Solu?ie pentru e?antionare simpl? Click to read  

S? presupunem mai întâi c? dorim ca e?antionul nostru s? estimeze o medie a popula?iei pentru o variabil? continu?, iar e?antionul nostru va fi selectat prin e?antionare aleatorie simpl?. Formulele pe care trebuie s? le aplic?m sunt urm?toarele: 
 
Constanta ? provine dintr-o distribu?ie normal? ?i devine mai mare dac? cre?tem nivelul de încredere dorit, iar simbolul ? reprezint? marja de eroare pe care suntem dispu?i s? ne-o asum?m. În plus, trebuie s? facem ?i o presupunere privind omogenitatea variabilei în popula?ie. Acest lucru implic? faptul c? trebuie s? impunem o valoare realist? (de obicei provenind dintr-un studiu anterior) pentru varian?a ?2 a popula?iei.
În aceste ecua?ii, ?* este solu?ia pentru o e?antionare aleatorie simpl? cu înlocuire, ? este solu?ia pentru o e?antionare aleatorie simpl? f?r? înlocuire, iar N este dimensiunea popula?iei. În general, n*≥n, iar ambele solu?ii converg atunci când N este foarte mare.
În mod similar, dac? ne intereseaz? s? estim?m propor?ia (P) de unit??i dintr-o popula?ie care de?in o anumit? caracteristic?, formulele necesare pentru a g?si dimensiunile optime ale e?antionului în aceast? tehnic? de e?antionare sunt:

 
 
Din nou, constanta ? provine dintr-o distribu?ie normal? ?i devine mai mare dac? cre?tem nivelul de încredere dorit, iar termenul ? reprezint? marja de eroare pe care suntem dispu?i s? ne-o asum?m. În acest caz, Trebuie s? facem ?i o presupunere privind valoarea lui P*(1-P), care reprezint? varian?a unei variabile binare (da/nu). Solu?ia obi?nuit? este s? presupunem c? P=1-P=0,5, astfel încât P*(1-P)=0,25 ia valoarea maxim?.
Putem ilustra aceast? tehnic? prin prezentarea unui exemplu practic privind modul în care se determin? dimensiunile e?antioanelor ?i cum ne poate ajuta aplicarea R în aceast? privin??: Serviciul public de radiodifuziune (PBS) din SUA estimeaz? în mod regulat procentul de cet??eni care aprob? sau dezaprob? activitatea pre?edintelui. În cazul pre?edintelui Joe Biden, ace?tia efectueaz? aceste sondaje din luna ianuarie 2021. Urm?torul grafic arat? evolu?ia estim?rilor lor:
 
 
 
 
Într-un sondaj recent din aceast? serie, PBS a dorit s? aib? estim?ri cu un nivel de încredere de 99%, a fost dispus s? aib? o marj? de eroare de ±4,4% ?i a presupus cel mai r?u scenariu (solu?ia obi?nuit?) ?i a presupus c? procentul de oameni care aprob? (P) este acela?i cu procentul de oameni care nu aprob? (1-P). Care ar fi num?rul de cet??eni care ar trebui s? fie e?antiona?i în aceste condi?ii? Ecua?iile afi?ate mai sus pot fi implementate în limbajul R pentru a g?si o solu?ie. 
Mai întâi trebuie s? instal?m ?i s? înc?rc?m pachetele necesare:
 
Mai departe, putem g?si aceast? dimensiune optim? a e?antionului prin apelarea func?iei "sample.size.prop" din pachet. Aceast? func?ie permite o e?antionare cu sau f?r? înlocuire, de?i nu se vor g?si diferen?e practice între solu?ia acestor dou? alternative, având în vedere dimensiunea mare a popula?iei (N) din care sunt extrase e?antioanele (putem presupune în mod arbitrar c? N=200.000.000). Urm?toarele p?r?i de cod calculeaz? solu?iile respective pentru o e?antionare f?r? ?i cu înlocuire:
 
 
În ambele cazuri, se g?se?te ca solu?ie o dimensiune a e?antionului de aproximativ 1.000 de unit??i.
 
Solu?ie pentru e?antionarea stratificat? Click to read  

În acest capitol se detaliaz? formulele de calcul al m?rimilor e?antioanelor în cazul e?antion?rii stratificate. Din ra?iuni de simplitate ?i claritate, ne vom axa doar pe cazul estim?rii mediei unei popula?ii ?i vom oferi cele mai frecvente dou? solu?ii, care corespund cazurilor de reparti?ie propor?ional? (1) ?i reparti?ie optim? (2):

 

Dup? cum s-a comentat mai sus, în ambele cazuri, formula corespunde estim?rii mediei popula?iei pentru o variabil? continu? cu o e?antionare stratificat? f?r? înlocuire. În aceste expresii, Nj reprezint? dimensiunea stratului j ?i ?2j reprezint? varian?a variabilei pe acela?i strat.
În mod similar cu solu?iile detaliate pentru e?antionarea aleatorie simpl?, putem ilustra modul în care se calculeaz? dimensiunile optime ale e?antioanelor în cazul e?antion?rii stratificate prin prezentarea unui exemplu practic cu ajutorul limbajului R.
S? presupunem c? o organiza?ie de caritate efectueaz? un sondaj prin sondaj pentru a studia dona?iile anuale f?cute de membrii s?i, care sunt clasifica?i în trei grupe diferite în func?ie de vârsta lor, cu 100, 700 ?i 200 de membri fiecare. În urma unui studiu pilot, aceast? organiza?ie caritabil? ?tie c? abaterile standard respective (?j) ale dona?iilor anuale din fiecare grup sunt de 6, 30 ?i 12 EUR. Dorim s? afl?m dimensiunea minim? a e?antionului necesar pentru a estima dona?ia anual? medie, stabilind o marj? de eroare de 2 EUR ?i un nivel de încredere de 95%.
Urm?toarele linii de cod vor calcula dimensiunea optim? a e?antionului, oferind solu?iile pentru cazul unei aloc?ri propor?ionale ?i optime, prin apelarea func?iei "stratasize" inclus? în pachetul "samplingbook" din R:

 

Solu?iile respective sunt de 390 ?i 339 de unit??i, dup? cum se detaliaz? mai jos:

 

În cele din urm?, putem s? ne întreb?m care dintre aceste dou? m?rimi de e?antion vor fi alocate între straturi, Acest lucru poate fi f?cut prin apelarea func?iei "stratasamp" din acela?i pachet:

Rezult? solu?iile:

 

 

 

 



Keywords

Colectare de date, inferență statistică, estimare, determinarea dimensiunii eșantionului, eșantionare aleatorie simplă, eșantionare stratif&

Objectives/goals:

Scopul acestui modul este de a introduce ?i de a explica elementele de baz? ale teoriei e?antion?rii.



La sfâr?itul acestui modul, ve?i fi preg?ti?i s?:




  • În?elege?i diferen?ele dintre popula?ie ?i e?antioane

  • Cunoa?te?i cele mai des aplicate tehnici de e?antionare



G?si?i m?rimea optim? a e?antioanelor


Description:

În acest modul de specializare ve?i face cuno?tin?? cu elementele de baz? ale teoriei e?antion?rii. În leg?tur? cu teoria inferen?ei statistice, mai exact cu instrumentele care permit calcularea intervalelor de încredere, vom studia procedurile utilizate pentru a g?si m?rimea optima ale e?antioanelor, în func?ie de caracteristica care urmeaz? s? fie estimat? ?i de tehnica de e?antionare utilizat?.

În acest modul vom studia diferen?ele dintre datele bazate pe e?antion ?i datele bazate pe popula?ie, precum ?i cele mai des aplicate tehnici de e?antionare: e?antionarea simpl? ?i stratificat?. În plus, vom explora regulile pentru g?sirea dimensiunilor optime ale e?antionului, condi?ionate de anumite obiective legate de încrederea ?i marja de eroare pe care dorim s? le avem în inferen?ele noastre.

Bibliography

NEWBOLD, P. et al. (2008): Statistics for Management and Economics, (6th edition) Ed. Prentice Hall. Chapter 20, pp. 763-784.


Related training material

Parteneri

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI