curs statistica 2

8/19/2019 curs statistica 2

1/37

Indicatorii tendinţei centrale

- Indicatorii medii de poziţie -

Duminică, 1 Martie 2009


2/37

Mediana (Me) (1)

Avantaj: Spre deosebire de medii, Me nu este aşade influenţată de apariţia valorilor extreme

Mod de calcul:

1. Se ordonează crescător seria de date

2. Se calculează poziţia (locul) Medianei

3. În funcţie de forma datelor disponibile vom avea:

[ ]1)(21

+= ∑ inlocMe


3/37

Mediana (Me) (2)

Pentru un şir simplu de valori: – cu un număr impar de termeni

Me este valoarea de rang locMe dinşirul ob

ţinut la

pasul 2

– cu un număr par de termeni Nu există un termen central. Me se calculează ca o

medie aritmetică simplă a termenilor centrali


4/37

Mediana (Me) (3)

Pentru o serie de frecvenţe:3. Se calculează frecvenţe cumulate crescător (Fi) :

Fiofer

ă r ăspunsul la întrebarea: “Câte cazuri ale

variabilei xi sunt cel mult egale cu varianta curentă?”

4. Mediana este prima variantă pentru care esteadevărată relaţia:

locMeF i ≥


5/37

Mediana (Me) (4)

Pentru o serie de date grupate pe intervale:3. Se calculează frecvenţe cumulate crescător (Fi) :

Fi ofer ă r ăspunsul la întrebarea: “Câte cazuri ale variabilei xi

sunt cel mult egale cu limita superioar ă a intervalului curent?”4. Se alege intervalul ce conţine mediana ca fiind primul

interval pentru care este valabilă relaţia:

5. În interiorul intervalului ce conţine mediana, formula decalcul este:

locMeF i ≥

Me

i

n

F locMek x Me 10

−−+=


6/37

Mediana (5)

Mediana face parte din indicatorii cuantilici

Alţi indicatori cuantilici sunt:

– cuartilele (împart o serie de date în 4) – decilele (împart o serie de date în 10)

– percentilele (procentilele) (împart o serie de date

în 100)


7/37

Valoarea modală (Mo)

Definiţie: Valoarea modală este valoarea cufrecvenţă maximă de apariţie

Avantaje: – Poate fi calculată pentru variabile calitative

(exprimate prin cuvinte) (de ex.: culoarea ochilor,culoarea părului, starea civilă etc.)

– Şansele ca rezultatul să fie o valoare existentă înrealitate sunt mult mai mari decât la medii


8/37

Valoarea modală (Mo) (2)

200Total

510

109

208

377

466

385

204

123

72

51

niNota

05

10

15

20

25

30

3540

45

50

1 2 3 4 5 6 7 8 9 10

Nota

S t u d e n t i

Mo

Serie de date unimodală


9/37

0

5

10

15

20

25

3035

40

45

1 2 3 4 5 6 7 8 9 10

Nota

S t u d e n t i


200Total

1110

279

418

257

76

145

354223

132

51

niNota

Mo2

Serie de date bimodală

Mo1


10/37


Pentru o serie de date grupate pe intervale:1. Se alege intervalul modal ca fiind intervalul cu

frecvenţa maximă

2. În interiorul intervalului modal, valoarea modală se determină cu ajutorul formulei:

21

10

Δ+Δ

Δ+= k x Mo


11/37


150Total

13Văduv

12Divor ţat

55Necăsătorit

70Casătorit

niStarea civilă

Valoarea modală este varianta:“căsătorit”


12/37

Relaţia de ordine între , Me şi Mo x

Pentru o serie cel mult uşor asimetrică este valabilă relaţia:

)(3 Me x Mo x −≅−


13/37

Indicatorii variaţiei (împr ăştierii)


14/37


15/37

Indicatorii sintetici ai variaţiei (2)

Dispersia sau momentul centrat de ordin 2

Defini ţ ie: Media aritmetică a pătratelor abaterilor individuale faţă demedie (di)

Pentru un şir simplu de valori: Pentru o serie de frecvenţe sau pentru oserie de date grupate pe intervale de

grupare:

Din considerente de interpretare vom lăsa dispersia f ăr ă unitate demăsur ă.

( )

n

x xi∑ −=2

2σ ( )

∑

∑ ⋅−=

i

ii

n

n x x 2

2σ

Formula alternativă de calcul a dispersiei:222

x x p −=σ


16/37


Abaterea standard sau abaterea medie pătratică

Defini ţ ie: Rădăcina pătrată a dispersiei

Abaterea medie pătratică are ca unitate de măsur ă, unitatea de măsur ă a variabilei analizate.

2σ σ =Proprietate: De obicei, între abaterea medie pătratică şi abaterea medieliniar ă există următoarea relaţie:

σ 5

4

≅d


17/37


Coeficientul de variaţie sau de omogenitateDefini ţ ie: Este o exprimare în cifre relative (vezi indicatorii simpli ai

împr ăştierii) a abaterii standard

Propriet ăţ i: [ ]100 xCV σ

=• de obicei CV ia valori în intervalul [0;100]

• valori mici (apropiate de limita inferioar ă) ale indicatorului indică o serie

omogenă (media, mediana, valoarea modală sunt reprezentative)• valori mari (apropiate de limita superioar ă) ale indicatorului arată o serieeterogenă (neomogenă) (media, mediana, valoarea modală suntnereprezentative)

• pentru a considera o serie omogenă

, teoria recomandă

, ca valoareaCV sa fie cel mult 30-35%


18/37

Caz particular pentru dispersie

Dispersia variabilei de tip binar

=

+

⋅−+⋅−=

M N

M p N p 22

2 )0()1(σ =⎟

⎠

⎞⎜

⎝

⎛

+

+⎟

⎠

⎞⎜

⎝

⎛

+ M N

M p

M N

N q

22

=+= q p pq 22 =+ )( q p pq = pq )1( p p −

Dispersia maximă a variabilei de tip binar este 0,25


19/37

Studiul formei funcţiilor de repartiţie (1)

Asimetria

3

8

13

18

23

28

33

38

43

2 3 4 5 6 7 8 9 10

Nota

S t u

d e n t i

1) Metode simple de analiză a asimetriei

a) metoda vizuală

3

8

13

18

23

28

33

38

43

2 3 4 5 6 7 8 9 10

Nota

S t

u d e n t i

3

8

13

18

23

28

33

38

43

2 3 4 5 6 7 8 9 10

Nota

S t u

d e n t i

serie simetrică serie asimetrică spre stânga serie asimetrică spre dreapta


20/37

Asimetria (2)

xb) metoda compar ării indicatorilor tendinţei centrale ( , Me şi Mo)

3

8

13

18

23

28

33

38

43

2 3 4 5 6 7 8 9 10

Nota

S t u d e n t i

Mo

Me

x


21/37

3

8

13

18

23

28

33

38

43

2 3 4 5 6 7 8 9 10

Nota

S t u d e n t i

Asimetria (3)


Mo Me x


22/37

3

8

13

18

23

28

33

38

43

2 3 4 5 6 7 8 9 10

Nota

S t u d e n t i

Asimetria (4)


MoMe x


23/37

Asimetria (5)

2) Metode analitice de abordare

Coeficienţii de asimetrie ai lui Pearson

σ Mo xC as

−=

Proprietăţi şi interpretare:

• interval de valori [-1;+1 ]

• semnul arată direcţia asimetriei

• valori mici (apropiate de 0) indică o asimetrie de mică intensitate

• valori mari (apropiate de ±1)indică o asimetrie cu intensitatefoarte mare

( )σ Me xC as −= 3





• valori mari (apropiate de ±3)indică o asimetrie cu intensitatefoarte mare


24/37

Asimetria (6)

Coeficientul lui Bowley

( ) ( )( ) ( )1223

1223

qqqq

qqqqC as

−+−

−−−=





• valori mari (apropiate de ±1)indică o asimetrie cu intensitate

foarte mare

Coeficienţii lui Pearson (continuare)

( )

∑∑ −

==i

ii

n

n x x 2

2

2 σ μ

( )

∑∑ −

=i

ii

n

n x x 3

3μ

3

2

2

31

μ

μ β ==asC

unde:

(momentul centrat de ordin 2)

(momentul centrat de ordin 3)


25/37

Boltirea (1)

0

5

10

15

20

25

30

35

40

45

50

1 2 3 4 5 6 7 8 9 10

Nota

S t u d e n

t i

0

5

10

15

20

25

30

35

40

45

50

1 2 3 4 5 6 7 8 9 10

Nota

S t u d e n

t i

1) Metoda vizuală

serie mezocurtică serie leptocurtică serie platicurtică

0

5

10

15

20

25

30

35

40

45

50

1 2 3 4 5 6 7 8 9 10

Nota

S t u d e n t

i

γ


26/37

Interpretare:

=0 (repartiţie mezocurtică)

>0 (repartiţie leptocurtică)3 (repartiţie leptocurtică)

β 2


27/37

Sondajul statistic


28/37

Terminologie (1)

n

X

X

n

i

i∑== 1• Media de eşantion (de selecţie) – estimator

pentru media populaţiei investigate• Dispersia populaţiei investigate

• Dispersia de eşantion (de selecţie) – estimator pentrudispersia populaţiei investigate

• Media populaţiei investigate N

X

X

N

i

i∑== 10

N

X X N

i

i∑=

−

= 1

2

02

)(

σ

1

)(1

2

2

−

−

=∑=

n

X X

S

n

i

i

• Interval de încredere – dublă inegalitate probabilistă ceapare în urma inferenţei statistice

x x X X X Δ+


29/37

Motivaţii

• Rapiditatea – informaţiile sunt obţinute mult mai rapid

• Rezultate mai exacte – deşi pare paradoxal este un fapt

evident

• Cerinţe speciale – sunt situaţii în care aplicarea metodeiexhaustive este imposibilă din punct de vedere practic

• Costurile – informaţia este obţinută cu eforturifinanciar-logistice mult mai reduse


30/37

Delimitări conceptuale

•Anchetele sau sondajele nealeatoare

• Sondajele probabiliste

- se bazează mai mult pe considerente subiective, deci sunt discutabileşi în consecinţă sunt mai puţin riguroase- nu utilizează probabilităţi în extragerea unităţilor şi ca urmare precizia

estimatorilor nu poate fi determinată- utilizarea lor este justificată mai mult din cauza unor constrângeri bugetare

sau atunci când sondajele aleatoare nu pot fi aplicate

-sunt definite prin aceea că alocă fiecărei unităţi din populaţie o probabilitateegală şi nenulă de a apar ţine eşantionului

-au avantajul că permit studierea şi calcularea preciziei estimatorilor şi au uncaracter ştiinţific riguros


31/37

Principalele tipuri de sondajeprobabiliste (aleatoare)

• Sondajul stratificat (SS) – populaţia statistică este împăr ţită înprealabil (utilizând diverse criterii) în mai multe straturi. Din fiecarestrat se extrage un eşantion. Reuniunea acestor eşantioaneformează eşantionul final

• Sondajul aleator simplu (SAS) – din populaţia statistică studiată se extrage un eşantion de dimensiunea dorită utilizând ometodă aleatoare.

• Sondajul de serii/ de grupe/ cluster – populaţia statistică studiată este împăr ţită în serii/ grupe/ clustere (de exemplu: o populaţie destudenţi este împăr ţită în grupe). Se extrage apoi, în mod aleator, unanumit număr de grupe/ clustere astfel create. Toate unităţile

statistice din grupele selectate formează eşantionul ce va fi ulteriorinvestigat.


32/37

Principalele tipuri de sondajeneprobabiliste

• Eşantioanele de voluntari – se folosesc mai ales încercetările medicale• Eşantionarea dirijată – se foloseşte de obicei în cercetări

prealabile asupra populaţiei studiate• Eşantionarea prin metoda cotelor – se foloseşte în analizelesocio-economice baza de sondaj nu este disponibilă

• Eşantionarea la întâmplare – se foloseşte pentru

populaţii omogene

Eşantionul este selectat, în acest caz, nealeator şievidenţiem:

• Eşantionarea prin metoda itinerariilor


33/37

Extragerea aleatoare a eşantionului

– procedeul “Loto”

Tipuri de selecţie:- cu revenire (vezi tragerea loto “Noroc”)

- f ăr ă revenire (vezi tragerea loto 6 din 49)

Număr eşantioane:Nn

n

N C

Metode de selecţie:

– tabele cu numere aleatoare

– mecanică sau sistematică

– utilizând produse softwarede specialitate


34/37

Despre erorile ce apar în cazulcercetărilor statistice

• Erorile de observare (de înregistrare)

• Erorile de eşantionare

- erori datorate dificultăţilor de vocabular (limbaj prea savant, folosireaunor cuvinte cu sens incert etc.)

- erori datorate neînţelegerii corecte a întrebărilor (de exemplu: diferenţa între venit total şi venit salarial)

- erori datorate solicitării memoriei

- sistematice – apar în urma încălcării regulilor teoretice ale sondajelor

- întâmplătoare – specifice cercetărilor prin sondaj

• Erorile datorate non-r ăspunsurilor

- erori datorate lipsei sincerităţii în furnizarea informaţiilor

- erori cauzate de anchetatori.


35/37

Erorile specifice cercetărilor selective

α

xμ

xΔ

1. Eroarea datorată inferenţei statistice probabiliste (Z)

2. Eroarea medie de reprezentativitate ( ).

•Mediile de selecţie se distribuie normal. Media mediilor deselecţie este chiar media populaţiei investigate.•Urmare a distribuţiei normale, în funcţie de nivelul de

probabilitate stabilit, valoarea lui Z se culege din tabele.• Folosind programul Excel: =NORMSINV( )

• volumul eşantionului

Depinde de:

• dispersia populaţiei investigate• tipul de selecţie folosit (cu revenire/ f ăr ă revenire)

• metoda de eşantionare folosită (SAS, SS, cluster etc.)

3. Eroarea limită sau maxim admisibilă ( ) Z x x ⋅=Δ μ Întotdeanuna între cele trei tipuri de erori există relaţia:


36/37

Sondajul aleator simplu cu revenire

Z x x ⋅=Δ μ x x X X X Δ+


37/37

Sondajul aleator simplu f ăr ă revenire

Z x x ⋅=Δ μ x x X X X Δ+

curs statistica 2

Documents

Transcript of curs statistica 2