curs statistica 2
Transcript of curs statistica 2
-
8/19/2019 curs statistica 2
1/37
Indicatorii tendinţei centrale
- Indicatorii medii de poziţie -
Duminică, 1 Martie 2009
-
8/19/2019 curs statistica 2
2/37
Mediana (Me) (1)
Avantaj: Spre deosebire de medii, Me nu este aşade influenţată de apariţia valorilor extreme
Mod de calcul:
1. Se ordonează crescător seria de date
2. Se calculează poziţia (locul) Medianei
3. În funcţie de forma datelor disponibile vom avea:
[ ]1)(21
+= ∑ inlocMe
-
8/19/2019 curs statistica 2
3/37
Mediana (Me) (2)
Pentru un şir simplu de valori: – cu un număr impar de termeni
Me este valoarea de rang locMe dinşirul ob
ţinut la
pasul 2
– cu un număr par de termeni Nu există un termen central. Me se calculează ca o
medie aritmetică simplă a termenilor centrali
-
8/19/2019 curs statistica 2
4/37
Mediana (Me) (3)
Pentru o serie de frecvenţe:3. Se calculează frecvenţe cumulate crescător (Fi) :
Fiofer
ă r ăspunsul la întrebarea: “Câte cazuri ale
variabilei xi sunt cel mult egale cu varianta curentă?”
4. Mediana este prima variantă pentru care esteadevărată relaţia:
locMeF i ≥
-
8/19/2019 curs statistica 2
5/37
Mediana (Me) (4)
Pentru o serie de date grupate pe intervale:3. Se calculează frecvenţe cumulate crescător (Fi) :
Fi ofer ă r ăspunsul la întrebarea: “Câte cazuri ale variabilei xi
sunt cel mult egale cu limita superioar ă a intervalului curent?”4. Se alege intervalul ce conţine mediana ca fiind primul
interval pentru care este valabilă relaţia:
5. În interiorul intervalului ce conţine mediana, formula decalcul este:
locMeF i ≥
Me
i
n
F locMek x Me 10
−−+=
-
8/19/2019 curs statistica 2
6/37
Mediana (5)
Mediana face parte din indicatorii cuantilici
Alţi indicatori cuantilici sunt:
– cuartilele (împart o serie de date în 4) – decilele (împart o serie de date în 10)
– percentilele (procentilele) (împart o serie de date
în 100)
-
8/19/2019 curs statistica 2
7/37
Valoarea modală (Mo)
Definiţie: Valoarea modală este valoarea cufrecvenţă maximă de apariţie
Avantaje: – Poate fi calculată pentru variabile calitative
(exprimate prin cuvinte) (de ex.: culoarea ochilor,culoarea părului, starea civilă etc.)
– Şansele ca rezultatul să fie o valoare existentă înrealitate sunt mult mai mari decât la medii
-
8/19/2019 curs statistica 2
8/37
Valoarea modală (Mo) (2)
200Total
510
109
208
377
466
385
204
123
72
51
niNota
05
10
15
20
25
30
3540
45
50
1 2 3 4 5 6 7 8 9 10
Nota
S t u d e n t i
Mo
Serie de date unimodală
-
8/19/2019 curs statistica 2
9/37
0
5
10
15
20
25
3035
40
45
1 2 3 4 5 6 7 8 9 10
Nota
S t u d e n t i
Valoarea modală (Mo) (3)
200Total
1110
279
418
257
76
145
354223
132
51
niNota
Mo2
Serie de date bimodală
Mo1
-
8/19/2019 curs statistica 2
10/37
Valoarea modală (Mo) (4)
Pentru o serie de date grupate pe intervale:1. Se alege intervalul modal ca fiind intervalul cu
frecvenţa maximă
2. În interiorul intervalului modal, valoarea modală se determină cu ajutorul formulei:
21
10
Δ+Δ
Δ+= k x Mo
-
8/19/2019 curs statistica 2
11/37
Valoarea modală (Mo) (5)
150Total
13Văduv
12Divor ţat
55Necăsătorit
70Casătorit
niStarea civilă
Valoarea modală este varianta:“căsătorit”
-
8/19/2019 curs statistica 2
12/37
Relaţia de ordine între , Me şi Mo x
Pentru o serie cel mult uşor asimetrică este valabilă relaţia:
)(3 Me x Mo x −≅−
-
8/19/2019 curs statistica 2
13/37
Indicatorii variaţiei (împr ăştierii)
-
8/19/2019 curs statistica 2
14/37
-
8/19/2019 curs statistica 2
15/37
Indicatorii sintetici ai variaţiei (2)
Dispersia sau momentul centrat de ordin 2
Defini ţ ie: Media aritmetică a pătratelor abaterilor individuale faţă demedie (di)
Pentru un şir simplu de valori: Pentru o serie de frecvenţe sau pentru oserie de date grupate pe intervale de
grupare:
Din considerente de interpretare vom lăsa dispersia f ăr ă unitate demăsur ă.
( )
n
x xi∑ −=2
2σ ( )
∑
∑ ⋅−=
i
ii
n
n x x 2
2σ
Formula alternativă de calcul a dispersiei:222
x x p −=σ
-
8/19/2019 curs statistica 2
16/37
Indicatorii sintetici ai variaţiei (3)
Abaterea standard sau abaterea medie pătratică
Defini ţ ie: Rădăcina pătrată a dispersiei
Abaterea medie pătratică are ca unitate de măsur ă, unitatea de măsur ă a variabilei analizate.
2σ σ =Proprietate: De obicei, între abaterea medie pătratică şi abaterea medieliniar ă există următoarea relaţie:
σ 5
4
≅d
-
8/19/2019 curs statistica 2
17/37
Indicatorii sintetici ai variaţiei (4)
Coeficientul de variaţie sau de omogenitateDefini ţ ie: Este o exprimare în cifre relative (vezi indicatorii simpli ai
împr ăştierii) a abaterii standard
Propriet ăţ i: [ ]100 xCV σ
=• de obicei CV ia valori în intervalul [0;100]
• valori mici (apropiate de limita inferioar ă) ale indicatorului indică o serie
omogenă (media, mediana, valoarea modală sunt reprezentative)• valori mari (apropiate de limita superioar ă) ale indicatorului arată o serieeterogenă (neomogenă) (media, mediana, valoarea modală suntnereprezentative)
• pentru a considera o serie omogenă
, teoria recomandă
, ca valoareaCV sa fie cel mult 30-35%
-
8/19/2019 curs statistica 2
18/37
Caz particular pentru dispersie
Dispersia variabilei de tip binar
=
+
⋅−+⋅−=
M N
M p N p 22
2 )0()1(σ =⎟
⎠
⎞⎜
⎝
⎛
+
+⎟
⎠
⎞⎜
⎝
⎛
+ M N
M p
M N
N q
22
=+= q p pq 22 =+ )( q p pq = pq )1( p p −
Dispersia maximă a variabilei de tip binar este 0,25
-
8/19/2019 curs statistica 2
19/37
Studiul formei funcţiilor de repartiţie (1)
Asimetria
3
8
13
18
23
28
33
38
43
2 3 4 5 6 7 8 9 10
Nota
S t u
d e n t i
1) Metode simple de analiză a asimetriei
a) metoda vizuală
3
8
13
18
23
28
33
38
43
2 3 4 5 6 7 8 9 10
Nota
S t
u d e n t i
3
8
13
18
23
28
33
38
43
2 3 4 5 6 7 8 9 10
Nota
S t u
d e n t i
serie simetrică serie asimetrică spre stânga serie asimetrică spre dreapta
-
8/19/2019 curs statistica 2
20/37
Asimetria (2)
xb) metoda compar ării indicatorilor tendinţei centrale ( , Me şi Mo)
3
8
13
18
23
28
33
38
43
2 3 4 5 6 7 8 9 10
Nota
S t u d e n t i
Mo
Me
x
-
8/19/2019 curs statistica 2
21/37
3
8
13
18
23
28
33
38
43
2 3 4 5 6 7 8 9 10
Nota
S t u d e n t i
Asimetria (3)
xb) metoda compar ării indicatorilor tendinţei centrale ( , Me şi Mo)
Mo Me x
-
8/19/2019 curs statistica 2
22/37
3
8
13
18
23
28
33
38
43
2 3 4 5 6 7 8 9 10
Nota
S t u d e n t i
Asimetria (4)
xb) metoda compar ării indicatorilor tendinţei centrale ( , Me şi Mo)
MoMe x
-
8/19/2019 curs statistica 2
23/37
Asimetria (5)
2) Metode analitice de abordare
Coeficienţii de asimetrie ai lui Pearson
σ Mo xC as
−=
Proprietăţi şi interpretare:
• interval de valori [-1;+1 ]
• semnul arată direcţia asimetriei
• valori mici (apropiate de 0) indică o asimetrie de mică intensitate
• valori mari (apropiate de ±1)indică o asimetrie cu intensitatefoarte mare
( )σ Me xC as −= 3
Proprietăţi şi interpretare:
• interval de valori [-3;+3 ]
• semnul arată direcţia asimetriei
• valori mici (apropiate de 0) indică o asimetrie de mică intensitate
• valori mari (apropiate de ±3)indică o asimetrie cu intensitatefoarte mare
-
8/19/2019 curs statistica 2
24/37
Asimetria (6)
Coeficientul lui Bowley
( ) ( )( ) ( )1223
1223
qqqq
qqqqC as
−+−
−−−=
Proprietăţi şi interpretare:
• interval de valori [-1;+1 ]
• semnul arată direcţia asimetriei
• valori mici (apropiate de 0) indică o asimetrie de mică intensitate
• valori mari (apropiate de ±1)indică o asimetrie cu intensitate
foarte mare
Coeficienţii lui Pearson (continuare)
( )
∑∑ −
==i
ii
n
n x x 2
2
2 σ μ
( )
∑∑ −
=i
ii
n
n x x 3
3μ
3
2
2
31
μ
μ β ==asC
unde:
(momentul centrat de ordin 2)
(momentul centrat de ordin 3)
-
8/19/2019 curs statistica 2
25/37
Boltirea (1)
0
5
10
15
20
25
30
35
40
45
50
1 2 3 4 5 6 7 8 9 10
Nota
S t u d e n
t i
0
5
10
15
20
25
30
35
40
45
50
1 2 3 4 5 6 7 8 9 10
Nota
S t u d e n
t i
1) Metoda vizuală
serie mezocurtică serie leptocurtică serie platicurtică
0
5
10
15
20
25
30
35
40
45
50
1 2 3 4 5 6 7 8 9 10
Nota
S t u d e n t
i
γ
-
8/19/2019 curs statistica 2
26/37
Interpretare:
=0 (repartiţie mezocurtică)
>0 (repartiţie leptocurtică)3 (repartiţie leptocurtică)
β 2
-
8/19/2019 curs statistica 2
27/37
Sondajul statistic
-
8/19/2019 curs statistica 2
28/37
Terminologie (1)
n
X
X
n
i
i∑== 1• Media de eşantion (de selecţie) – estimator
pentru media populaţiei investigate• Dispersia populaţiei investigate
• Dispersia de eşantion (de selecţie) – estimator pentrudispersia populaţiei investigate
• Media populaţiei investigate N
X
X
N
i
i∑== 10
N
X X N
i
i∑=
−
= 1
2
02
)(
σ
1
)(1
2
2
−
−
=∑=
n
X X
S
n
i
i
• Interval de încredere – dublă inegalitate probabilistă ceapare în urma inferenţei statistice
x x X X X Δ+
-
8/19/2019 curs statistica 2
29/37
Motivaţii
• Rapiditatea – informaţiile sunt obţinute mult mai rapid
• Rezultate mai exacte – deşi pare paradoxal este un fapt
evident
• Cerinţe speciale – sunt situaţii în care aplicarea metodeiexhaustive este imposibilă din punct de vedere practic
• Costurile – informaţia este obţinută cu eforturifinanciar-logistice mult mai reduse
-
8/19/2019 curs statistica 2
30/37
Delimitări conceptuale
•Anchetele sau sondajele nealeatoare
• Sondajele probabiliste
- se bazează mai mult pe considerente subiective, deci sunt discutabileşi în consecinţă sunt mai puţin riguroase- nu utilizează probabilităţi în extragerea unităţilor şi ca urmare precizia
estimatorilor nu poate fi determinată- utilizarea lor este justificată mai mult din cauza unor constrângeri bugetare
sau atunci când sondajele aleatoare nu pot fi aplicate
-sunt definite prin aceea că alocă fiecărei unităţi din populaţie o probabilitateegală şi nenulă de a apar ţine eşantionului
-au avantajul că permit studierea şi calcularea preciziei estimatorilor şi au uncaracter ştiinţific riguros
-
8/19/2019 curs statistica 2
31/37
Principalele tipuri de sondajeprobabiliste (aleatoare)
• Sondajul stratificat (SS) – populaţia statistică este împăr ţită înprealabil (utilizând diverse criterii) în mai multe straturi. Din fiecarestrat se extrage un eşantion. Reuniunea acestor eşantioaneformează eşantionul final
• Sondajul aleator simplu (SAS) – din populaţia statistică studiată se extrage un eşantion de dimensiunea dorită utilizând ometodă aleatoare.
• Sondajul de serii/ de grupe/ cluster – populaţia statistică studiată este împăr ţită în serii/ grupe/ clustere (de exemplu: o populaţie destudenţi este împăr ţită în grupe). Se extrage apoi, în mod aleator, unanumit număr de grupe/ clustere astfel create. Toate unităţile
statistice din grupele selectate formează eşantionul ce va fi ulteriorinvestigat.
-
8/19/2019 curs statistica 2
32/37
Principalele tipuri de sondajeneprobabiliste
• Eşantioanele de voluntari – se folosesc mai ales încercetările medicale• Eşantionarea dirijată – se foloseşte de obicei în cercetări
prealabile asupra populaţiei studiate• Eşantionarea prin metoda cotelor – se foloseşte în analizelesocio-economice baza de sondaj nu este disponibilă
• Eşantionarea la întâmplare – se foloseşte pentru
populaţii omogene
Eşantionul este selectat, în acest caz, nealeator şievidenţiem:
• Eşantionarea prin metoda itinerariilor
-
8/19/2019 curs statistica 2
33/37
Extragerea aleatoare a eşantionului
– procedeul “Loto”
Tipuri de selecţie:- cu revenire (vezi tragerea loto “Noroc”)
- f ăr ă revenire (vezi tragerea loto 6 din 49)
Număr eşantioane:Nn
n
N C
Metode de selecţie:
– tabele cu numere aleatoare
– mecanică sau sistematică
– utilizând produse softwarede specialitate
-
8/19/2019 curs statistica 2
34/37
Despre erorile ce apar în cazulcercetărilor statistice
• Erorile de observare (de înregistrare)
• Erorile de eşantionare
- erori datorate dificultăţilor de vocabular (limbaj prea savant, folosireaunor cuvinte cu sens incert etc.)
- erori datorate neînţelegerii corecte a întrebărilor (de exemplu: diferenţa între venit total şi venit salarial)
- erori datorate solicitării memoriei
- sistematice – apar în urma încălcării regulilor teoretice ale sondajelor
- întâmplătoare – specifice cercetărilor prin sondaj
• Erorile datorate non-r ăspunsurilor
- erori datorate lipsei sincerităţii în furnizarea informaţiilor
- erori cauzate de anchetatori.
-
8/19/2019 curs statistica 2
35/37
Erorile specifice cercetărilor selective
α
xμ
xΔ
1. Eroarea datorată inferenţei statistice probabiliste (Z)
2. Eroarea medie de reprezentativitate ( ).
•Mediile de selecţie se distribuie normal. Media mediilor deselecţie este chiar media populaţiei investigate.•Urmare a distribuţiei normale, în funcţie de nivelul de
probabilitate stabilit, valoarea lui Z se culege din tabele.• Folosind programul Excel: =NORMSINV( )
• volumul eşantionului
Depinde de:
• dispersia populaţiei investigate• tipul de selecţie folosit (cu revenire/ f ăr ă revenire)
• metoda de eşantionare folosită (SAS, SS, cluster etc.)
3. Eroarea limită sau maxim admisibilă ( ) Z x x ⋅=Δ μ Întotdeanuna între cele trei tipuri de erori există relaţia:
-
8/19/2019 curs statistica 2
36/37
Sondajul aleator simplu cu revenire
Z x x ⋅=Δ μ x x X X X Δ+
-
8/19/2019 curs statistica 2
37/37
Sondajul aleator simplu f ăr ă revenire
Z x x ⋅=Δ μ x x X X X Δ+