Distributions d’échantillonnage Terminologie statistique€¦ · une estimation d’un...
Embed Size (px)
Transcript of Distributions d’échantillonnage Terminologie statistique€¦ · une estimation d’un...
-
1
Terminologie statistique Distribution de la moyenne: thorme central- limite
distribution Khi-deux (2)
distribution T de Student
distribution F de Fisher
rsum des distributions
Distributions dchantillonnage
Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques
hors programme : distribution de S / distribution de R
-
2
Constats et terminologie statistique
les populations statistiques sont modlises par des distributions de probabilits dont les paramtres sont toujours inconnus; le mieux que lon puisse faire: estimer les paramtres avec des
donnes chantillonnales (observations) provenant de la mme distribution
(population);
les donnes (Y1, Y2, ) sont transformes en statistique W par une fonctionW = h (Y1, Y2 ,. ) W est une variable alatoire
le choix de h dpend de lapplication envisage (ESTIMATION ou TEST)la loi de probabilit de W sappelle distribution dchantillonnage;
exemple : 2 chantillons de taille n provenant de la mme population
(Y1, Y2, , Yn) et (Y1, Y2 , .., Yn) auront une moyenne (xbar),diffrente, un cart type s diffrent, un histogramme diffrent : cest linfluence de la variabilit de lchantillonnage;
Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques
-
3
Constats et terminologie statistique
on dispose toujours que dun seul chantillon de taille n pour la mise en uvre dune procdure statistique:
ESTIMATION chapitre 10
TEST DHYPOTHSES chapitre 11
paramtre statistique :
quantit associe une distribution
exemples = moyenne distribution : exemple normale
= cart type distribution quelconque
= moyenne distribution Bernoulli ()
= (1- ) variance distribution Bernoulli ()
= xp p-ime percentile dune variable X
Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques
-
4
Terminologie statistique
chantillon alatoire (dfinition)
un ensemble de variables alatoires Y 1 , Y 2 , .., Y n telles que(a) les variables sont soumises une mme loi f(y) (b) les variables sont indpendantes
loi conjointe : g (Y1, Y2, , Yn) = f( Y1)* f(Y2) * * f(Yn)
Statistique : toute fonction alatoire tablie sur lchantillonW = h (Y1 , Y2 , ., Y n )
remarque : W est une variable alatoire
Estimateur : une statistique particulire conue de faon fournirune estimation dun paramtre dune loi de probabilit
Aplications: EstimationTest dhypothsesRgressionAnalyse de la variance
Bernard CLMENT, PhDMTH2302 Probabilits et mthodes statistiques
-
5
Rsultat 1 Soit Y 1 , Y 2,, .. , Y n des v. a. indpendantes telles que(rappel) E(Yi ) = i et Var (Yi ) = i
2 i = 1, 2, , nsoient a 1, a 2,, . , a n des constantes et
i=nsoit W = ai Yi une combinaison linaire des Yi
i=1
Alors E( W ) = W = ai i et Var ( W ) = w2 = ai2 i2remarque 1 : aucune hypothse est ncessaire sur les lois des Yiremarque 2 : si les Yi sont gaussiennes alors W est gaussienne
Rsultat 3 Si les Yi sont gaussiennes Yi ~ N ( , 2 )
alors Y est gaussienne N ( , 2 / n )
Rsultat 2 Soit ai = 1 / n E(Yi ) = Var( Yi ) = 2 alors
i=nW = Y = Ybar = (1/n ) Yi vrifie E(Y) = et Var(Y) = 2 / n
i=1
Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques
-
6
Distribution de la moyenne chantillonnale : Thorme central limite
Rsultat 4 : thorme central limite
Soit W = Yi avec E(Yi ) = i , Var (Yi ) = i2 i = 1, 2, , n
Si n est assez grand (au moins 30)Alors W suit approximativement une loi gaussienne N(W , W 2 )avec W = i et Y
2 = i2
remarque : il ny a aucune condition spcifique sur les lois des Yi
Rsultat 5 Si E( Yi) = , Var (Yi) = 2 i = 1, 2 , , n
alors Y suit approximativement loi gaussienne N ( , 2 / n)
remarque on peut crire le rsultat sous la forme quivalente
Y - _ suit approximativement une loi N (0, 1) / n
Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques
-
7
Histogram (chap06.sta 31v*30000c)
-1.7318-1.4547
-1.1776-0.9005
-0.6234-0.3462
-0.06910.2080
0.48510.7622
1.03931.3164
1.5935
uniforme
0
100
200
300
400
500
600
700
No of obs
Histogram (chap06.sta 21v*30000c)unif2 = 15000*0.0689*normal(x; 7.9327E-5; 0.706)
-1.7286-1.4530
-1.1773-0.9017
-0.6260-0.3504
-0.07470.2009
0.47650.7522
1.02781.3035
1.5791
unif2
0
100
200
300
400
500
600
700
No of obs
Histogram (chap06.sta 21v*30000c)unif5 = 6000*0.0572*normal(x; 7.9327E-5; 0.4506)
-1.4455-1.2165
-0.9876-0.7587
-0.5297-0.3008
-0.07190.1570
0.38600.6149
0.84381.0727
1.3017
unif5
0
50
100
150
200
250
300
350
No of obs
Distribution
de Y
Histogram (chap06.sta 21v*30000c)unif15 = 2000*0.0316*normal(x; 7.9327E-5; 0.2586)
-0.7560-0.6298
-0.5035-0.3772
-0.2510-0.1247
0.00160.1278
0.25410.3804
0.50660.6329
0.7592
unif15
0
20
40
60
80
100
120
No of obs
Histogram (chap06.sta 21v*30000c)unif30 = 1000*0.0249*normal(x; 7.9327E-5; 0.1825)
-0.6378-0.5380
-0.4382-0.3384
-0.2387-0.1389
-0.03910.0607
0.16050.2603
0.36010.4599
0.5597
unif30
0
10
20
30
40
50
60
70
No of obs
n = 1
n = 2
n = 5
n = 15
n = 30
uniformeHistogram (chap06.sta 31v*30000c)
-1.00000.0273
1.05462.0819
3.10924.1365
5.16386.1911
7.21848.2457
9.273010.3003
11.3276
exponentielle
0
1000
2000
3000
4000
5000
6000
7000
8000
No of obs
exponentielle
Histogram (chap06.sta 31v*30000c)
-0.9961-0.3735
0.24910.8717
1.49442.1170
2.73963.3622
3.98484.6074
5.23015.8527
6.4753
expo2
0
200
400
600
800
1000
1200
1400
1600
1800
2000
No of obs
Histogram (chap06.sta 31v*30000c)expo5 = 6000*0.0774*normal(x; 0.0031; 0.4455)
-0.9355-0.6259
-0.3162-0.0066
0.30300.6126
0.92221.2318
1.54141.8510
2.16062.4703
2.7799
expo5
0
100
200
300
400
500
600
No of obs
Histogram (chap06.sta 31v*30000c)expo15 = 2000*0.0369*normal(x; 0.0031; 0.2567)
-0.6499-0.5023
-0.3548-0.2073
-0.05980.0878
0.23530.3828
0.53030.6778
0.82540.9729
1.1204
expo15
0
20
40
60
80
100
120
140
160
No of obs
Histogram (chap06.sta 31v*30000c)expo30 = 1000*0.0242*normal(x; 0.0031; 0.1816)
-0.5145-0.4176
-0.3208-0.2239
-0.1270-0.0302
0.06670.1636
0.26040.3573
0.45420.5510
0.6479
expo30
0
10
20
30
40
50
60
No of obs
gaussienneP O P U L A T I O N
Histogram (chap06.sta 31v*30000c)gaussienne = 30000*0.1715*normal(x; -0.0018; 1.0078)
-3.9095-3.2235
-2.5375-1.8514
-1.1654-0.4794
0.20660.8926
1.57872.2647
2.95073.6367
4.3227
gaussienne
0
200
400
600
800
1000
1200
1400
1600
1800
2000
2200
2400
No of obs
Histogram (chap06.sta 31v*30000c)norm2 = 15000*0.1032*normal(x; -0.0018; 0.7139)
-2.6496-2.2367
-1.8237-1.4107
-0.9978-0.5848
-0.17190.2411
0.65411.0670
1.48001.8929
2.3059
norm2
0
100
200
300
400
500
600
700
800
900
1000
No of obs
Histogram (chap06.sta 31v*30000c)norm5 = 6000*0.0672*normal(x; -0.0018; 0.4489)
-1.6782-1.4096
-1.1409-0.8723
-0.6037-0.3350
-0.06640.2022
0.47090.7395
1.00811.2767
1.5454
norm5
0
50
100
150
200
250
300
350
400
No of obs
Histogram (chap06.sta 31v*30000c)norm15 = 2000*0.0361*normal(x; -0.0018; 0.2586)
-1.0046-0.8604
-0.7161-0.5718
-0.4275-0.2832
-0.13890.0054
0.14970.2940
0.43820.5825
0.7268
norm15
0
20
40
60
80
100
120
140
No of obs
Histogram (chap06.sta 31v*30000c)norm30 = 1000*0.0238*normal(x; -0.0018; 0.1854)
-0.6652-0.5701
-0.4750-0.3799
-0.2848-0.1897
-0.09460.0005
0.09560.1907
0.28580.3809
0.4760
norm30
0
10
20
30
40
50
60
No of obs
Bernard CLMENT, PhD 7
-
8
approximation de la distribution binomiale par une normalecas particulier de lapplication du thorme central limite.Y = nombre de succs dans une suite de n essais de Bernoulli indpendants
Posons Yi v. a. de Bernoulli associe a essai i i = 1, 2,, n
1 avec probabilit Yi =
0 avec probabilit 1 -
E ( Yi ) = 0 * (1 - ) + 1 * = Var ( Yi) = (1 )
Y = Yi est une v. a binomiale b(n, )
On applique le rsultat 5 : Y suit approximativement dist. N(n , n (1 - ))
Donc Y n = Y -
n ( 1- ) ( 1- ) / nsuit approximativement distribution N ( 0, 1)
Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques
-
9
Exemple la demande quotidienne dnergie lectrique ( KWh ) pour un logement estune variable de moyenne 200 et dcart type 20. Posons D = demande totale dnergie lectrique dans un
arrondissement de 500 logements.
Calculer une limite suprieure D0 pour D qui ne serait pas dpasseavec probabilit 0,99
solution D = Yi ou Yi est la demande du logement i = 1, 2, ., 500
D suit approximativement une loi gaussienne N( , 2)
= 500 * 200 = 100 000 et 2 = 500 * 202 = 200 000 = ( 447,2 )2
P (D D0 ) = 0,99 [(D0 - 100 000 ) / 447,2 )] = 0,99
D0 = 100 000 + z0.99 * 447,2 = 100 00 + 2.33 * 447,2 = 101 042
Bernard CLMENT, PhDMTH2302 Probabilits et mthodes statistiques
-
10Bernard CLMENT, PhD
Exemple : la dure de vie Y dun composant lectronique suit une loiexponentielle de moyenne 100 heures
(a) Quelle est la probabilit que la dure moyenne Y de 36 composants dpasse125 heures?
(b) Combien de composants (n) doit- on avoir fin que la diffrence entre Y et 100
nexcde pas 10 avec une probabilit de 0,95?
solution : si Y suit une loi exponentielle , lcart type de Y = moyenne de X = 100 alors Y suit approximativement une distribution N (100, 100 2 / 36 )
(a) P ( Y > 125 ) = 1 [ (125 100) / (100 / 6 )] = 1 - (1,5 ) = 1 - 0,933 = 0,067
(b) P ( Y - 100 < 10 ) = 0,95 alors P ( Y - 100 < 10 __ ) = 0,95
100 / n 100 / n
2 ( n / 10) - 1 = 0,95 donne ( n / 10) = 0,975
n / 10 = -1 (0,975) n = 384
MTH2302 Probabilits et mthodes statistiques
-
11
Distribution Khi-deuxUne variable alatoire 2 dont la densit de probabilit est dfinie par
f 2 ( u ) = c() u ( / 2) - 1 exp (- u / 2 ) 0 < u < s appelle une variable Khi-deux (2 ) avec degrs de libert (ddl
= 1, 2,3, , c( ) est une constante qui dpend de
Proprits E ( 2 ) = et Var ( 2 ) = 2
si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl
la somme de variables Khi-deux indpendantes est une Khi-deux
si Zi ~ N ( 0, 1 ) i = 1, 2, , n alors Zi2 ~ Khi-deux avec n ddl si Yi ~ N ( , 2 ) i = 1, 2, , n alors [ (Yi )/ ] 2 ~ Khi- deux avec n ddl
Bernard CLMENT, PhD
-
12
Table des quantiles dune Khi-deuxQuantileHMGB p. 478
Notation : 2 p, quantile dordre p
dune variable 2avec degr de libert
P ( 2 2p, ) = p
Exemple
P ( 25 9,24 ) = 0.90
Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques
-
13
Distribution Student Une variable alatoire T dont la densit de probabilit est dfinie par
f T ( t ) = c() ( 1 + t 2 / ) - ( + 1 ) / 2 - < t <
sappelle une variable de Student avec degrs de libert , = 1, 2, 3,., c() est une constante qui dpend de
Proprits densit symtrique p.r 0
E (T ) = 0
Var (T) = / ( - 2 ) ( > 2) si Z est une N(0,1) alors
T = Z / v2 / v suit loi T avec v ddl
si = la variable de Studentest une variable normale centre rduite
si > 30 la distribution Student est quasi
identique une loi normale centr-rduite
la lettre T est gnralement consacre pour reprsenter la variable de Student
-
14
HMGB p. 479
table des quantiles dune variable Student
t p , :quantile dordre p
variable Student T degrs de libert
P ( T t p , ) = p
Exemple
P ( T5 2.015 ) = 0.95
Bernard CLMENT, PhD
-
15
Rsultat 7 application importante de la Student
soit Y i i = 1, 2,, n un chantillon alatoire dune population N( , 2 )
Soit Y = Y i / n et S2 = ( Y i Y ) 2 / ( n - 1 )
Alors T = Y - _ s / n
suit une loi de Student avec = n 1 degrs de libert
Bernard CLMENT, PhDMTH2302 Probabilits et mthodes statistiques
Rsultat 6 application importante de la Khi-deux
soit Y i i = 1, 2,, n un chantillon alatoire dune population N( , 2 )
soit S 2 = 1 / ( n 1 ) ( Y i Y ) 2 la variance chantillonnale
alors (n-1) S 2 / 2 = ( Y i Y ) 2 / 2
suit une loi Khi-deux avec (n 1) ddl
-
16
distribution F de Fisher-SnedecorUne variable alatoire X dont la densit de probabilit f est dfinie par
f X ( x) = c(1,2) x ( 1 / 2 ) - 1 [ 1 + ( 1/v2 )x ] - ( v1 + v2 ) /2 0 < x <
est appele une variable alatoire distribue selon une loi de Fisher-Snedecor avecv1 ddl au numrateur et v2 ddl au dnominateur; c(v1,v2) est une constante
Proprits E ( F ) = v2 / ( v2 2 )
si Y1 suit une loi Khi-deux avec v1 ddlY2 suit une loi Khi-deux avec v2 ddlY1 et Y2 sont indpendantes alors
( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2)
T2v = F (1, v) : le carr dune loi de Studentavec v ddl est une loi F(1,v)
Densit de probabilit de Fisher-Snedecor
Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques
-
17
Quantiles dune F de Fisher-Snedecor
HMGB p. 480-489
Notation
F p, v1, v2 :
quantile dordre p dunevariable de Fischer- SnedecorF v1 , v2 avec
v1 ddl au numrateurv2 ddl au dnominateur
Exemple
P ( F8 , 3 5.25 ) = 0.90
Bernard CLMENT, PhD
F0.90, 8 , 3 = 5.25
-
18
-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26
U
-0.02
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
GAUS
S
Rsultat 8 ( SY2 / Y2 ) / (SZ2 / Z2) suit une loi F n1-1 , n2-1
-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26
U
-0.02
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
GAUS
S
Y1, Y2 , , Yn1
Y ~ N ( Y, Y2)Z ~ N ( Z, Z
2)
Y Z
y Z
Z1, Z2 , , Zn2
distribution dchantillonnage du quotient de 2 variances
chantillonsindpendants
Y = Yi / n1 Z = Zi / n2moyennesSY2 = (1/( n1 1)) ( Yi Y )2 variances SZ2 = 1/( n2 1 ) ( Zi Z )2
Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques
-
19Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques
RSUM des DISTRIBUTIONS
-
20Bernard CLMENT, PhD
MTH2302 Probabilits et mthodes statistiques
RSUM des DISTRIBUTIONS
-
21Bernard CLMENT, PhD
MTH2302 Probabilits et mthodes statistiques
DISTRIBUTIONS DCHANTILLONNAGE
-
22Bernard CLMENT, PhD
MTH2302 Probabilits et mthodes statistiques
APPROXIMATIONS
-
23Bernard CLMENT, PhD
MTH2302 Probabilits et mthodes statistiques
RSUM des DISTRIBUTIONSAPPLICATIONS
Y - _ suit approximativement une loi N (0, 1) / n
si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl
la somme de variables Khi-deux indpendantes est une Khi-deux
si Zi ~ N ( 0, 1 ) i = 1, 2, , n alors Zi2 ~ Khi-deux avec n ddl
si Yi ~ N ( , 2 ) i = 1, 2, , n alors [ (Yi )/ ] 2 ~ Khi- deux avec n ddl
(n-1) S 2 / 2 = ( Y i Y ) 2 / 2 suit une loi Khi-deux avec (n 1) ddl
Y1 suit une loi Khi-deux avec v1 ddlY2 suit une loi Khi-deux avec v2 ddlY1 et Y2 sont indpendantes alors
( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2)
T = Y - _ suit une loi de Student avec = n 1 degrs de libert s / n
-
24Bernard CLMENT, PhD
MTH2302 Probabilits et mthodes statistiques
RSUM des DISTRIBUTIONS
LIAISONS entre les distributions
Processus de POISSON et la distribution exponentielle
Distribution binomiale et distribution gomtrique
-
25
Distribution dchantillonnage de lcart type SRsultat : soit X i un chantillon de n observations dune population N ( , 2 )
S = [ (1 / ( n 1 )) ( Yi Y ) 2 ] 0.5 : lcart type chantillonnalalors E (S) = c4 et Var (S) = c52 2
n 2 3 4 5 6 7 8 9 10 15 20 25c4 0.798 0.886 0.921 0.940 0.952 0.959 0.965 0.969 0.973 0.982 0.987 0.990c5 0.603 0.463 0.389 0.341 0.308 0.282 0.262 0.246 0.232 0.187 0.161 0.144
Rsultat : application - cartes de contrle de Shewhart
(a) = S / c 4 est une estimation sans biais de : E ( S /c 4 ) = (b) soit k groupes de n donnes, S j lcart type du groupe j = 1, 2,..., k
S = S j / k la moyenne des cart types
= S / c 4 est une estimation sans biais de
S
f S distribution dchantillonnage de S : n fix
0 E( S )
remarque : si n > = 10 c 4 1
Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques
HORS PROGRAMME
-
26
Distribution dchantillonnage de ltendue RRsultat : soit Y i un chantillon de n observations dune population N ( , 2 )
R = max ( Y i) - min (Yi) : tendue chantillonnalealors E ( R ) = d 2 et Var ( R ) = d 32 2
n 2 3 4 5 6 7 8 9 10 15 20 25d 2 1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.472 3.735 3.931d 3 0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.755 0.729 0.709
Rsultat : application - cartes de contrle de Shewhart
(a) = R / d 2 est une estimation sans biais de : E ( R / d 2 ) = (b) soit k groupes de n donnes, R j ltendue du groupe j = 1, 2,..., k
R = R j / k moyenne des tendues = R / d 2 est une estimation sans biais de
R
f R distribution dchantillonnage de R : n fix
0 E( R )
remarque: il nest pas recommand dutiliser R pour estimer avec n > 10
lcart type s est prfrable car il est plus prcis
Bernard CLMENT, PhD
HORS PROGRAMME
MTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesDiapositive numro 7MTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesDiapositive numro 11MTH2302 Probabilits et mthodes statistiquesDiapositive numro 13Diapositive numro 14MTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesDiapositive numro 17MTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesDiapositive numro 26