Distributions d’échantillonnage Terminologie...
Transcript of Distributions d’échantillonnage Terminologie...
1
Terminologie statistique Distribution de la moyenne: théorème central- limite
distribution Khi-deux (χ2)
distribution T de Student
distribution F de Fisher
résumé des distributions
Distributions d’échantillonnage
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
hors programme : distribution de S / distribution de R
2
Constats et terminologie statistique
• les populations statistiques sont modélisées par des distributions deprobabilités dont les paramètres sont toujours inconnus;
• le mieux que l’on puisse faire: estimer les paramètres avec des
données échantillonnales (observations) provenant de la même distribution
(population);
• les données (Y1, Y2, …) sont transformées en statistique W par une fonctionW = h (Y1, Y2 ,…. ) W est une variable aléatoire
le choix de h dépend de l’application envisagée (ESTIMATION ou TEST)la loi de probabilité de W s’appelle distribution d’échantillonnage;
exemple : 2 échantillons de taille n provenant de la même population
(Y1, Y2, …, Yn) et (Y1’, Y2’ , ….., Yn’) auront une moyenne (xbar),différente, un écart type s différent, un histogramme différent : c’est l’influence de la variabilité de l’échantillonnage;
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
3
Constats et terminologie statistique
• on dispose toujours que d’un seul échantillon de taille n pour la mise en œuvre d’une procédure statistique:
ESTIMATION chapitre 10
TEST D’HYPOTHÈSES chapitre 11
• paramètre statistique ξ :
quantité associée à une distribution
exemplesξ = μ moyenne distribution : exemple normale
ξ = σ écart type distribution quelconque
ξ = θ moyenne distribution Bernoulli (θ)
ξ = θ(1- θ) variance distribution Bernoulli (θ)
ξ = xp p-ième percentile d’une variable X
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
4
Terminologie statistique
Échantillon aléatoire (définition)
un ensemble de variables aléatoires Y 1 , Y 2 , .., Y n telles que(a) les variables sont soumises à une même loi f(y)(b) les variables sont indépendantes
loi conjointe : g (Y1, Y2, …, Yn) = f( Y1)* f(Y2) * …* f(Yn)
Statistique : toute fonction aléatoire établie sur l’échantillonW = h (Y1 , Y2 , …., Y n )
remarque : W est une variable aléatoire
Estimateur : une statistique particulière conçue de façon à fournirune estimation d’un paramètre d’une loi de probabilité
Aplications: EstimationTest d’hypothèsesRégressionAnalyse de la variance
Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques
5
Résultat 1 Soit Y 1 , Y 2,, ….. , Y n des v. a. indépendantes telles que(rappel) E(Yi ) = μi et Var (Yi ) = σi
2 i = 1, 2, …, nsoient a 1, a 2,, …. , a n des constantes et
i=nsoit W = ∑ ai Yi une combinaison linéaire des Yi
i=1
Alors E( W ) = μ W = ∑ ai μi et Var ( W ) = σw2 = ∑ ai
2 σi2
remarque 1 : aucune hypothèse est nécessaire sur les lois des Yiremarque 2 : si les Yi sont gaussiennes alors W est gaussienne
Résultat 3 Si les Yi sont gaussiennes Yi ~ N (μ , σ2 )
alors Y est gaussienne N (μ , σ2 / n )
Résultat 2 Soit ai = 1 / n E(Yi ) = μ Var( Yi ) = σ2 alors i=n
W = Y = Ybar = ∑ (1/n ) Yi vérifie E(Y) = μ et Var(Y) = σ2 / ni=1
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
6
Distribution de la moyenne échantillonnale : Théorème central limite
Résultat 4 : théorème central – limite
Soit W = ∑ Yi avec E(Yi ) = μi , Var (Yi ) = σi2 i = 1, 2, … , n
Si « n est assez grand » (au moins 30)
Alors W suit approximativement une loi gaussienne N(μW , σW2 )
avec μW = ∑ μi et σY2 = ∑ σi
2
remarque : il n’y a aucune condition spécifique sur les lois des Yi
Résultat 5 Si E( Yi) = μ , Var (Yi) = σ2 i = 1, 2 ,… , n
alors Y suit approximativement loi gaussienne N (μ , σ2 / n)
remarque on peut écrire le résultat sous la forme équivalente
Y - μ_ suit approximativement une loi N (0, 1) σ / √ n
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
7
Histogram (chap06.sta 31v*30000c)
-1.7318-1.4547
-1.1776-0.9005
-0.6234-0.3462
-0.06910.2080
0.48510.7622
1.03931.3164
1.5935
uniforme
0
100
200
300
400
500
600
700
No of obs
Histogram (chap06.sta 21v*30000c)unif2 = 15000*0.0689*normal(x; 7.9327E-5; 0.706)
-1.7286-1.4530
-1.1773-0.9017
-0.6260-0.3504
-0.07470.2009
0.47650.7522
1.02781.3035
1.5791
unif2
0
100
200
300
400
500
600
700
No of obs
Histogram (chap06.sta 21v*30000c)unif5 = 6000*0.0572*normal(x; 7.9327E-5; 0.4506)
-1.4455-1.2165
-0.9876-0.7587
-0.5297-0.3008
-0.07190.1570
0.38600.6149
0.84381.0727
1.3017
unif5
0
50
100
150
200
250
300
350
No of obs
Distribution
de Y
Histogram (chap06.sta 21v*30000c)unif15 = 2000*0.0316*normal(x; 7.9327E-5; 0.2586)
-0.7560-0.6298
-0.5035-0.3772
-0.2510-0.1247
0.00160.1278
0.25410.3804
0.50660.6329
0.7592
unif15
0
20
40
60
80
100
120
No of obs
Histogram (chap06.sta 21v*30000c)unif30 = 1000*0.0249*normal(x; 7.9327E-5; 0.1825)
-0.6378-0.5380
-0.4382-0.3384
-0.2387-0.1389
-0.03910.0607
0.16050.2603
0.36010.4599
0.5597
unif30
0
10
20
30
40
50
60
70
No of obs
n = 1
n = 2
n = 5
n = 15
n = 30
uniformeHistogram (chap06.sta 31v*30000c)
-1.00000.0273
1.05462.0819
3.10924.1365
5.16386.1911
7.21848.2457
9.273010.3003
11.3276
exponentielle
0
1000
2000
3000
4000
5000
6000
7000
8000
No of obs
exponentielle
Histogram (chap06.sta 31v*30000c)
-0.9961-0.3735
0.24910.8717
1.49442.1170
2.73963.3622
3.98484.6074
5.23015.8527
6.4753
expo2
0
200
400
600
800
1000
1200
1400
1600
1800
2000
No of obs
Histogram (chap06.sta 31v*30000c)expo5 = 6000*0.0774*normal(x; 0.0031; 0.4455)
-0.9355-0.6259
-0.3162-0.0066
0.30300.6126
0.92221.2318
1.54141.8510
2.16062.4703
2.7799
expo5
0
100
200
300
400
500
600
No of obs
Histogram (chap06.sta 31v*30000c)expo15 = 2000*0.0369*normal(x; 0.0031; 0.2567)
-0.6499-0.5023
-0.3548-0.2073
-0.05980.0878
0.23530.3828
0.53030.6778
0.82540.9729
1.1204
expo15
0
20
40
60
80
100
120
140
160
No of obs
Histogram (chap06.sta 31v*30000c)expo30 = 1000*0.0242*normal(x; 0.0031; 0.1816)
-0.5145-0.4176
-0.3208-0.2239
-0.1270-0.0302
0.06670.1636
0.26040.3573
0.45420.5510
0.6479
expo30
0
10
20
30
40
50
60
No of obs
gaussienneP O P U L A T I O N
Histogram (chap06.sta 31v*30000c)gaussienne = 30000*0.1715*normal(x; -0.0018; 1.0078)
-3.9095-3.2235
-2.5375-1.8514
-1.1654-0.4794
0.20660.8926
1.57872.2647
2.95073.6367
4.3227
gaussienne
0
200
400
600
800
1000
1200
1400
1600
1800
2000
2200
2400
No of obs
Histogram (chap06.sta 31v*30000c)norm2 = 15000*0.1032*normal(x; -0.0018; 0.7139)
-2.6496-2.2367
-1.8237-1.4107
-0.9978-0.5848
-0.17190.2411
0.65411.0670
1.48001.8929
2.3059
norm2
0
100
200
300
400
500
600
700
800
900
1000
No of obs
Histogram (chap06.sta 31v*30000c)norm5 = 6000*0.0672*normal(x; -0.0018; 0.4489)
-1.6782-1.4096
-1.1409-0.8723
-0.6037-0.3350
-0.06640.2022
0.47090.7395
1.00811.2767
1.5454
norm5
0
50
100
150
200
250
300
350
400
No of obs
Histogram (chap06.sta 31v*30000c)norm15 = 2000*0.0361*normal(x; -0.0018; 0.2586)
-1.0046-0.8604
-0.7161-0.5718
-0.4275-0.2832
-0.13890.0054
0.14970.2940
0.43820.5825
0.7268
norm15
0
20
40
60
80
100
120
140
No of obs
Histogram (chap06.sta 31v*30000c)norm30 = 1000*0.0238*normal(x; -0.0018; 0.1854)
-0.6652-0.5701
-0.4750-0.3799
-0.2848-0.1897
-0.09460.0005
0.09560.1907
0.28580.3809
0.4760
norm30
0
10
20
30
40
50
60
No of obs
Bernard CLÉMENT, PhD 7
8
approximation de la distribution binomiale par une normalecas particulier de l’application du théorème central – limite.Y = nombre de succès dans une suite de n essais de Bernoulli indépendants
Posons Yi v. a. de Bernoulli associée a essai i i = 1, 2,…, n
1 avec probabilité θ Yi =
0 avec probabilité 1 - θ
E ( Yi ) = 0 * (1 - θ ) + 1 * θ = θ Var ( Yi) = θ(1 – θ )
Y = ∑ Yi est une v. a binomiale b(n, θ)
On applique le résultat 5 : Y suit approximativement dist. N(n θ , n θ (1 - θ))
Donc Y – n θ = Y - θ
√ n θ ( 1- θ ) √ θ ( 1- θ ) / n
suit approximativement distribution N ( 0, 1)
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
9
Exemple la demande quotidienne d’énergie électrique ( KWh ) pour un logement estune variable de moyenne 200 et d’écart type 20. Posons D = demande totale d’énergie électrique dans un
arrondissement de 500 logements.
Calculer une limite supérieure D0 pour D qui ne serait pas dépasséeavec probabilité 0,99
solution D = ∑ Yi ou Yi est la demande du logement i = 1, 2, …., 500
D suit approximativement une loi gaussienne N(μ , σ2)
μ = 500 * 200 = 100 000 et σ2 = 500 * 202 = 200 000 = ( 447,2 )2
P (D ≤ D0 ) = 0,99 Φ [(D0 - 100 000 ) / 447,2 )] = 0,99
D0 = 100 000 + z0.99 * 447,2 = 100 00 + 2.33 * 447,2 = 101 042
Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques
Distribution de la moyenne échantillonnale : Théorème central limite
10Bernard CLÉMENT, PhD
Exemple : la durée de vie Y d’un composant électronique suit une loiexponentielle de moyenne 100 heures
(a) Quelle est la probabilité que la durée moyenne Y de 36 composants dépasse125 heures?
(b) Combien de composants (n) doit- on avoir fin que la différence entre Y et 100
n’excède pas 10 avec une probabilité de 0,95?
solution : si Y suit une loi exponentielle , l’écart type de Y = moyenne de X = 100 alors Y suit approximativement une distribution N (100, 100 2 / 36 )
(a) P ( Y > 125 ) = 1 – Φ [ (125 – 100) / (100 / 6 )] = 1 - Φ (1,5 ) = 1 - 0,933 = 0,067
(b) P ( │ Y - 100 │ < 10 ) = 0,95 alors P ( │ Y - 100 │ < 10 __ ) = 0,95
100 / √ n 100 / √ n
2 Φ (√ n / 10) - 1 = 0,95 donne Φ (√ n / 10) = 0,975
√ n / 10 = Φ -1 (0,975) n = 384
MTH2302 Probabilités et méthodes statistiques
11
Distribution Khi-deuxUne variable aléatoire χ2 dont la densité de probabilité est définie par
f χ2 ( u ) = c(ν) u (ν / 2) - 1 exp (- u / 2 ) 0 < u < ∞s’ appelle une variable Khi-deux (χ2 ) avec ν degrés de liberté (ddl)
ν = 1, 2,3, …, ∞ c(ν ) est une constante qui dépend de ν
Propriétés• E ( χ2 ) = ν et Var ( χ2 ) = 2 ν
• si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl
• la somme de variables Khi-deux indépendantes est une Khi-deux
• si Zi ~ N ( 0, 1 ) i = 1, 2, …, n alors ∑ Zi2 ~ Khi-deux avec n ddl
• si Yi ~ N ( μ, σ2 ) i = 1, 2, …, n alors ∑ [ (Yi – μ )/ σ] 2 ~ Khi- deux avec n ddl
Bernard CLÉMENT, PhD
12
Table des quantiles d’une Khi-deuxQuantile
HMGB p. 478
Notation : χ2 p, νquantile d’ordre p
d’une variable χ2ν
avec ν degré de liberté
P ( χ 2ν ≤ Χ2
p, ν ) = p
Exemple
P ( χ25 ≤ 9,24 ) = 0.90
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
13
Distribution Student Une variable aléatoire T dont la densité de probabilité est définie par
f T ( t ) = c(ν) ( 1 + t 2 / ν ) - ( ν + 1 ) / 2 - ∞ < t < ∞s’appelle une variable de Student avec ν degrés de liberté , ν = 1, 2, 3,…., ∞c(ν) est une constante qui dépend de ν
Propriétés• densité symétrique p.r à 0
• E (T ) = 0
• Var (T) = ν / ( ν - 2 ) (ν > 2)
• si Z est une N(0,1) alors
T = Z / √ χv2 / v suit loi T avec v ddl
• si ν = ∞ la variable de Student
est une variable normale centrée réduite
• si ν > 30 la distribution Student est quasi
identique à une loi normale centré-réduite
la lettre T est généralement consacrée pour représenter la variable de Student
14
HMGB p. 479
table des quantiles d’une variable Student
t p , ν :
quantile d’ordre p
variable Student Tνν degrés de liberté
P ( Tν ≤ t p , ν ) = p
Exemple
P ( T5 ≤ 2.015 ) = 0.95
Bernard CLÉMENT, PhD
15
Résultat 7 application importante de la Student
soit Y i i = 1, 2,…, n un échantillon aléatoire d’une population N( μ, σ2 )
Soit Y = ∑ Y i / n et S2 = ∑ ( Y i – Y ) 2 / ( n - 1 )
Alors T = Y - μ_ s / √ n
suit une loi de Student avec ν = n – 1 degrés de liberté
Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques
Résultat 6 application importante de la Khi-deux
soit Y i i = 1, 2,…, n un échantillon aléatoire d’une population N( μ, σ2 )
soit S 2 = 1 / ( n – 1 ) ∑ ( Y i – Y ) 2 la variance échantillonnale
alors (n-1) S 2 / σ2 = ∑ ( Y i – Y ) 2 / σ2
suit une loi Khi-deux avec (n – 1) ddl
16
distribution F de Fisher-SnedecorUne variable aléatoire X dont la densité de probabilité f est définie par
f X ( x) = c(ν1,ν2) x ( ν1 / 2 ) - 1 [ 1 + ( ν1/v2 )x ] - ( v1 + v2 ) /2 0 < x < ∞est appelée une variable aléatoire distribuée selon une loi de Fisher-Snedecor avecv1 ddl au numérateur et v2 ddl au dénominateur; c(v1,v2) est une constante
Propriétés• E ( F ) = v2 / ( v2 – 2 )
• si Y1 suit une loi Khi-deux avec v1 ddlY2 suit une loi Khi-deux avec v2 ddlY1 et Y2 sont indépendantes alors
( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2)
• T2v = F (1, v) : le carré d’une loi de Student
avec v ddl est une loi F(1,v)
Densité de probabilité de Fisher-Snedecor
Bernard CLÉMENT, PhD
17
Quantiles d’une F de Fisher-Snedecor
HMGB p. 480-489
Notation
F p, v1, v2 :
quantile d’ordre p d‘unevariable de Fischer- SnedecorF v1 , v2 avec
v1 ddl au numérateurv2 ddl au dénominateur
Exemple
P ( F8 , 3 ≤ 5.25 ) = 0.90
Bernard CLÉMENT, PhD
F0.90, 8 , 3 = 5.25
18
-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26
U
-0.02
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
GAUS
S
Résultat 8 ( SY2 / σY
2 ) / (SZ2 / σZ
2) suit une loi F n1-1 , n2-1
-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26
U
-0.02
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
GAUS
S
Y1, Y2 , … , Yn1
Y ~ N ( μY, σY2) Z ~ N ( μZ, σZ
2)
σY σZ
μy μZ
Z1, Z2 , … , Zn2
distribution d’échantillonnage du quotient de 2 variances
échantillonsindépendants
Y = ∑ Yi / n1 Z = ∑ Zi / n2moyennes
SY2 = (1/( n1 – 1)) ∑ ( Yi – Y )2 variances SZ
2 = 1/( n2 – 1 ) ∑ ( Zi – Z )2
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
19Bernard CLÉMENT, PhD
RÉSUMÉ des DISTRIBUTIONS discrètes
20Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
RÉSUMÉ des DISTRIBUTIONS continues
21Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
DISTRIBUTIONS D’ÉCHANTILLONNAGE
22Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
APPROXIMATIONS
23Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
RÉSUMÉ des DISTRIBUTIONSAPPLICATIONS
Y - μ_ suit approximativement une loi N (0, 1) σ / √ n
• si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl
• la somme de variables Khi-deux indépendantes est une Khi-deux
• si Zi ~ N ( 0, 1 ) i = 1, 2, …, n alors ∑ Zi2 ~ Khi-deux avec n ddl
• si Yi ~ N ( μ, σ2 ) i = 1, 2, …, n alors ∑ [ (Yi – μ )/ σ] 2 ~ Khi- deux avec n ddl
(n-1) S 2 / σ2 = ∑ ( Y i – Y ) 2 / σ2 suit une loi Khi-deux avec (n – 1) ddl
Y1 suit une loi Khi-deux avec v1 ddlY2 suit une loi Khi-deux avec v2 ddlY1 et Y2 sont indépendantes alors
( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2)
T = Y - μ_ suit une loi de Student avec ν = n – 1 degrés de liberté s / √ n
24Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
RÉSUMÉ des DISTRIBUTIONS
LIAISONS entre les distributions
Processus de POISSON et la distribution exponentielle
Distribution binomiale et distribution géométrique
25
Distribution d’échantillonnage de l’écart type SRésultat : soit X i un échantillon de n observations d’une population N ( μ, σ2 )
S = [ (1 / ( n – 1 )) ∑ ( Yi – Y ) 2 ] 0.5 : l’écart type échantillonnalalors E (S) = c4σ et Var (S) = c5
2 σ2
n 2 3 4 5 6 7 8 9 10 15 20 25c4 0.798 0.886 0.921 0.940 0.952 0.959 0.965 0.969 0.973 0.982 0.987 0.990c5 0.603 0.463 0.389 0.341 0.308 0.282 0.262 0.246 0.232 0.187 0.161 0.144
Résultat : application - cartes de contrôle de Shewhart
(a) σ = S / c 4 est une estimation sans biais de σ : E ( S /c 4 ) = σ(b) soit k groupes de n données, S j l’écart type du groupe j = 1, 2,..., k
S = ∑ S j / k la moyenne des écart types
σ = S / c 4 est une estimation sans biais de σ
S
f S distribution d’échantillonnage de S : n fixé
0 E( S )
remarque : si n > = 10 c 4 ≈ 1
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
HORS PROGRAMME
26
Distribution d’échantillonnage de l’étendue RRésultat : soit Y i un échantillon de n observations d’une population N ( μ, σ2 )
R = max ( Y i) - min (Yi) : étendue échantillonnalealors E ( R ) = d 2 σ et Var ( R ) = d 32 σ2
n 2 3 4 5 6 7 8 9 10 15 20 25d 2 1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.472 3.735 3.931d 3 0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.755 0.729 0.709
Résultat : application - cartes de contrôle de Shewhart
(a) σ = R / d 2 est une estimation sans biais de σ : E ( R / d 2 ) = σ(b) soit k groupes de n données, R j l’étendue du groupe j = 1, 2,..., k
R = ∑ R j / k moyenne des étenduesσ = R / d 2 est une estimation sans biais de σ
R
f R distribution d’échantillonnage de R : n fixé
0 E( R )
remarque: il n’est pas recommandé d’utiliser R pour estimer σ avec n > 10
l’écart type s est préférable car il est plus précis
Bernard CLÉMENT, PhD
HORS PROGRAMME