Distributions d’échantillonnage Terminologie...

Post on 17-Jun-2020

7 views 0 download

Transcript of Distributions d’échantillonnage Terminologie...

1

Terminologie statistique Distribution de la moyenne: théorème central- limite

distribution Khi-deux (χ2)

distribution T de Student

distribution F de Fisher

résumé des distributions

Distributions d’échantillonnage

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

hors programme : distribution de S / distribution de R

2

Constats et terminologie statistique

• les populations statistiques sont modélisées par des distributions deprobabilités dont les paramètres sont toujours inconnus;

• le mieux que l’on puisse faire: estimer les paramètres avec des

données échantillonnales (observations) provenant de la même distribution

(population);

• les données (Y1, Y2, …) sont transformées en statistique W par une fonctionW = h (Y1, Y2 ,…. ) W est une variable aléatoire

le choix de h dépend de l’application envisagée (ESTIMATION ou TEST)la loi de probabilité de W s’appelle distribution d’échantillonnage;

exemple : 2 échantillons de taille n provenant de la même population

(Y1, Y2, …, Yn) et (Y1’, Y2’ , ….., Yn’) auront une moyenne (xbar),différente, un écart type s différent, un histogramme différent : c’est l’influence de la variabilité de l’échantillonnage;

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

3

Constats et terminologie statistique

• on dispose toujours que d’un seul échantillon de taille n pour la mise en œuvre d’une procédure statistique:

ESTIMATION chapitre 10

TEST D’HYPOTHÈSES chapitre 11

• paramètre statistique ξ :

quantité associée à une distribution

exemplesξ = μ moyenne distribution : exemple normale

ξ = σ écart type distribution quelconque

ξ = θ moyenne distribution Bernoulli (θ)

ξ = θ(1- θ) variance distribution Bernoulli (θ)

ξ = xp p-ième percentile d’une variable X

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

4

Terminologie statistique

Échantillon aléatoire (définition)

un ensemble de variables aléatoires Y 1 , Y 2 , .., Y n telles que(a) les variables sont soumises à une même loi f(y)(b) les variables sont indépendantes

loi conjointe : g (Y1, Y2, …, Yn) = f( Y1)* f(Y2) * …* f(Yn)

Statistique : toute fonction aléatoire établie sur l’échantillonW = h (Y1 , Y2 , …., Y n )

remarque : W est une variable aléatoire

Estimateur : une statistique particulière conçue de façon à fournirune estimation d’un paramètre d’une loi de probabilité

Aplications: EstimationTest d’hypothèsesRégressionAnalyse de la variance

Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques

5

Résultat 1 Soit Y 1 , Y 2,, ….. , Y n des v. a. indépendantes telles que(rappel) E(Yi ) = μi et Var (Yi ) = σi

2 i = 1, 2, …, nsoient a 1, a 2,, …. , a n des constantes et

i=nsoit W = ∑ ai Yi une combinaison linéaire des Yi

i=1

Alors E( W ) = μ W = ∑ ai μi et Var ( W ) = σw2 = ∑ ai

2 σi2

remarque 1 : aucune hypothèse est nécessaire sur les lois des Yiremarque 2 : si les Yi sont gaussiennes alors W est gaussienne

Résultat 3 Si les Yi sont gaussiennes Yi ~ N (μ , σ2 )

alors Y est gaussienne N (μ , σ2 / n )

Résultat 2 Soit ai = 1 / n E(Yi ) = μ Var( Yi ) = σ2 alors i=n

W = Y = Ybar = ∑ (1/n ) Yi vérifie E(Y) = μ et Var(Y) = σ2 / ni=1

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

6

Distribution de la moyenne échantillonnale : Théorème central limite

Résultat 4 : théorème central – limite

Soit W = ∑ Yi avec E(Yi ) = μi , Var (Yi ) = σi2 i = 1, 2, … , n

Si « n est assez grand » (au moins 30)

Alors W suit approximativement une loi gaussienne N(μW , σW2 )

avec μW = ∑ μi et σY2 = ∑ σi

2

remarque : il n’y a aucune condition spécifique sur les lois des Yi

Résultat 5 Si E( Yi) = μ , Var (Yi) = σ2 i = 1, 2 ,… , n

alors Y suit approximativement loi gaussienne N (μ , σ2 / n)

remarque on peut écrire le résultat sous la forme équivalente

Y - μ_ suit approximativement une loi N (0, 1) σ / √ n

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

7

Histogram (chap06.sta 31v*30000c)

-1.7318-1.4547

-1.1776-0.9005

-0.6234-0.3462

-0.06910.2080

0.48510.7622

1.03931.3164

1.5935

uniforme

0

100

200

300

400

500

600

700

No of obs

Histogram (chap06.sta 21v*30000c)unif2 = 15000*0.0689*normal(x; 7.9327E-5; 0.706)

-1.7286-1.4530

-1.1773-0.9017

-0.6260-0.3504

-0.07470.2009

0.47650.7522

1.02781.3035

1.5791

unif2

0

100

200

300

400

500

600

700

No of obs

Histogram (chap06.sta 21v*30000c)unif5 = 6000*0.0572*normal(x; 7.9327E-5; 0.4506)

-1.4455-1.2165

-0.9876-0.7587

-0.5297-0.3008

-0.07190.1570

0.38600.6149

0.84381.0727

1.3017

unif5

0

50

100

150

200

250

300

350

No of obs

Distribution

de Y

Histogram (chap06.sta 21v*30000c)unif15 = 2000*0.0316*normal(x; 7.9327E-5; 0.2586)

-0.7560-0.6298

-0.5035-0.3772

-0.2510-0.1247

0.00160.1278

0.25410.3804

0.50660.6329

0.7592

unif15

0

20

40

60

80

100

120

No of obs

Histogram (chap06.sta 21v*30000c)unif30 = 1000*0.0249*normal(x; 7.9327E-5; 0.1825)

-0.6378-0.5380

-0.4382-0.3384

-0.2387-0.1389

-0.03910.0607

0.16050.2603

0.36010.4599

0.5597

unif30

0

10

20

30

40

50

60

70

No of obs

n = 1

n = 2

n = 5

n = 15

n = 30

uniformeHistogram (chap06.sta 31v*30000c)

-1.00000.0273

1.05462.0819

3.10924.1365

5.16386.1911

7.21848.2457

9.273010.3003

11.3276

exponentielle

0

1000

2000

3000

4000

5000

6000

7000

8000

No of obs

exponentielle

Histogram (chap06.sta 31v*30000c)

-0.9961-0.3735

0.24910.8717

1.49442.1170

2.73963.3622

3.98484.6074

5.23015.8527

6.4753

expo2

0

200

400

600

800

1000

1200

1400

1600

1800

2000

No of obs

Histogram (chap06.sta 31v*30000c)expo5 = 6000*0.0774*normal(x; 0.0031; 0.4455)

-0.9355-0.6259

-0.3162-0.0066

0.30300.6126

0.92221.2318

1.54141.8510

2.16062.4703

2.7799

expo5

0

100

200

300

400

500

600

No of obs

Histogram (chap06.sta 31v*30000c)expo15 = 2000*0.0369*normal(x; 0.0031; 0.2567)

-0.6499-0.5023

-0.3548-0.2073

-0.05980.0878

0.23530.3828

0.53030.6778

0.82540.9729

1.1204

expo15

0

20

40

60

80

100

120

140

160

No of obs

Histogram (chap06.sta 31v*30000c)expo30 = 1000*0.0242*normal(x; 0.0031; 0.1816)

-0.5145-0.4176

-0.3208-0.2239

-0.1270-0.0302

0.06670.1636

0.26040.3573

0.45420.5510

0.6479

expo30

0

10

20

30

40

50

60

No of obs

gaussienneP O P U L A T I O N

Histogram (chap06.sta 31v*30000c)gaussienne = 30000*0.1715*normal(x; -0.0018; 1.0078)

-3.9095-3.2235

-2.5375-1.8514

-1.1654-0.4794

0.20660.8926

1.57872.2647

2.95073.6367

4.3227

gaussienne

0

200

400

600

800

1000

1200

1400

1600

1800

2000

2200

2400

No of obs

Histogram (chap06.sta 31v*30000c)norm2 = 15000*0.1032*normal(x; -0.0018; 0.7139)

-2.6496-2.2367

-1.8237-1.4107

-0.9978-0.5848

-0.17190.2411

0.65411.0670

1.48001.8929

2.3059

norm2

0

100

200

300

400

500

600

700

800

900

1000

No of obs

Histogram (chap06.sta 31v*30000c)norm5 = 6000*0.0672*normal(x; -0.0018; 0.4489)

-1.6782-1.4096

-1.1409-0.8723

-0.6037-0.3350

-0.06640.2022

0.47090.7395

1.00811.2767

1.5454

norm5

0

50

100

150

200

250

300

350

400

No of obs

Histogram (chap06.sta 31v*30000c)norm15 = 2000*0.0361*normal(x; -0.0018; 0.2586)

-1.0046-0.8604

-0.7161-0.5718

-0.4275-0.2832

-0.13890.0054

0.14970.2940

0.43820.5825

0.7268

norm15

0

20

40

60

80

100

120

140

No of obs

Histogram (chap06.sta 31v*30000c)norm30 = 1000*0.0238*normal(x; -0.0018; 0.1854)

-0.6652-0.5701

-0.4750-0.3799

-0.2848-0.1897

-0.09460.0005

0.09560.1907

0.28580.3809

0.4760

norm30

0

10

20

30

40

50

60

No of obs

Bernard CLÉMENT, PhD 7

8

approximation de la distribution binomiale par une normalecas particulier de l’application du théorème central – limite.Y = nombre de succès dans une suite de n essais de Bernoulli indépendants

Posons Yi v. a. de Bernoulli associée a essai i i = 1, 2,…, n

1 avec probabilité θ Yi =

0 avec probabilité 1 - θ

E ( Yi ) = 0 * (1 - θ ) + 1 * θ = θ Var ( Yi) = θ(1 – θ )

Y = ∑ Yi est une v. a binomiale b(n, θ)

On applique le résultat 5 : Y suit approximativement dist. N(n θ , n θ (1 - θ))

Donc Y – n θ = Y - θ

√ n θ ( 1- θ ) √ θ ( 1- θ ) / n

suit approximativement distribution N ( 0, 1)

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

9

Exemple la demande quotidienne d’énergie électrique ( KWh ) pour un logement estune variable de moyenne 200 et d’écart type 20. Posons D = demande totale d’énergie électrique dans un

arrondissement de 500 logements.

Calculer une limite supérieure D0 pour D qui ne serait pas dépasséeavec probabilité 0,99

solution D = ∑ Yi ou Yi est la demande du logement i = 1, 2, …., 500

D suit approximativement une loi gaussienne N(μ , σ2)

μ = 500 * 200 = 100 000 et σ2 = 500 * 202 = 200 000 = ( 447,2 )2

P (D ≤ D0 ) = 0,99 Φ [(D0 - 100 000 ) / 447,2 )] = 0,99

D0 = 100 000 + z0.99 * 447,2 = 100 00 + 2.33 * 447,2 = 101 042

Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques

Distribution de la moyenne échantillonnale : Théorème central limite

10Bernard CLÉMENT, PhD

Exemple : la durée de vie Y d’un composant électronique suit une loiexponentielle de moyenne 100 heures

(a) Quelle est la probabilité que la durée moyenne Y de 36 composants dépasse125 heures?

(b) Combien de composants (n) doit- on avoir fin que la différence entre Y et 100

n’excède pas 10 avec une probabilité de 0,95?

solution : si Y suit une loi exponentielle , l’écart type de Y = moyenne de X = 100 alors Y suit approximativement une distribution N (100, 100 2 / 36 )

(a) P ( Y > 125 ) = 1 – Φ [ (125 – 100) / (100 / 6 )] = 1 - Φ (1,5 ) = 1 - 0,933 = 0,067

(b) P ( │ Y - 100 │ < 10 ) = 0,95 alors P ( │ Y - 100 │ < 10 __ ) = 0,95

100 / √ n 100 / √ n

2 Φ (√ n / 10) - 1 = 0,95 donne Φ (√ n / 10) = 0,975

√ n / 10 = Φ -1 (0,975) n = 384

MTH2302 Probabilités et méthodes statistiques

11

Distribution Khi-deuxUne variable aléatoire χ2 dont la densité de probabilité est définie par

f χ2 ( u ) = c(ν) u (ν / 2) - 1 exp (- u / 2 ) 0 < u < ∞s’ appelle une variable Khi-deux (χ2 ) avec ν degrés de liberté (ddl)

ν = 1, 2,3, …, ∞ c(ν ) est une constante qui dépend de ν

Propriétés• E ( χ2 ) = ν et Var ( χ2 ) = 2 ν

• si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl

• la somme de variables Khi-deux indépendantes est une Khi-deux

• si Zi ~ N ( 0, 1 ) i = 1, 2, …, n alors ∑ Zi2 ~ Khi-deux avec n ddl

• si Yi ~ N ( μ, σ2 ) i = 1, 2, …, n alors ∑ [ (Yi – μ )/ σ] 2 ~ Khi- deux avec n ddl

Bernard CLÉMENT, PhD

12

Table des quantiles d’une Khi-deuxQuantile

HMGB p. 478

Notation : χ2 p, νquantile d’ordre p

d’une variable χ2ν

avec ν degré de liberté

P ( χ 2ν ≤ Χ2

p, ν ) = p

Exemple

P ( χ25 ≤ 9,24 ) = 0.90

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

13

Distribution Student Une variable aléatoire T dont la densité de probabilité est définie par

f T ( t ) = c(ν) ( 1 + t 2 / ν ) - ( ν + 1 ) / 2 - ∞ < t < ∞s’appelle une variable de Student avec ν degrés de liberté , ν = 1, 2, 3,…., ∞c(ν) est une constante qui dépend de ν

Propriétés• densité symétrique p.r à 0

• E (T ) = 0

• Var (T) = ν / ( ν - 2 ) (ν > 2)

• si Z est une N(0,1) alors

T = Z / √ χv2 / v suit loi T avec v ddl

• si ν = ∞ la variable de Student

est une variable normale centrée réduite

• si ν > 30 la distribution Student est quasi

identique à une loi normale centré-réduite

la lettre T est généralement consacrée pour représenter la variable de Student

14

HMGB p. 479

table des quantiles d’une variable Student

t p , ν :

quantile d’ordre p

variable Student Tνν degrés de liberté

P ( Tν ≤ t p , ν ) = p

Exemple

P ( T5 ≤ 2.015 ) = 0.95

Bernard CLÉMENT, PhD

15

Résultat 7 application importante de la Student

soit Y i i = 1, 2,…, n un échantillon aléatoire d’une population N( μ, σ2 )

Soit Y = ∑ Y i / n et S2 = ∑ ( Y i – Y ) 2 / ( n - 1 )

Alors T = Y - μ_ s / √ n

suit une loi de Student avec ν = n – 1 degrés de liberté

Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques

Résultat 6 application importante de la Khi-deux

soit Y i i = 1, 2,…, n un échantillon aléatoire d’une population N( μ, σ2 )

soit S 2 = 1 / ( n – 1 ) ∑ ( Y i – Y ) 2 la variance échantillonnale

alors (n-1) S 2 / σ2 = ∑ ( Y i – Y ) 2 / σ2

suit une loi Khi-deux avec (n – 1) ddl

16

distribution F de Fisher-SnedecorUne variable aléatoire X dont la densité de probabilité f est définie par

f X ( x) = c(ν1,ν2) x ( ν1 / 2 ) - 1 [ 1 + ( ν1/v2 )x ] - ( v1 + v2 ) /2 0 < x < ∞est appelée une variable aléatoire distribuée selon une loi de Fisher-Snedecor avecv1 ddl au numérateur et v2 ddl au dénominateur; c(v1,v2) est une constante

Propriétés• E ( F ) = v2 / ( v2 – 2 )

• si Y1 suit une loi Khi-deux avec v1 ddlY2 suit une loi Khi-deux avec v2 ddlY1 et Y2 sont indépendantes alors

( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2)

• T2v = F (1, v) : le carré d’une loi de Student

avec v ddl est une loi F(1,v)

Densité de probabilité de Fisher-Snedecor

Bernard CLÉMENT, PhD

17

Quantiles d’une F de Fisher-Snedecor

HMGB p. 480-489

Notation

F p, v1, v2 :

quantile d’ordre p d‘unevariable de Fischer- SnedecorF v1 , v2 avec

v1 ddl au numérateurv2 ddl au dénominateur

Exemple

P ( F8 , 3 ≤ 5.25 ) = 0.90

Bernard CLÉMENT, PhD

F0.90, 8 , 3 = 5.25

18

-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26

U

-0.02

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

GAUS

S

Résultat 8 ( SY2 / σY

2 ) / (SZ2 / σZ

2) suit une loi F n1-1 , n2-1

-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26

U

-0.02

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

GAUS

S

Y1, Y2 , … , Yn1

Y ~ N ( μY, σY2) Z ~ N ( μZ, σZ

2)

σY σZ

μy μZ

Z1, Z2 , … , Zn2

distribution d’échantillonnage du quotient de 2 variances

échantillonsindépendants

Y = ∑ Yi / n1 Z = ∑ Zi / n2moyennes

SY2 = (1/( n1 – 1)) ∑ ( Yi – Y )2 variances SZ

2 = 1/( n2 – 1 ) ∑ ( Zi – Z )2

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

19Bernard CLÉMENT, PhD

RÉSUMÉ des DISTRIBUTIONS discrètes

20Bernard CLÉMENT, PhD

MTH2302 Probabilités et méthodes statistiques

RÉSUMÉ des DISTRIBUTIONS continues

21Bernard CLÉMENT, PhD

MTH2302 Probabilités et méthodes statistiques

DISTRIBUTIONS D’ÉCHANTILLONNAGE

22Bernard CLÉMENT, PhD

MTH2302 Probabilités et méthodes statistiques

APPROXIMATIONS

23Bernard CLÉMENT, PhD

MTH2302 Probabilités et méthodes statistiques

RÉSUMÉ des DISTRIBUTIONSAPPLICATIONS

Y - μ_ suit approximativement une loi N (0, 1) σ / √ n

• si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl

• la somme de variables Khi-deux indépendantes est une Khi-deux

• si Zi ~ N ( 0, 1 ) i = 1, 2, …, n alors ∑ Zi2 ~ Khi-deux avec n ddl

• si Yi ~ N ( μ, σ2 ) i = 1, 2, …, n alors ∑ [ (Yi – μ )/ σ] 2 ~ Khi- deux avec n ddl

(n-1) S 2 / σ2 = ∑ ( Y i – Y ) 2 / σ2 suit une loi Khi-deux avec (n – 1) ddl

Y1 suit une loi Khi-deux avec v1 ddlY2 suit une loi Khi-deux avec v2 ddlY1 et Y2 sont indépendantes alors

( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2)

T = Y - μ_ suit une loi de Student avec ν = n – 1 degrés de liberté s / √ n

24Bernard CLÉMENT, PhD

MTH2302 Probabilités et méthodes statistiques

RÉSUMÉ des DISTRIBUTIONS

LIAISONS entre les distributions

Processus de POISSON et la distribution exponentielle

Distribution binomiale et distribution géométrique

25

Distribution d’échantillonnage de l’écart type SRésultat : soit X i un échantillon de n observations d’une population N ( μ, σ2 )

S = [ (1 / ( n – 1 )) ∑ ( Yi – Y ) 2 ] 0.5 : l’écart type échantillonnalalors E (S) = c4σ et Var (S) = c5

2 σ2

n 2 3 4 5 6 7 8 9 10 15 20 25c4 0.798 0.886 0.921 0.940 0.952 0.959 0.965 0.969 0.973 0.982 0.987 0.990c5 0.603 0.463 0.389 0.341 0.308 0.282 0.262 0.246 0.232 0.187 0.161 0.144

Résultat : application - cartes de contrôle de Shewhart

(a) σ = S / c 4 est une estimation sans biais de σ : E ( S /c 4 ) = σ(b) soit k groupes de n données, S j l’écart type du groupe j = 1, 2,..., k

S = ∑ S j / k la moyenne des écart types

σ = S / c 4 est une estimation sans biais de σ

S

f S distribution d’échantillonnage de S : n fixé

0 E( S )

remarque : si n > = 10 c 4 ≈ 1

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

HORS PROGRAMME

26

Distribution d’échantillonnage de l’étendue RRésultat : soit Y i un échantillon de n observations d’une population N ( μ, σ2 )

R = max ( Y i) - min (Yi) : étendue échantillonnalealors E ( R ) = d 2 σ et Var ( R ) = d 32 σ2

n 2 3 4 5 6 7 8 9 10 15 20 25d 2 1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.472 3.735 3.931d 3 0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.755 0.729 0.709

Résultat : application - cartes de contrôle de Shewhart

(a) σ = R / d 2 est une estimation sans biais de σ : E ( R / d 2 ) = σ(b) soit k groupes de n données, R j l’étendue du groupe j = 1, 2,..., k

R = ∑ R j / k moyenne des étenduesσ = R / d 2 est une estimation sans biais de σ

R

f R distribution d’échantillonnage de R : n fixé

0 E( R )

remarque: il n’est pas recommandé d’utiliser R pour estimer σ avec n > 10

l’écart type s est préférable car il est plus précis

Bernard CLÉMENT, PhD

HORS PROGRAMME