MTH 2301 Méthodes statistiques en ingénierie...1 terminologie statistique rappels distribution de...

Post on 17-Jun-2020

3 views 0 download

Transcript of MTH 2301 Méthodes statistiques en ingénierie...1 terminologie statistique rappels distribution de...

1

terminologie statistique rappels

distribution de la moyenne: théorème central- limite

distribution Khi-deux (χ2)

distribution T de Student

distribution F de Fisher

résumé des distributions

approximations distribution de S - distribution de R

Distributions d’échantillonnage

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

Page

1

5

6

11

13

16

19

20

21

2

terminologie statistique

• les populations statistiques sont modélisées par des distributionsdont les paramètres sont toujours inconnus

• à faire: estimer les paramètres avec des données échantillonnales(observations) provenant de la distribution (population);

• données (Y1, Y2, …) transformées en statistique W par une fonction

W = h (Y1, Y2 ,…. ) W = variable aléatoirechoix de h ? : dépend de l’applicationdistribution de W = distribution d’échantillonnage

exemple : 2 échantillons de taille n provenant de la même population(Y1, Y2, …, Yn) (Y1’, Y2’ , ….., Yn’)

auront - moyenne Y différente- écart type s différent- histogramme différent

cause = influence de la variabilité de l’échantillonnage

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

3

terminologie statistique

on a toujours UN seul échantillon de taille n pour uneétude statistique estimation test d’hypothèse modèle statistique Y = H(X1, X2, …, Xk ; θ1, θ2 … , θk ) + ε

X1, X2, …, Xk : variables explicatives de Yθ1, θ2 … , θk : constantes inconnues

modèle de régression - modèle d’analyse de variance

paramètre statistique: quantités associées distribution

exemplesθ = μ moyenne distribution (normale ou autre)

θ = σ écart type distribution

θ = p paramètre distribution Bernoulli

θ = xp p-ième percentile distribution

θ1, θ2 … , θk constantes inconnues de H

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

4

Terminologie statistique

Échantillon aléatoire (définition) de taille nensemble de n variables aléatoires Y 1 , Y 2 , .., Y n(a) Yi suivent toutes la même distribution fY(y)

sont identiquement distribuéesfYi (yi) = fY (yi) i = 1 , 2,.., n

(b) Yi sont mutuellement indépendantesfY1, Y2,.., Yn (y1, y2, …, yn) = fY1 (y1)*fY2 (y2)* …*fYn (yn)

= fY (y1)*fY (y2)* …*fY (yn)

Statistique toute fonction h des YiW = h (Y1, Y2 , …., Yn )

W : nouvelle variable aléatoireproblème important : connaitre distribution de W

Applications: - estimation- test d’hypothèses- modèles de régression- modèles d’analyse de la variance

Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques

5

Résultat 1 Y 1 , Y 2,, ….. , Y n des v. a. indépendantesE(Yi ) = μi et Var (Yi ) = σi

2 i = 1, 2, …, na 1, a 2,, …. , a n des constantes et

i=nW = ∑ ai Yi une combinaison linéaire des Yi

i=1E( W ) = μW = ∑ ai μi Var ( W ) = σw

2 = ∑ ai2 σi

2

remarque 1 : aucune hypothèse nécessaire sur les distributions des Yiremarque 2 : si les Yi sont normales alors W est normale

Résultat 3 si les Yi sont normales Yi ~ N (μ , σ2 )

Y est normale N (μ , σ2 / n )

Résultat 2 ai = 1 / n E(Yi ) = μ Var( Yi ) = σ2

i=nW = Y = Ybar = ∑ (1/n ) Yi alors E(Y) = μ Var(Y) = σ2 / n

i=1

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

Rappels

6

Distribution de la moyenne échantillonnale : Théorème central limite

Résultat 4 : théorème central – limite

Soit W = ∑ Yi avec E(Yi ) = μi Var (Yi ) = σi2 i = 1, 2, … , n

Si « n est assez grand » (au moins 30) alors

W suit approximativement distribution normale N(μW , σW2 )

avec μW = ∑ μi et σY2 = ∑ σi

2

remarque : les variables Yi doivent être indépendantes

Résultat 5 Si E( Yi) = μ Var (Yi) = σ2 i = 1, 2 ,… , n

alors Y suit approximativement distribution normale N (μ , σ2 / n)

remarque résultat sous forme équivalente

Y - μ_ suit approximativement une distribution N (0, 1) σ / √ n

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

7

Histogram (chap06.sta 31v*30000c)

-1.7318-1.4547

-1.1776-0.9005

-0.6234-0.3462

-0.06910.2080

0.48510.7622

1.03931.3164

1.5935

uniforme

0

100

200

300

400

500

600

700

No of obs

Histogram (chap06.sta 21v*30000c)unif2 = 15000*0.0689*normal(x; 7.9327E-5; 0.706)

-1.7286-1.4530

-1.1773-0.9017

-0.6260-0.3504

-0.07470.2009

0.47650.7522

1.02781.3035

1.5791

unif2

0

100

200

300

400

500

600

700

No of obs

Histogram (chap06.sta 21v*30000c)unif5 = 6000*0.0572*normal(x; 7.9327E-5; 0.4506)

-1.4455-1.2165

-0.9876-0.7587

-0.5297-0.3008

-0.07190.1570

0.38600.6149

0.84381.0727

1.3017

unif5

0

50

100

150

200

250

300

350

No of obs

Distri--bution

de

Y

simulations

Histogram (chap06.sta 21v*30000c)unif15 = 2000*0.0316*normal(x; 7.9327E-5; 0.2586)

-0.7560-0.6298

-0.5035-0.3772

-0.2510-0.1247

0.00160.1278

0.25410.3804

0.50660.6329

0.7592

unif15

0

20

40

60

80

100

120

No of obs

Histogram (chap06.sta 21v*30000c)unif30 = 1000*0.0249*normal(x; 7.9327E-5; 0.1825)

-0.6378-0.5380

-0.4382-0.3384

-0.2387-0.1389

-0.03910.0607

0.16050.2603

0.36010.4599

0.5597

unif30

0

10

20

30

40

50

60

70

No of obs

n = 1

n = 2

n = 5

n = 15

n = 30

uniformeHistogram (chap06.sta 31v*30000c)

-1.00000.0273

1.05462.0819

3.10924.1365

5.16386.1911

7.21848.2457

9.273010.3003

11.3276

exponentielle

0

1000

2000

3000

4000

5000

6000

7000

8000

No of obs

exponentielle

Histogram (chap06.sta 31v*30000c)

-0.9961-0.3735

0.24910.8717

1.49442.1170

2.73963.3622

3.98484.6074

5.23015.8527

6.4753

expo2

0

200

400

600

800

1000

1200

1400

1600

1800

2000

No of obs

Histogram (chap06.sta 31v*30000c)expo5 = 6000*0.0774*normal(x; 0.0031; 0.4455)

-0.9355-0.6259

-0.3162-0.0066

0.30300.6126

0.92221.2318

1.54141.8510

2.16062.4703

2.7799

expo5

0

100

200

300

400

500

600

No of obs

Histogram (chap06.sta 31v*30000c)expo15 = 2000*0.0369*normal(x; 0.0031; 0.2567)

-0.6499-0.5023

-0.3548-0.2073

-0.05980.0878

0.23530.3828

0.53030.6778

0.82540.9729

1.1204

expo15

0

20

40

60

80

100

120

140

160

No of obs

Histogram (chap06.sta 31v*30000c)expo30 = 1000*0.0242*normal(x; 0.0031; 0.1816)

-0.5145-0.4176

-0.3208-0.2239

-0.1270-0.0302

0.06670.1636

0.26040.3573

0.45420.5510

0.6479

expo30

0

10

20

30

40

50

60

No of obs

gaussienneP O P U L A T I O N

Histogram (chap06.sta 31v*30000c)gaussienne = 30000*0.1715*normal(x; -0.0018; 1.0078)

-3.9095-3.2235

-2.5375-1.8514

-1.1654-0.4794

0.20660.8926

1.57872.2647

2.95073.6367

4.3227

gaussienne

0

200

400

600

800

1000

1200

1400

1600

1800

2000

2200

2400

No of obs

Histogram (chap06.sta 31v*30000c)norm2 = 15000*0.1032*normal(x; -0.0018; 0.7139)

-2.6496-2.2367

-1.8237-1.4107

-0.9978-0.5848

-0.17190.2411

0.65411.0670

1.48001.8929

2.3059

norm2

0

100

200

300

400

500

600

700

800

900

1000

No of obs

Histogram (chap06.sta 31v*30000c)norm5 = 6000*0.0672*normal(x; -0.0018; 0.4489)

-1.6782-1.4096

-1.1409-0.8723

-0.6037-0.3350

-0.06640.2022

0.47090.7395

1.00811.2767

1.5454

norm5

0

50

100

150

200

250

300

350

400

No of obs

Histogram (chap06.sta 31v*30000c)norm15 = 2000*0.0361*normal(x; -0.0018; 0.2586)

-1.0046-0.8604

-0.7161-0.5718

-0.4275-0.2832

-0.13890.0054

0.14970.2940

0.43820.5825

0.7268

norm15

0

20

40

60

80

100

120

140

No of obs

Histogram (chap06.sta 31v*30000c)norm30 = 1000*0.0238*normal(x; -0.0018; 0.1854)

-0.6652-0.5701

-0.4750-0.3799

-0.2848-0.1897

-0.09460.0005

0.09560.1907

0.28580.3809

0.4760

norm30

0

10

20

30

40

50

60

No of obs

Bernard CLÉMENT, PhD 7

n = 1

n = 2

n = 5

n = 15

n = 30

n = 1

n = 2

n = 5

n = 15

n = 30

8

approximation : distribution binomiale par distribution normalecas particulier : application du théorème central - limiteY = nombre de succès dans une suite de n essais

indépendants Bernoulli Yi v. a. de Bernoulli associée essai i i = 1, 2,…, n

1 avec probabilité θ Yi =

0 avec probabilité 1 - θ

E (Yi) = 0*(1 - θ) + 1*θ = θ Var ( Yi) = θ(1 – θ )

W = ∑ Yi distribuée binomiale (n, θ)

résultat 4 : Y distribuée approximativement N (µ = n θ , σ2 = n θ (1 - θ))

Y - n θ = Y - θ ~ N (0, 1) approximativement

√ n θ ( 1- θ ) √ θ ( 1- θ ) / n condition : nθ(1 - θ) > 5

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

9

Exemple demande quotidienne d’énergie électrique ( KWh ) pour un logementest une variable de moyenne 200 et d’écart type 20. Posons D = demande totale d’énergie électrique dans un

arrondissement de 500 logements.

question Calculer une limite supérieure D0 pour D qui ne serait pas dépasséeavec probabilité 0,99

solution D = ∑ Yi ou Yi est la demande du logement i = 1, 2, …., 500

D suit approximativement une loi gaussienne N(μ , σ2)

μ = 500 * 200 = 100 000 et σ2 = 500 * 202 = 200 000 = ( 447,2 )2

P (D ≤ D0 ) = 0,99 Φ [(D0 - 100 000 ) / 447,2 )] = 0,99

D0 = 100 000 + z0.99 * 447,2 = 100 00 + 2.33 * 447,2 = 101 042

Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques

10Bernard CLÉMENT, PhD

Exemple : la durée de vie Y d’un composant électronique suit distributionexponentielle de moyenne 100 heures

(a) Quelle est la probabilité que la durée moyenne Y de 36 composants dépasse125 heures?

(b) Combien de composants (n() doit- on avoir fin que la différence entre Y et 100

n’excède pas 10 avec une probabilité de 0,95?

solution : si Y suit une loi exponentielle ET(Y) = E(Y) = 100 alors Y suit approximativement une distribution N (100, 1002 / 36 )

(a) P ( Y > 125 ) = 1 – Φ [ (125 – 100) / (100 / 6 )] = 1 - Φ (1,5 ) = 1 - 0,933 = 0,067

(b) P ( │ Y - 100 │ < 10 ) = 0,95 alors P ( │ Y - 100 │ < 10 __ ) = 0,95

100 / √ n 100 / √ n

2 Φ (√ n / 10) - 1 = 0,95 donne Φ (√ n / 10) = 0,975

√ n / 10 = Φ -1 (0,975) n = 384

MTH2302 Probabilités et méthodes statistiques

11

Distribution

Khi-deux

𝛘𝛘𝛎𝛎𝟐𝟐

variable aléatoire continue notée 𝛘𝛘ν𝟐𝟐

densité f𝛘𝛘ν𝟐𝟐 (y) = c(ν) y (ν/2) - 1 e - y/2 0 < y < ∞

distribution Khi-deux avec ν degrés de liberté (dl)

ν = 1, 2,3, …, ∞ c(ν ) = constante dépend de ν

Propriétés E ( 𝛘𝛘ν𝟐𝟐 ) = ν Var ( 𝛘𝛘ν𝟐𝟐 ) = 2 ν si Z ~ N( 0,1 ) alors Z2 ~ 𝛘𝛘𝟏𝟏𝟐𝟐

𝛘𝛘𝛎𝛎𝟏𝟏𝟐𝟐 + 𝛘𝛘𝛎𝛎𝟐𝟐𝟐𝟐 + … + 𝛘𝛘𝛎𝛎𝐤𝐤𝟐𝟐 = 𝛘𝛘ν𝟐𝟐 ν = ν1 + ν2 + … + νk

si Zi ~ N ( 0, 1 ) i = 1, 2, …, n alors ∑ Zi2 ~ 𝛘𝛘𝒏𝒏𝟐𝟐

si Yi ~ N ( μ, σ2 ) i = 1, 2, …, n alors ∑ [ (Yi - μ ) / σ]2 ~ 𝛘𝛘𝒏𝒏𝟐𝟐

Bernard CLÉMENT, PhD

table Khi-deux

𝛘𝛘α,𝛎𝛎𝟐𝟐

0 < α < 1α : probabilité dépasser

à droiteν degré de liberté

P ( 𝛘𝛘𝛎𝛎𝟐𝟐 ≥ 𝛘𝛘α,𝛎𝛎𝟐𝟐 ) = α

Exemple

P ( 𝛘𝛘𝟓𝟓𝟐𝟐 ≥ 𝛘𝛘𝟎𝟎.𝟏𝟏𝟎𝟎, 𝟓𝟓𝟐𝟐 ) = 0,10

𝛘𝛘𝟎𝟎.𝟏𝟏𝟎𝟎, 𝟓𝟓𝟐𝟐 = 9,24

Bernard CLÉMENT, PhD12

notation alternativeprobabilité à gauche

= percentile90ième percentile = 9,24

𝛘𝛘𝟎𝟎.𝟗𝟗𝟎𝟎, 𝟓𝟓𝟐𝟐 = 9,24

Distribution

Student variable aléatoire continue notée Tνdensité

fTν ( t ) = c(ν)(1 + t2 / ν )- ( ν + 1 ) / 2 - ∞ < t < ∞

c(ν) constante dépend de ν

paramètre ν = degrés de liberté ν = 1, 2, 3,…., ∞Propriétés densité symétrique

E (Tν) = 0 Var (Tν) = ν / ( ν - 2 ) (ν > 2)

ν = ∞ distribution Student= distribution normale N(0, 1)

ν ≥ 30 distribution Student est ≈ distribution normale N(0, 1)

autre définition pour applictionsZ distribuée normale centrée réduite N (0,1)𝛘𝛘ν𝟐𝟐 distribuée Khi-deux avec ν dl

indépendante de Z

Tν = Z / √ 𝛘𝛘ν𝟐𝟐 / ν = N(0,1) / √ 𝛘𝛘ν𝟐𝟐 / ν

distribuée Student avec v dlBernard CLÉMENT, PhD

ν = 1

ν = 30ν = 2

13

Exemple

P (T5 ≥ t0.05, 5) = 0,05

t0.05, 5 = 2,015

Bernard CLÉMENT, PhD 14

table Studentt α, ν

0 < α < 1α : probabilité dépasser

à droite ν degré de liberté

P (Tν ≥ tα, ν) = α

notation alternativeprobabilité à gauche

= percentile

t0.95, 5 = 2,015

15Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques

APPLICATIONSYi i = 1, 2,…, n échantillon aléatoire de N( μ, σ2 )Y = (1 / n) ∑ Yi moyenne échantillonnaleS2 = (1 / ( n – 1)) ∑ (Yi - Y )2 variance échantillonnale

Résultat 6 (n-1) S 2 / σ2 = ∑ ( Yi - Y )2 / σ2 ~ 𝛘𝛘𝐧𝐧−𝟏𝟏𝟐𝟐

Résultat 7 ( Y - µ ) / ( s / √ n ) ~ Tn-1

JUSTIFICATION de 7

( Y - µ ) / (σ / √ n) Z N(0,1)(Y - µ ) / (s / √ n) = --------------------------- = --------------- = --------------

√ (n-1)s2 / σ2 /(n-1) √ W / (n-1) √ 𝛘𝛘𝐧𝐧−𝟏𝟏𝟐𝟐 / n-1

car N(0,1) / √ 𝛘𝛘ν𝟐𝟐 / ν = Tν selon définition Student page 13

16

Distribution

F(v1, v2)

de Fisher

Y ~ F(v1, v2) : distribution Fisher avec paramètres (v1, v2)v1 = dl numérateur v2 = dl dénominateur

densité fY (y) = c(ν1,ν2) y(ν1 / 2) - 1 [1+(ν1/v2) y] – (ν1 + ν2) /2 y ≥ 0

c(v1,v2) constante dépend de v1, v2

Propriétés E (F) = v2 / ( v2 – 2 )

autre définition pour applicationssi Y1 suit une loi Khi-deux avec v1 dlsi Y2 suit une loi Khi-deux avec v2 dlsi Y1 et Y2 sont indépendantes

alors (Y1/v1) / (Y2/v2) ~ F(v1, v2)

T2v = F(v1 = 1, v2 = v)

densité F de Fisher

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

17

Fv1, v2, 0,05 : valeur 95ième percentile F(v1, v2)α = 0,05 = probabilité dépassement

Notation Fv1, v2, α(1 – α) percentile F(v1, v2)

α : probabilité dépassement

P (Fv1, v2 ≥ F v1, v2, α ) = αExemple

P ( F8 , 4 ≥ 6,04 ) = 0,95

Bernard CLÉMENT, PhD

F8, 4, 0,05 = 6,04

α = 0,05

18

-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26

U

-0.02

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14GA

USS

Résultat 8 ( Y1 - Y2 ) - (μ1 - μ2 )

√ (σ12/ n1 + σ2

2/ n2)

Résultat 9a (S12 / σ1

2 ) / (S22 / σ2

2) ~ Fn1-1 , n2-1

9b S12 / S2

2 ~ Fn1-1 , n2-1 si σ1 = σ2

-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26

U

-0.02

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

GAUS

S

Y11, Y12 , … , Y1n1

Y1 ~ N ( μ1 , σ12) Y2 ~ N ( μ2 , σ2

2)

σ1σ2

μ1 μ2

Y21, Y22 , … , Y2n2

distribution d’échantillonnage : 2 échantillons indépendants

… distributions …

… échantillons …

… moyennes …

… variances …

Y1 = ∑ Y1i / n1 Y2 = ∑ Y2i / n2

S12 = (1/( n1 - 1)) ∑ (Y1i - Y1 )2 S2

2 = (1/( n2 - 1)) ∑ (Y2i - Y2 )2

Bernard CLÉMENT, PhD

= Z ~ N(0, 1)

échantillon 1:n1 observationsde Y1

Y1 ~ N (μ1, σ12) Y2 ~ N (μ2, σ2

2)

échantillon 2:n2 observationsde Y2

19Bernard CLÉMENT, PhD

RÉSUMÉ

DISTRIBUTIONS

20Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques

APPROXIMATIONS

LIAISONS ENTRE DISTRIBUTIONS

Processus de POISSON et distribution exponentielle

Distribution binomiale et distribution géométrique

21

Distribution d’échantillonnage de l’écart type S

Résultat 9 : Yi échantillon aléatoire de n observations de N ( μ, σ2 )S = [ (1 / ( n – 1 )) ∑ (Yi - Y ) 2 ] 0.5 l’écart type échantillonnalE (S) = c4σ et Var (S) = c5

2 σ2

n 2 3 4 5 6 7 8 9 10 15 20 c4 0.798 0.886 0.921 0.940 0.952 0.959 0.965 0.969 0.973 0.982 0.987c5 0.603 0.463 0.389 0.341 0.308 0.282 0.262 0.246 0.232 0.187 0.161

approximation n > = 10 c4 ≈ 1 c5 ≈ 1/√ 2n

S

fS

n ≥ 30

S ~ N (σ, σ2/2n)approximativement

0 E( S )

Bernard CLÉMENT, PhD

Distribution d’échantillonnage de l’étendue RRésultat 10: Yi échantillon aléatoire de n observations de N ( μ, σ2 )

R = max ( Y i) - min (Yi) : étendue échantillonnaleE (R ) = d2 σ et Var (R) = d3

2 σ2

n 2 3 4 5 6 7 8 9 10 15 20 d2 1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.472 3.735 d3 0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.755 0.729

remarque : R est employé dans les cartes de contrôle de Shewhart (SPC)

Estimateur de σ moyenne varianceR / d2 = estimateur1 E (R/d2) = σ Var (R/d2) = d3

2 σ2

S = estimateur2 E (S) = σ Var (S) = c52 σ2

S est meilleur que R1/d2 car Var(S) < Var (R/d2)pour n ≤ 5 : on peut employer R/d2 car Var (R/d2) ≈ Var (S)