Distributions d’échantillonnage Terminologie statistique€¦ · une estimation d’un...

of 26 /26
1 Terminologie statistique Distribution de la moyenne: théorème central- limite distribution Khi-deux (χ 2 ) distribution T de Student distribution F de Fisher résumé des distributions Distributions d’échantillonnage Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques hors programme : distribution de S / distribution de R

Embed Size (px)

Transcript of Distributions d’échantillonnage Terminologie statistique€¦ · une estimation d’un...

  • 1

    Terminologie statistique Distribution de la moyenne: thorme central- limite

    distribution Khi-deux (2)

    distribution T de Student

    distribution F de Fisher

    rsum des distributions

    Distributions dchantillonnage

    Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques

    hors programme : distribution de S / distribution de R

  • 2

    Constats et terminologie statistique

    les populations statistiques sont modlises par des distributions de probabilits dont les paramtres sont toujours inconnus; le mieux que lon puisse faire: estimer les paramtres avec des

    donnes chantillonnales (observations) provenant de la mme distribution

    (population);

    les donnes (Y1, Y2, ) sont transformes en statistique W par une fonctionW = h (Y1, Y2 ,. ) W est une variable alatoire

    le choix de h dpend de lapplication envisage (ESTIMATION ou TEST)la loi de probabilit de W sappelle distribution dchantillonnage;

    exemple : 2 chantillons de taille n provenant de la mme population

    (Y1, Y2, , Yn) et (Y1, Y2 , .., Yn) auront une moyenne (xbar),diffrente, un cart type s diffrent, un histogramme diffrent : cest linfluence de la variabilit de lchantillonnage;

    Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques

  • 3

    Constats et terminologie statistique

    on dispose toujours que dun seul chantillon de taille n pour la mise en uvre dune procdure statistique:

    ESTIMATION chapitre 10

    TEST DHYPOTHSES chapitre 11

    paramtre statistique :

    quantit associe une distribution

    exemples = moyenne distribution : exemple normale

    = cart type distribution quelconque

    = moyenne distribution Bernoulli ()

    = (1- ) variance distribution Bernoulli ()

    = xp p-ime percentile dune variable X

    Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques

  • 4

    Terminologie statistique

    chantillon alatoire (dfinition)

    un ensemble de variables alatoires Y 1 , Y 2 , .., Y n telles que(a) les variables sont soumises une mme loi f(y) (b) les variables sont indpendantes

    loi conjointe : g (Y1, Y2, , Yn) = f( Y1)* f(Y2) * * f(Yn)

    Statistique : toute fonction alatoire tablie sur lchantillonW = h (Y1 , Y2 , ., Y n )

    remarque : W est une variable alatoire

    Estimateur : une statistique particulire conue de faon fournirune estimation dun paramtre dune loi de probabilit

    Aplications: EstimationTest dhypothsesRgressionAnalyse de la variance

    Bernard CLMENT, PhDMTH2302 Probabilits et mthodes statistiques

  • 5

    Rsultat 1 Soit Y 1 , Y 2,, .. , Y n des v. a. indpendantes telles que(rappel) E(Yi ) = i et Var (Yi ) = i

    2 i = 1, 2, , nsoient a 1, a 2,, . , a n des constantes et

    i=nsoit W = ai Yi une combinaison linaire des Yi

    i=1

    Alors E( W ) = W = ai i et Var ( W ) = w2 = ai2 i2remarque 1 : aucune hypothse est ncessaire sur les lois des Yiremarque 2 : si les Yi sont gaussiennes alors W est gaussienne

    Rsultat 3 Si les Yi sont gaussiennes Yi ~ N ( , 2 )

    alors Y est gaussienne N ( , 2 / n )

    Rsultat 2 Soit ai = 1 / n E(Yi ) = Var( Yi ) = 2 alors

    i=nW = Y = Ybar = (1/n ) Yi vrifie E(Y) = et Var(Y) = 2 / n

    i=1

    Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques

  • 6

    Distribution de la moyenne chantillonnale : Thorme central limite

    Rsultat 4 : thorme central limite

    Soit W = Yi avec E(Yi ) = i , Var (Yi ) = i2 i = 1, 2, , n

    Si n est assez grand (au moins 30)Alors W suit approximativement une loi gaussienne N(W , W 2 )avec W = i et Y

    2 = i2

    remarque : il ny a aucune condition spcifique sur les lois des Yi

    Rsultat 5 Si E( Yi) = , Var (Yi) = 2 i = 1, 2 , , n

    alors Y suit approximativement loi gaussienne N ( , 2 / n)

    remarque on peut crire le rsultat sous la forme quivalente

    Y - _ suit approximativement une loi N (0, 1) / n

    Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques

  • 7

    Histogram (chap06.sta 31v*30000c)

    -1.7318-1.4547

    -1.1776-0.9005

    -0.6234-0.3462

    -0.06910.2080

    0.48510.7622

    1.03931.3164

    1.5935

    uniforme

    0

    100

    200

    300

    400

    500

    600

    700

    No of obs

    Histogram (chap06.sta 21v*30000c)unif2 = 15000*0.0689*normal(x; 7.9327E-5; 0.706)

    -1.7286-1.4530

    -1.1773-0.9017

    -0.6260-0.3504

    -0.07470.2009

    0.47650.7522

    1.02781.3035

    1.5791

    unif2

    0

    100

    200

    300

    400

    500

    600

    700

    No of obs

    Histogram (chap06.sta 21v*30000c)unif5 = 6000*0.0572*normal(x; 7.9327E-5; 0.4506)

    -1.4455-1.2165

    -0.9876-0.7587

    -0.5297-0.3008

    -0.07190.1570

    0.38600.6149

    0.84381.0727

    1.3017

    unif5

    0

    50

    100

    150

    200

    250

    300

    350

    No of obs

    Distribution

    de Y

    Histogram (chap06.sta 21v*30000c)unif15 = 2000*0.0316*normal(x; 7.9327E-5; 0.2586)

    -0.7560-0.6298

    -0.5035-0.3772

    -0.2510-0.1247

    0.00160.1278

    0.25410.3804

    0.50660.6329

    0.7592

    unif15

    0

    20

    40

    60

    80

    100

    120

    No of obs

    Histogram (chap06.sta 21v*30000c)unif30 = 1000*0.0249*normal(x; 7.9327E-5; 0.1825)

    -0.6378-0.5380

    -0.4382-0.3384

    -0.2387-0.1389

    -0.03910.0607

    0.16050.2603

    0.36010.4599

    0.5597

    unif30

    0

    10

    20

    30

    40

    50

    60

    70

    No of obs

    n = 1

    n = 2

    n = 5

    n = 15

    n = 30

    uniformeHistogram (chap06.sta 31v*30000c)

    -1.00000.0273

    1.05462.0819

    3.10924.1365

    5.16386.1911

    7.21848.2457

    9.273010.3003

    11.3276

    exponentielle

    0

    1000

    2000

    3000

    4000

    5000

    6000

    7000

    8000

    No of obs

    exponentielle

    Histogram (chap06.sta 31v*30000c)

    -0.9961-0.3735

    0.24910.8717

    1.49442.1170

    2.73963.3622

    3.98484.6074

    5.23015.8527

    6.4753

    expo2

    0

    200

    400

    600

    800

    1000

    1200

    1400

    1600

    1800

    2000

    No of obs

    Histogram (chap06.sta 31v*30000c)expo5 = 6000*0.0774*normal(x; 0.0031; 0.4455)

    -0.9355-0.6259

    -0.3162-0.0066

    0.30300.6126

    0.92221.2318

    1.54141.8510

    2.16062.4703

    2.7799

    expo5

    0

    100

    200

    300

    400

    500

    600

    No of obs

    Histogram (chap06.sta 31v*30000c)expo15 = 2000*0.0369*normal(x; 0.0031; 0.2567)

    -0.6499-0.5023

    -0.3548-0.2073

    -0.05980.0878

    0.23530.3828

    0.53030.6778

    0.82540.9729

    1.1204

    expo15

    0

    20

    40

    60

    80

    100

    120

    140

    160

    No of obs

    Histogram (chap06.sta 31v*30000c)expo30 = 1000*0.0242*normal(x; 0.0031; 0.1816)

    -0.5145-0.4176

    -0.3208-0.2239

    -0.1270-0.0302

    0.06670.1636

    0.26040.3573

    0.45420.5510

    0.6479

    expo30

    0

    10

    20

    30

    40

    50

    60

    No of obs

    gaussienneP O P U L A T I O N

    Histogram (chap06.sta 31v*30000c)gaussienne = 30000*0.1715*normal(x; -0.0018; 1.0078)

    -3.9095-3.2235

    -2.5375-1.8514

    -1.1654-0.4794

    0.20660.8926

    1.57872.2647

    2.95073.6367

    4.3227

    gaussienne

    0

    200

    400

    600

    800

    1000

    1200

    1400

    1600

    1800

    2000

    2200

    2400

    No of obs

    Histogram (chap06.sta 31v*30000c)norm2 = 15000*0.1032*normal(x; -0.0018; 0.7139)

    -2.6496-2.2367

    -1.8237-1.4107

    -0.9978-0.5848

    -0.17190.2411

    0.65411.0670

    1.48001.8929

    2.3059

    norm2

    0

    100

    200

    300

    400

    500

    600

    700

    800

    900

    1000

    No of obs

    Histogram (chap06.sta 31v*30000c)norm5 = 6000*0.0672*normal(x; -0.0018; 0.4489)

    -1.6782-1.4096

    -1.1409-0.8723

    -0.6037-0.3350

    -0.06640.2022

    0.47090.7395

    1.00811.2767

    1.5454

    norm5

    0

    50

    100

    150

    200

    250

    300

    350

    400

    No of obs

    Histogram (chap06.sta 31v*30000c)norm15 = 2000*0.0361*normal(x; -0.0018; 0.2586)

    -1.0046-0.8604

    -0.7161-0.5718

    -0.4275-0.2832

    -0.13890.0054

    0.14970.2940

    0.43820.5825

    0.7268

    norm15

    0

    20

    40

    60

    80

    100

    120

    140

    No of obs

    Histogram (chap06.sta 31v*30000c)norm30 = 1000*0.0238*normal(x; -0.0018; 0.1854)

    -0.6652-0.5701

    -0.4750-0.3799

    -0.2848-0.1897

    -0.09460.0005

    0.09560.1907

    0.28580.3809

    0.4760

    norm30

    0

    10

    20

    30

    40

    50

    60

    No of obs

    Bernard CLMENT, PhD 7

  • 8

    approximation de la distribution binomiale par une normalecas particulier de lapplication du thorme central limite.Y = nombre de succs dans une suite de n essais de Bernoulli indpendants

    Posons Yi v. a. de Bernoulli associe a essai i i = 1, 2,, n

    1 avec probabilit Yi =

    0 avec probabilit 1 -

    E ( Yi ) = 0 * (1 - ) + 1 * = Var ( Yi) = (1 )

    Y = Yi est une v. a binomiale b(n, )

    On applique le rsultat 5 : Y suit approximativement dist. N(n , n (1 - ))

    Donc Y n = Y -

    n ( 1- ) ( 1- ) / nsuit approximativement distribution N ( 0, 1)

    Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques

  • 9

    Exemple la demande quotidienne dnergie lectrique ( KWh ) pour un logement estune variable de moyenne 200 et dcart type 20. Posons D = demande totale dnergie lectrique dans un

    arrondissement de 500 logements.

    Calculer une limite suprieure D0 pour D qui ne serait pas dpasseavec probabilit 0,99

    solution D = Yi ou Yi est la demande du logement i = 1, 2, ., 500

    D suit approximativement une loi gaussienne N( , 2)

    = 500 * 200 = 100 000 et 2 = 500 * 202 = 200 000 = ( 447,2 )2

    P (D D0 ) = 0,99 [(D0 - 100 000 ) / 447,2 )] = 0,99

    D0 = 100 000 + z0.99 * 447,2 = 100 00 + 2.33 * 447,2 = 101 042

    Bernard CLMENT, PhDMTH2302 Probabilits et mthodes statistiques

  • 10Bernard CLMENT, PhD

    Exemple : la dure de vie Y dun composant lectronique suit une loiexponentielle de moyenne 100 heures

    (a) Quelle est la probabilit que la dure moyenne Y de 36 composants dpasse125 heures?

    (b) Combien de composants (n) doit- on avoir fin que la diffrence entre Y et 100

    nexcde pas 10 avec une probabilit de 0,95?

    solution : si Y suit une loi exponentielle , lcart type de Y = moyenne de X = 100 alors Y suit approximativement une distribution N (100, 100 2 / 36 )

    (a) P ( Y > 125 ) = 1 [ (125 100) / (100 / 6 )] = 1 - (1,5 ) = 1 - 0,933 = 0,067

    (b) P ( Y - 100 < 10 ) = 0,95 alors P ( Y - 100 < 10 __ ) = 0,95

    100 / n 100 / n

    2 ( n / 10) - 1 = 0,95 donne ( n / 10) = 0,975

    n / 10 = -1 (0,975) n = 384

    MTH2302 Probabilits et mthodes statistiques

  • 11

    Distribution Khi-deuxUne variable alatoire 2 dont la densit de probabilit est dfinie par

    f 2 ( u ) = c() u ( / 2) - 1 exp (- u / 2 ) 0 < u < s appelle une variable Khi-deux (2 ) avec degrs de libert (ddl

    = 1, 2,3, , c( ) est une constante qui dpend de

    Proprits E ( 2 ) = et Var ( 2 ) = 2

    si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl

    la somme de variables Khi-deux indpendantes est une Khi-deux

    si Zi ~ N ( 0, 1 ) i = 1, 2, , n alors Zi2 ~ Khi-deux avec n ddl si Yi ~ N ( , 2 ) i = 1, 2, , n alors [ (Yi )/ ] 2 ~ Khi- deux avec n ddl

    Bernard CLMENT, PhD

  • 12

    Table des quantiles dune Khi-deuxQuantileHMGB p. 478

    Notation : 2 p, quantile dordre p

    dune variable 2avec degr de libert

    P ( 2 2p, ) = p

    Exemple

    P ( 25 9,24 ) = 0.90

    Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques

  • 13

    Distribution Student Une variable alatoire T dont la densit de probabilit est dfinie par

    f T ( t ) = c() ( 1 + t 2 / ) - ( + 1 ) / 2 - < t <

    sappelle une variable de Student avec degrs de libert , = 1, 2, 3,., c() est une constante qui dpend de

    Proprits densit symtrique p.r 0

    E (T ) = 0

    Var (T) = / ( - 2 ) ( > 2) si Z est une N(0,1) alors

    T = Z / v2 / v suit loi T avec v ddl

    si = la variable de Studentest une variable normale centre rduite

    si > 30 la distribution Student est quasi

    identique une loi normale centr-rduite

    la lettre T est gnralement consacre pour reprsenter la variable de Student

  • 14

    HMGB p. 479

    table des quantiles dune variable Student

    t p , :quantile dordre p

    variable Student T degrs de libert

    P ( T t p , ) = p

    Exemple

    P ( T5 2.015 ) = 0.95

    Bernard CLMENT, PhD

  • 15

    Rsultat 7 application importante de la Student

    soit Y i i = 1, 2,, n un chantillon alatoire dune population N( , 2 )

    Soit Y = Y i / n et S2 = ( Y i Y ) 2 / ( n - 1 )

    Alors T = Y - _ s / n

    suit une loi de Student avec = n 1 degrs de libert

    Bernard CLMENT, PhDMTH2302 Probabilits et mthodes statistiques

    Rsultat 6 application importante de la Khi-deux

    soit Y i i = 1, 2,, n un chantillon alatoire dune population N( , 2 )

    soit S 2 = 1 / ( n 1 ) ( Y i Y ) 2 la variance chantillonnale

    alors (n-1) S 2 / 2 = ( Y i Y ) 2 / 2

    suit une loi Khi-deux avec (n 1) ddl

  • 16

    distribution F de Fisher-SnedecorUne variable alatoire X dont la densit de probabilit f est dfinie par

    f X ( x) = c(1,2) x ( 1 / 2 ) - 1 [ 1 + ( 1/v2 )x ] - ( v1 + v2 ) /2 0 < x <

    est appele une variable alatoire distribue selon une loi de Fisher-Snedecor avecv1 ddl au numrateur et v2 ddl au dnominateur; c(v1,v2) est une constante

    Proprits E ( F ) = v2 / ( v2 2 )

    si Y1 suit une loi Khi-deux avec v1 ddlY2 suit une loi Khi-deux avec v2 ddlY1 et Y2 sont indpendantes alors

    ( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2)

    T2v = F (1, v) : le carr dune loi de Studentavec v ddl est une loi F(1,v)

    Densit de probabilit de Fisher-Snedecor

    Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques

  • 17

    Quantiles dune F de Fisher-Snedecor

    HMGB p. 480-489

    Notation

    F p, v1, v2 :

    quantile dordre p dunevariable de Fischer- SnedecorF v1 , v2 avec

    v1 ddl au numrateurv2 ddl au dnominateur

    Exemple

    P ( F8 , 3 5.25 ) = 0.90

    Bernard CLMENT, PhD

    F0.90, 8 , 3 = 5.25

  • 18

    -2 0 2 4 6 8 10 12 14 16 18 20 22 24 26

    U

    -0.02

    0.00

    0.02

    0.04

    0.06

    0.08

    0.10

    0.12

    0.14

    GAUS

    S

    Rsultat 8 ( SY2 / Y2 ) / (SZ2 / Z2) suit une loi F n1-1 , n2-1

    -2 0 2 4 6 8 10 12 14 16 18 20 22 24 26

    U

    -0.02

    0.00

    0.02

    0.04

    0.06

    0.08

    0.10

    0.12

    0.14

    GAUS

    S

    Y1, Y2 , , Yn1

    Y ~ N ( Y, Y2)Z ~ N ( Z, Z

    2)

    Y Z

    y Z

    Z1, Z2 , , Zn2

    distribution dchantillonnage du quotient de 2 variances

    chantillonsindpendants

    Y = Yi / n1 Z = Zi / n2moyennesSY2 = (1/( n1 1)) ( Yi Y )2 variances SZ2 = 1/( n2 1 ) ( Zi Z )2

    Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques

  • 19Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques

    RSUM des DISTRIBUTIONS

  • 20Bernard CLMENT, PhD

    MTH2302 Probabilits et mthodes statistiques

    RSUM des DISTRIBUTIONS

  • 21Bernard CLMENT, PhD

    MTH2302 Probabilits et mthodes statistiques

    DISTRIBUTIONS DCHANTILLONNAGE

  • 22Bernard CLMENT, PhD

    MTH2302 Probabilits et mthodes statistiques

    APPROXIMATIONS

  • 23Bernard CLMENT, PhD

    MTH2302 Probabilits et mthodes statistiques

    RSUM des DISTRIBUTIONSAPPLICATIONS

    Y - _ suit approximativement une loi N (0, 1) / n

    si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl

    la somme de variables Khi-deux indpendantes est une Khi-deux

    si Zi ~ N ( 0, 1 ) i = 1, 2, , n alors Zi2 ~ Khi-deux avec n ddl

    si Yi ~ N ( , 2 ) i = 1, 2, , n alors [ (Yi )/ ] 2 ~ Khi- deux avec n ddl

    (n-1) S 2 / 2 = ( Y i Y ) 2 / 2 suit une loi Khi-deux avec (n 1) ddl

    Y1 suit une loi Khi-deux avec v1 ddlY2 suit une loi Khi-deux avec v2 ddlY1 et Y2 sont indpendantes alors

    ( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2)

    T = Y - _ suit une loi de Student avec = n 1 degrs de libert s / n

  • 24Bernard CLMENT, PhD

    MTH2302 Probabilits et mthodes statistiques

    RSUM des DISTRIBUTIONS

    LIAISONS entre les distributions

    Processus de POISSON et la distribution exponentielle

    Distribution binomiale et distribution gomtrique

  • 25

    Distribution dchantillonnage de lcart type SRsultat : soit X i un chantillon de n observations dune population N ( , 2 )

    S = [ (1 / ( n 1 )) ( Yi Y ) 2 ] 0.5 : lcart type chantillonnalalors E (S) = c4 et Var (S) = c52 2

    n 2 3 4 5 6 7 8 9 10 15 20 25c4 0.798 0.886 0.921 0.940 0.952 0.959 0.965 0.969 0.973 0.982 0.987 0.990c5 0.603 0.463 0.389 0.341 0.308 0.282 0.262 0.246 0.232 0.187 0.161 0.144

    Rsultat : application - cartes de contrle de Shewhart

    (a) = S / c 4 est une estimation sans biais de : E ( S /c 4 ) = (b) soit k groupes de n donnes, S j lcart type du groupe j = 1, 2,..., k

    S = S j / k la moyenne des cart types

    = S / c 4 est une estimation sans biais de

    S

    f S distribution dchantillonnage de S : n fix

    0 E( S )

    remarque : si n > = 10 c 4 1

    Bernard CLMENT, PhD MTH2302 Probabilits et mthodes statistiques

    HORS PROGRAMME

  • 26

    Distribution dchantillonnage de ltendue RRsultat : soit Y i un chantillon de n observations dune population N ( , 2 )

    R = max ( Y i) - min (Yi) : tendue chantillonnalealors E ( R ) = d 2 et Var ( R ) = d 32 2

    n 2 3 4 5 6 7 8 9 10 15 20 25d 2 1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.472 3.735 3.931d 3 0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.755 0.729 0.709

    Rsultat : application - cartes de contrle de Shewhart

    (a) = R / d 2 est une estimation sans biais de : E ( R / d 2 ) = (b) soit k groupes de n donnes, R j ltendue du groupe j = 1, 2,..., k

    R = R j / k moyenne des tendues = R / d 2 est une estimation sans biais de

    R

    f R distribution dchantillonnage de R : n fix

    0 E( R )

    remarque: il nest pas recommand dutiliser R pour estimer avec n > 10

    lcart type s est prfrable car il est plus prcis

    Bernard CLMENT, PhD

    HORS PROGRAMME

    MTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesDiapositive numro 7MTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesDiapositive numro 11MTH2302 Probabilits et mthodes statistiquesDiapositive numro 13Diapositive numro 14MTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesDiapositive numro 17MTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesMTH2302 Probabilits et mthodes statistiquesDiapositive numro 26