Download - Plan du cours M rentielle. - Des Mathématiques à Nantesphilippe/download/APhilippe-stat.… · A. lippe (U. Nantes) M ethodes de statistique inf erentielle. 19 mai 2016 10 / 166

Transcript

Methodes de statistique inferentielle.

A. Philippe

Laboratoire de mathematiques Jean LerayUniversite de Nantes

[email protected]

Version modifiee le 19 mai 2016

http://www.math.sciences.univ-nantes.fr/~philippe/

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 1 / 166

Plan du cours

1 Introduction

2 Probabilites : Variables Aleatoires Continues

3 Estimation

4 Tests

5 Regression

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 2 / 166

Introduction

Plan de la section

1 Introduction

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 3 / 166

Introduction

Quelques problemes

1 Un fabricant souhaite verifier la qualite des ampoules electriquesproduites par une nouvelle chaıne de production.Il faut donc evaluer la duree moyenne de fonctionnement desampoules.

Comment evaluer cette duree moyenne ?

On ne peut pas tester toutes les ampoules !

2 Le responsable d’un parti politique souhaite estimer la proportiondes militants favorables a la candidature de Mr X pour laprochaine election presidentielle.

Comment calculer la popularite d’un candidat au sein d’unepopulation ?

Interroger tous les militants est trop couteux.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 4 / 166

Introduction

Population & Echantillon

Definition

La population : l’ensemble de tous les elements consideres dans uneetude.

Definition

L’echantillon est un sous ensemble fini de la population.La taille de l’echantillon est le nombre d’elements selectionnes pourconstituer l’echantillon.

Le but de l’inference statistique.

Tirer des conclusions concernant certaines caracteristiques de lapopulation a partir des informations contenues dans l’echantillon.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 5 / 166

Introduction

Pour resumer

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 6 / 166

Introduction

Retour aux exemples

1 Le fabricant d’ampoules.Il preleve un echantillon constitue de 130 ampoules.Pour chaque ampoule, il mesure la duree de fonctionnement.La moyenne de l’echantillon vaut 36 000 heures.Une estimation pour la population est 36 000 heures.

2 Le responsable du parti.Il constitue un echantillon de taille 400. Parmi les personnesselectionnees, 250 sont favorables au candidat propose.Une estimation de la proportion de la population favorable a MrX est 250/400 = 0.625

Quelle est la qualite de ces deux estimations ?

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 7 / 166

Introduction

Erreur d’echantillonnage

Elle resulte de l’utilisation d’un sous ensemble de la population(l’echantillon) et non de la population toute entiere.Exemple : le responsable du parti (suite). deux echantillons differentsvont fournir des estimations differentes.

Quelle est la precision des estimations realisees ?

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 8 / 166

Probabilites : Variables Aleatoires Continues

Plan de la section

2 Probabilites : Variables Aleatoires ContinuesGeneralitesLoi gaussienne/normale

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 9 / 166

Probabilites : Variables Aleatoires Continues Generalites

2 Probabilites : Variables Aleatoires ContinuesGeneralitesLoi gaussienne/normale

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 10 / 166

Probabilites : Variables Aleatoires Continues Generalites

Un exemple de loi discrete : la loi Binomiale

Un hotel possede 50 chambres. Au printemps le taux de remplissageest de 75%.On note X le nombre de chambres occupees un jour donne. C’est unevariable aleatoire.X ∈ {0, . . . , 50} prend un nombre fini de valeurs,

c’est une variable aleatoire discrete.La loi de X est la loi binomiale de parametre n = 50 et p = 0.75.c’est a dire, pour tout k ∈ {0, . . . , 50}, on a

P(X = k) = C k50pk(1− p)50−k

La probabilite que l’hotel soit complet vaut

P(X = 50) = C 5050 0.7550(1− 0.75)0 = 0.7550

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 11 / 166

Probabilites : Variables Aleatoires Continues Generalites

Plus generalement

Une variable aleatoire discrete prend un nombre au plusdenombrable de valeurs. L’ensemble des valeurs prises par Xpeut donc s’ecrire de la forme {xi , i ∈ E} ou E est un sousensemble de NLa loi de la variable aleatoire X est la suite des probabilitespk = P(X = xk) pour tout k ∈ E

L’esperance (moyenne) de X :

E(X ) =∑k∈E

pkxk

La variance de X :

var(X ) =∑k∈E

pkx2k −

(∑k∈E

pkxk

)2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 12 / 166

Probabilites : Variables Aleatoires Continues Generalites

Un exemple de variable aleatoire non discrete

On note X le temps de vol entre Paris et Vilnius. C’est une variablealeatoire qui prend des valeurs comprises entre 135mn et 165mn.La variable aleatoire X peut prendre toutes les valeurs de l’intervalle[135, 165].Cette variable aleatoire n’est donc pas une variable discrete.

Definition

On dit que X est une variable aleatoire continue.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 13 / 166

Probabilites : Variables Aleatoires Continues Generalites

Definition

La loi d’une variable aleatoire continue est definie a partir d’unefonction f appelee densite qui verifie les proprietes suivantes :

f est positivepour tout x ∈ R, f (x) ≥ 0

l’aire en dessous la courberepresentative de f vaut 1autrement dit∫ ∞

−∞f (x)dx = 1

−10 −5 0 5 10

0.0

0.1

0.2

0.3

0.4

x

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 14 / 166

Probabilites : Variables Aleatoires Continues Generalites

Calcul des probabilites

L’aire comme mesure des probabilitesSoit X une variable aleatoire continue, f sa densite

Definition

La probabilite que X appartienne a l’intervalle [a, b] P(a ≤ X ≤ b)est egale a l’aire en dessous de la courbe representative de la densitecomprise entre x = a et x = b

Autrement dit

P(a ≤ X ≤ b) =

∫ b

a

f (t)dt

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 15 / 166

Probabilites : Variables Aleatoires Continues Generalites

Illustration

1 La courbe en bleu represente la densite de la variable aleatoire2 L’aire de la zone en vert represente

sur l’image de gauche : P(X ≤ a)sur l’image du milieu : P(a ≤ X ≤ b)sur l’image de droite : P(X ≥ b)

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 16 / 166

Probabilites : Variables Aleatoires Continues Generalites

Definition

X une variable aleatoire continue.La fonction de repartition de X (notee F ) est definie parF (x) = P(X ≤ x)

Quelques proprietes

1 P(X = x) = 0

2 P(X ≤ x) = P(X < x)

3 P(a ≤ X ≤ b) = P(X ≤ b)− P(X ≤ a) = F (b)− F (a)

4 P(X ≥ b) = 1− P(X ≤ b) = 1− F (b)

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 17 / 166

Probabilites : Variables Aleatoires Continues Generalites

Esperance/Variance

X une variable aleatoire continue de densite fL’esperance de X s’ecrit

E(X ) =

∫xf (x) dx

et la variance de X

var(X ) =

∫x2f (x) dx −

(∫xf (x) dx

)2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 18 / 166

Probabilites : Variables Aleatoires Continues Loi gaussienne/normale

2 Probabilites : Variables Aleatoires ContinuesGeneralitesLoi gaussienne/normale

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 19 / 166

Probabilites : Variables Aleatoires Continues Loi gaussienne/normale

Definition de la loi normale ou gaussienne

La loi gaussienne est une loi continue qui depend de deux parametresµ ∈ R et σ > 0. Sa densite est

fµ,σ(x) =1√2πσ

e−1

2σ2 (x−µ)2

Definition (Cas particulier)

On dit que la loi gaussienne est standard si µ = 0 et σ = 1.On note F0,1 sa fonction de repartition.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 20 / 166

Probabilites : Variables Aleatoires Continues Loi gaussienne/normale

Le role des deux parametres µ, σ

µ est un parametre de position

σ un parametre de dispersion

Proprietes

Soit X une variable aleatoire gaussienne.

E(X ) = µ, la moyenne

var(X ) = σ2, la variance

σ est l’ecart type de X

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 21 / 166

Probabilites : Variables Aleatoires Continues Loi gaussienne/normale

−10 −5 0 5 10

0.0

0.1

0.2

0.3

0.4

x

dens

ite

densité de la loi normale d'ecart type 1

MOY=−5MOY=0MOY=5

−10 −5 0 5 10

0.0

0.1

0.2

0.3

0.4

x

dens

ite

densité de la loi normale de moyenne 0

SD=1SD=3SD=6

Densites de lois gaussiennes ayantla meme variance mais desmoyennes differentes

Densites de lois gaussiennes ayantla meme moyenne mais desvariances differentes

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 22 / 166

Probabilites : Variables Aleatoires Continues Loi gaussienne/normale

Table de la loi gaussienne standard

La table donne lesvaleurs de F0,1(u),u ≥ 0 (aire en vert)

Prenons u = 1.96 =1.9 + 0.06.

On a u1 = 1.9 et u2 = .06 d’ou F0,1(1.96) = 0.975.A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 23 / 166

Probabilites : Variables Aleatoires Continues Loi gaussienne/normale

Proprietes de la loi gaussienne standard

Soit X une variable aleatoire gaussienne standard.

Pour tout x , on aP(X ≤ −x) = P(X ≥ x)

−4 −2 0 2 4

0.00.1

0.20.3

0.4

x

P(X ≤ −x) = 1− P(X ≤ x)autrement dit F0,1(−x) = 1− F0,1(x).

P(−x ≤ X ≤ x) = F0,1(x)− F0,1(−x) = 2F0,1(x)− 1

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 24 / 166

Probabilites : Variables Aleatoires Continues Loi gaussienne/normale

Applications

Soit X une variable aleatoire gaussienne standard.1 En utilisant la table : P(X ≤ 1.96) = F0,1(1.96) = 0.9752 Calcul de P(X ≤ −1.96). Cette valeur n’est pas dans la table.

P(X ≤ −1.96) = F0,1(−1.96) = 1− F0,1(1.96)

= 1− 0.975 = 0.025

3 Calcul de P(−x ≤ X ≤ x) pour x = 1, 2, 3

P(−x ≤ X ≤ x) = F0,1(x)− F0,1(−x)

= 2F0,1(x)− 1

=

0.68 x = 1

0.95 x = 2

0.99 x = 3

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 25 / 166

Probabilites : Variables Aleatoires Continues Loi gaussienne/normale

Lien entre les lois gaussiennes

1 Si la loi de X est la loi gaussienne de moyenne µ et d’ecart typeσ alors la loi de Y = X−µ

σest la loi gaussienne de moyenne 0 et

d’ecart type 1

2 Si la loi de Y est la loi gaussienne de moyenne 0 et d’ecart type1 alors la loi de X = σY + µ est la loi gaussienne de moyenne µet d’ecart type σ

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 26 / 166

Probabilites : Variables Aleatoires Continues Loi gaussienne/normale

Calcul pour la loi gaussienne (µ, σ)

Soit X est une variable gaussienne de moyenne µ et d’ecart type σ.Pour calculer P(X ≤ x), on se ramene a une loi gaussienne standard.On pose

Y =X − µσ

⇔ X = σY + µ

P(X ≤ x) = P(σY + µ ≤ x)

= P(Y ≤ x − µσ

)

Comme la loi de Y est la loi gaussienne standard, le dernier terme estdonne par la table de la loi gaussienne.

P(X ≤ x) = F0,1

(x − µσ

)A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 27 / 166

Probabilites : Variables Aleatoires Continues Loi gaussienne/normale

Exemple

Si la loi de X est gaussienne de moyenne 4 et d’ecart type 2. On poseY = X−4

2

P(X ≤ 6.5) = P(2Y + 4 ≤ 6.5)

= P(Y ≤ 6.5− 4

2)

= P(Y ≤ 1.25) = 0.8943

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 28 / 166

Estimation

Plan de la section

3 EstimationExemple introductifEchantillonnageEstimation ponctuelle d’une moyenneTheoreme central limiteErreur d’estimation : Conclusions probabilistesEstimation par intervalle de la moyenneEstimation ponctuelle d’une varianceEstimation ponctuelle d’une proportionConclusion

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 29 / 166

Estimation Exemple introductif

3 EstimationExemple introductifEchantillonnageEstimation ponctuelle d’une moyenneTheoreme central limiteErreur d’estimation : Conclusions probabilistesEstimation par intervalle de la moyenneEstimation ponctuelle d’une varianceEstimation ponctuelle d’une proportionConclusion

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 30 / 166

Estimation Exemple introductif

La situation

Le directeur du personnel du groupe αβ a ete charge de developper leprofil de 2500 responsables de societes appartenant au groupe αβ.Les caracteristiques a etudier sont

le salaire moyen annuel et sa dispersion

la participation au programme de formation en gestion mis enplace par la societe.

On a donc trois parametres a calculer

la moyenne µ et l’ecart type σ du salaire annuel pour lapopulation

la proportion p de la population ayant suivi la formation

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 31 / 166

Estimation Exemple introductif

Deux methodes

Le recensement. On doit interroger 2500 personnes. Le cout dela collecte est tres eleve, il necessite un entretien avec chaqueresponsable.

L’estimation. On estime les trois parametres a partir d’unechantillon de taille n << 2500. Il faut alors

1 Construire un echantillon de taille n2 Calculer des estimateurs des trois parametres3 Evaluer la qualite des estimateurs.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 32 / 166

Estimation Exemple introductif

On construit un echantillon constitue de 30 responsables de societesdu groupe.Pour chaque personne de l’echantillon, on collecte deux informations

son salaire. On note S1, . . . , S30 les salaires

s’il a participe au programme de formation que l’on code par 1pour oui et 0 pour non. On note F1, . . . ,F30 les reponses

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 33 / 166

Estimation Exemple introductif

les donnees collectees

S F S F S F

1 50427.82 1 11 53714.13 1 21 54276.3 1

2 47770.71 1 12 56641.81 1 22 58389.2 1

3 51686.39 1 13 45535.32 0 23 48762.44 0

4 44520.07 1 14 55626.63 1 24 48916.25 0

5 47976.9 0 15 54898.44 0 25 51026.77 1

6 59979.41 1 16 49246.59 0 26 50999.26 1

7 47022.2 1 17 57261.6 1 27 55811.3 1

8 44252.88 1 18 52876.62 0 28 48622.47 1

9 51641.93 1 19 49841.11 1 29 47226.59 0

10 51206.19 1 20 54256.2 0 30 53419.27 1S = salaireF = formation (0 :non, 1 :oui)

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 34 / 166

Estimation Exemple introductif

Caracteristiques de l’echantillon

1 moyenne de l’echantillon : x = 51461.09

2 ecart type de l’echantillon : S = 4091.18

3 proportion de l’echantillon ayant suivi le programme deformation : p = .7

x1, . . . , xn un echantillon de taille n.

sa moyenne : x = 1n

∑ni=1 xi

sa variance : S2 = 1n

∑ni=1(xi − x)2

son ecart type S =√

1n

∑ni=1(xi − x)2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 35 / 166

Estimation Exemple introductif

Recensement

Apres un recensement de la population entiere, on obtient

1 moyenne de la population µ = 51800 x = 51461.09

2 ecart type de la population σ = 4000 S = 4091.18

3 proportion de la population ayant suivi le programme deformation p = .67 p = .7

Les valeurs calculees sur l’echantillon ne correspondent pasexactement aux valeurs de la population.

Erreur d’echantillonnage

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 36 / 166

Estimation Exemple introductif

Evaluation des erreurs

Erreur absolue : EA = |estimation− vraie valeur|

Erreur relative : ER =EA

vraie valeur

ici

1 sur la moyenne : EA = |x − µ| = 338.90 et

ER =|x − µ|µ

< 0.01%

2 Sur l’ecart type : EA = 91.18 et ER = 2.2%

3 sur la proportion : EA = .03 et ER = 5%

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 37 / 166

Estimation Echantillonnage

3 EstimationExemple introductifEchantillonnageEstimation ponctuelle d’une moyenneTheoreme central limiteErreur d’estimation : Conclusions probabilistesEstimation par intervalle de la moyenneEstimation ponctuelle d’une varianceEstimation ponctuelle d’une proportionConclusion

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 38 / 166

Estimation Echantillonnage

Definition d’un echantillon

On suppose que l’on dispose d’un echantillon aleatoire de taille n issud’une population.

L’echantillon satisfait les conditions suivantes1 Tous les individus sont selectionnes dans la meme population

2 Les individus sont selectionnes de facon independante.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 39 / 166

Estimation Estimation ponctuelle d’une moyenne

3 EstimationExemple introductifEchantillonnageEstimation ponctuelle d’une moyenneTheoreme central limiteErreur d’estimation : Conclusions probabilistesEstimation par intervalle de la moyenneEstimation ponctuelle d’une varianceEstimation ponctuelle d’une proportionConclusion

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 40 / 166

Estimation Estimation ponctuelle d’une moyenne

Estimation d’une moyenne

Soit X une caracteristique/variable de la population. On note

µ sa moyenne dans la population

σ son ecart type.

Question

Comment estimer le parametre µ ?Quelle est la precision de l’estimation ?

Les donnees

On dispose des valeurs de la variable X pour les n individusselectionnes dans l’echantillon :

x1, . . . , xn

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 41 / 166

Estimation Estimation ponctuelle d’une moyenne

Construction de l’estimateur de µ

On estime la moyenne de la population par la moyenne del’echantillon

x =1

n

n∑i=1

xi =x1 + · · ·+ xn

n

x est une estimation ponctuelle de µ

Remarque

x est une variable aleatoire.A chaque repetition du processus d’echantillonnage, il estvraisemblable d’obtenir une valeur differente pour la moyenne x.

On peut donc calculer la loi de x , sa moyenne, sa variance etc

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 42 / 166

Estimation Estimation ponctuelle d’une moyenne

Proprietes de l’estimateur x

1 La moyenne de x est egale a la moyenne de la population µ.

E(x) = µ

2 La variance de x :

var(x) =σ2

n

ou σ2 est la variance de la population.

3 L’ecart type de x :

σ(x) =σ√n

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 43 / 166

Estimation Estimation ponctuelle d’une moyenne

l’ecart type decroıt vers zero quand la taille de l’echantillon tendvers l’infini.la moyenne reste inchangee quelque soit la taille de l’echantillonn

Graphique Evolution de la loi de x en fonction de la taille del’echantillon.La population est gaussienne de moyenne µ = 10 et d’ecart type σ = 1

6 8 10 12 14

0.00.5

1.01.5

2.02.5

n=153050

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 44 / 166

Estimation Estimation ponctuelle d’une moyenne

Loi de x : cas gaussien

Lorsque la distribution de la population est gaussienne alors la loi dex est aussi une loi gaussienne

Population xloi gaussienne gaussienne

moyenne µ µ

variance σ2 σ2

n

ecart type σ σ√n

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 45 / 166

Estimation Theoreme central limite

3 EstimationExemple introductifEchantillonnageEstimation ponctuelle d’une moyenneTheoreme central limiteErreur d’estimation : Conclusions probabilistesEstimation par intervalle de la moyenneEstimation ponctuelle d’une varianceEstimation ponctuelle d’une proportionConclusion

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 46 / 166

Estimation Theoreme central limite

Loi de x : le cas des grands echantillons

Le theoreme central limite donne la loi de x pour les grandsechantillons quelque soit la loi de la population.

Theoreme

On suppose que la loi de la population est de moyenne µ et d’ecarttype σ.Lorsque la taille de l’echantillon n est assez grande, la loi de x peutetre approchee par une loi gaussienne de moyenne µ et d’ecart typeσ√n

.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 47 / 166

Estimation Theoreme central limite

Illustration du TCL

Loi de la population.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 48 / 166

Estimation Theoreme central limite

Loi de x pour des echantillons de taille n = 5

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 49 / 166

Estimation Theoreme central limite

Loi de x pour des echantillons de taille n = 30

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 50 / 166

Estimation Theoreme central limite

Loi de x pour des echantillons de taille n = 50

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 51 / 166

Estimation Theoreme central limite

En pratique

On peut approcher la loi de x par une loi gaussienne pour des grandsechantillons. On admet souvent comme limite n > 30.

Remarque

Si la loi de la population est gaussienne alors la loi de x estgaussienne quelque soit la taille de l’echantillon.

Remarque

La loi d’echantillonnage revele la facon dont les valeurs de x sontdistribuees autour de µ. Nous allons utiliser cette loi

pour controler l’erreur d’estimation

pour construire une estimation par intervalle.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 52 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

3 EstimationExemple introductifEchantillonnageEstimation ponctuelle d’une moyenneTheoreme central limiteErreur d’estimation : Conclusions probabilistesEstimation par intervalle de la moyenneEstimation ponctuelle d’une varianceEstimation ponctuelle d’une proportionConclusion

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 53 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Erreur d’estimation : conclusions probabilistes

La connaissance de la loi de x permet de tirer des conclusionsprobabilistes sur l’erreur |x − µ| (meme si µ est inconnu)Les situations etudiees sont les suivantes

les grands echantillons

σ connuσ inconnu

les petits echantillons pour des populations gaussiennes

σ connuσ inconnu

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 54 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Cas des grands echantillons n > 30

D’apres le theoreme central limite la loi de x peut etre approchee parune loi gaussienne de moyenne µ et d’ecart type σ/

√n.

⇒ la loi de√

nx − µσ

peut etre approchee par une loi gaussienne

standard.

Soit Z une variable gaussienne standard. D’apres la table de la loigaussienne, on sait que P(Z ∈ [−1, 96 ; 1.96]) = 0.95

En effetP(Z ∈ [−a ; a]) = 2F0,1(a)− 1 = 0.95 et F0,1(1.96) = 0.975

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 55 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Par consequent

P

(√n

x − µσ∈ [−1, 96 ; 1.96]

)= 0.95

c’est a dire

P

(x − µ ∈

[−1, 96

σ√n

; 1.96σ√n

])= 0.95

Conclusion probabiliste sur l’erreur

95% des valeurs de x generent une erreur absolue inferieure a

1, 96σ√n

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 56 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Illustration : distribution de la loi de x

µµ

95% des valeurs de x

σσn

== 2

3.92 3.92

2x1.96=

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 57 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Generalisation

1 On fixe α ∈]0, 1[ , 1− α est de niveau de confiance.2 On construit a (qui depend de α) tel que

P(x − µ ∈ [−a ; a]) = 1− α

x genere une erreur absolue inferieure a a avec uneprobabilite de 1− α.

µµ

des valeurs de1 −− αα x

σσn

αα2

αα2

a−− a

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 58 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Quantile de la loi gaussienne standard.

Definition

Soit X une variable gaussienne standard.Le quantile d’ordre β de la loi gaussienne standard est le reel q(β) telque

P(X ≤ q(β)) = β ⇐⇒ F0,1(q(β)) = β

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 59 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Erreur d’estimation : n grand σ connu

Theoreme

Hypotheses

la taille de l’echantillon est assez grande (n>30)

la variance de la population σ2 est connue

Soit α fixe. On a

P

(x − µ ∈

[−q(1− α/2)

σ√n

; q(1− α/2)σ√n

])= 1− α

x genere une erreur absolue inferieure a q(1− α/2)σ√n

avec une

probabilite de 1− α.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 60 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

le calcul ...

On remarque que

x − µ ∈[−q(1− α/2)

σ√n

; q(1− α/2)σ√n

]m

√n

σ(x − µ) ∈ [−q(1− α/2) ; q(1− α/2)]

Comme la loi de

√n

σ(x − µ) peut etre approchee par la loi gaussienne

standard, on a

P = P

(x − µ ∈

[−q(1− α/2)

σ√n

; q(1− α/2)σ√n

])= F0,1(q(1− α/2))− F0,1(−q(1− α/2))

= 2F0,1(q(1− α/2))− 1 = 2(1− α/2)− 1 = 1− αA. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 61 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Grands echantillons, σ est inconnu

Les intervalles dependent de l’ecart type de la population σ quigeneralement est inconnu.On estime l’ecart type de la population par celui de l’echantillon

S =

√√√√1

n

n∑i=1

(xi − x)2

Remarque

S2 est un estimateur ponctuel de la variance de la population σ2

Theoreme

Quand n est assez grand, la loi de

√n

S(x − µ) peut etre approchee

par la loi gaussienne standard.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 62 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Erreur d’estimation : n grand σ inconnu

Theoreme

Hypotheses

la taille de l’echantillon est assez grande (n>30)

la variance de la population σ2 est inconnue

Soit α fixe. On a

P

(x − µ ∈

[−q(1− α/2)

S√n

; q(1− α/2)S√

n

])= 1− α

x genere une erreur absolue inferieure a q(1− α/2)S√

navec une

probabilite de 1− α.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 63 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Cas des petits echantillons gaussiens

Si la loi de la population est gaussienne alors la loi de

√n

σ(x − µ) est

la loi gaussienne standard

Theoreme

Hypotheses

la population est gaussienne

la variance de la population σ2 est connue

Soit α fixe. On a

P

(x − µ ∈

[−q(1− α/2)

σ√n

; q(1− α/2)σ√n

])= 1− α

x genere une erreur absolue inferieure a q(1− α/2)σ√n

avec une

probabilite de 1− α.A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 64 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Loi de Student

Soit ν ∈ R+. La loi de Student a ν degres de liberte est une loicontinue dont la densite est de la forme

Proposition

Quand le degre de liberte ν est grand, on peut approcher la loi deStudent par une loi gaussienne standard

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 65 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Fonction de repartition des lois de Student

Soit X une variabledistribuee suivant laloi de Student a νdegres de liberte.P = P(X ≤ u) (aireen vert)

si ν = 8 alorsP(X < 1.859) =0.95.

e

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 66 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Quantiles de la loi de Student

On note t(ν, β) le quantile d’ordreβ de la loi de Student a ν degresde liberte.

P(X ≤ t(ν, β)) = β

Fixons β = 0.975

ν 1 2 3 20 30 40 500t(ν, 0.975) 12.706 4.302 3.182 2.085 2.041 2.022 1.960

Pour la loi gaussienne standard, on a q(0.975) = 1.96.A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 67 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Petits echantillons gaussiens, σ inconnu

Important : On commence par corriger l’estimateur de la varianceOn pose

S2c =

1

n − 1

n∑i=1

(xi − x)2 =n

n − 1S2

Definition

S2c est la variance modifiee/corrigee de l’echantillon. C’est un

estimateur ponctuel de la variance de la population

Theoreme

La loi de

√n

Sc(x − µ) est une loi de Student a n − 1 degres de liberte.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 68 / 166

Estimation Erreur d’estimation : Conclusions probabilistes

Erreur d’estimation : population gaussienne, σ

inconnu

Theoreme

Hypotheses

la population est gaussienne

la variance de la population σ2 est inconnue

Soit α fixe. On a

P

(x − µ ∈

[−t(n − 1, 1− α/2)

Sc√n

; t(n − 1, 1− α/2)Sc√

n

])= 1− α

x genere une erreur absolue inferieure a t(n − 1, 1− α/2)Sc√

navec

une probabilite de 1− α.A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 69 / 166

Estimation Estimation par intervalle de la moyenne

3 EstimationExemple introductifEchantillonnageEstimation ponctuelle d’une moyenneTheoreme central limiteErreur d’estimation : Conclusions probabilistesEstimation par intervalle de la moyenneEstimation ponctuelle d’une varianceEstimation ponctuelle d’une proportionConclusion

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 70 / 166

Estimation Estimation par intervalle de la moyenne

Estimation par intervalle

A partir de l’echantillon, on souhaite construire un intervalle quiverifie la propriete suivante :

il y a une probabilite 1− α que l’intervalle contienne lamoyenne de la population.

Definitions1 1− α est le coefficient de confiance.

2 L’intervalle obtenu est appele intervalle de confiance de niveau1− α.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 71 / 166

Estimation Estimation par intervalle de la moyenne

Cas des grands echantillons

Estimation par intervalle de la moyenne d’une population

Hypotheses

la taille de l’echantillon est assez grande (n>30)

la variance de la population σ2 est connue[x − σ√

nq(1− α/2) ; x +

σ√n

q(1− α/2)

]est un intervalle de confiance de niveau 1− α pour la moyenne µ

il y a une probabilite 1− α que l’intervalle deconfiance contienne la moyenne de la population.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 72 / 166

Estimation Estimation par intervalle de la moyenne

le calcul

Il y a une probabilite 1− α que la valeur de x genere une erreur

inferieure aσ√n

q(1− α/2) d’ou

P(|x − µ| ≤ σ√n

q(1− α/2)) = 1− α

Ensuite, il suffit de remarquer que

|x − µ| ≤ σ√n

q(1− α/2)

m

µ ∈[

x − σ√n

q(1− α/2) ; x +σ√n

q(1− α/2)

]A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 73 / 166

Estimation Estimation par intervalle de la moyenne

La courbe en vert est la densite de la loi de x .On construit 10 intervalles de confiance de niveau 95% a partir de 10echantillons differents.

L’intervalle en rose ne contient pas la vraie valeur de la moyenne.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 74 / 166

Estimation Estimation par intervalle de la moyenne

Cas des grands echantillons, σ inconnu

On estime σ par l’ecart type de l’echantillon S

S =

√√√√1

n

n∑i=1

(xi − x)2

Estimation par intervalle de la moyenne d’une population

Hypotheses

la taille de l’echantillon est assez grande (n>30)

la variance de la population σ2 est inconnue[x − S√

nq(1− α/2) ; x +

S√n

q(1− α/2)

]est un intervalle de confiance de niveau 1− α pour la moyenne µ

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 75 / 166

Estimation Estimation par intervalle de la moyenne

Petits echantillons gaussiens, σ connu

On retrouve le resultat des grands echantillons.

Estimation par intervalle de la moyenne d’une population

Hypotheses

la population est gaussienne

la variance de la population σ2 est connue[x − σ√

nq(1− α/2) ; x +

σ√n

q(1− α/2)

]est un intervalle de confiance de niveau 1− α pour la moyenne µ

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 76 / 166

Estimation Estimation par intervalle de la moyenne

Petits echantillons gaussiens, σ inconnu

On utilise l’ecart type corrige de l’echantillon Sc pour estimer σ

Sc =

√√√√ 1

n − 1

n∑i=1

(xi − x)2

Estimation par intervalle de la moyenne d’une population

Hypotheses

la population est gaussienne

la variance de la population σ2 est inconnue[x − Sc√

nt(n − 1, 1− α/2) ; x +

Sc√n

t(n − 1, 1− α/2)

]est un intervalle de confiance de niveau 1− α pour la moyenne µ.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 77 / 166

Estimation Estimation par intervalle de la moyenne

Retour a l’exemple du groupe αβ

On suppose que la population est gaussienne.Situation 1 On dispose d’un echantillon de taille 30 et la variance dela population est connue.Avec une probabilite de 95%, l’erreur est inferieure a

1.96σ1√n

= 1.96 ∗ 4000/√

30 = 1431.382

L’intervalle de confiance au niveau 95% est[51461.09− 1431.38 ; 51461.09 + 1431.38] = [50029.7 ; 52892.4]

Remarque

Sur l’echantillon selectionne, nous avions EA = |x − µ| = 338.90apres recensement. Le cas observe appartient aux 95% des casfavorables.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 78 / 166

Estimation Estimation par intervalle de la moyenne

Situation 2 On suppose que la loi des salaires est gaussienne. Lavariance de la population est inconnue.

Calcul de la variance modifiee S2c = S230/29. D’ou

Sc =√

S230/29 = 4161.12

Dans la table de la loi de Student , on trouve t(29, 0.975) = 2.04

Avec une probabilite de 95%, l’erreur est inferieure a2.04 ∗ 4161.1/

√30 = 1553.78

L’intervalle de confiance au niveau 95% est

[51461.09− 1553.78 ; 51461.09 + 1553.78] = [49907.31 ; 53014.87]

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 79 / 166

Estimation Estimation par intervalle de la moyenne

Pour resumerLes intervalles de confiance sur la moyenne de la population

petits echantillons grands echantillonsloi gaussienne quelle que soit la loi

σ connu

[x ± σ√

nq(1− α/2)

] [x ± σ√

nq(1− α/2)

]σ inconnu

[x ± Sc√

nt(n − 1, 1− α/2)

] [x ± S√

nq(1− α/2)

]Notations :

[a ± b] est l’intervalle [a − b; a + b]

S =√

1n

∑ni=1(xi − x)2 et Sc =

√1

n−1

∑ni=1(xi − x)2

q(β) est le quantile d’ordre β de la loi gaussienne standard ett(ν, β) celui de la loi de Student a ν degres de liberte

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 80 / 166

Estimation Estimation ponctuelle d’une variance

3 EstimationExemple introductifEchantillonnageEstimation ponctuelle d’une moyenneTheoreme central limiteErreur d’estimation : Conclusions probabilistesEstimation par intervalle de la moyenneEstimation ponctuelle d’une varianceEstimation ponctuelle d’une proportionConclusion

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 81 / 166

Estimation Estimation ponctuelle d’une variance

Construction de l’estimateur

On souhaite estimer la variance de la population.1er estimateur : On estime la variance de la population par lavariance de l’echantillon

S2 =1

n

n∑i=1

(xi − x)2

Remarque (estimation biaisee)

E(S2) = n−1nσ2 6= σ2 on dit que l’estimateur a un biais.

2eme estimateur : On ameliore l’estimateur S2 en prenant lavariance modifiee

S2c =

1

n − 1

n∑i=1

(xi − x)2

Le biais est corrige, on a E(S2c ) = σ2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 82 / 166

Estimation Estimation ponctuelle d’une variance

Proprietes de S2c

La moyenne de S2c est egale a la variance de la population µ

E(S2c ) = σ2

La variance de S2c converge vers zero pour des variables L4. De

plus si l’echantillon est gaussien, on a

var(S2c ) = σ4 2

n − 1

Comparaison des deux estimateurs

Quand la taille de l’echantillon est grande, les deux estimateurs sontequivalents.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 83 / 166

Estimation Estimation ponctuelle d’une variance

Loi du χ2

Soit ν ∈ R+. La loi du χ2 a ν degres de liberte est une loi continue.La densite est de la forme

Remarque

La densite est nulle sur R− donc P(X < 0) = 0 et P(X ≥ 0) = 1

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 84 / 166

Estimation Estimation ponctuelle d’une variance

Proposition

Quand le degre de liberte ν est grand, on peut approcher la loi du χ2

par la loi gaussienne de moyenne ν et d’ecart type√

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 85 / 166

Estimation Estimation ponctuelle d’une variance

Fonction de repartition des lois du χ2

Soit X une variabledistribuee suivant laloi du χ2 a ν degresde liberte.P = P(X ≤ u)

si ν = 5 alorsP(X < 11.07) =0.95.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 86 / 166

Estimation Estimation ponctuelle d’une variance

Quantiles de la loi du χ2

On note k(ν, β) le quantile d’ordreβ de la loi du χ2 a ν degres deliberte.

P(X ≤ k(ν, β)) = β

Fixons β = 0.975ν 1 3 5 10 20 500

k(ν, 0.975) 5.02 9.35 12.83 20.48 34.17 563.85

Pour la loi gaussienne de moyenne 500 et d’ecart type√

1000, lequantile superieur d’ordre β = 0.975 vaut 561.97

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 87 / 166

Estimation Estimation ponctuelle d’une variance

Loi de l’estimateur S2c

Theoreme

Si la population est gaussienne alors la loi den − 1

σ2S2c est la loi du χ2

a n − 1 degres de liberte.

Grands echantillons gaussien

Quand la taille de la population est assez grande (n > 30), on peut

approcher la loi den − 1

σ2S2c par la loi gaussienne de moyenne n− 1 et

d’ecart type√

2n − 2.

Autrement dit on peut approcher la loi de

(S2c

σ2− 1

) √n − 1√

2par la

loi gaussienne standard

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 88 / 166

Estimation Estimation ponctuelle d’une variance

Intervalle de confiance pour la variance

Estimation par intervalle de la variance d’une population

Hypotheses

la population est gaussienne[(n − 1)S2

c

k(n − 1, 1− α/2);

(n − 1)S2c

k(n − 1, α/2)

]est un intervalle de confiance de niveau 1− α pour la variance σ2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 89 / 166

Estimation Estimation ponctuelle d’une variance

Approximation gaussienne

Estimation par intervalle de la variance d’une population gaussienne

Quand la taille de l’echantillon est assez grande n > 30, S2c

1 +q(1− α/2)

√2√

n − 1

;S2c

1− q(1− α/2)√

2√n − 1

est un intervalle de confiance de niveau 1− α pour la variance σ2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 90 / 166

Estimation Estimation ponctuelle d’une proportion

3 EstimationExemple introductifEchantillonnageEstimation ponctuelle d’une moyenneTheoreme central limiteErreur d’estimation : Conclusions probabilistesEstimation par intervalle de la moyenneEstimation ponctuelle d’une varianceEstimation ponctuelle d’une proportionConclusion

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 91 / 166

Estimation Estimation ponctuelle d’une proportion

Construction de l’estimateur

On etudie une caracteristique X qui prend deux modalites {0, 1}.Soit p la proportion de la population qui possede la modalite 1On veut estimer p a partir de notre echantillon.

Construction de l’estimateur

On note p la proportion de l’echantillon qui possede la modalite 1.C’est un estimateur ponctuel de p

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 92 / 166

Estimation Estimation ponctuelle d’une proportion

Proprietes de la loi de p

1 La moyenne de la variable p est egale a la proportion p dans lapopulation.

2 L’ecart type de p vaut

√p(1− p)

n.

Le graphique suivant represente l’ecart type en fonction de p.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 93 / 166

Estimation Estimation ponctuelle d’une proportion

Loi d’echantillonnage de p

Quand la taille de l’echantillon est assez grande, on peut approcher laloi de p par une loi gaussienne de moyenne p et d’ecart type√

p(1− p)

n.

On peut considerer que n est grand si np ≥ 5 et n(1− p) ≥ 5.

0.0 0.2 0.4 0.6 0.8 1.0

0100

200300

400500

p

n

approximation par une gaussienne VALIDE

np>5 et n(1−p)>5

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 94 / 166

Estimation Estimation ponctuelle d’une proportion

Precision de l’estimation : grands echantillons

Soit α fixe. On a

P

(p − p ∈

[−q(1− α/2)

√p(1− p)

n; q(1− α/2)

√p(1− p)

n

])= 1−α

p genere une erreur absolue inferieure a q(1− α/2)

√p(1− p)

navec

une probabilite de 1− α.

Remarque

L’erreur depend de p qui est inconnu.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 95 / 166

Estimation Estimation ponctuelle d’une proportion

Estimation par intervalle : grands echantillons

On estime l’ecart type de la loi de p par

√p(1− p)

n

Theoreme

Pour n assez grand, la loi de√n

p(1− p)(p − p)

peut etre approchee par la loi gaussienne standard.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 96 / 166

Estimation Estimation ponctuelle d’une proportion

Intervalle de confiance

Estimation par intervalle de la proportion p

Hypothese

la taille de l’echantillon est assez grande np ≥ 5 et n(1− p) ≥ 5.en pratique on verifie si pn ≥ 5 et n(1− p) ≥ 5[

p − q(1− α/2)

√p(1− p)

n; p + q(1− α/2)

√p(1− p)

n

]est un intervalle de confiance de niveau 1− α pour la proportion p

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 97 / 166

Estimation Estimation ponctuelle d’une proportion

Retour a l’exemple du groupe αβ

L’estimation de p : p = .7 et la taille de l’echantillon est n = 30. Ona bien pn = 21 ≥ 5 et n(1− p) = 9 ≥ 5On peut utiliser l’approximation par une gaussienne

1 Avec une probabilite de 95%, l’erreur sur l’estimation de p estinferieure a

1.96

√p(1− p)√

n= 1.96 ∗

√0.3 ∗ 0.7/

√30 = 0.16

Apres le recensement, nous avions une erreur absolue de :EA = .03

2 L’intervalle de confiance au niveau 95% est

[0.7− 0.16, 0.7 + 0.16] = [0.54, 0.86]

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 98 / 166

Estimation Estimation ponctuelle d’une proportion

Le second tour d’une election presidentielle

A et B sont les deux candidats presents au second tour. Les resultatsdu second tour sont B 51% et A 49%Les regions de confiance pour les deux proportions en fonction de lataille de l’echantillon

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 99 / 166

Estimation Estimation ponctuelle d’une proportion

Incertitude sur le candidat vainqueurQuelle est la precision des sondages ?

On realise de nombreux sondages sur des echantillons de taille n afind’evaluer le pourcentage de sondages qui ne donnent pas le boncandidat vainqueur. Ce graphique represente ce pourcentage enfonction de n.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 100 / 166

Estimation Estimation ponctuelle d’une proportion

un autre resultat : 52,5% contre 47.5%

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 101 / 166

Estimation Conclusion

3 EstimationExemple introductifEchantillonnageEstimation ponctuelle d’une moyenneTheoreme central limiteErreur d’estimation : Conclusions probabilistesEstimation par intervalle de la moyenneEstimation ponctuelle d’une varianceEstimation ponctuelle d’une proportionConclusion

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 102 / 166

Estimation Conclusion

La bonne demarche

La demarche statistique pour estimer une caracteristique/unparametre de la population (moyenne, variance, proportion, etc.) estla suivante

1 On constitue un echantillon de taille n

2 On recolte les observations x1, . . . , xn3 On calcule l’estimateur du parametre d’interet.4 Avant d’evaluer la qualite de l’estimateur, on doit repondre aux

questions suivantes :1 Dispose-t-on d’un grand echantillon ?2 La population est-elle gaussienne ?

5 On fixe un niveau de confiance 1− α6 On calcule l’erreur d’estimation et/ou un intervalle de confiance

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 103 / 166

Tests

Plan de la section

4 TestsDefinitions et exemplesTest sur la moyenneComparaison de deux echantillonsTest du χ2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 104 / 166

Tests Definitions et exemples

4 TestsDefinitions et exemplesTest sur la moyenneComparaison de deux echantillonsTest du χ2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 105 / 166

Tests Definitions et exemples

Un test statistique

Dans la premiere partie du cours un echantillon est utilise pourestimer les parametres d’une caracteristique de la population, parexemple

une moyenne

une variance

une proportion

Nous poursuivons l’inference statistique par la description des testsstatistiques.

Un test statistique est utilise pour determiner si uneassertion sur une caracteristique de la population doit etrerejetee.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 106 / 166

Tests Definitions et exemples

Le controle de qualite.

Dans une des entreprises du groupe αβ, on procede a l’assemblage de10 composants electroniques sur une plate-forme.La qualite de soudure sur la plate-forme ne satisfait pas les criteres dequalite etablis pour ce produit.

l’avis de l’ingenieur

Un ingenieur a emis l’hypothese que le probleme serait du a desdefauts de placage sur les plates-formes.

Question

La proportion de plates-formes defectueuses dans les stocks del’entreprise est-elle superieure a celle annoncee par le fournisseur ?

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 107 / 166

Tests Definitions et exemples

Principe general

Etape 1 On commence par formuler une premiere hypothese sur unecaracteristique de la population.Cette hypothese, notee H0, est appelee l’hypothese nulle.

Etape 2 On definit ensuite une seconde hypothese qui contreditl’hypothese nulle H0. Cette hypothese, notee Ha, est appeleel’hypothese alternative.

Etape 3 On utilise les donnees issues d’un echantillon pour tester lesdeux hypotheses en competition H0 et Ha.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 108 / 166

Tests Definitions et exemples

Illustration

Situation : Une societe de transport annonce que la duree moyenneµ du trajet entre Paris et Lille a ete reduite de 5 minutes, la dureemoyenne du trajet serait de 58mn au lieu de 1h03. Une associationd’usagers conteste cette annonce.Les hypotheses On confronte les deux hypotheses suivantes :

H0 : l’affirmation de l’association d’usagers µ = 63mn

Ha : l’affirmation de la societe de transport µ = 58mn

On dispose d’un echantillon de taille n = 35 dont la moyenne desdurees de trajet vaut x = 59.1mn et l’ecart type S = 5.1mn.

La difference entre x et 63 peut-elle etre attribuee aux fluctuations del’echantillonnage ou doit-elle etre attribuee a une reduction reelle dela duree du trajet ?

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 109 / 166

Tests Definitions et exemples

Quelle decision peut-on prendre ?

Remarques

Quelle est la probabilite de commettre une erreur si H0 est vraie ?

Quelle est la probabilite de commettre une erreur si Ha est vraie ?

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 110 / 166

Tests Definitions et exemples

la societe de transport (suite) la loi de x

L’hypothese H0 est vraie

la loi de x peut etre approchee parla loi gaussienne de moyenne 63 et

d’ecart type5.1√

35≈ 0.86

L’hypothese Ha est vraie

la loi de x peut etre approchee parla loi gaussienne de moyenne 58 et

d’ecart type5.1√

35

Representation de la loi de x

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 111 / 166

Tests Definitions et exemples

la societe de transport (suite)

Supposons que l’hypothese H0 soit vraie.On calcule la probabilite d’observer une valeur inferieure a 59.1.On a

P0(x ≤ 59.1) = P

(x − 63

0.86≤ 59.1− 63

0.86

)= F0,1(−4.53)

= 1− F0,1(4.53)

≈ 310−6

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 112 / 166

Tests Definitions et exemples

la societe de transport (suite)

Comment choisir la limite c ?

On fixe α = 5%, la probabilite de commettre une erreur quand H0 estvraie, autrement dit α est la probabilite que x < c quand H0 est vraie.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 113 / 166

Tests Definitions et exemples

la societe de transport (suite)

Autrement dit on cherche la valeur c telle que1 la loi de x peut etre approchee par la loi gaussienne de moyenne

63 et d’ecart type5.1√

352 P0(x < c) = 0.05

P0(x < c) = P

(x − 63

0.86<

c − 63

0.86

)= F0,1

(c − 63

0.86

)= 0.05

d’ou

F0,1

(−c − 63

0.86

)= 0.95

et

−c − 63

0.86= 1.64 ⇒ c = 61.58

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 114 / 166

Tests Definitions et exemples

la societe de transport (fin)

La decisionOn a observe x = 59.1. Comme x < c = 61.58, on decide de rejeterl’hypothese nulle (on accepte la reduction de la duree du trajet) pourle test de seuil α = 5%.Un autre type d’erreurOn calcule la probabilite de decider H0 alors que Ha est vraieLa loi de x peut etre approchee par la loi gaussienne de moyenne 58

et d’ecart type5.1√

35

P1(x > 61.58) = P

(x − 58

0.86>

61.58− 58

0.86

)= 1− F0,1

(61.58− 58

0.86

)= 10−5

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 115 / 166

Tests Test sur la moyenne

4 TestsDefinitions et exemplesTest sur la moyenneComparaison de deux echantillonsTest du χ2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 116 / 166

Tests Test sur la moyenne

Decision et erreur

On teste les hypotheses H0 contre Ha

Etat de la populationH0 est vraie Ha est vraie

DecisionAccepter H0 Decision correcte Erreur de 2nde espece

Rejeter H0 Erreur de 1ere espece Decision correcte

Notations :

α est la probabilite de commettre une erreur de premiere espece

β est la probabilite de commettre une erreur de seconde espece

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 117 / 166

Tests Test sur la moyenne

La demarche

1 On fixe la probabilite d’erreur de premiere espece α c’est le risque de rejeter H0 (accepter Ha) alors que H0 estvraie.

2 On construit une region R0 telle quesi x ∈ Ro alors on rejette l’hypothese nulle H0 (on accepte Ha)la probabilite de x ∈ Ro est egale a α quand H0 est vraie

Definition

On dit que la decision est prise au niveau α

Remarque

La probabilite d’erreur de seconde espece β n’est pas fixee par lestatisticien qui met en œuvre le test.Pour de nombreux tests, il n’est pas possible de calculer la valeur deβ.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 118 / 166

Tests Test sur la moyenne

Les decisions

La decision est prise a partir d’un echantillon de taille n.On calcule la moyenne de l’echantillon x .

Si x ∈ Ro alors on decide de rejeter H0 (d’accepter Ha).

Le risque de commettre une erreur est inferieur ou egala α.

Si x 6∈ Ro alors on decide d’accepter H0.

Remarque

Lorsque β est inconnu, on utilise plutot l’expression ”on ne peut pasrejeter H0” plutot que ”on accepte H0”.Utiliser cette expression permet de differer tout jugement et touteaction.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 119 / 166

Tests Test sur la moyenne

Tester les hypotheses de recherche

Situation : Les voitures de type XYZ consomment en moyenne, 9litres d’essence tous les 100 kilometres. Des chercheurs ont developpeun nouveau moteur pour ce modele.

Hypotheses : Les chercheurs veulent prouver que le nouveau moteurest plus economique.On note µ la consommation moyenne en litres pour 100 kilometres.L’hypothese de recherche est µ < 9Les hypotheses appropriees sont

H0 : µ = 9 et Ha : µ < 9

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 120 / 166

Tests Test sur la moyenne

Construction du test sur la consommation

On mesure la consommation sur un echantillon de 100 voituresequipees du nouveau moteur. On calcule la moyenne x

Si x ≤ Calors on accepte Ha

sinon on accepte H0

Comment fixer la limite C ?1 On fixe l’erreur de premiere espece α = 0.052 On cherche la valeur de C telle que si H0 est vraie [µ = 9], on a

P(accepter Ha) = P(x < C ) = 0.05

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 121 / 166

Tests Test sur la moyenne

On dispose d’un grand echantillon n = 100 > 30 et σ = 1 est connu.

Si H0 est vraie alors la loi de Z =x − 9

1/√

100peut etre approchee par

une loi gaussienne standard

8.6 8.8 9.0 9.2 9.4

01

23

4

x

5%

Decision Ha Decision Ho

loi de sous Hox

On cherche C telle que

P(x < C ) = P(Z ≤ C − 9

1/√

100)

= 0.05

Dans la table, on litC − 9

1/√

100= −1.64 donc C = 8.83

Si x < 8.83 alors on rejette l’hypothese nulle (on accepte l’hypothesealternative) au niveau 5%

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 122 / 166

Tests Test sur la moyenne

Sur l’echantillon constitue par les ingenieurs, la moyenne desconsommations est egale a x = 8.5.

Les resultats de l’echantillon indiquent que l’on rejette H0 etdonc que l’on accepte Ha au niveau 5%

Les ingenieurs ont le support statistique necessaire pour affirmerque le nouveau moteur est plus economique.La production pourra alors commencer.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 123 / 166

Tests Test sur la moyenne

Tester la validite d’une assertion

Situation : Un producteur de tiges filetees pretend que la longueurmoyenne µ des tiges est d’un metre.Un echantillon de tiges est constitue et leur longueur est mesureepour tester l’affirmation du fabricant.

Hypotheses : On accorde le benefice du doute au producteur et sonassertion correspond a H0.On formule les hypotheses

H0 : µ = 1 et Ha : µ 6= 1

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 124 / 166

Tests Test sur la moyenne

Construction du test sur la qualite des pieces

On mesure la longueur de 100 tiges. On calcule la moyenne x

Si |x − 1| ≥ Calors on accepte Ha

sinon on accepte H0

Comment fixer la limite C ?1 On fixe l’erreur de premiere espece α = 0.052 On cherche la valeur de C telle que si H0 est vraie [µ = 1] alors

P(accepter Ha) = P(|x − 1| > C ) = 0.05

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 125 / 166

Tests Test sur la moyenne

On dispose d’un grand echantillon n = 100 > 30 et σ = 1 est connu.

Si H0 est vraie alors la loi de Z =x − 1

1/√

100peut etre approchee par

une loi gaussienne standard

0.6 0.8 1.0 1.2 1.4

01

23

4

x

2.5% 2.5%

Decision Ha Decision Ha

Decision Ho

loi de sous HoxOn cherche C telle que

P(|x − 1| > C ) = P(|Z | ≥ C

1/√

100)

= 0.05

Dans la table, on litC

1/√

100= 1.96 donc C = 0.19

Si x < 0.81 ou x > 1.19 alors on rejette l’hypothese nulle (autrementdit on accepte l’hypothese alternative) au niveau 5%.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 126 / 166

Tests Test sur la moyenne

Sur l’echantillon de tiges, la longueur moyenne des tiges estx = 1.1.

Les donnees de l’echantillon ne permettent pas de rejeter H0. Onaccepte H0.

On ne peut pas contester l’affirmation du fabricant.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 127 / 166

Tests Test sur la moyenne

Les differentes hypotheses sur la moyenne de la

population

Hypothese nulle H0

la moyenne est egale a µ0 H0 : µ = µ0

la moyenne est superieure ou egale a µ0 H0 : µ ≥ µ0

la moyenne est inferieure ou egale a µ0 H0 : µ ≤ µ0

Hypothese alternative Ha

la moyenne est differente de µ0 Ha : µ 6= µ0

la moyenne est strictement superieure a µ0 Ha : µ > µ0

la moyenne est strictement inferieure a µ0 Ha : µ < µ0

Remarque

L’egalite doit toujours apparaıtre dans l’hypothese nulle H0.A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 128 / 166

Tests Test sur la moyenne

Test sur la moyenne : n grand, σ connu

Hypothese Hypothese Ha est accepteenulle H0 alternative Ha H0 est rejeteeµ = µ0 µ > µ0

µ ≤ µ0 x > µ0 + q(1− α)σ√n

µ = µ0 µ < µ0

µ ≥ µ0 x < µ0 − q(1− α)σ√n

µ = µ0 µ 6= µ0 x > µ0 + q(1− α/2)σ√n

ou bien

x < µ0 − q(1− α/2)σ√n

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 129 / 166

Tests Test sur la moyenne

Test sur la moyenne : n grand, σ inconnu

Hypothese Hypothese Ha est accepteenulle H0 alternative Ha H0 est rejeteeµ = µ0 µ > µ0

µ ≤ µ0 x > µ0 + q(1− α)S√

nµ = µ0 µ < µ0

µ ≥ µ0 x < µ0 − q(1− α)S√

n

µ = µ0 µ 6= µ0 x > µ0 + q(1− α/2)S√

nou bien

x < µ0 − q(1− α/2)S√

n

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 130 / 166

Tests Test sur la moyenne

Test sur la moyenne : cas gaussien, σ connu

Hypothese Hypothese Ha est accepteenulle H0 alternative Ha H0 est rejeteeµ = µ0 µ > µ0

µ ≤ µ0 x > µ0 + q(1− α)σ√n

µ = µ0 µ < µ0

µ ≥ µ0 x < µ0 − q(1− α)σ√n

µ = µ0 µ 6= µ0 x > µ0 + q(1− α/2)σ√n

ou bien

x < µ0 − q(1− α/2)σ√n

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 131 / 166

Tests Test sur la moyenne

Test sur la moyenne : cas gaussien, σ inconnu

Hypothese Hypothese Ha est accepteenulle H0 alternative Ha H0 est rejeteeµ = µ0 µ > µ0

µ ≤ µ0 x > µ0 + t(n − 1, 1− α)Sc√

nµ = µ0 µ < µ0

µ ≥ µ0 x < µ0 − t(n − 1, 1− α)Sc√

n

µ = µ0 µ 6= µ0 x > µ0 + t(n − 1, 1− α/2)Sc√

nou bien

x < µ0 − t(n − 1, 1− α/2)Sc√

n

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 132 / 166

Tests Comparaison de deux echantillons

4 TestsDefinitions et exemplesTest sur la moyenneComparaison de deux echantillonsTest du χ2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 133 / 166

Tests Comparaison de deux echantillons

Tests de comparaison

Probleme On veut tester si deux echantillons ont la meme moyenne.Deux situations

1 les deux echantillons sont independants

Exemple

On veut comparer les salaires moyens des techniciens de deuxentreprises.

2 les echantillons sont apparies

Exemple

Pour tester l’efficacite d’un medicament, on compare le taux decholesterol avant et apres le traitement sur un groupe de malades.Les echantillons ne sont pas independants car les mesures sonteffectuees sur les memes individus.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 134 / 166

Tests Comparaison de deux echantillons

Echantillons independants

Un grand magasin implante deux boutiques

l’une est situee dans le centre ville

l’autre dans un centre commercial en banlieue

Le directeur des ventes remarque que les produits qui se vendent biendans un des magasins ne se vendent pas forcement bien dans lesecond. Il attribue cette variation des ventes au fait que l’age moyendes clients est different entre les deux magasins.

boutique taille age moyen ecart typede l’echantillon

pop. 1 centre ville n1 = 36 x1 = 40 ans S1 = 9 anspop. 2 banlieue n2 = 49 x2 = 35 ans S2 = 10 ans

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 135 / 166

Tests Comparaison de deux echantillons

Plus generalement

On suppose que les deux populations sont independantes

Population 1moyenne µ1

ecart type σ1

Population 2moyenne µ2

ecart type σ2

La questionLes deux moyennes sont-elles egales ? µ1 = µ2?

On teste µ1 = µ2 contre µ1 6= µ2

Les observations : on dispose de deux echantillons independants.

echantillon 1extrait de la population 1

taille n1 moyenne x1,ecart type S1

echantillon 2extrait de la population 2

taille n2, moyenne x2,ecart type S2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 136 / 166

Tests Comparaison de deux echantillons

La procedure de test

Le test H0 : µ1 = µ2 contre Ha : µ1 6= µ2

Hypotheses : on dispose de deux grands echantillons n1 > 30 etn2 > 30. Les deux echantillons sont independants. On supposeque σ1 et σ2 sont connusOn pose

Z =x1 − x2√σ2

1

n1+

σ22

n2

Si |Z | > q(1− α/2)alors

on rejette l’hypothese nulle H0 (donc on accepte Ha) auniveau α .

sinon

on accepte H0

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 137 / 166

Tests Comparaison de deux echantillons

Modification de la procedure de testlorsque les variances sont inconnues

Le test H0 : µ1 = µ2 contre Ha : µ1 6= µ2

Hypotheses : on dispose de deux grands echantillons n1 > 30 etn2 > 30. Les deux echantillons sont independants.On pose

Z =x1 − x2√S2

1

n1+

S22

n2

Si |Z | > q(1− α/2)alors

on rejette l’hypothese nulle H0 (donc on accepte Ha) auniveau α.

sinon

on accepte H0

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 138 / 166

Tests Comparaison de deux echantillons

Retour a l’exemple des deux boutiques

On calcule Z

Z =x1 − x2√S2

1

n1+

S22

n2

=40− 35√

92

36+ 102

49

= 2.41

On fixe l’erreur de premiere espece : α = 5%.On a

q(1− α/2) = q(0.975) = 1.96

On compare |Z | et q(0.975)

|Z | = 2.41 > 1.96 donc on accepte l’hypothese alternative

Ha : l’age moyen des deux populations est different

au niveau 5%

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 139 / 166

Tests Comparaison de deux echantillons

Echantillons apparies

On dispose de deux methodes pour realiser une tache sur une chaınede production. On veut comparer les temps d’execution de ces deuxmethodesOn selectionne un echantillon de n = 40 ouvriers qui vont executercette tache d’abord par la methode 1 puis par la methode 2. .Pour chaque personne, on recolte deux temps d’execution. Voici unextrait des donnees recoltees :

i 1 2 3 4 5 6 7 8 9 · · ·xi 6.50 5.00 3.80 5.70 4.80 6.10 5.70 5.00 4.00 · · ·yi 4.50 6.50 5.70 7.20 4.20 5.60 5.30 5.10 6.90 · · ·

Etc

Remarque

On teste les deux methodes sur le meme groupe de la populationpour diminuer les effets de l’echantillonnage.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 140 / 166

Tests Comparaison de deux echantillons

Plus generalement

Methode 1moyenne µ1

ecart type σ1

Methode 2moyenne µ2

ecart type σ2

On constitue un seul echantillon d’individus

L’echantillon 1 est constituedes resultats obtenus par la

methode 1taille n moyenne x1,

ecart type S1

L’echantillon 2 est constituedes resultats obtenus par la

methode 2taille n, moyenne x2,

ecart type S2

Definition

On dit que les echantillons sont apparies quand deux methodes sonttestees sur les memes individus

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 141 / 166

Tests Comparaison de deux echantillons

Construction du test

On note

x1, . . . , xn l’echantillon obtenu pour la methode 1

y1, . . . , yn l’echantillon obtenu pour la methode 2

On calcule les differences

d1 = x1 − y1, . . . , dn = xn − yn

puis

la moyenne des differences : d =1

n

∑ni=1 di

la variance : S2d = 1

n

n∑i=1

(di − d)2

l’ecart type Sd =

√√√√ 1n

n∑i=1

(di − d)2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 142 / 166

Tests Comparaison de deux echantillons

Procedure de test

Le test H0 : µ1 = µ2 contre Ha : µ1 6= µ2

Hypotheses : on suppose que les echantillons sont apparies etn > 30

On pose

Z =d√S2d

n

Si |Z | > q(1− α/2)alors

on rejette l’hypothese nulle et donc on accepte Ha auniveau α

sinonon accepte H0

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 143 / 166

Tests Comparaison de deux echantillons

Exemple (suite)

Sur l’echantillon de taille 40, on calcule

d = −0.64

Sd = 1.413

puis Z = −2.89.On compare |Z | avec le quantile q(1− α/2) = q(0.975) = 1.96Comme |Z | > 1.96, on rejette l’hypothese H0 au niveau 5%.Autrement dit, on accepte l’hypothese Ha :

les deux methodes n’ont pas le meme temps d’execution

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 144 / 166

Tests Test du χ2

4 TestsDefinitions et exemplesTest sur la moyenneComparaison de deux echantillonsTest du χ2

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 145 / 166

Tests Test du χ2

Test d’independance sur des tables de contingence

On teste l’independance entre deux variables.

Exemple

On dispose de trois types de biere : blanche / blonde / brune. Legroupe marketing se demande si les preferences des consommateurssont differentes entre les hommes et les femmesLes donnees :

blanche blonde brunehomme 20 40 20femme 30 30 10

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 146 / 166

Tests Test du χ2

Definition d’une table de contingence

On considere deux variables X et Y qui prennent un nombre fini devaleurs

X prend les valeurs A1, . . . ,Ap

Y prend les valeurs B1, . . . ,Bq

A partir d’un echantillon de taille n, on construit la table decontingenceX\Y B1 B2 · · · Bq

A1 e(1,1) e(1,2) . . . e(1,q)A2 e(2,1) e(2,2) . . . e(2,q)...

......

. . ....

Ap e(p,1) e(p,2) . . . e(p,q)

ou e(i , j) est egal aunombre d’individus dansl’echantillon qui possedentles modalites Ai ,Bj

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 147 / 166

Tests Test du χ2

Procedure de test

On teste H0 : X et Y sont independantes contre Ha : X et Y ne sontpas independantes.On note

pour i = 1 . . . p : `i le total de la ligne i

pour j = 1 . . . q : cj le total de la colonne j

X\Y B1 B2 · · · Bq

A1 e(1,1) e(1,2) . . . e(1,q) `1

A2 e(2,1) e(2,2) . . . e(2,q) `2...

......

. . ....

...Ap e(p,1) e(p,2) . . . e(p,q) `p

c1 c2 . . . cq n

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 148 / 166

Tests Test du χ2

On calcule

Q =

p∑i=1

q∑j=1

(e(i , j)− `icj

n

)2

`icjn

.

Si Q > k((p − 1)(q − 1), 1− α)alors

on rejette l’hypothese nulle H0 (on accepte l’hypothesealternative Ha) au niveau α. Les variables X et Y ne sontpas independantes

sinon

on accepte l’hypothese nulle H0, les variables sontindependantes.

[k((p − 1)(q − 1), 1− α) est le quantile d’ordre 1− α de la loi du χ2 a

(p − 1)(q − 1) degres de liberte.]

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 149 / 166

Tests Test du χ2

Retour a l’exemple

blanche blonde brunehomme 20 40 20 80femme 30 30 10 70

50 70 30 150 = n

On calcule Q = 6.13.

On compare Q avec k((2− 1)(3− 1), 0.95) = 5.99

Conclusion Q = 6.13 > 5.99 donc on rejette l’independance.Il existe un lien entre la preference en matiere de biere et le sexedu consommateur.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 150 / 166

Regression

Plan de la section

5 RegressionIntroductionLa correlationEstimationComplement sur la correlation

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 151 / 166

Regression Introduction

5 RegressionIntroductionLa correlationEstimationComplement sur la correlation

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 152 / 166

Regression Introduction

La regression

On mesure deux variables continues (X ,Y ) sur n individus.Les Observations : on observe donc n couples de points

(x1, y1), . . . , (xn, yn)

Probleme : Existe-t-il une liaison entre ces deux variables ?

Exemple (Une maison de vente par correspondance )

Existe-t-il un lien entre le poids du courrier recu par une entreprisechaque matin et le nombre de commandes traitees pendant la journee.

Probleme

Tester l’existence d’une liaison entre ces deux variables

Estimer la liaison, si elle existe.

Utiliser cette liaison pour prevoir

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 153 / 166

Regression Introduction

Lien lineaire entre la proportion d’etudiants dans la

clientele d’un restaurant et les ventes de Pizza

Prop. Etud. Ventesen % en milliers euros

1 2 582 6 1053 8 884 8 1185 12 1176 16 1377 20 1578 20 1699 22 149

10 26 202

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 154 / 166

Regression La correlation

5 RegressionIntroductionLa correlationEstimationComplement sur la correlation

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 155 / 166

Regression La correlation

Definition du coefficient de correlation

Soit n couples (x1, y1), . . . , (xn, yn). La correlation entre les variablesX et Y est egale a

r =

1n

n∑i=1

(xi − x)(yi − y)

SxSy

oux represente la moyenne et Sx l’ecart type de l’echantillonx1, . . . , xny represente la moyenne et Sy l’ecart type de l’echantillony1, . . . , yn

1 r est un nombre entre −1 et 1.2 |r | = 1 tous les points sont alignes3 Une valeur de r proche de zero indique que les variables ne sont

pas lineairement lieesA. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 156 / 166

Regression La correlation

Illustration

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

−3 −1 1 2 3

−3−1

13

x

y

r = −1

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●●

●● ●

●● ●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●● ●

●●●

●●

●●●● ●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●●

●●●

●●●

●●

●●

●●

●●

●●

●●

● ●

−3 −1 1 3

−3−1

13

x

y

r = −0.95

● ●

●●

●●●

●●●

●● ●●

●●

●●

● ●

●●●●

●●●

● ●●

●●●

● ●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

● ●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●● ●

●●

●●

●●

●●●

●●

●●

●●

● ●

●● ● ●

● ●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

● ●●

●●

● ●

●●

●●●

●●

●●

●●

●●●

●● ●

● ●

●●●●

●●

●●●

● ●●●

●●

●●

●●

● ●●

●●

●●

●●

● ●

●●

●●●

●●

●●●

●●

●●

● ●

● ●●

●●

●●● ●

● ●

●●

●●

●●● ●●

●●

●●●

●●

●●

●●

●●

●●

−3 −1 1 2 3

−3−1

13

x

y

r = −0.75

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●●

● ●

●●

●●

●●

●●●●

●●

●●

●●

●●●●

●●

●●

●●

●● ●

●●

●● ●

●●

●●

●●●

●●

● ●●

●●

●● ●

●●

●● ●

●●

●●

●●

●●

●●

●● ●●

●●●

●●

●● ●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●● ●

●●●

●●●

● ●

● ●

●●

●●

●●●

●●

●●

●● ●

●●

●● ●

●●

●●

●●●

●●

●● ●

●● ●

●●●

●●

●●

●●●

●●

●●

●●

●●

● ●●

●●

●●

●●●

●● ●

●●

●●

●●●

●● ●

●●●

● ●

●●

● ●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●●

●●

● ●●

−3 −1 1 3

−3−1

13

x

y

r = −0.25

●●●

● ●●

● ●● ●●

●●

●●

●●

● ●●

● ●

●●

●●●

●● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ● ●

●●

● ●

●●

● ●

● ●

● ●

●●

●●

●●

● ●●

●● ●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

● ●●

● ●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●●

●●

● ●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●●

●●

● ●

●●●

●●

●●

●●

● ●

●●

● ●●●

●●

●●●

● ●

●●●

●●●

●●

● ●

● ●

●●

●●●

●●

●● ●

● ●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●●

●●

●●●

●●

●●

●● ●●

●●

●●

● ●

●●

● ●

●●

−3 −1 1 2 3

−3−1

13

x

y

r = 0

●●

●●

●●

●●

●●●

● ●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●● ●

●●

●●

●●● ●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●●

●● ●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

● ●●

● ●●●●

●●

●●

●● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ●●

● ●●●

●●●

●●

●●●

●●●

●●

●●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●●

●●

●● ● ●

● ●●●

●●

● ●●

●●

●●

●●

●●

●●

−3 −1 1 2 3

−3−1

13

x

y

r = 0.25

●●

●●

●●● ●

●●

● ●

●●●

●●●

●●

●●

●●

●●●

●●

●●●

● ●

●●

●●

●●●

● ●●

●● ●

●● ●

●●

●●

●●

●●

●● ●

●● ●

●●

●●●

● ●

●●●

●● ●

●●●

● ●

●●

● ●

●●

●●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ● ●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●● ●

● ●●●●

●●

●●

●●

●●

●●●

●●

● ●

●●

●● ●

●●

●●● ●●●

●●

●●

●●●

● ●

●●●

●●

●●

●● ●

●●●

●●

●● ●

●●

●●

●●

● ●

●●●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●●●

−3 −1 1 2 3

−3−1

13

x

y

r = 0.75

●●

●●

●●●

●●

● ●●●

●●

●● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

● ●●●●

●●

●●

●●●●

●●

● ●●

●●

●●

● ●

●●●

●●●●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●●

●●

●● ●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●●●

●●

●●

●●

●●● ●●

●●

●●

●●

●●

●● ●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●●

●●●

●●

●●●●●

●●

●●●

●●

●●

●●

●●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●● ●●●

●●

●●

●●●

●●

●●

−3 −1 1 3

−3−1

13

x

y

r = 0.95

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●●

●●●

●●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

−3 −1 1 2 3

−3−1

13

x

y

r = 1

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 157 / 166

Regression La correlation

En pratique

1 On calcule le coefficient de correlation r1 Si r est proche de zero les deux variables ne sont pas liees2 si |r | est proche de 1, les variables sont lies.

On cherche a determiner si la nature du lien est lineaire oud’une autre nature.

2 Un outil graphique. On represente le nuage de points (xi , yi)pour i = 1, . . . , n

Si les points semblent dessiner une droite, alors le lien lineaireest confirme.On peut alors chercher la droite qui est la plus proche despoints du nuage.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 158 / 166

Regression Estimation

5 RegressionIntroductionLa correlationEstimationComplement sur la correlation

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 159 / 166

Regression Estimation

Modele lineaire et methode des moindres carres

Estimation du lien lineaire entre X et Y c’est a dire Y = aX + b + ε.

1 ε est une variable aleatoire appelee terme d’erreur

2 y = ax + b est la droite de regression

On utilise les donnees (x1, y1), . . . , (xn, yn) pour estimer lescoefficients de la droite (a, b).

On calcule la somme des carresdes erreurs e1, . . . , en

En(a, b) =n∑

i=1

(ei)2

On cherche les coefficients a et bqui minimisent En(a, b)

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 160 / 166

Regression Estimation

Calcul de la droite de regression

La pente est egale a

a =

1n

n∑i=1

(xi − x)(yi − y)

S2x

ou

x represente la moyenne et S2x la variance de l’echantillon

x1, . . . , xny represente la moyenne de l’echantillon y1, . . . , yn

L’ordonnee a l’origine est egale a

b = y − ax

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 161 / 166

Regression Estimation

Suite de l’exemple sur les ventes de pizzas

La correlation entre les deux variables vaut 0.95. l’ajustement lineaireest satisfaisant

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 162 / 166

Regression Estimation

Prevoir

S’il existe un lien lineaire entre X et Y , on peut prevoir la valeur prisepar Y connaissant la valeur de X

Calcul de la prevision Si on connaıt la valeur de X , X = x0, onprevoit la valeur de la variable Y en prenant ax0 + b.

Exemple

Un restaurateur sait que sa clientele est composee de 10 %d’etudiantsIl peut prevoir ses ventes de pizzas en prenanta × 10 + b = 5× 10 + 60 = 110 milliers d’euros

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 163 / 166

Regression Complement sur la correlation

5 RegressionIntroductionLa correlationEstimationComplement sur la correlation

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 164 / 166

Regression Complement sur la correlation

Le bon usage du coefficient de correlation

On dispose de 4 nuages de points

Dans les 4 cas, on ax = 9 ; y = 7.50,S2x = 10 ; S2

y = 3.75et r = 0.816.

donnees A donnees B donnees C donnees Dx y x y x y x y

10 8.04 10 9.14 10 7.46 8 6.588 6.95 8 8.14 8 6.77 8 5.76

13 7.58 13 8.74 13 12.74 8 7.719 8.81 9 8.77 9 7.11 8 8.84

11 8.33 11 9.26 11 7.81 8 8.4714 9.96 14 8.10 14 8.84 8 7.046 7.24 6 6.13 6 6.08 8 5.254 4.26 4 3.10 4 5.39 19 12.50

12 10.84 12 9.13 12 8.15 8 5.567 4.82 7 7.26 7 6.42 8 7.915 5.68 5 4.74 5 5.73 8 6.89

On obtient donc la meme droite y = 0.5x + 3 pour les 4 nuages depoints.

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 165 / 166

Regression Complement sur la correlation

Les nuages de points associes aux donnees

5 10 15

46

810

12

x

y

5 10 15

46

810

12

x

y

5 10 15

46

810

12

x

y

5 10 15

46

810

12

x

y

nuages de points −− ajustements lineaires

A. Φlippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 166 / 166