STATISTIQUE : approche et méthodes EXPÉRIENCES ... · • simple linear regression . régression...

1

MTH 2301 Méthodes statistiques en ingénierie

Lexique anglais – françaisIntroduction à la planification d’expériences Régression Linéaire Simple : Y = β0 + β1X + ε ε ~ N(0, σ2)

- ajustement par moindres carrés : estimation- analyse de la variabilité : tableau ANOVA- inférence concernant les paramètres :

tests d’hypothèses / intervalles de confiance- analyse des résidus : validation du modèle

Régression Linéaire Multiple : k variables explicatives XY = β0 + β1X1 + β2X2 + …. + βkXk + ε ε ~ N(0, σ2)

- ajustement par moindres carrés- analyse de la variabilité- inférence concernant les paramètres- analyse des résidus

Bernard CLÉMENT, PhD

R é g r e s s i o n

régression - 2MTH 2301 Méthodes statistiques en ingénierie Bernard CLÉMENT, PhD

• least square fitting …… ajustement par moindres carrés • fitted value ……………….. valeur ajustée• observed value …………… valeur observée• predicted value …………… valeur prédite• lack of fit ………………….. manque (défaut) d’ajustement• explanatory variable ……. variable explicative ( notée X )

• response variable ..………. variable de réponse ( à expliquer ) (notée Y )

• regression function ……… fonction de régression• random error …….………. erreur aléatoire ( notée ε )

• simple linear regression . régression linéaire simple ( un seul X )• multivariate regression … régression multipe ( plusieurs X )• standardized ……….......... centré réduit• multicolinearity …………… multicolinéarité• mean square ……………… carré moyen• coef. of determination …… coefficient de détermination (noté R2)

Lexique anglais – français

régression -

3

STATISTIQUE : approche et méthodes

PROCESSUS VARIABILITÉ DONNÉES AMÉLIORATION

PENSÉE STATISTIQUE MÉTHODES STATISTIQUES

FOURNISSEURS PROCESSUS 1 PROCESSUS 2 CLIENTS

TOUT TRAVAIL EST UN SYSTÈME DE PROCESSUS INTERDÉPENDANTS

LA VARIABILITÉ EXISTE DANS TOUS LES PROCESSUS

LA CLÉ : COMPRENDRE ET R É D U I R E LA VARIABILITÉ

L’ÉTUDE de la VARIBILITÉ MÉTHODES STATISTIQUES

Bernard CLÉMENT, PhDrégression -


.…

4

EXPÉRIENCES : planification statistique

• L’expérimentation (série de tests) est nécessaire en ingénierie:

- caractériser & optimiser les procédés;- évaluer les propriétés des matériaux, designs, systèmes;- déterminer les tolérances des composantes & systèmes;- réduire temps pour le design des produits & des procédés;- améliorer la fiabilité des produits;- obtenir des produits & des procédés robustes;

• Toutes les expériences sont planifiées mais . . .

- beaucoup sont mal planifiées- certaines sont bien planifiées en utilisant la

méthodologie planification statistique des essais( DOE : Design Of Experiment)

Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierierégression -

5

PROCESSUS : approche statistique

- DESIGN (CONCEPTION) : PRODUIT ou PROCÉDÉ- FABRICATION- MESURE- TRANSACTIONEL ou ADMINISTRATIF

FACTEURS = variables CONTRÔLABLES X 1 , X2 , …

X1 X2 . . . Xk

YMatériaux

Composants

Assemblage

εcomposante erreur

-réponse

- sortie mesurée

- reliée à la qualité


PROCESSUS

6

- Quel est le PLAN de collecte de données?

- Quelles sont les variables CRITIQUES Xaffectant la variable de réponse Y? TAMISAGE

- Quelle est la FONCTION de TRANSFERT MODÉLISATION f entre les variables critiques X fet la variable de réponse variable Y? X Y

- Comment CONTRÔLER la réponse Yà un niveau désiré CONTRÔLE

nominal - maximum - minimum eten fixant les variables X à OPTIMISATIONdes niveaux spécifiques (à déterminer)?

QUESTIONS


RÉPONSE - étapes

Méthodologie desdesigns statistiquesd’expériences (DOE)

7

S I P O C Suppliers Input : X Processus Output : Y Clients

régression -Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierie

FACTEURS

Personnel

Matériaux

Équipement

Politiques

Procédures

Méthodes

Environnement

GÉNÉRAL

mélange

d’inputs (intrants)

qui

génèrent

un

output (extrant)

RÉPONSES

indicateurs en relation avec

qualité produit

qualité service

exécution tache

8

PROCÉDÉ FABRICATION : exemple

régression -

FACTEURS

température moule

pression retenue

durée retenue

taille ouverture

vitesse vis

% recyclé

contenu moisissure

MOULAGE

INJECTION

fabrication

de

pièces

moulées

par

Injection

RÉPONSES

épaisseur pièce

autres caractéristiques

géométriques pièce

% de rétrécissement

par rapport une valeur

nominale visée

% de pièces non conformes

Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierie

9

PROCESSUS ADMINISTRATIF : exemple


FACTEURS

politique prix

formation vendeurs

incitatifs

distribution

suivi

variété produit

concurrence

relations clients

politique paiement

VENTE

VENTE

RÉPONSES

volume vente

% erreurs contacts

% ventes perdues

% plaintes clients

temps cycle

marge profit

% parts marché

identification besoins clients

10

PROCESSUS MESURE : exemple


plan d'échantillonnage source de variabilité

i LOTS L1 L2 L3 …. Li σ2LOT

p PRODUITS / LOT P1 P2 P3 P4 … σ2PRODUIT

o OPÉRATEURS O1 O2 …. σ2OPÉRATEUR

r RÉPÉTITIONS R1 R2 … σ2RÉPÉTITION( = erreur de mesure)

MESURE (output) Y

FACTEURS RÉPONSE

11

PROCESSUS D E S I G N : exemple


d

pompe d’assistance ventriculaire

d : diamètre : 22 mm

X1 : g = gap 60 à 200

X2 : W = width 2 à 6

X3 : H = height 1 à 3

valeurs optimales de X1 - X2 - X3 ?Min Y1 étanchéité fluxMax Y2 puissance enveloppeMax Y3 flux pompeMin Y4 puissance pompe

design expérimental : 15 essaiscentral composite essai X1 X2 X3 Y1 Y2 Y3 Y4

123

…

15

analyse Pareto optimisation simultanée:

optimum

12

DIAGRAMME ISHIKAWA : exemple


Y :consommation

essence véhicule

MESURES MÉTHODES MACHINES

PERSONNES MATÉRIAUX ENVIRONNEMENT

jauge àpression pneus

jauge à essence

type indicateur vitesse

maintenance

rotation pneus

mise au point

réchauffement moteur

pression pneus

poids

type conduite roue

climatisation

transmission

type pneu

cylindrée moteur

typeconducteur

formation conducteur

nombre passagers

type essence

additif essence

type huile

conditions climat

type de routes

ville / campagne

type terrain

densité traffic

13

PHASE ÉTAPES

1 Définir PROBLÈME / PROCESSUS - objectifs

2 Choisir les variables de RÉPONSE(S) Y à mesurer

3 Choisir les VARIABLES facteurs X et l’espace de variation

4 Définir & comparer des DESIGNS EXPÉRIMENTAUX

5 PRÉPARER pour l’expérience

6 CONDUIRE de l’expérience

7 ANALYSE statistique des résultats

8 AGIR avec les conclusions de l’analyse

EXPÉRIMENTATION : étapes

Planifi --cation

Exécution

Analyse

Transfert

Act PlanA P

S D

roue PDSA

Shewhart - Deming

régression -

DoStudy

Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierie14

ANALYSE STATISTIQUE : étapes

1. SPÉCIFICATION D’UN MODÈLE STATISTIQUE

2. ESTIMATION DES PARAMÈTRES DU MODÈLE

3. DÉCOMPOSITION DE LA VARIABILITÉ : ANOVA

4. TESTS D’HYPOTHÈSES SUR LES PARAMÈTRES

5. ANALYSE DES RÉSIDUS :

- vérification des hypothèses de base

- identification d’observations influentes

6. PRODUCTION DE GRAPHIQUES

7. si nécessaire : ITÉRATION étapes 1 à 6


15

MODÈLISATION STATISTIQUE

Y = f ( X1 , X2 , …., Xk ; β0 , β1 , β2 ,… ) + ε

f : fonction inconnue approximation polynôme

β0 , β1 , β2 , … : paramètres statistiques inconnus

Toute analyse statistique repose sur un modèle :

- fonction f pour représenter une relation entre input X et output Y

- hypothèse distributionnelle pour le terme d’erreur ε

ε ∼ N ( 0, σ2 )

P R O C E S S U S Y = f (X)X 1X 2…

X k ε

Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierierégression - 16

MODÈLES STATISTIQUES : types

• effets principaux (premier ordre): Y = β0 + β1X 1 + β2X2 + • • • + βkXk

• effets principaux et interaction :Y = β0 + β1X1 + β2X2 + • • • + βkXk + β12X1X2 + β13X1X3 + • • •

• quadratiques ( avec des facteurs quantitatifs ) : deuxième ordre

Y = β 0 + β1X 1 + β2X2 + • • • + βkXk + β12X1X2 + β13X1X3 + • • • +

+ β11X12 + β22X2

2 + β33X32 + • • •

• à variables indicatrices de type 0-1 : d’analyse de la variance

• mixtes : facteurs avec modalités fixes et facteurs avec modalités aléatoires

• polynomial : Y = β0 + β1X + β2X2 + • • • + βkXk


- f est inconnue approximation par des fonctions polynomiales

- tous les modèles sont LINÉAIRES dans les paramètres β

17Bernard CLÉMENT, PhD

régression -

DONNÉES d’expérimentation : mode actif

Exemple : fabrication tige

plastique extrudée

FACTEURS

X1 : vitesse (rpm) 100 – 200

X2 : température (C) 250 – 300

X3 : durée ( min) 5 – 10

X4 : pression (psi) 15- 30

RÉPONSES

Y1 : productivité ( pi/hr)

Y2 : diamètre ( (po)

visé : 2.54 ± 0.03

Y3 : nombre fissures

visé : < 10 / hr20

19

18

17

16

15

14

13

12

11

10

9

8

7

6

5

4

3

2

1

y3y2y1x4x3x2x1essai

RÉPONSESFACTEURS

MTH 2301 Méthodes statistiques en ingénierie18MTH 2301 Méthodes statistiques en ingénierie

2.82352671.841.3682182103.540.85

8.53653160.231.847.42122176.1403

14.43072314.840.326.92352206.138.41

YX4X3X2X1num

.

.

.


DONNÉES d’observations : mode passif

Exemple :

OTHM table 11.8 p. 417

Y : rendement production

gazoline

( % de l’huile brute )

FACTEURS

X1 : gravité huile brute ( deg. API )

X2 : pression vapeur ( PSIA )

X3 : ASTM point 10% ( deg. F )

X4 : point sortie gazoline ( deg. F)

45.74071908.650.832

27.84162671.841.331

26.63472103.540.830

19MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD

régression -

RÉGRESSION LINÉAIRE SIMPLE ( 1 / 14 )

1377

1197

987

1106

586

1096

7115

15105

695

14114

1294

2104

8133

3123

4143

ordreY-epaisX-pression

Exemple : OTHM table 11.1 épaisseur substrat

Modèle Y = β0 + β1 x + ε ε ∼ N ( 0, σ2 )

Données ( x i , y i ) i = 1, 2, …, n

Questions

• estimation des paramètres : β0 β1 σ2

• décomposition de la variabilité :

= analyse de la variance

= ANalysis Of VAariance = ANOVA

• tests - intervalles de confiance / prédiction

• validation du modèle : analyse des résidus


régression -


NOTATION

x = ∑ x i / n : moyenne de X y = ∑ y i / n : moyenne de Y

SPXY = ∑ ( x i – x )( y i – y ) : somme des produits XY

SSX = ∑ ( x i – x )2 : somme des carrés de X

SSY = ∑ ( y i – y )2 : somme totale des carrés de Y

ESTIMATION principe des moindres carrés : minimiser S( β0 , β1 )

S( β 0 , β1 ) = ∑ ( y i - β 0 - β 1 x i )2 : écart par rapport à la droite

solution β1 = SPXY / SSX = ∑ ci yi où ci = ( x i – x ) / SSX

β0 = y - b1 x

prédiction y = β0 + β1 x = y + β1 ( x – x ) : droite de moindres carrés

résidu brut e i = y i - y isomme des carrés résiduels SSR = ∑ e i

2 = ∑ ( y i - y i )2carré résiduel moyen MSR = SSR / (n – 2 )estimation de σ2 σ2 = MSR σ = ( MSR )0.5

∑ci = 0 ∑ci2 = 1


régression -


DÉCOMPOSITION DE LA VARIABILITÉ : tableau d’analyse de la variance

SSM = ∑ ( y i – y )2 = ( SPXY )2 / SSX = β12 SSX

: somme des carrés du modèle ( expliquée par X )

ÉQUATION FONDAMENTALE DE DÉCOMPOSITIONsomme de carrés (SS) : SSY = SSM + SSR

variabilité : totale = modèle + résiduelledegrés de liberté (DDL) : n – 1 = 1 + ( n - 2 )

TABLEAU D’ANALYSE VARIANCE : modèle de régression linéaire simple

SOURCE DDL SS MS=SS / DDL F-ratio p-valeur

régress. 1 SSM MSM = SSM f = MSM / MSR P( F ≥ f )

résiduelle n – 2 SSR MSR = SSR /( n - 2) = σ2 ---------- --------

totale n – 1 SSY -----------

R 2 = SSM / SSY : coefficient de détermination

0 ≤ R2 ≤ 1 : fraction de la variabilité de Y expliquée par le modèle ( variable X )

r = ± ( R2 )0.5 : coefficient de corrélation linéaire entre Y et X

remarque : le signe de r ( + ou - ) sera celui de β1


régression -


TEST et INTERVALLE de CONFIANCE

résultat ( β 1 - β 1 ) / ( σ / SSX 0.5 ) ~ T n – 2 ( loi de Student )

applications

(a) test de β1 H0 : β1 = 0 vs H1 : β1 ≠ 0

rejeter H0 au seuil α si │ β1 │SSX 0.5 / σ > t n – 2, 1-α/2

remarque : le test est équivalent au test F du tableau ANOVA

(b) intervalle de confiance de β1 : β1 ± t n – 2, 1 – α/2 σ / (SSX )0.5

coefficient de confiance = 1 - α

(c) INTERVALLE de CONFIANCE : MOYENNE de Y à X = x*

E ( Y │ X = x* ) : β0 + β1 x* ± t n – 2, 1 – α/ 2 σ [ ( 1/n) + (( x* – x )2 / SSX ) ] 0.5

remarque : un intervalle de confiance pour β0 s’obtient avec x* = 0

(d) INTERVALLE de PRÉDICTION : VALEUR de Y à X = x*

Y │ X = x* : β 0 + β1 x* ± t n – 2, 1 – α/ 2 σ [ 1 + ( 1/n) + (( x* – x )2 / SSX ) ] 0.5

23MTH 2301 Méthodes statistiques en ingénierie

Scatterplot (Sheet1 in ch11.stw 25v*36c)Y-epais = 15.5-1.1*x

2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5

X-pression

6

7

8

9

10

11

12

13

14

15

Y-e

pais



Exemple : OTHM table 11.1

épaisseur substrat( page 18 )

analyse avec le moduleMULTIPLE REGRESSION

de STATISTICA

r = - 0.835 R2 = 0.698F(1,13)=30.057 p < 0.00011

0.0001-5.4820.2006- 1.1000.1524- 0.8355X-pression

0.000014.8671.042615.500Intercept

p-levelt(13)Std. Err.B

βStd. Err.Beta

b1

b0

coefficientsen variablescentrées - réduites

test de signification

0


-0.87.87

1.27.89

0.27.88

1.18.910

-0.98.98

0.18.99

1.010.011

0.010.010

-1.010.09

-0.111.111

-2.111.19

-1.111.110

0.812.213

-0.212.212

1.812.214



Exemple : OTHM table 11.1

épaisseur substrat( page 18 )

analyse avecREGRESSION MULTIPLE STATISTICA

1452Total

1.211315.7Residuel

0.0001130.0636.3136.3Regress.

p-valeurFMSDDLSS

Tableau d’analyse de la variance

Predicted vs. Residual ScoresDependent variable: Y-epais

7 8 9 10 11 12 13

Predicted Values

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

Res

idua

ls

95% confidence

observés prédits résidus

25MTH 2301 Méthodes statistiques

en ingénierie

Normal Probability Plot of Residuals

-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0

Residuals

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

Exp

ecte

d N

orm

al V

alue



VALIDATION du MODÈLE : ANALYSE des RÉSIDUS

• résidus VS valeurs prédites y : variance constante ?• résidus VS variable explicative X : variance constante ?• résidus VS l’ordre des données : dépendance ?• résidus sur échelle gaussienne : distribution gaussienne ?

Raw residuals vs. X-pressionRaw residuals = 0.0000 + 0.0000 * X-pression

Correlation: r = ******

2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5

X-pression

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

Raw

resi

dual

s

95% confidence

Scatterplot (Ch11-v5.sta 26v*36c)

0 2 4 6 8 10 12 14 16

ORDRE

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

resi

du

Résidus standardisés

z i = e i / σ z = 0 , var (z) ≈ 1Résidus studentisés

t i = e i / σ [ (n – 1) /n) + ( xi – x )2 / SSX ] 2

remarque : l’analyse des résidus peut se faire avecles résidus standardisés / studentisés 26MTH 2301 Méthodes statistiques en ingénierie



8.96.710.45.200.49-0.87.8715

8.96.710.45.200.491.27.8914

8.96.710.45.200.490.27.8813

9.78.111.46.410.351.18.91012

9.78.111.46.410.35-0.98.9811

9.78.111.46.410.350.18.9910

10.69.412.57.550.281.010.0119

10.69.412.57.550.28-0.010.0108

10.69.412.57.550.28-1.010.097

11.910.313.68.610.35-0.111.1116

11.910.313.68.610.35-2.111.195

11.910.313.68.610.35-1.111.1104

13.311.114.89.600.490.812.2133

13.311.114.89.600.49-0.212.2122

13.311.114.89.600.491.812.2141

lim sufY

lim infY

lim supmoy Y

lim infmoy Y

écart typeY prédit

résiduE

Yprédit

Yobservé

int conf à 95% int préd à 95%


Scatterplot (CH11-v5.sta 25v*36c)Y_EPAIS = 15.5-1.1*x; 0.95 Conf.Int.

2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5

X_PRESSI

6

7

8

9

10

11

12

13

14

15

Y_EP

AIS

X_PRESSI:Y_EPAIS: r2 = 0.6981; r = -0.8355, p = 0.0001; y = 15.5 - 1.1*x



Scatterplot (CH11-v5.sta 25v*36c)Y_EPAIS = 15.5-1.1*x; 0.95 Pred.Int.

2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5

X_PRESSI

6

7

8

9

10

11

12

13

14

15

Y_EP

AIS

X_PRESSI:Y_EPAIS: r2 = 0.6981; r = -0.8355, p = 0.0001; y = 15.5 - 1.1*x

intervalle de confiance :

moyenne de Y

intervalle de prédiction de Y



JUSTESSE du MODÈLE : avec des observations répétées de Y à des valeurs de X

Estimation de σ2 : - calculée avec le modèle ajusté ( Droite de Moindres Carrés DMC )- dépend du modèle postulé

question : peut – on estimer σ2 indépendamment du modèle postulé ( y = β 0 + β 1 x + ε ) ?

réponse : oui, si on a au moins 2 observations de Y à au moins 3 valeurs distinctes de X

utilisation : tester le manque d’ajustement du modèle postulé

X

Y Données degrés de liberté ( ddl )

x 1 y 11 y 12 …. y 1 n1 ( n1 - 1 ) s 12 n1 – 1

x 2 y 21 y 22 …. y 2 n2 ( n2 – 1 ) s 22 n2 - 1

…. …. …. ….. …..

x k y k1 y k2 …. y k nk ( nk - 1 ) s k2 nk - 1

SSE = ∑ ( n j - 1 ) s j2 n - k

Nouvelle décomposition de la somme totale de carrés SSY

avant : SSY ( totale ) = SSM ( modèle ) + SSR ( résiduelle )

maintenant : SSY = SSM + SSE ( erreur pure ) + SSLOF ( manque d’ajustement )deg. liberté : n – 1 = 1 + ( n – k ) + ( k – 2 )

remarque : SSLOF est calculée par différence SSLOF = SSR - SSErégression -

DMC : Y = β0 + β1 x


régression -



tableau d’analyse de la variance : modèle linéaire simple


Modèle 1 SSM MSM = SSM f1 = MSM / MSR p1=P( F ≥ f1 )

résiduelle n – 2 SSR MSR = SSR/(n-2) ---------- ----------

LOF k – 2 SSLOF MSLOF f2 = MSLOF / MSE p2=P( F ≥ f2 ) pure n – k SSE MSE = σ2

pure ----------- -----------

Totale n – 1 SSY -----------

test du manque d’ajustement du modèle linéraire

H0M : E( Y│x ) = β 0 + β 1 x versus H1 : non H0M

test : rejeter H0 au seuil α si f2 > F n – k , k – 2 , 1 – αremarques

- si on utilise un logiciel statistique, on rejette H0M si p2 < α- si on rejette H0M , il faut postulé une autre équation ( modèle ) que la droite

- si on ne rejette pas H0M , le tableau d’analyse de la variance usuel (p. 20) est suffisant


Scatterplot (Ch11-v5.sta 26v*36c)Y_STRENT = -26.32+0.498*x

95 100 105 110 115 120 125 130 135 140 145

X_DEG

15

20

25

30

35

40

45

50

Y_S

TREN

T




Exemple : OTHM p. 394 ex 11.14 - expérience avec un facteur X contrôlé X = température ( degrés F) Y = résistance matériau ( unités = ? )

données: X = 100 : Y = 20 – 25 - 23 – 27 – 19 X = 110 : Y = 25 – 29 – 31 – 30 – 27 X = 120 : Y = 36 – 37 – 29 – 40 – 33 X = 130 : Y = 35 – 39 – 31 – 42 – 44 X = 140 : Y = 43 – 40 – 36 – 48 – 47

R = 0.879 R2 = 0.773 F(1,23)=78.323 p < 0.000

0.00008.850.0560.4980.0990.879X_DEG

0.0007-3.876.799-26.320Interct

p-levelt(23)Std

ErrorrBStd.ErrorBeta

241604.16Total

15.83223364.14Residual

0.000078.3231240.02011240.02Regress.

p-levelFMSDFSSANOVA


régression -


Exemple : OTHM p. 394 ex 11.14 - expérience avec un facteur X contrôlé ( suite )

42.84.97

38.25.26

35.04.18

28.42.41

22.83.35

x n s y100 5

110 5

120 5

130 5

140 5

SSE = 4 ( 3.352 + 2.412 + … + 4.972 ) = 347.6SSLOF = SSR – SSE = 364.14 – 347.60 = 16.54MSLOF = 16.54 / 3 = 0.32

MSE = SSE / 20 = 17.38

f2 = 5.51 / 17.38 = 0.32 le modèle linéaire n’est pas rejeté

DÉFICIENCES DÉTECTÉES à l’analyse de résidus : correctifs et tansformations- rendre la variance plus constante ( stabilisation de la variance )- obtenir une distribution gaussienne pour le terme d’erreur- transformer certains modèles non linéaires en modèles linéaires

TRANSFORMATIONS pour stabiliser la variance : Y’ = h( Y )

Cas relation entre σ2 = var(Y) et µ = moy(Y) transformation Y’

Y ~ Poisson σ2 α µ Y’ = Y 0.5

Y ~ Binomiale σ2 α µ ( 1 - µ ) Y’ = arcsin( Y 0.5 )plusieurs ordres degrandeurs pour Y σ2 α µ 2 Y’ = log( Y )autres cas transformation Box-Cox Y’ = Y λ - 2 ≤ λ ≤ 2


régression -


TRANSFORMATIONS sur X ou Y pour rendre linéaire certains modèles

modèle originel transformation modèle linéaire figure

Y = β0 ( X ) β1 X’ = ln(X) Y’= ln(Y) β0’ = ln(β0) Y’ = β0’ + β1 X’ a

Y = β0 exp( β1 X ) X’ = X Y’ = ln(Y) β0’ = ln(β0) Y’ = β0’ + β1 X’ b

Y = 1 / ( β0 + β1 X ) X’ = X Y’ = 1 / Y Y’ = β0 + β1 X’ c

exp( β0 + β1 X )_ X’ = X Y’ = ln ( Y / (1- Y )) Y ’ = β0 + β1 X’ d

1 + exp( β0 + β1 X )

0 < Y < 1 modèle logistique

Y =

figure a figure b figure c figure d

X X X X

1Y Y Y


régression -

RÉGRESSION LINÉAIRE MULTIPLE ( 1 / 11 )

MODÈLE Y = β0 + β1X1 + β2X2 + • • • + βkXk + ε ε ~ N( 0, σ2 )

DONNÉES ob X0 X1 X 2 X3 ……. Xk Y

1 1 x 11 x 12 x 13 .…… x 1 k y12 1 x 21 x 22 x 23 ……. x 2 k y2. . . . . ……. . .

i 1 x i1 x i2 x i3 ……. x i k yi. . . . . ……. . .

n 1 x n1 x n2 x n3 .. …. x n k yn

écriture matricielle X n x p = [ x i j ] p =1+k Y n x 1 : vecteur n x 1

β p x 1 = ( β0 , β1 , β2 , β3 , ……. , βk )' : vecteur p x 1

remarque : l’opération de transposition de vecteurs / matrices est notée par le symbole 'ESTIMATION ( principe de moindres carrés ) : Min ∑ ( y i - ∑ βj x ij )2

β i j

système d’équations linéaire à résoudre : ( X' X ) β = X' Ysolution : β = ( X' X ) -1 X' Y = C Y

où C = ( X' X ) -1 X' est une matrice p x n de valeurs fixesÉquation de prédiction : y = X β

X i0 = 1


régression -


Propriétés des estimateurs β• combinaisons linéaires des yi

• sans biais : E ( βj ) = βj• var ( β ) = ( X' X ) - 1 σ 2 ils sont à variance minimaleESTIMATION de σ2

résidu e i = y i - y isomme de carrés résiduels SSR = ∑ e i

2

carré résiduel moyen MSR = SSR / n – k - 1

estimation σ2 = MSR σ = ( MSR ) 0.5

DÉCOMPOSITION DE LA VARIABILITÉ : tableau d’analyse de la variance

SSY = ∑ ( y i – y )2 : somme totale des carrésSSM = ∑ ( y i – y )2 : somme des carrés du modèleSSR = ∑ ( y i - y i )2 : somme des carrés résiduels

ÉQUATION FONDAMENTALE

somme de carrés (SS) : SSY = SSM + SSRvariabilité : totale = modèle + résiduelle

degrés de liberté (DDL) : n – 1 = k + ( n – k - 1 )


régression -


TABLEAU D’ ANALYSE VARIANCE : modèle de régression linéaire multiple


régression k SSM MSM = SSM / k f = MSM / MSR P( F ≥ f )

résiduelle n – k - 1 SSR MSR = SSR /( n – k - 1) = σ2 ---------- --------

totale n – 1 SSY ----------- --------- --------

R2 = SSM / SSY : coefficient de détermination 0 ≤ R2 ≤ 1 : fraction de la variabilité de Y expliquée par les variables X

R2adj = 1 – [ ( n - 1 )/( n – k ) ] ( 1 – R2 ) : coefficient de détermination ajusté

remarques

- ajouter une variable explicative additionnelle dans un modèle fait toujours augmenter SSM, donc fait

augmenter R2 ; l’augmentation n’est pas toujours importante et significative- R2

adj est préférable à R2 pour comparer des modèles avec des nombres différents de variables X

Test global H0G : β1 = β2 = ... = βk = 0 vs H1G : non H0G ( au moins un β ≠ 0 )

rejeter H0 au seuil α si f > F k, n- k- 1, 1 – α


régression -


distribution d’échantillonnage de β j j = 0, 1, 2, …, k

( β j - β j ) / σ (c j j )0.5 ~ T n – k -1 c j j : j-ème élément diagonal de ( X' X ) -1

applications

(a) test H 0j : β j = 0 vs H 1j : β j ≠ 0

rejeter H 0j au seuil α si | β j | / σ ( c j j )0.5 > t n – k – 1 , 1 – α/ 2

(b) Intervalle de confiance β j : β j ± t n – k – 1 , 1 – α/ 2 σ (c j j ) 0.5

(c) INTERVALLE de CONFIANCE : MOYENNE de Y à X1 = x1*, X2 = x2*, .. , Xk=xk*y* = β0 + β1x1* + … + βk xk* x* = ( x1*, x2*, … , xk* )

E ( Y │ X = x* ) : y* ± t n – k – 1 , 1 – α/ 2 σ [ x* ( X' X) -1 x* ] 0.5

(d) INTERVALLE de PRÉDICTION : VALEUR de Y à X1 = x1*, X2 = x2*, .. , Xk=xk*

Y │ X = x* : y* ± t n –- k – 1 , 1 – α/ 2 σ [ 1 + x* ( X' X) -1 x* ] 0.5

37Bernard CLÉMENT, PhD

régression -


Exemple : OTHM p. 417 tableau 11.19 données huile brutesY : rendement production gazoline ( % de l’huile brute )X1 : gravité huile brute ( deg. API ) X2 : pression vapeur ( PSIA )X3 : ASTM point 10% ( deg. F ) X4 : point sortie gazoline ( deg. F)

22.32751908.650.816

17.63652741.238.115

6.42752671.841.314

14.73793160.231.813

143512842.432.212

26.83672314.840.311

15.23002206.138.410

102672365.232.29

12.22051908.650.88

52852741.238.17

2.82352671.841.36

82182103.540.85

8.53653160.231.84

7.42122176.1403

14.43072314.840.32

6.92352206.138.41

YX4X3X2X1obs

45.74071908.650.832

27.84162671.841.331

26.63472103.540.830

30.43402176.14029

33.64102206.138.428

31.74022365.232.227

34.73451908.650.826

32.14442741.238.125

16.13582671.841.324

13.12732103.540.823

184283160.231.422

23.24242842.432.221

18.22722176.14020

34.93952314.840.319

263652206.138.418

24.83602365.232.217

MTH 2301 Méthodes statistiques en ingénierie381.000.71-0.320.380.25Y

0.711.000.41-0.30-0.32X4

-0.320.411.00-0.91-0.70X3

0.38-0.30-0.911.000.62X2

0.25-0.32-0.700.621.00X1

YX4X3X2X1



X1

X2

X3

X4

Y


corrélations

diagrammesde dispersion

conjointe


régression -


R2 = 0.962 R2adj = 0.957 F(4,27) = 172.06 p < 0.0000

0.00000024.017690.006440.154680.0418971.006267X4

0.000023-5.101230.02924-0.149170.102381-0.522268X3

0.1443481.503380.369420.555380.0902620.135698X2

0.0302302.287430.099870.228460.0526540.120443X1

0.497485-0.6877410.13465-6.969960Intercept

p-levelt(27)Std.Err.BStd.Err.Beta

313564.077Total

4.983227134.546Residual

0.000000172.0555857.382943429.531Regress.

p-levelFMSDDLSSANOVA


régression -


1.030-0.59-1.3123.6122.3016

0.671-0.17-0.3917.9917.6015

0.8330.100.236.176.4014

0.9361.262.8111.8914.7013

0.7440.160.3513.6514.0012

0.497-0.18-0.4127.2126.8011

0.603-1.60-3.5818.7815.2010

1.0010.280.639.3710.009

1.191-0.26-0.5812.7812.208

0.764-0.27-0.615.615.007

0.9881.262.81-0.012.806

1.1880.591.316.698.005

0.951-0.55-1.239.738.504

0.8630.641.425.987.403

0.424-1.58-3.5317.9314.402

0.817-0.82-1.828.726.901

écarttype

prédits

résidusstand.

z

résidusbruts

epréditsobservés

0.8570.000.0019.6619.66Mean

1.2232.074.6244.0245.70Max

0.424-1.60-3.58-0.012.80Min

1.2230.751.6844.0245.7032

0.872-0.08-0.1827.9827.8031

1.202-0.02-0.0426.6426.6030

0.5402.074.6225.7830.4029

0.804-0.98-2.1935.7933.6028

0.9670.651.4530.2531.7027

1.0540.120.2734.4334.7026

0.9160.851.8930.2132.1025

0.731-1.30-2.9119.0116.1024

1.121-0.94-2.1015.2013.1023

0.948-0.62-1.3819.3818.0022

0.787-0.78-1.7424.9423.2021

0.6031.322.9415.2618.2020

0.6171.503.3631.5434.9019

0.640-1.27-2.8328.8326.0018

0.8910.471.0523.7524.8017

écarttype

prédits

Résidustand.

z

résidusbruts

epréditsobservés


Normal Probability Plot of Residuals

-4 -3 -2 -1 0 1 2 3 4 5

Residuals

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

Expe

cted

Nor

mal

Val

ue

Predicted vs. Residual ScoresDependent variable: Y

-5 0 5 10 15 20 25 30 35 40 45 50

Predicted Values

-4

-3

-2

-1

0

1

2

3

4

5

Res

idua

ls

95% confidence

Raw residuals vs. X1Raw residuals = -4.412 + .11245 * X1

Correlation: r = .27097

30 32 34 36 38 40 42 44 46 48 50 52

X1

-5

-4

-3

-2

-1

0

1

2

3

4

5

Raw

resi

dual

s

95% confidence



Raw residuals vs. X2Raw residuals = -.3756 + .08984 * X2

Correlation: r = .10033

-1 0 1 2 3 4 5 6 7 8 9

X2

-5

-4

-3

-2

-1

0

1

2

3

4

5

Raw

resi

dual

s

95% confidence


Raw residuals vs. X3Raw residuals = .31E-6 + 0.0000 * X3

Correlation: r = -.2E-7

180 200 220 240 260 280 300 320 340

X3

-5

-4

-3

-2

-1

0

1

2

3

4

5

Raw

resi

dual

s

95% confidence

Raw residuals vs. X4Raw residuals = .67E-6 + 0.0000 * X4

Correlation: r = -.7E-7

180 200 220 240 260 280 300 320 340 360 380 400 420 440 460

X4

-5

-4

-3

-2

-1

0

1

2

3

4

5

Raw

resi

dual

s

95% confidence

Predicted vs. Observed ValuesDependent variable: Y

-5 0 5 10 15 20 25 30 35 40 45

Predicted Values

-10

0

10

20

30

40

50

Obs

erve

d Va

lues

95% confidence


RÉGRESSION LINÉAIRE MULTIPLE ( 10 / 11)

Residuals vs. Deleted ResidualsDependent variable: Y

-5 -4 -3 -2 -1 0 1 2 3 4 5

Residuals

-6

-4

-2

0

2

4

6

Del

eted

Res

idua

ls

95% confidence


régression -

RÉGRESSION LINÉAIRE MULTIPLE ( 11 / 11)

QUALITÉ d’un BON MODÈLE de régression multiple : CRITÈRES

• test global F significatif

• tests individuels significatifs pour chacun des coefficients du modèle ajusté

• R2 élevé ( au moins 0.70 ) et R2adj légèrement inférieur à R2

• analyse des résidus ne présentant pas d’anomalies :- indépendance des observations de Y - distribution gaussienne- variance de Y constante- graphiques des résidus (avec y et chaque X ) en forme de bande horizontale

• analyse de sensibilité : pas d’observations ayant une influence prépondérante

• absence de colinéarité forte entre les variables X

CORRECTIFS

• élimination de variables colinéaires redondantes : méthode de sélection de variables

• ajout de termes additionnels dans le modèle : X i2 , X j X i

• recherche d’un nouveau modèle ou ajout de nouvelles variables explicatives

• transformation de Box-Cox de Y

• élimination d’observations influentes

STATISTIQUE : approche et méthodes EXPÉRIENCES ... · • simple linear regression . régression...

Documents

Transcript of STATISTIQUE : approche et méthodes EXPÉRIENCES ... · • simple linear regression . régression...