STATISTIQUE : approche et méthodes EXPÉRIENCES ... · • simple linear regression . régression...
Click here to load reader
Transcript of STATISTIQUE : approche et méthodes EXPÉRIENCES ... · • simple linear regression . régression...
1
MTH 2301 Méthodes statistiques en ingénierie
Lexique anglais – françaisIntroduction à la planification d’expériences Régression Linéaire Simple : Y = β0 + β1X + ε ε ~ N(0, σ2)
- ajustement par moindres carrés : estimation- analyse de la variabilité : tableau ANOVA- inférence concernant les paramètres :
tests d’hypothèses / intervalles de confiance- analyse des résidus : validation du modèle
Régression Linéaire Multiple : k variables explicatives XY = β0 + β1X1 + β2X2 + …. + βkXk + ε ε ~ N(0, σ2)
- ajustement par moindres carrés- analyse de la variabilité- inférence concernant les paramètres- analyse des résidus
Bernard CLÉMENT, PhD
R é g r e s s i o n
régression - 2MTH 2301 Méthodes statistiques en ingénierie Bernard CLÉMENT, PhD
• least square fitting …… ajustement par moindres carrés • fitted value ……………….. valeur ajustée• observed value …………… valeur observée• predicted value …………… valeur prédite• lack of fit ………………….. manque (défaut) d’ajustement• explanatory variable ……. variable explicative ( notée X )
• response variable ..………. variable de réponse ( à expliquer ) (notée Y )
• regression function ……… fonction de régression• random error …….………. erreur aléatoire ( notée ε )
• simple linear regression . régression linéaire simple ( un seul X )• multivariate regression … régression multipe ( plusieurs X )• standardized ……….......... centré réduit• multicolinearity …………… multicolinéarité• mean square ……………… carré moyen• coef. of determination …… coefficient de détermination (noté R2)
Lexique anglais – français
régression -
3
STATISTIQUE : approche et méthodes
PROCESSUS VARIABILITÉ DONNÉES AMÉLIORATION
PENSÉE STATISTIQUE MÉTHODES STATISTIQUES
FOURNISSEURS PROCESSUS 1 PROCESSUS 2 CLIENTS
TOUT TRAVAIL EST UN SYSTÈME DE PROCESSUS INTERDÉPENDANTS
LA VARIABILITÉ EXISTE DANS TOUS LES PROCESSUS
LA CLÉ : COMPRENDRE ET R É D U I R E LA VARIABILITÉ
L’ÉTUDE de la VARIBILITÉ MÉTHODES STATISTIQUES
Bernard CLÉMENT, PhDrégression -
MTH 2301 Méthodes statistiques en ingénierie
.…
4
EXPÉRIENCES : planification statistique
• L’expérimentation (série de tests) est nécessaire en ingénierie:
- caractériser & optimiser les procédés;- évaluer les propriétés des matériaux, designs, systèmes;- déterminer les tolérances des composantes & systèmes;- réduire temps pour le design des produits & des procédés;- améliorer la fiabilité des produits;- obtenir des produits & des procédés robustes;
• Toutes les expériences sont planifiées mais . . .
- beaucoup sont mal planifiées- certaines sont bien planifiées en utilisant la
méthodologie planification statistique des essais( DOE : Design Of Experiment)
Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierierégression -
5
PROCESSUS : approche statistique
- DESIGN (CONCEPTION) : PRODUIT ou PROCÉDÉ- FABRICATION- MESURE- TRANSACTIONEL ou ADMINISTRATIF
FACTEURS = variables CONTRÔLABLES X 1 , X2 , …
X1 X2 . . . Xk
YMatériaux
Composants
Assemblage
εcomposante erreur
-réponse
- sortie mesurée
- reliée à la qualité
Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierierégression -
PROCESSUS
6
- Quel est le PLAN de collecte de données?
- Quelles sont les variables CRITIQUES Xaffectant la variable de réponse Y? TAMISAGE
- Quelle est la FONCTION de TRANSFERT MODÉLISATION f entre les variables critiques X fet la variable de réponse variable Y? X Y
- Comment CONTRÔLER la réponse Yà un niveau désiré CONTRÔLE
nominal - maximum - minimum eten fixant les variables X à OPTIMISATIONdes niveaux spécifiques (à déterminer)?
QUESTIONS
Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierierégression -
RÉPONSE - étapes
Méthodologie desdesigns statistiquesd’expériences (DOE)
7
S I P O C Suppliers Input : X Processus Output : Y Clients
régression -Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierie
FACTEURS
Personnel
Matériaux
Équipement
Politiques
Procédures
Méthodes
Environnement
GÉNÉRAL
mélange
d’inputs (intrants)
qui
génèrent
un
output (extrant)
RÉPONSES
indicateurs en relation avec
qualité produit
qualité service
exécution tache
8
PROCÉDÉ FABRICATION : exemple
régression -
FACTEURS
température moule
pression retenue
durée retenue
taille ouverture
vitesse vis
% recyclé
contenu moisissure
MOULAGE
INJECTION
fabrication
de
pièces
moulées
par
Injection
RÉPONSES
épaisseur pièce
autres caractéristiques
géométriques pièce
% de rétrécissement
par rapport une valeur
nominale visée
% de pièces non conformes
Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierie
9
PROCESSUS ADMINISTRATIF : exemple
régression -Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierie
FACTEURS
politique prix
formation vendeurs
incitatifs
distribution
suivi
variété produit
concurrence
relations clients
politique paiement
VENTE
VENTE
RÉPONSES
volume vente
% erreurs contacts
% ventes perdues
% plaintes clients
temps cycle
marge profit
% parts marché
identification besoins clients
10
PROCESSUS MESURE : exemple
régression -Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierie
plan d'échantillonnage source de variabilité
i LOTS L1 L2 L3 …. Li σ2LOT
p PRODUITS / LOT P1 P2 P3 P4 … σ2PRODUIT
o OPÉRATEURS O1 O2 …. σ2OPÉRATEUR
r RÉPÉTITIONS R1 R2 … σ2RÉPÉTITION( = erreur de mesure)
MESURE (output) Y
FACTEURS RÉPONSE
11
PROCESSUS D E S I G N : exemple
régression -Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierie
d
pompe d’assistance ventriculaire
d : diamètre : 22 mm
X1 : g = gap 60 à 200
X2 : W = width 2 à 6
X3 : H = height 1 à 3
valeurs optimales de X1 - X2 - X3 ?Min Y1 étanchéité fluxMax Y2 puissance enveloppeMax Y3 flux pompeMin Y4 puissance pompe
design expérimental : 15 essaiscentral composite essai X1 X2 X3 Y1 Y2 Y3 Y4
123
…
15
analyse Pareto optimisation simultanée:
optimum
12
DIAGRAMME ISHIKAWA : exemple
régression -Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierie
Y :consommation
essence véhicule
MESURES MÉTHODES MACHINES
PERSONNES MATÉRIAUX ENVIRONNEMENT
jauge àpression pneus
jauge à essence
type indicateur vitesse
maintenance
rotation pneus
mise au point
réchauffement moteur
pression pneus
poids
type conduite roue
climatisation
transmission
type pneu
cylindrée moteur
typeconducteur
formation conducteur
nombre passagers
type essence
additif essence
type huile
conditions climat
type de routes
ville / campagne
type terrain
densité traffic
13
PHASE ÉTAPES
1 Définir PROBLÈME / PROCESSUS - objectifs
2 Choisir les variables de RÉPONSE(S) Y à mesurer
3 Choisir les VARIABLES facteurs X et l’espace de variation
4 Définir & comparer des DESIGNS EXPÉRIMENTAUX
5 PRÉPARER pour l’expérience
6 CONDUIRE de l’expérience
7 ANALYSE statistique des résultats
8 AGIR avec les conclusions de l’analyse
EXPÉRIMENTATION : étapes
Planifi --cation
Exécution
Analyse
Transfert
Act PlanA P
S D
roue PDSA
Shewhart - Deming
régression -
DoStudy
Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierie14
ANALYSE STATISTIQUE : étapes
1. SPÉCIFICATION D’UN MODÈLE STATISTIQUE
2. ESTIMATION DES PARAMÈTRES DU MODÈLE
3. DÉCOMPOSITION DE LA VARIABILITÉ : ANOVA
4. TESTS D’HYPOTHÈSES SUR LES PARAMÈTRES
5. ANALYSE DES RÉSIDUS :
- vérification des hypothèses de base
- identification d’observations influentes
6. PRODUCTION DE GRAPHIQUES
7. si nécessaire : ITÉRATION étapes 1 à 6
Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierierégression -
15
MODÈLISATION STATISTIQUE
Y = f ( X1 , X2 , …., Xk ; β0 , β1 , β2 ,… ) + ε
f : fonction inconnue approximation polynôme
β0 , β1 , β2 , … : paramètres statistiques inconnus
Toute analyse statistique repose sur un modèle :
- fonction f pour représenter une relation entre input X et output Y
- hypothèse distributionnelle pour le terme d’erreur ε
ε ∼ N ( 0, σ2 )
P R O C E S S U S Y = f (X)X 1X 2…
X k ε
Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierierégression - 16
MODÈLES STATISTIQUES : types
• effets principaux (premier ordre): Y = β0 + β1X 1 + β2X2 + • • • + βkXk
• effets principaux et interaction :Y = β0 + β1X1 + β2X2 + • • • + βkXk + β12X1X2 + β13X1X3 + • • •
• quadratiques ( avec des facteurs quantitatifs ) : deuxième ordre
Y = β 0 + β1X 1 + β2X2 + • • • + βkXk + β12X1X2 + β13X1X3 + • • • +
+ β11X12 + β22X2
2 + β33X32 + • • •
• à variables indicatrices de type 0-1 : d’analyse de la variance
• mixtes : facteurs avec modalités fixes et facteurs avec modalités aléatoires
• polynomial : Y = β0 + β1X + β2X2 + • • • + βkXk
Bernard CLÉMENT, PhD MTH 2301 Méthodes statistiques en ingénierierégression -
- f est inconnue approximation par des fonctions polynomiales
- tous les modèles sont LINÉAIRES dans les paramètres β
17Bernard CLÉMENT, PhD
régression -
DONNÉES d’expérimentation : mode actif
Exemple : fabrication tige
plastique extrudée
FACTEURS
X1 : vitesse (rpm) 100 – 200
X2 : température (C) 250 – 300
X3 : durée ( min) 5 – 10
X4 : pression (psi) 15- 30
RÉPONSES
Y1 : productivité ( pi/hr)
Y2 : diamètre ( (po)
visé : 2.54 ± 0.03
Y3 : nombre fissures
visé : < 10 / hr20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
y3y2y1x4x3x2x1essai
RÉPONSESFACTEURS
MTH 2301 Méthodes statistiques en ingénierie18MTH 2301 Méthodes statistiques en ingénierie
2.82352671.841.3682182103.540.85
8.53653160.231.847.42122176.1403
14.43072314.840.326.92352206.138.41
YX4X3X2X1num
.
.
.
Bernard CLÉMENT, PhDrégression -
DONNÉES d’observations : mode passif
Exemple :
OTHM table 11.8 p. 417
Y : rendement production
gazoline
( % de l’huile brute )
FACTEURS
X1 : gravité huile brute ( deg. API )
X2 : pression vapeur ( PSIA )
X3 : ASTM point 10% ( deg. F )
X4 : point sortie gazoline ( deg. F)
45.74071908.650.832
27.84162671.841.331
26.63472103.540.830
19MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE SIMPLE ( 1 / 14 )
1377
1197
987
1106
586
1096
7115
15105
695
14114
1294
2104
8133
3123
4143
ordreY-epaisX-pression
Exemple : OTHM table 11.1 épaisseur substrat
Modèle Y = β0 + β1 x + ε ε ∼ N ( 0, σ2 )
Données ( x i , y i ) i = 1, 2, …, n
Questions
• estimation des paramètres : β0 β1 σ2
• décomposition de la variabilité :
= analyse de la variance
= ANalysis Of VAariance = ANOVA
• tests - intervalles de confiance / prédiction
• validation du modèle : analyse des résidus
20MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE SIMPLE ( 2 / 14 )
NOTATION
x = ∑ x i / n : moyenne de X y = ∑ y i / n : moyenne de Y
SPXY = ∑ ( x i – x )( y i – y ) : somme des produits XY
SSX = ∑ ( x i – x )2 : somme des carrés de X
SSY = ∑ ( y i – y )2 : somme totale des carrés de Y
ESTIMATION principe des moindres carrés : minimiser S( β0 , β1 )
S( β 0 , β1 ) = ∑ ( y i - β 0 - β 1 x i )2 : écart par rapport à la droite
solution β1 = SPXY / SSX = ∑ ci yi où ci = ( x i – x ) / SSX
β0 = y - b1 x
prédiction y = β0 + β1 x = y + β1 ( x – x ) : droite de moindres carrés
résidu brut e i = y i - y isomme des carrés résiduels SSR = ∑ e i
2 = ∑ ( y i - y i )2carré résiduel moyen MSR = SSR / (n – 2 )estimation de σ2 σ2 = MSR σ = ( MSR )0.5
∑ci = 0 ∑ci2 = 1
21MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE SIMPLE ( 3 / 14 )
DÉCOMPOSITION DE LA VARIABILITÉ : tableau d’analyse de la variance
SSM = ∑ ( y i – y )2 = ( SPXY )2 / SSX = β12 SSX
: somme des carrés du modèle ( expliquée par X )
ÉQUATION FONDAMENTALE DE DÉCOMPOSITIONsomme de carrés (SS) : SSY = SSM + SSR
variabilité : totale = modèle + résiduelledegrés de liberté (DDL) : n – 1 = 1 + ( n - 2 )
TABLEAU D’ANALYSE VARIANCE : modèle de régression linéaire simple
SOURCE DDL SS MS=SS / DDL F-ratio p-valeur
régress. 1 SSM MSM = SSM f = MSM / MSR P( F ≥ f )
résiduelle n – 2 SSR MSR = SSR /( n - 2) = σ2 ---------- --------
totale n – 1 SSY -----------
R 2 = SSM / SSY : coefficient de détermination
0 ≤ R2 ≤ 1 : fraction de la variabilité de Y expliquée par le modèle ( variable X )
r = ± ( R2 )0.5 : coefficient de corrélation linéaire entre Y et X
remarque : le signe de r ( + ou - ) sera celui de β1
22MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE SIMPLE ( 4 / 14 )
TEST et INTERVALLE de CONFIANCE
résultat ( β 1 - β 1 ) / ( σ / SSX 0.5 ) ~ T n – 2 ( loi de Student )
applications
(a) test de β1 H0 : β1 = 0 vs H1 : β1 ≠ 0
rejeter H0 au seuil α si │ β1 │SSX 0.5 / σ > t n – 2, 1-α/2
remarque : le test est équivalent au test F du tableau ANOVA
(b) intervalle de confiance de β1 : β1 ± t n – 2, 1 – α/2 σ / (SSX )0.5
coefficient de confiance = 1 - α
(c) INTERVALLE de CONFIANCE : MOYENNE de Y à X = x*
E ( Y │ X = x* ) : β0 + β1 x* ± t n – 2, 1 – α/ 2 σ [ ( 1/n) + (( x* – x )2 / SSX ) ] 0.5
remarque : un intervalle de confiance pour β0 s’obtient avec x* = 0
(d) INTERVALLE de PRÉDICTION : VALEUR de Y à X = x*
Y │ X = x* : β 0 + β1 x* ± t n – 2, 1 – α/ 2 σ [ 1 + ( 1/n) + (( x* – x )2 / SSX ) ] 0.5
23MTH 2301 Méthodes statistiques en ingénierie
Scatterplot (Sheet1 in ch11.stw 25v*36c)Y-epais = 15.5-1.1*x
2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5
X-pression
6
7
8
9
10
11
12
13
14
15
Y-e
pais
Bernard CLÉMENT, PhDrégression -
RÉGRESSION LINÉAIRE SIMPLE ( 5 / 14 )
Exemple : OTHM table 11.1
épaisseur substrat( page 18 )
analyse avec le moduleMULTIPLE REGRESSION
de STATISTICA
r = - 0.835 R2 = 0.698F(1,13)=30.057 p < 0.00011
0.0001-5.4820.2006- 1.1000.1524- 0.8355X-pression
0.000014.8671.042615.500Intercept
p-levelt(13)Std. Err.B
βStd. Err.Beta
b1
b0
coefficientsen variablescentrées - réduites
test de signification
0
24MTH 2301 Méthodes statistiques en ingénierie
-0.87.87
1.27.89
0.27.88
1.18.910
-0.98.98
0.18.99
1.010.011
0.010.010
-1.010.09
-0.111.111
-2.111.19
-1.111.110
0.812.213
-0.212.212
1.812.214
Bernard CLÉMENT, PhDrégression -
RÉGRESSION LINÉAIRE SIMPLE ( 6 / 14 )
Exemple : OTHM table 11.1
épaisseur substrat( page 18 )
analyse avecREGRESSION MULTIPLE STATISTICA
1452Total
1.211315.7Residuel
0.0001130.0636.3136.3Regress.
p-valeurFMSDDLSS
Tableau d’analyse de la variance
Predicted vs. Residual ScoresDependent variable: Y-epais
7 8 9 10 11 12 13
Predicted Values
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
Res
idua
ls
95% confidence
observés prédits résidus
25MTH 2301 Méthodes statistiques
en ingénierie
Normal Probability Plot of Residuals
-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0
Residuals
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
Exp
ecte
d N
orm
al V
alue
Bernard CLÉMENT, PhDrégression -
RÉGRESSION LINÉAIRE SIMPLE ( 7 / 14 )
VALIDATION du MODÈLE : ANALYSE des RÉSIDUS
• résidus VS valeurs prédites y : variance constante ?• résidus VS variable explicative X : variance constante ?• résidus VS l’ordre des données : dépendance ?• résidus sur échelle gaussienne : distribution gaussienne ?
Raw residuals vs. X-pressionRaw residuals = 0.0000 + 0.0000 * X-pression
Correlation: r = ******
2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5
X-pression
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
Raw
resi
dual
s
95% confidence
Scatterplot (Ch11-v5.sta 26v*36c)
0 2 4 6 8 10 12 14 16
ORDRE
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
resi
du
Résidus standardisés
z i = e i / σ z = 0 , var (z) ≈ 1Résidus studentisés
t i = e i / σ [ (n – 1) /n) + ( xi – x )2 / SSX ] 2
remarque : l’analyse des résidus peut se faire avecles résidus standardisés / studentisés 26MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, PhDrégression -
RÉGRESSION LINÉAIRE SIMPLE ( 8 / 14 )
8.96.710.45.200.49-0.87.8715
8.96.710.45.200.491.27.8914
8.96.710.45.200.490.27.8813
9.78.111.46.410.351.18.91012
9.78.111.46.410.35-0.98.9811
9.78.111.46.410.350.18.9910
10.69.412.57.550.281.010.0119
10.69.412.57.550.28-0.010.0108
10.69.412.57.550.28-1.010.097
11.910.313.68.610.35-0.111.1116
11.910.313.68.610.35-2.111.195
11.910.313.68.610.35-1.111.1104
13.311.114.89.600.490.812.2133
13.311.114.89.600.49-0.212.2122
13.311.114.89.600.491.812.2141
lim sufY
lim infY
lim supmoy Y
lim infmoy Y
écart typeY prédit
résiduE
Yprédit
Yobservé
int conf à 95% int préd à 95%
27MTH 2301 Méthodes statistiques en ingénierie
Scatterplot (CH11-v5.sta 25v*36c)Y_EPAIS = 15.5-1.1*x; 0.95 Conf.Int.
2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5
X_PRESSI
6
7
8
9
10
11
12
13
14
15
Y_EP
AIS
X_PRESSI:Y_EPAIS: r2 = 0.6981; r = -0.8355, p = 0.0001; y = 15.5 - 1.1*x
Bernard CLÉMENT, PhDrégression -
RÉGRESSION LINÉAIRE SIMPLE ( 9 / 14 )
Scatterplot (CH11-v5.sta 25v*36c)Y_EPAIS = 15.5-1.1*x; 0.95 Pred.Int.
2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5
X_PRESSI
6
7
8
9
10
11
12
13
14
15
Y_EP
AIS
X_PRESSI:Y_EPAIS: r2 = 0.6981; r = -0.8355, p = 0.0001; y = 15.5 - 1.1*x
intervalle de confiance :
moyenne de Y
intervalle de prédiction de Y
28MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
RÉGRESSION LINÉAIRE SIMPLE ( 10 / 14 )
JUSTESSE du MODÈLE : avec des observations répétées de Y à des valeurs de X
Estimation de σ2 : - calculée avec le modèle ajusté ( Droite de Moindres Carrés DMC )- dépend du modèle postulé
question : peut – on estimer σ2 indépendamment du modèle postulé ( y = β 0 + β 1 x + ε ) ?
réponse : oui, si on a au moins 2 observations de Y à au moins 3 valeurs distinctes de X
utilisation : tester le manque d’ajustement du modèle postulé
X
Y Données degrés de liberté ( ddl )
x 1 y 11 y 12 …. y 1 n1 ( n1 - 1 ) s 12 n1 – 1
x 2 y 21 y 22 …. y 2 n2 ( n2 – 1 ) s 22 n2 - 1
…. …. …. ….. …..
x k y k1 y k2 …. y k nk ( nk - 1 ) s k2 nk - 1
SSE = ∑ ( n j - 1 ) s j2 n - k
Nouvelle décomposition de la somme totale de carrés SSY
avant : SSY ( totale ) = SSM ( modèle ) + SSR ( résiduelle )
maintenant : SSY = SSM + SSE ( erreur pure ) + SSLOF ( manque d’ajustement )deg. liberté : n – 1 = 1 + ( n – k ) + ( k – 2 )
remarque : SSLOF est calculée par différence SSLOF = SSR - SSErégression -
DMC : Y = β0 + β1 x
29MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE SIMPLE ( 11 / 14 )
JUSTESSE du MODÈLE : avec des observations répétées de Y à des valeurs de X
tableau d’analyse de la variance : modèle linéaire simple
SOURCE DDL SS MS=SS / DDL F-ratio p-valeur
Modèle 1 SSM MSM = SSM f1 = MSM / MSR p1=P( F ≥ f1 )
résiduelle n – 2 SSR MSR = SSR/(n-2) ---------- ----------
LOF k – 2 SSLOF MSLOF f2 = MSLOF / MSE p2=P( F ≥ f2 ) pure n – k SSE MSE = σ2
pure ----------- -----------
Totale n – 1 SSY -----------
test du manque d’ajustement du modèle linéraire
H0M : E( Y│x ) = β 0 + β 1 x versus H1 : non H0M
test : rejeter H0 au seuil α si f2 > F n – k , k – 2 , 1 – αremarques
- si on utilise un logiciel statistique, on rejette H0M si p2 < α- si on rejette H0M , il faut postulé une autre équation ( modèle ) que la droite
- si on ne rejette pas H0M , le tableau d’analyse de la variance usuel (p. 20) est suffisant
30MTH 2301 Méthodes statistiques en ingénierie
Scatterplot (Ch11-v5.sta 26v*36c)Y_STRENT = -26.32+0.498*x
95 100 105 110 115 120 125 130 135 140 145
X_DEG
15
20
25
30
35
40
45
50
Y_S
TREN
T
Bernard CLÉMENT, PhDrégression -
RÉGRESSION LINÉAIRE SIMPLE ( 12 / 14 )
JUSTESSE du MODÈLE : avec des observations répétées de Y à des valeurs de X
Exemple : OTHM p. 394 ex 11.14 - expérience avec un facteur X contrôlé X = température ( degrés F) Y = résistance matériau ( unités = ? )
données: X = 100 : Y = 20 – 25 - 23 – 27 – 19 X = 110 : Y = 25 – 29 – 31 – 30 – 27 X = 120 : Y = 36 – 37 – 29 – 40 – 33 X = 130 : Y = 35 – 39 – 31 – 42 – 44 X = 140 : Y = 43 – 40 – 36 – 48 – 47
R = 0.879 R2 = 0.773 F(1,23)=78.323 p < 0.000
0.00008.850.0560.4980.0990.879X_DEG
0.0007-3.876.799-26.320Interct
p-levelt(23)Std
ErrorrBStd.ErrorBeta
241604.16Total
15.83223364.14Residual
0.000078.3231240.02011240.02Regress.
p-levelFMSDFSSANOVA
31MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE SIMPLE ( 13 / 14 )
Exemple : OTHM p. 394 ex 11.14 - expérience avec un facteur X contrôlé ( suite )
42.84.97
38.25.26
35.04.18
28.42.41
22.83.35
x n s y100 5
110 5
120 5
130 5
140 5
SSE = 4 ( 3.352 + 2.412 + … + 4.972 ) = 347.6SSLOF = SSR – SSE = 364.14 – 347.60 = 16.54MSLOF = 16.54 / 3 = 0.32
MSE = SSE / 20 = 17.38
f2 = 5.51 / 17.38 = 0.32 le modèle linéaire n’est pas rejeté
DÉFICIENCES DÉTECTÉES à l’analyse de résidus : correctifs et tansformations- rendre la variance plus constante ( stabilisation de la variance )- obtenir une distribution gaussienne pour le terme d’erreur- transformer certains modèles non linéaires en modèles linéaires
TRANSFORMATIONS pour stabiliser la variance : Y’ = h( Y )
Cas relation entre σ2 = var(Y) et µ = moy(Y) transformation Y’
Y ~ Poisson σ2 α µ Y’ = Y 0.5
Y ~ Binomiale σ2 α µ ( 1 - µ ) Y’ = arcsin( Y 0.5 )plusieurs ordres degrandeurs pour Y σ2 α µ 2 Y’ = log( Y )autres cas transformation Box-Cox Y’ = Y λ - 2 ≤ λ ≤ 2
32MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE SIMPLE ( 14 / 14 )
TRANSFORMATIONS sur X ou Y pour rendre linéaire certains modèles
modèle originel transformation modèle linéaire figure
Y = β0 ( X ) β1 X’ = ln(X) Y’= ln(Y) β0’ = ln(β0) Y’ = β0’ + β1 X’ a
Y = β0 exp( β1 X ) X’ = X Y’ = ln(Y) β0’ = ln(β0) Y’ = β0’ + β1 X’ b
Y = 1 / ( β0 + β1 X ) X’ = X Y’ = 1 / Y Y’ = β0 + β1 X’ c
exp( β0 + β1 X )_ X’ = X Y’ = ln ( Y / (1- Y )) Y ’ = β0 + β1 X’ d
1 + exp( β0 + β1 X )
0 < Y < 1 modèle logistique
Y =
figure a figure b figure c figure d
X X X X
1Y Y Y
33MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE MULTIPLE ( 1 / 11 )
MODÈLE Y = β0 + β1X1 + β2X2 + • • • + βkXk + ε ε ~ N( 0, σ2 )
DONNÉES ob X0 X1 X 2 X3 ……. Xk Y
1 1 x 11 x 12 x 13 .…… x 1 k y12 1 x 21 x 22 x 23 ……. x 2 k y2. . . . . ……. . .
i 1 x i1 x i2 x i3 ……. x i k yi. . . . . ……. . .
n 1 x n1 x n2 x n3 .. …. x n k yn
écriture matricielle X n x p = [ x i j ] p =1+k Y n x 1 : vecteur n x 1
β p x 1 = ( β0 , β1 , β2 , β3 , ……. , βk )' : vecteur p x 1
remarque : l’opération de transposition de vecteurs / matrices est notée par le symbole 'ESTIMATION ( principe de moindres carrés ) : Min ∑ ( y i - ∑ βj x ij )2
β i j
système d’équations linéaire à résoudre : ( X' X ) β = X' Ysolution : β = ( X' X ) -1 X' Y = C Y
où C = ( X' X ) -1 X' est une matrice p x n de valeurs fixesÉquation de prédiction : y = X β
X i0 = 1
34MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE MULTIPLE ( 2 / 11 )
Propriétés des estimateurs β• combinaisons linéaires des yi
• sans biais : E ( βj ) = βj• var ( β ) = ( X' X ) - 1 σ 2 ils sont à variance minimaleESTIMATION de σ2
résidu e i = y i - y isomme de carrés résiduels SSR = ∑ e i
2
carré résiduel moyen MSR = SSR / n – k - 1
estimation σ2 = MSR σ = ( MSR ) 0.5
DÉCOMPOSITION DE LA VARIABILITÉ : tableau d’analyse de la variance
SSY = ∑ ( y i – y )2 : somme totale des carrésSSM = ∑ ( y i – y )2 : somme des carrés du modèleSSR = ∑ ( y i - y i )2 : somme des carrés résiduels
ÉQUATION FONDAMENTALE
somme de carrés (SS) : SSY = SSM + SSRvariabilité : totale = modèle + résiduelle
degrés de liberté (DDL) : n – 1 = k + ( n – k - 1 )
35MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE MULTIPLE ( 3 / 11 )
TABLEAU D’ ANALYSE VARIANCE : modèle de régression linéaire multiple
SOURCE DDL SS MS=SS / DDL F-ratio p-valeur
régression k SSM MSM = SSM / k f = MSM / MSR P( F ≥ f )
résiduelle n – k - 1 SSR MSR = SSR /( n – k - 1) = σ2 ---------- --------
totale n – 1 SSY ----------- --------- --------
R2 = SSM / SSY : coefficient de détermination 0 ≤ R2 ≤ 1 : fraction de la variabilité de Y expliquée par les variables X
R2adj = 1 – [ ( n - 1 )/( n – k ) ] ( 1 – R2 ) : coefficient de détermination ajusté
remarques
- ajouter une variable explicative additionnelle dans un modèle fait toujours augmenter SSM, donc fait
augmenter R2 ; l’augmentation n’est pas toujours importante et significative- R2
adj est préférable à R2 pour comparer des modèles avec des nombres différents de variables X
Test global H0G : β1 = β2 = ... = βk = 0 vs H1G : non H0G ( au moins un β ≠ 0 )
rejeter H0 au seuil α si f > F k, n- k- 1, 1 – α
36MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE MULTIPLE ( 4 / 11 )
distribution d’échantillonnage de β j j = 0, 1, 2, …, k
( β j - β j ) / σ (c j j )0.5 ~ T n – k -1 c j j : j-ème élément diagonal de ( X' X ) -1
applications
(a) test H 0j : β j = 0 vs H 1j : β j ≠ 0
rejeter H 0j au seuil α si | β j | / σ ( c j j )0.5 > t n – k – 1 , 1 – α/ 2
(b) Intervalle de confiance β j : β j ± t n – k – 1 , 1 – α/ 2 σ (c j j ) 0.5
(c) INTERVALLE de CONFIANCE : MOYENNE de Y à X1 = x1*, X2 = x2*, .. , Xk=xk*y* = β0 + β1x1* + … + βk xk* x* = ( x1*, x2*, … , xk* )
E ( Y │ X = x* ) : y* ± t n – k – 1 , 1 – α/ 2 σ [ x* ( X' X) -1 x* ] 0.5
(d) INTERVALLE de PRÉDICTION : VALEUR de Y à X1 = x1*, X2 = x2*, .. , Xk=xk*
Y │ X = x* : y* ± t n –- k – 1 , 1 – α/ 2 σ [ 1 + x* ( X' X) -1 x* ] 0.5
37Bernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE MULTIPLE ( 5 / 11 )
Exemple : OTHM p. 417 tableau 11.19 données huile brutesY : rendement production gazoline ( % de l’huile brute )X1 : gravité huile brute ( deg. API ) X2 : pression vapeur ( PSIA )X3 : ASTM point 10% ( deg. F ) X4 : point sortie gazoline ( deg. F)
22.32751908.650.816
17.63652741.238.115
6.42752671.841.314
14.73793160.231.813
143512842.432.212
26.83672314.840.311
15.23002206.138.410
102672365.232.29
12.22051908.650.88
52852741.238.17
2.82352671.841.36
82182103.540.85
8.53653160.231.84
7.42122176.1403
14.43072314.840.32
6.92352206.138.41
YX4X3X2X1obs
45.74071908.650.832
27.84162671.841.331
26.63472103.540.830
30.43402176.14029
33.64102206.138.428
31.74022365.232.227
34.73451908.650.826
32.14442741.238.125
16.13582671.841.324
13.12732103.540.823
184283160.231.422
23.24242842.432.221
18.22722176.14020
34.93952314.840.319
263652206.138.418
24.83602365.232.217
MTH 2301 Méthodes statistiques en ingénierie381.000.71-0.320.380.25Y
0.711.000.41-0.30-0.32X4
-0.320.411.00-0.91-0.70X3
0.38-0.30-0.911.000.62X2
0.25-0.32-0.700.621.00X1
YX4X3X2X1
Bernard CLÉMENT, PhDrégression -
RÉGRESSION LINÉAIRE MULTIPLE ( 6 / 11 )
X1
X2
X3
X4
Y
MTH 2301 Méthodes statistiques en ingénierie
corrélations
diagrammesde dispersion
conjointe
39MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE MULTIPLE ( 7 / 11 )
R2 = 0.962 R2adj = 0.957 F(4,27) = 172.06 p < 0.0000
0.00000024.017690.006440.154680.0418971.006267X4
0.000023-5.101230.02924-0.149170.102381-0.522268X3
0.1443481.503380.369420.555380.0902620.135698X2
0.0302302.287430.099870.228460.0526540.120443X1
0.497485-0.6877410.13465-6.969960Intercept
p-levelt(27)Std.Err.BStd.Err.Beta
313564.077Total
4.983227134.546Residual
0.000000172.0555857.382943429.531Regress.
p-levelFMSDDLSSANOVA
40MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE MULTIPLE ( 8 / 11 )
1.030-0.59-1.3123.6122.3016
0.671-0.17-0.3917.9917.6015
0.8330.100.236.176.4014
0.9361.262.8111.8914.7013
0.7440.160.3513.6514.0012
0.497-0.18-0.4127.2126.8011
0.603-1.60-3.5818.7815.2010
1.0010.280.639.3710.009
1.191-0.26-0.5812.7812.208
0.764-0.27-0.615.615.007
0.9881.262.81-0.012.806
1.1880.591.316.698.005
0.951-0.55-1.239.738.504
0.8630.641.425.987.403
0.424-1.58-3.5317.9314.402
0.817-0.82-1.828.726.901
écarttype
prédits
résidusstand.
z
résidusbruts
epréditsobservés
0.8570.000.0019.6619.66Mean
1.2232.074.6244.0245.70Max
0.424-1.60-3.58-0.012.80Min
1.2230.751.6844.0245.7032
0.872-0.08-0.1827.9827.8031
1.202-0.02-0.0426.6426.6030
0.5402.074.6225.7830.4029
0.804-0.98-2.1935.7933.6028
0.9670.651.4530.2531.7027
1.0540.120.2734.4334.7026
0.9160.851.8930.2132.1025
0.731-1.30-2.9119.0116.1024
1.121-0.94-2.1015.2013.1023
0.948-0.62-1.3819.3818.0022
0.787-0.78-1.7424.9423.2021
0.6031.322.9415.2618.2020
0.6171.503.3631.5434.9019
0.640-1.27-2.8328.8326.0018
0.8910.471.0523.7524.8017
écarttype
prédits
Résidustand.
z
résidusbruts
epréditsobservés
41MTH 2301 Méthodes statistiques en ingénierie
Normal Probability Plot of Residuals
-4 -3 -2 -1 0 1 2 3 4 5
Residuals
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
Expe
cted
Nor
mal
Val
ue
Predicted vs. Residual ScoresDependent variable: Y
-5 0 5 10 15 20 25 30 35 40 45 50
Predicted Values
-4
-3
-2
-1
0
1
2
3
4
5
Res
idua
ls
95% confidence
Raw residuals vs. X1Raw residuals = -4.412 + .11245 * X1
Correlation: r = .27097
30 32 34 36 38 40 42 44 46 48 50 52
X1
-5
-4
-3
-2
-1
0
1
2
3
4
5
Raw
resi
dual
s
95% confidence
Bernard CLÉMENT, PhDrégression -
RÉGRESSION LINÉAIRE MULTIPLE ( 9 / 11 )
Raw residuals vs. X2Raw residuals = -.3756 + .08984 * X2
Correlation: r = .10033
-1 0 1 2 3 4 5 6 7 8 9
X2
-5
-4
-3
-2
-1
0
1
2
3
4
5
Raw
resi
dual
s
95% confidence
42MTH 2301 Méthodes statistiques en ingénierie
Raw residuals vs. X3Raw residuals = .31E-6 + 0.0000 * X3
Correlation: r = -.2E-7
180 200 220 240 260 280 300 320 340
X3
-5
-4
-3
-2
-1
0
1
2
3
4
5
Raw
resi
dual
s
95% confidence
Raw residuals vs. X4Raw residuals = .67E-6 + 0.0000 * X4
Correlation: r = -.7E-7
180 200 220 240 260 280 300 320 340 360 380 400 420 440 460
X4
-5
-4
-3
-2
-1
0
1
2
3
4
5
Raw
resi
dual
s
95% confidence
Predicted vs. Observed ValuesDependent variable: Y
-5 0 5 10 15 20 25 30 35 40 45
Predicted Values
-10
0
10
20
30
40
50
Obs
erve
d Va
lues
95% confidence
Bernard CLÉMENT, PhDrégression -
RÉGRESSION LINÉAIRE MULTIPLE ( 10 / 11)
Residuals vs. Deleted ResidualsDependent variable: Y
-5 -4 -3 -2 -1 0 1 2 3 4 5
Residuals
-6
-4
-2
0
2
4
6
Del
eted
Res
idua
ls
95% confidence
43MTH 2301 Méthodes statistiques en ingénierieBernard CLÉMENT, PhD
régression -
RÉGRESSION LINÉAIRE MULTIPLE ( 11 / 11)
QUALITÉ d’un BON MODÈLE de régression multiple : CRITÈRES
• test global F significatif
• tests individuels significatifs pour chacun des coefficients du modèle ajusté
• R2 élevé ( au moins 0.70 ) et R2adj légèrement inférieur à R2
• analyse des résidus ne présentant pas d’anomalies :- indépendance des observations de Y - distribution gaussienne- variance de Y constante- graphiques des résidus (avec y et chaque X ) en forme de bande horizontale
• analyse de sensibilité : pas d’observations ayant une influence prépondérante
• absence de colinéarité forte entre les variables X
CORRECTIFS
• élimination de variables colinéaires redondantes : méthode de sélection de variables
• ajout de termes additionnels dans le modèle : X i2 , X j X i
• recherche d’un nouveau modèle ou ajout de nouvelles variables explicatives
• transformation de Box-Cox de Y
• élimination d’observations influentes