· B4_Inf Conseqüències contrastables La ciència vol ser refutable Filosofia crítica...
Transcript of · B4_Inf Conseqüències contrastables La ciència vol ser refutable Filosofia crítica...
B4_Inf
EVIDÈNCIA / INFERÈNCIA
- Què és. Principals tècniques
- Elements de mostreig - Mostra aleatòria simple, paràmetre, estimador - Els estimadors són V.A. - Estimació puntual vs estimació per interval
- Intervals de confiança de μ, π i σ
- Proves d’hipòtesis - P-valor. Mecànica de PH - Exemples PH: casos típics - PH enfront IC
B4_Inf
Conseqüències contrastables
La ciència vol ser refutable
Filosofia crítica “refutable o fal·lible" de Karl R. Popper
El criteri de refutabilitat sosté que per ser col·locats en el rang de científics, els enunciats han de poder entrar en conflicte amb observacions possibles.
Així, el que en principi és possible refutar, però resisteix els nostres esforços per fer-ho, potser sigui fals però no és indigne de ser considerat sèriament, i fins i tot de ser creïble, encara que sols sigui temptativament.
Exemples: “Els marcians existeixen” : no hi ha mitjans per contradir-ho no és científic “El meu programa funciona” : si no aportes proves / dades no és tècnic
I la tècnica vol ser documentable
EVIDÈNCIA / INFERÈNCIA
2
B4_Inf
La metodologia estadística permet la inducció: inferir les característiques de la població a partir de les observacions d’una mostra
La Inferència Estadística defineix i quantifica els riscos d’aquest procés
Mètode científic i tècnic (estadístic): 1) per deducció disseny de la recollida de dades ( MOSTRA) 2) per inducció inferir (estimar) resultats
Exemples: “El meu programa funciona bé” 1) recollida de dades (proves o evidència) 2) anàlisis: estimar una mesura (p.e.: mitjana) del rendiment “El meu programa millora els resultats de ...” 1) recollida de dades 2) anàlisis: poder refutar la igualtat de rendiments
EVIDÈNCIA / INFERÈNCIA
3
B4_Inf
EVIDÈNCIA / INFERÈNCIA
Mapa
B4: Tècnica general de la inferència [estadística]
• estimar un paràmetre (Intervals de Confiança)
• refutar un paràmetre (Proves d’Hipòtesis)
B5: Aplicació (I): Avaluació de millores
• Disseny d’experiments: comparació de dues poblacions.
B6: Aplicació (II): Predicció
• Previsió d’una var. resposta, en funció d’una var. explicativa.
4
B4_Inf
MOSTRA ALEATÒRIA SIMPLE (M.A.S.)
Sigui la v.a. X: Ω → R
ωi → X(ωi) = xi
Direm que M.A.S. de grandària n de la v.a. X
a la funció vectorial M = (X1,X2,...,Xn)
M: Ωn → R n
ω = (ω1 ,ω2 , ... ωn) → M(ωi) = (X1,X2,...,Xn) (1) Tots els elements de la població tenen la mateixa probabilitat de pertànyer a la mostra.
(2) Qualsevol combinació de n elements té la mateixa probabilitat de pertànyer a la mostra. La informació aportada per les diferents unitats ha de ser independent entre sí.
És a dir, les Xi són v.a. independents i idènticament distribuïdes: v.a.i.i.d.
5
B4_Inf
Els indicadors que es calculen en les mostres reben el nom
d’ estadístics.
Els indicadors de la població que estem interessats en
conèixer reben el nom de paràmetres.
Per exemple, mitjana pot voler dir paràmetre esperança quan parlem del centre de gravetat d’una distribució poblacional, o
estadístic mitjana quan ens referim al promig d’una sèrie de
valors obtinguts d’una mostra.
ESTIMADORS
Quan un estadístic (d’una mostra) s’utilitza per conèixer el valor
d’un paràmetre (de la població), rep el nom d’ estimador.
Conceptes bàsics:
6
B4_Inf 7
ESTIMACIÓ PUNTUAL
Un estimador del paràmetre desconegut θ, a partir de la mostra M(ωi) (X1,X2,...,Xn)
és una funció de les v.a: = f (X1 , X2 , ... , Xn)
Estimació puntual: valor que l’estimador pren en una mostra concreta.
=nX nni iX∑ =1
El cas de la MITJANA:
és v.a. mitjana i és estimador de la tendència central µ
(la v.a. mitjana té E( )=E(Xi)=µ i V( )=V(Xi)/n=σ2/n (ja que E(Xi) =µ i V(Xi)=σ2 ))
(la dispersió és directament proporcional a la dispersió de Xi, i inversament proporcional a n)
(mitjana mostral avaluada en una mostra) és l’estimació puntual de µ x
nX nX
n/σ)( nXV
nxn
i i∑= =1
Error tipus: variabilitat de l’estimador.
En el cas anterior de la MITJANA, l’error tipus de la mitjana és o standard error of mean o se o “error” en el sentit negatiu de discrepància
i “tipus” en sentit d’esperat ja que es pot calcular a partir de V( ) = E( - µ)2 ) nX nX
B4_Inf 8
Alguns
estimadors: xParàmetre ( θ ) (POBLACIÓ) Estimador ( ) (MOSTRA)
µ (E(X),esperança, mitjana poblacional) (mitjana mostral)
σ2 (V(X), variança) σ (desviació tipus poblacional)
s2 s (desviació tipus mostral)
π (probabilitat) p (proporció)
θ
EXEMPLE: En 9 dies consecutius s’ha observat el nombre de terminals en una Universitat connectats a internet: 587, 470, 676, 451, 436, 672, 584, 697 i 408 (Σx=4981; Σx2=2860855) (nterm <- c(587,470,676,451,436,672,584,697,408))
Una estimació puntual del nombre de terminals diaris connectats en promig és:
=x Una estimació puntual de la variabilitat del nombre de terminals connectats un dia és:
( mean(nterm))
=s
553.4444
( sd(nterm)) 114.0988
L’estimació de l’error tipus o variabilitat de la mitjana és:
( sd(nterm)/sqrt(length(nterm)) =se 38.03292
(altres a Estadística per a enginyers informàtics. Ed UPC pgs.26-28 Ref: Eei.Ed.UPC pgs26-28)
B4_Inf 9
Inevitablement, les estimacions [puntuals] fallen o, millor dit,
com depenen de la mostra que “ens ha tocat”, fluctuen (encara que usualment tan sols observem un valor)
Les 2 obsessions de l’Estadística són:
- minimitzar
- quantificar
Per exemple, l’error tipus o típic informa de l’error esperat a l’equiparar el valor de
l’estimador obtingut en l’estudi amb el valor del paràmetre poblacional. Noti que l’error exacte en una mostra concreta roman desconegut, podent ser inferior o
superior que l’error típic o esperat.
els errors d’estimació
Com l’estimador és “qualsevol” estadístic que s’utilitzi amb fins inferencials,
hem de definir les propietats que permeten definir els “millors”.
INCERTESA DE L’ESTIMACIÓ PUNTUAL
B4_Inf 10
Propietats desitjables dels estimadors: 1) No tenir biaix (= sesgo, bias)
Biaix és la diferència entre el centre de la distribució del
estimador [E( )] i el valor del paràmetre a estimar [θ].
BIAIX = E( ) - θ
Un estimador del paràmetre θ és NO esbiaixat si BIAIX=0
2) Ser Eficient
Entre dos estimadors NO esbiaixats,
es diu que és més eficient el que té
una variància menor.
(Estadística per a enginyers informàtics. Ed UPC pgs.26-28 Ref: Eei.Ed.UPC pgs 44-47)
B4_Inf
Max
2 4 6 8
0.0
0.5
1.0
1.5
2Mean
2 4 6 8
0.0
0.1
0.2
0.3
0.4
2Median
2 4 6 8
0.00
0.05
0.10
0.15
0.20
0.25
0 1 2 3 4 5 6
0.00
0.05
0.10
0.15
0.20
0.25
0
X
f(x)
T=max(X)
Exemple: estimar el límit superior θ d’una llei uniforme, amb mínim zero
Tenim una mostra de 10 observacions. Què prenem?
a) el valor més gran
b) el doble de la mitjana
c) el doble de la mediana
Distribució teòrica
θ
θ
θ
θ
B4_Inf 12
El T.L.C. estableix que, si s’agafen mostres de grandària n d’una població de
mitjana µ i desviació típica σ, a mesura que creixi n, la distribució de la mitjana
mostral s’aproxima a la d’una normal de mitjana µ i desviació típica σ/√n.
TEOREMA DEL LÍMIT CENTRAL (repàs)
nX
nX
¿Quina grandària ha de tenir n per a que es compleixi el TLC?
Depèn.
Si X ~ N ⇒ ~ N ∀n,
Les combinacions lineals de normals i.i.d. sempre
són normals.
Si X és quantitativa ⇒ ~ N si n > 30
Com més s’assembli X a la normal abans passarà
aquesta similitud.
nX
nX
B4_Inf
Notació: Aquell a tal que FZ(a)=P(Z<a)=α l’indicarem per zα
(zα és el punt en una N(0,1) fins el qual s’acumula α probabilitat: percentil “alfa”) Per exemple: -1.960 = z0.025 1.960 = z0.975 1.645 = z0.95 Es compleix que: zα = - z1-α zα/2 = - z1-α/2
13
0.025 0.025
Recordeu: l’estadístic segueix la distribució N(0,1) n
xz/
)(σ
µ−=
B4_Inf
X ~ N(100µs, 10µs)
~ N(100µs, 10/√9 µs) = N(100µs, 3’33µs)
~ N(100µs, 10/√100 µs) = N(100µs, 1µs)
14
Com afitar un interval que conté la mitjana d’una mostra de mida n amb probabilitat donada
Situació: El temps d’execució d’un algoritme X segueix una N(100µs, 10µs).
Plantegem les distribucions de les v.a.: X , i
Calcularem, per n=9 i per n=100, els intervals amb probabilitats grans (95%)
d’assegurar que les possibles hi pertanyeran
(i deixin fora només una petita proporció “alfa”: 0.05 o 5%).
Distribucions:
x
9X 100X
9X
100X
B4_Inf 15
(Els límits v, w dels intervals els podem calcular utilitzant
les taules de N(0,1): z0’975 =1’96 z0’025 =-1’96)
Rang que conté el 95% de les execucions de l’algoritme
X v,w = µ ± z0,975 σ = 100 ± 1.960 ·10 = 100 ±19.60 = [80.40, 119.60]
Rang que conté el 95% de les n=9 de les infinites mostres de n=9 execucions.
n=9 v,w = µ ± z0,975 σ/√n =
Rang que conté el 95% de les n=100 de les infinites mostres de n=100 execs.
n=100 v,w = µ ± z0,975 σ/√n =
Representació esquemàtica:
100 ± 1.96·10/3 = 100 ± 6.53 = [93.47, 106.53]
100 ± 1.96·10/10 = 100 ± 1.96 = [98.04, 101.96]
X
X
X
X
B4_Inf 16
Hem vist que sabem calcular un “interval” que contingui a partir de E(X)=µ
Però el problema real és: calcular interval per µ, coneixent (passar d’un interval per a la mitjana mostral a un per a la mitjana poblacional µ )
ESTIMACIÓ PER INTERVAL
A partir d’una probabilitat 1- α entre dos valors a i b (simètrics): (amb σ coneguda)
ασ
µσ
µσ
µ−=
−
≤−
≤− 1
n
b
n
X
n
aP n ασµ
αα −=
≤−
≤ − 1212 z
n
XzP n
obtenim l’interval de la v. a.
amb probabilitat 1-α ασµσµ αα −=
+≤≤+ − 1212 n
zXn
zP nnX
I reordenant obtenim
l’interval de confiança
1-α del paràmetre µ
ασµσαα −=
+≤≤+ − 1212 n
zXn
zXP nn
( ) α−=≤≤ 1bXaP n
xx
x
B4_Inf 17
ασµσαα −=
+≤≤+ − 1212 n
zXn
zXP nn
Si 1-α és 95% (α=5%): ¡ el 95% dels intervals (IC) contindran E(X)=µ !
significa que amb una
confiança de 1-α podem assegurar que E(X)=µ estarà en el rang calculat.
Notem IC(μ, 1-α) a l’INTERVAL DE CONFIANÇA 1- α de μ, i l’expressem:
nzxIC σµ αα 21)( 1 , −±=−
Atenció: nosaltres només observarem una mostra, i no sabrem si l’IC trobat conté o
no μ, però sí sabem que aquest procediment a la llarga encerta el 100(1-α)%.
(tenint en compte que zα/2 = -z1-α/2 )
B4_Inf
Comprovació, amb 50 mostres de mida 9
18
Amb un IC determinat (p.ex., [985, 1004]), digueu “tenim un alt grau de confiança (i.e., 95%) de que el paràmetre es troba entre aquest dos valors”,
però no és correcte parlar de
probabilitat 95% que el paràmetre estigui entre els dos valors trobats, perquè el paràmetre no es considera un element aleatori. Serà desconegut, però no és incert!
B4_Inf 19
Interval de Confiança de µ=E(X) amb σ coneguda
Així doncs, l’interval de confiança 1-α de µ (amb σ coneguda) és:
(recordeu que ens basem en el TCL i perquè es complís calia que la variable X inicial
fos Normal o que n fos més gran de 30)
Per tant, els requisits per realitzar aquest càlcul són: n>30 o X→N
EXEMPLE: Una embotelladora d’ampolles de litre té una dispersió de σ=10cc.
En una mostra a l’atzar de n = 100 ampolles d’aquesta màquina, la mitjana
observada ha sigut = 995cc. Construir un interval de confiança del 95% de µ.
IC(µ, 0.95) = ± z1-α/2 σ/√n =
nzxIC σµ αα 21)( 1 , −±=−
x
x
= 995 ± 1.96·10/√100 = 995 ± 1.96 = [993.04, 996.96]
B4_Inf 20
EXERCICIS:
1) La glicèmia en mmol/L té una desviació típica de σ = 1 en una mostra de
n= 9 pacients, la mitjana = 5.
IC (µ, 0.95) = ± z1-α/2 σ/√n = 5 ± 1.96 · 1/√9 ≈ 5 ± 0.653 ≈ [4.35, 5.65] Creiem, amb una “força” del 95%, que l’autèntic valor poblacional es troba entre aquests límits
2) Sense canviar la confiança, com podríem reduir l’interval a la meitat?
IC (µ, 0.95) = ± z1-α/2 σ/√n
3) Calculeu l’ IC amb una confiança del 99%
IC (µ, 0.99) = ± z1-α/2 σ/√n =
xx
x
x
ATENCIÓ: Per estimar µ necessitem conèixer σ → situació molt particular
5 ± 2.576 · 1/√9 ≈ [4.14, 5.86]
1.96 · 1/√n = 0.653/2 → n≈36 (n ha de ser 4 vegades major)
ATENCIÓ: quan n augmenta la precisió dels IC augmenta (interval més estret) Si augmenta la confiança (disminuint el risc α d’error), la precisió dels IC disminueix
(interval més ample)
B4_Inf 21
Mecànica de la construcció de l’ I.C.
Passos ESQUEMA SOLUCIÓ
1
Definir l’estadístic a ser utilitzat
Especificar la seva distribució
Indicar les condicions o premisses necessàries
Delimitar el nivell de confiança (usualment 1-α=95%)
2 Calcular l’interval
3 Interpretar el resultat
B4_Inf
Interval de Confiança de µ=E(X) amb σ desconeguda
Si desconeixem σ, la podem substituir per S, però llavors l’estadístic
passa a ser que és el quocient de 2 v.a. i ja no es pot ns
x/
)( µ− nxz
/)(
σµ−
=
suposar que segueix una distribució N(0,1).
Tal com diu el pas 2 de la mecànica de construcció de l’IC, cal conèixer la llei de probabilitats que segueix l’estadístic. En aquest cas, es tracta d’una nova distribució que s’anomena ‘t de Student’ (i que es treballarà al laboratori).
Per aquest estadístic, la distribució de probabilitat concreta és tn-1 (n-1 graus de llibertat). Els percentils es poden trobar a taules específiques, o amb R. Així doncs, l’interval de confiança 1-α de µ (amb σ desconeguda) és:
nstxIC n 21,1)( 1 , ααµ −−±=−
ATENCIÓ: la situació de no conèixer la σ de la població és més freqüent
22
B4_Inf color gris Indica IC secundari
TCL: X1,…, Xn i.i.d. (n→∞), amb E(Xi )=µ i V(Xi )=σ2 , llavors =∑ =
nXn
i i1 )/,( 2 nNX n σµ≈ ( i també ),( 21
nnNXn
i i σµ≈∑ =
Estadístic mitjana mostral ( x ): )1,0()(
2N
nx
≈−
σ
µ 12
)(−≈
−nt
nsx µ
on nxx n
i i∑ ==
1
Estadístic variància mostral ( 2s ): 212
2 1−≈
−n
ns χσ
on ( ) ( )
11
)(
1
2
1
1
22
1
2
1
2
2
−
−=
−
−=
−
−=
∑∑∑∑ =
===
nn
xx
n
xnx
n
xxs
n
i in
ii
n
ii
n
ii
Paràmetre Estadístic Premisses Distribució Interval de Confiança 1-α (Risc α)
µ nxz
2
)(ˆσ
µ−=
[ X → N ò n ≥ 30 ]
i σ coneguda z → N(0,1) )(
2
2/1 nzx σµ α−±∈
µ nsxt
2
)(ˆ µ−= X → N t → t n-1 )(
2
2/1,1 nstx n αµ −−±∈
µ nsxz
2
)(ˆ µ−= n ≥ 100 z → N(0,1) )(
2
2/1 nszx αµ −±∈
σ (normal) 2
22 )1(ˆ
σ−
=nsX X → N x2 → χ2
n-1
−−∈
−−−2
2/,1
2
22/1,1
22 )1(,)1(
αα χχσ
nn
nSnS
π (Binomial
) n
pz)1()(ˆ
πππ
−−
= (1-π)n ≥ 5 πn ≥ 5 z → N(0,1)
))ˆ1(ˆ( 2/1 n
zP πππ α−
±∈ −
5'0ˆˆ == ππ oP
λ (Poisson) λ
λ)(ˆ −=
Lz λ ≥ 5 z → N(0,1) )( 2/1 LzL αλ −±∈
Formulari : Propietats de les mostres i Intervals de Confiança
23
B4_Inf 24
[ mean(nterm)-qz(0.975)*sigma/sqrt(n), mean(nterm)+qz(0.975)*sigma/sqrt(n) ]
EXEMPLE:
En 9 dies consecutius s’ha observat el nombre de terminals en una Universitat connectats a internet: 587,470,676,451,436,672,584,697 i 408. (nterm <- c(587,470,676,451,436,672,584,697,408))
(recordem que havíem calculat les estimacions puntuals: )
Una estimació per interval IC al 95% de confiança de la mitjana poblacional, assumint que la desviació poblacional val 100:
[488.11; 618.78]
[467.58 ; 639.31]
Una estimació per interval IC al 95% de confiança de la mitjana poblacional, sense assumir coneguda la desviació poblacional:
I interval IC al 99% de confiança:
I interval IC al 99% de confiança:
[465.74; 641.15
[425.83 ; 681.06]
IC (µ, 0.95) =
IC (µ, 0.99) =
IC (µ, 0.99) =
IC (µ, 0.95) =
444.553=x 099.114=s
[ mean(nterm)-qz(0.995)*sigma/sqrt(n), mean(nterm)+qz(0.995)*sigma/sqrt(n) ]
[ mean(nterm)-qt(0.975,8)*sd(nterm)/sqrt(n), mean(nterm)+qt(0.975,8)*sd(nterm)/sqrt(n) ]
[ mean(nterm)-qt(0.995,8)*sd(nterm)/sqrt(n), mean(nterm)+qt(0.995,8)*sd(nterm)/sqrt(n) ]
B4_Inf
Hem vist que, si desconeixem σ, s’ha de substituir per s. Però:
? nsμX ~
2
− És, ara, el quocient de 2 v.a. Quina distribució segueix?
Anem a definir més formalment la distribució tn-1, i també una altra (χ2, khi quadrat) amb la que està relacionada.
DISTRIBUCIONS DERIVADES DE LA NORMAL
Hem vist que la ‘z’ canvia per una nova distribució ‘tn-1’ en el càlcul de l’IC:
nstxIC n 21,1)( 1, ααµ −−±=−
(1-α és la confiança, i α és el risc)
(“Distribucions originades pel mostreig” a Estadística per a enginyers informàtics. Ed UPC pg 58)
25
B4_Inf 26
Distribució χ2 (Ji ó Khi quadrat)
Sigui X ~N(0,1),
llavors X2 ~ χ2 amb 1 grau de llibertat: χ21
Siguin X1 , X2 , ... , Xn n v.a. N(0,1) independents,
llavors X12 + X2
2 + ... + Xn2 ~ χ2
n
(amb “n” graus de llibertat)
Exemples:
Proveu el script de la khi quadrat ‘Chi2: comprovar és suma de n normals Z al quadrat (i que depèn de n)’
B4_Inf
n
xni i∑ ,1
22
)-(==
µσ
=
)-(
=ˆ
2
,1=2
2
2∑
σn
μx
nσσ
nni i
2,1
2
2,1
2
~ -)-(∑∑
nniini i xx
χσ
µσ
µ=
=
==
===
2
,12
2
21-
)-(
)1-()1-(∑
σσn
xx
nsnni i
21-1-
2
,12,1
2
~ -)-(∑∑
nnniini i
Yxxxxχ
σσ=
=
=
=
Llavors si Xi →N
De forma similar,
(podrem relacionar la distribució amb s2 per definir IC de σ2, tal com fem amb les distribucions Z i tn-1 amb per definir IC de µ)
Distribució de l’estadístic/estimador s2
21-nχ
¡ Coneixem la distribució de s2 !
x
27
B4_Inf 28
Distribució “t” DE STUDENT
-4 -3 -2 -1 -0 1 2 3 4
NormalT Student
Siguin dues v.a. independients :
Z ~ N(0,1),
Yn ~ χ2n
Llavors
Z / √ (Yn/n) ~ tn En el límit lim tn→∞ ~ N(0,1) (a la pràctica, n > 30) EXERCICI: proveu el script de la t de Student ‘t: comprovar és rati entre: Z, i sqrt(chi2_n / n) (i que depèn de n)’
B4_Inf 29
=
−
−=
∑ =
2
,12
1)(
σn
xxZ
ni i
==
−
=−
=
2
2
2
2
2
2
σσ
σµ
µsZ
nns
nX
nsXt
1
2,1
2~
1
1
)(−
= −
=
−
−=
∑n
ni i
tn
YZ
n
xxZ
σ
Distribució del quocient informació/soroll utilitzant S en lloc de σ
¡ Coneixem que el quocient informació/soroll segueix una ‘t’ de Student !
Observeu que es requereix la normalitat de cada X
B4_Inf
Premisses (o hipòtesis prèvies / requisits / condicions d’aplicació)
Per garantir el nivell de confiança de l’IC, s’han de complir les condicions: • Si sigma és coneguda, la mitjana mostral ha de ser Normal ( ~ N) • Si sigma no és coneguda, la variable observada ha de ser Normal (X ~ N)
– És més exigent, (amb una mostra prou gran la mitjana pot ser Normal encara que la variable original X no ho sigui)
– Amb grans mostres la variació de s serà limitada (s estima molt bé σ ), i podem considerar que ( – μ)/(s/√n) ≈ ( – μ)/(σ/√n) ≈ N(0,1)
x
Dist. de referència si… σ Coneguda σ desconeguda
X Normal Normal sempre t de Student sempre
X no Normal Normal si n gran
(n ≥ 30) Normal si n +gran
(n ≥ 100)
30
IC (μ, 1-α) de l’esperança µ
x x
I, per suposat, l’origen de la mostra ha de ser aleatori (v.a.i.i.d)
B4_Inf 31
Sigui X ~ B(n,π): E(X) = π·n
V(X) = π·(1-π)·n
Sigui P = X/n → E(P) = E(X/n) = E(X)/n = π·n / n = π
V(P) = V(X/n) = V(X)/n2 = π·(1-π)·n/n2 = π·(1-π)/n
Per construir l’ IC es pot recorre a la convergència de la B a la Normal:
Requisit: n gran i π no extrema [π·n ≥ 5 y (1-π)·n ≥ 5 ]
IC (π, 1-α) de la probabilitat π en una Binomial
nzPzPIC P /)1()1 ,( 2/121 ππσαπ αα −±=±=− −−
−
→ nP )1(,N πππ
Així, l' interval de confiança s’assemblaria al de µ:
Es a dir, sabem que σp = √[π·(1-π)/n]
B4_Inf
La paradoxa de que necessitem conèixer π per estimar π, es soluciona:
a) Substituint π per P
b) Amb el màxim de π·(1-π)
EXEMPLE:
Llencem 100 vegades una moneda a l’aire i observem 56 cares (P=0.56).
Les dues solucions per l’IC segons com estimem π:
IC (π, 0.95) = P ± z1-α/2 √[P·(1-P)/n] =
IC (π, 0.95) = P ± z1-α/2 √[0.5·0.5 /n] =
0.56 ± 1.96 √[0.56·0.44 /100] ≈ 0.56 ± 0’10
= [0.46, 0.66]
0.56 ± 1.96 √[0.52 /100] ≈ 0.56 ± 0’10
= [0.46, 0.66]
32
nzPIC /5.0)1 ,( 22/1 ααπ −±=−
nPPzPIC /)1()1 ,( 2/1 −±=− −ααπ
B4_Inf 33
Hem vist que: sempre que Xi ~ N (prerequisit) Per tant:
21-n2
2
χσs1)-(n ~
= )χ≤
σ1)-(ns≤(χPα-1 2
2α-11,n2
22
2α1,-n
= )
χ1≤
1)-(nsσ≤
χ1(Pα-1 2
2α1,-n2
2
22α-11,-n
= )
χ1)-(ns≤σ≤
χ1)-(ns(Pα-1 2
2α1,-n
22
22α-11,-n
2
IC (σ², 1-α) de la variança σ2 en una Normal
És a dir:
−−=−
−−−2
2/,1
2
22/1,1
22 )1(,)1()1 ,(
αα χχασ
nn
nsnsIC
Nota: no és un interval simètric, ja que la distribució no ho és. Això implica calcular dos valors en la distribució en lloc de fer ± .
B4_Inf 34
EXEMPLE: En les 25 execucions d’un mateix programa s’ha observat una
variabilitat s2=82.
Resultat: IC(σ2, 0.95) =
=
= 2
2,1-
2
22-1,1-
22 )1-(,)1-()95.0 ,(
αα χχσ
nn
nsnsIC
39.02 ≤σ ≤123.86:dir a és,364.39)1-25(8,401.12
)1-25(8 222
=
86.123 ≤ ≤02.39:ara,401.12)1-25(8,364.39
)1-25(8 222
σ
=
Malament!
IC(σ, 0.95) =
[39.02; 123.86]
[6.25; 11.13]
Ara sí
B4_Inf
PROVES D’HIPÒTESIS (PH)
EXEMPLE: Afirmo que encerto el 80% dels meus tirs lliures a basket, i un amic em posa a prova. Dels 20 tirs, solament faig 8. “Fuà! Algú que encerta un 80% gairebé mai faria 8 de 20; així que no em crec la teva afirmació”.
El raonament de l’amic es basa en demanar-se què passaria si l’afirmació fos certa i es repetís la mostra de 20 tirs moltes vegades. Segurament poques vegades encertaria un nombre tan baix com 8. Un resultat com aquest és tan poc freqüent que aporta certa evidència per rebutjar la meva afirmació.
De fet, aquesta evidència es pot quantificar:
Es a dir, si jo fos tan bo, solament 1 de cada 10000 vegades obtindria una puntuació tan nefasta (o pitjor).
Dos opcions: o he tingut mala sort o l’afirmació era falsa!
The Basic Practice of Statistics. David S. Moore. 4th Ed.
Sigui M = nº encerts: M ~ B(20, 0.8) → P(M ≤ 8) = 0.000102
35
B4_Inf
El raonament de les PH
Al igual que amb els IC, hem de pensar com si l’experiència es pogués repetir un gran nombre de vegades.
Però ara no volem l’IC que contengui el paràmetre, ara partim d’una afirmació (una hipòtesi de partida, o nul·la), i volem estudiar si les dades proporcionen proves en contra seu.
Una repetició intensa (una mostra infinita = la població) seria definitiva.
Però, amb una mostra finita, quina informació aporten les dades?
Nota:
Formalment, es distingeix entre les proves de Fisher (per aportar coneixement o evidencia o inferència) i els contrastos de Neyman-Pearson (per minimitzar els errors al prendre decisions). Els primers son rellevants per la Ciència (p.e., la Física) i els segons per la Tècnica (p.e. la Arquitectura). Però en aquest curs no distingirem i ho englobarem tot sota Proves de Hipòtesi PH).
Read more in: http://onlinestatbook.com/chapter9/significance.html
36
B4_Inf
El raonament de les PH (2)
La hipòtesi nul·la (H0) es planteja formalment amb un paràmetre (o varis). El paràmetre en qüestió pren un valor que representem:
H0: π = 0.80
π representa la probabilitat poblacional d’encertar un tir lliure, i volem comprovar si aquest valor és coherent amb les observacions.
Al igual que amb els IC, la mostra es concentra en un estadístic, que segueix una distribució de probabilitat coneguda si s’assumeix certa la H0.
Addicionalment a H0 afegim la hipòtesi alternativa H1, que pot ser totalment complementària a la nul·la (enfoc bilateral), o parcialment (unilateral):
H1: π ≠ 0.80 H1: π < 0.80
H1 determina el(s) sentit(s) més oposat(s) a H0: per exemple, el nombre de encerts a la canasta és l’estadístic, i si H1 fos “≠“ serien sospitosos tant els nombres d’encerts que van cap a 0 com els que van cap a 20. Si H1 fos “<“ serien sospitosos només els que van cap a 0 (que és el que hem pres, donat que el meu amic no confia molt en les meves habilitats).
37
B4_Inf
2’6 -2’6
P, o p-valor, és la probabilitat de, sota H0, obtenir resultats igual o més extrems que el observat.
Exemple, estadístic Z ~ N(0,1) valor observat amb la mostra: z = 2.6, bilateral P(Z<-2.6)= 0.0047 i P(Z>2.6) = 0.0047
P(|Z|>|z|)= 2 x 0.0047 = 0.0094 ( Taules: 2*(1-0.9953) ; R: pnorm(-2.6)+(1-pnorm(2.6)) )
P = P(v.a. Z “més lluny” de H0 que el valor observat z )
RECORDEU: “sota H0” = suposem (‘temptativament’) que és cert que els paràmetres poblacionals valen el que diu H0
38
P-valor
B4_Inf
1
0 0.01 0.05
0.1 Evidència contundent
Evidència important
Evidència dèbil
Absència d’evidència (no hi ha motius per oposar-se a H0)
P-v
alor
La qualificació del grau d’evidència, representat pel P-valor, varia radicalment en la part inferior de l’escala: noteu la diferència entre 0.01 i 0.0001 !!
39
B4_Inf
i. Escollir una variable segons els objectius de l’estudi
ii. Escollir un disseny i un estadístic iii. Definir una hipòtesi H0 que es vol posar a prova, enfront una
hipòtesi alternativa H1
iv. Especificar la distribució de l’estadístic si H0 fos certa (i les premisses adients)
v. Amb les dades de l’experiment, calcular el valor de P vi. Si P és petit, rebutjar H0 vii. Afegir l’estimació per interval IC(1-α)
40
Resolució de PH
Problema: què vol dir “Si P és petit”?
A. Valorar el cost que representa una conclusió equivocada (un exemple al llibre d’Ed. UPC)
B. Definir un llindar arbitrari per fixar què es considera petit
B4_Inf
Mecànica (operativa) de la resolució de PH
i. Escollir una variable segons els objectius de l’estudi ii. Escollir un disseny i un estadístic iii. Definir una hipòtesis H0 per posar a prova, i una H1
alternativa iv. Especificar la distribució de l’estadístic si H0 fos certa (i les
premisses adients); definir el risc α, usualment 0.05
v. Amb les dades, calcular el valor de P
vi. Si P < α rebutjar H0 (H0 és poc versemblant)
v. Amb les dades, calcular el valor de l’estadístic (z)
vi. Si z > z(α) rebutjar H0 (H0 és poc versemblant)
vii. Afegir l’estimació puntual i per interval IC(1-α)
Nota: les dues branques són equivalents
41
B4_Inf
EXEMPLE (bis)
3.0 -3.0
També es poden trobar els límits d’una regió crítica:
• Bilateral: a l’esquerra de zα/2 (-1.96), i a la dreta de z1-α/2 (1.96)
• Unilateral, per l’esquerra: per sota de zα (-1.645)
per la dreta: per sobre de z1-α (1.645)
Si l’estadístic cau a la regió crítica, llavors la hipòtesi nul·la és dubtosa.
Noteu que no és fàcil qualificar el grau d’evidència que les dades aporten: és un criteri que simplifica el procés a rebutjar/no rebutjar
42
B4_Inf
=997, s =10 i n=100. Podem pensar que la mitjana poblacional és 1000? i) Variable: contingut en envasos de 1000cc ii) Estimador: mitjana mostral. Estadístic: ( - µ) / (s/√n) iii) H0 : µ = 1000cc H1 : µ ≠ 1000cc iv) L’estadístic ( - µ) / (s/√n) sota H0 es distribueix N(0,1), ja que n = 100; α = 5%
v) Càlculs: = ( - µ) / (s/√n) = (997-1000) / (10/√100) = 3
P = Prob [(|z| > |-3|)] = 0.0027 (p-valor)
(Taules: 2*(1-0.9987) ; (R: pnorm(-3)+(1–pnorm(3)) )
vi) Conclusió: com que P és menor que α, es rebutja µ=1000cc
Conclusió pràctica: ens estan estafant!
vii) IC(µ,0.95) = ± z0’975 s/√n =
43
= 997 ± 1.96 · 10/√100 ≈ 997 ± 1.96 = [995.04; 998.96]
EXERCICI: (1) Si en el cas d’una embotelladora de 1 litre tenim: x
x
x
z
x
x
z
B4_Inf
=997, s =10 i n=100. Podem pensar que la mitjana poblacional és 1000? i) Variable: contingut en envasos de 1000cc ii) Estimador: mitjana mostral. Estadístic: ( - µ) / (s/√n) iii) H0 : µ = 1000cc H1 : µ ≠ 1000cc iv) L’estadístic ( - µ) / (s/√n) sota H0 es distribueix N(0,1), ja que n = 100; α = 5%
v) Càlculs: = ( - µ) / (s/√n) = (997-1000) / (10/√100) = 3
z0.025 = -1.96; z0.975 = 1.96
(R: qnorm(0.025) i qnorm(0.975) )
vi) Conclusió: com no pertany [-1.96, 1.96], es rebutja µ=1000cc
Conclusió pràctica: ens estan estafant!
vii) IC(µ,0.95) = ± z0.975 s/√n =
44
= 997 ± 1.96 · 10/√100 ≈ 997 ± 1.96 = [995.04; 998.96]
EXERCICI (2): Si en el cas d’una embotelladora de 1 litre tenim: x
This image cannot currently be displayed.
x
z
x
x
B4_Inf 45
Formulari : Proves d’hipòtesis
Paràmetre Hipòtesi Estadístic Premisses Distribució
sota H
Criteri Decisió
(Risc α)
µ H : µ = µ0 nyz
20 )(ˆ
σµ−
= Y→N ò n≥30
i σ coneguda z → N(0,1)
Rebutjar H si | z | > z1-α/2
(|z|>1.96 amb α=5%)
µ H : µ = µ0 nsyt
20 )(ˆ µ−
= Y → N t → t n-1 Rebutjar H si
| t | > t n-1,1-α/2
(| t^ | > t n-1,0.975 amb α=5%)
µ H : µ = µ0 nsyz
20 )(ˆ µ−
= n ≥ 100 z → N(0,1) Rebutjar H si | z | > z1-α/2
(|z|>1.96 amb α=5%)
π
(Binomial) H : π = π0 n
pz)1()(ˆ
00
0
πππ
−−
= (1-π0)n ≥ 5
π0n ≥ 5 z → N(0,1)
Rebutjar H si | z | > z1-α/2
(|z|>1.96 amb α=5%)
Anexe: λ
(Poisson) H : λ = λ0
0
0 )(ˆλλ−
=fz λ0 ≥ 5 z → N(0,1)
Rebutjar H si | z | > z1-α/2
(|z|>1.96 amb α=5%)
σ
(normal) H : σ = σ0 2
22 )1(ˆ
σ−
=nsX Y → N x2 → χ2
n-1
Rebutjar H si
x2 < χ2n-1,α/2
o x2 > χ2n-1,1-α/2
En les proves unilaterals s’acumula el valor de P-valor a un sol costat: H:µ ≤µ0 → Rebutjar H si z > z1-α
H:µ ≥µ0 → Rebutjar H si z < - z1-α
B4_Inf
Si σ és desconeguda, l’estadístic de referència és ( - µ) / (S/√n)
Que, sota H0, tindrà:
- distribució N, si la grandària mostral es suficient
( - µ) / (s/√n) ~ N(0,1) si n ≥ 100
- distribució t Student ‘n-1’, si la variable estudiada X es N
( - µ) / (s/√n) ~ tn-1 si X ~ N
46
PH sobre l’esperança μ
x
x
x
B4_Inf
i) Variable: ii) Estadístic: iii) H0:
iv) Distribució de l’estadístic:
v) Càlculs:
vi) Conclusió:
Conclusió pràctica:
vii) IC(µ,0.95)=
47
EXERCICI: En 9 fitxers, la diferencia D entre els temps d’execució de dos programes de compressió de fitxers ha estat de mitjana 6.71 i desviació 6.00. Acceptant que D ~ N, ¿es pot acceptar que E(D)=µ=0? (és a dir, acceptar que els dos compressors tarden el mateix en mitjana?)
µ = 0 H1: µ ≠ 0
D (diferència de temps)
sota H0, és tn-1 (i amb la premissa que
D és normal); α = 5%
)//()( nsdt µ−=
P = P (|t| > |3.355|) = 0.01 355.3)9/6/()071.6( =−=t
es rebutja E(D)=µ=0 ja que el p-valor (0.01) és < α
no tarden el mateix
6.71 ± 2.306 · 6.0/√9 ≈ 6.71 ± 4.61 = [ 2.1; 11.3 ]
(R: t.test( ) )
(R: pt(-3.355)+(1–pt(3.355)) )
B4_Inf
En el exemple anterior del basket, amb n=20, i) Variable: resultat cada tir (canasta o no) ii) Estadístic: nombre de encerts X iii) Hipòtesi H0 : π = 0.80 (sóc un magnífic tirador) Hipòtesi H1 : π < 0.80 (no sóc tan bo)
iv) Si H0 es certa: X ~ B(n, π) = B(20, 0.80)
Premisses: mostra de tirs independents, amb la mateixa probabilitat d’encert
Si n és gran (i π lluny de 0 i de 1), pot ser més simple utilitzar l’aproximació de la Binomial a la Normal (en aquest cas, treballem amb P=X/n enlloc de X):
iv) Si H0 es certa: P ≈ N(π, π(1- π)/n) (No s’aplicaria en l’exemple)
Premissa addicional: com a indicació, n·π > 5 i n·(1-π) > 5
48
PH d’una probabilitat π
B4_Inf
SITUACIÓ A: n=20 tirs i 8 encerts v) x = 8
P = P (X més lluny de H0 que x ) = 0.0001 (recordeu: unilateral)
vi) SÍ, hi ha (forta) evidència en contra de H0: π=0.80 vii) L’obtenció de l’IC quan la n és petita no és simple, però es pot trobar
amb la instrucció de R binom.test(). En aquest exemple val [0, 0.61]: si la mostra és petita obtindreu intervals molt amples!
SITUACIÓ B: n=100 llençaments d’una moneda, i 63 cares v) P=63/100=0.63=63%
^
49
z = P = vi) vii)
P (Z més lluny de H que z ) = 0.0094 (aquí, bilateral)
(P-π) / √[π·(1-π)/n] = (0.63-0.5) / √[0.5·0.5)/100] = 0.13/0.05= 2.6
IC(π,0.95)= [0.53, 0.73]
SÍ hi ha (certa) evidència en contra de H0: π=0.5
B4_Inf
PH enfront IC
Sobre el valor del paràmetre π en la població:
PH fa una pregunta “tancada” ¿és π = 0.5 ?
IC fa una pregunta “oberta”: ¿quin es el valor de π ?
Donar els resultats sempre amb IC implica: Si es rebutja H0, dir on es troba el paràmetre Si no es rebutja H0, quantificar la informació de que es disposa L’IC proporciona informació més fàcil d’interpretar que el P-valor.
50
B4_Inf
Recordi El P-valor diu amb quina freqüència pot passar l’event de la mostra
quan la hipòtesi H0 és correcta. Si P-valor és petit → tenim evidència en contra de H0
Si P-valor no és petit, NO demostra la “veritat” de H0
P=0.000 → P<0.001. P-valor NO és la probabilitat d’ “haver-se equivocat” que la hipòtesi nul·la sigui certa d’haver rebutjat erròniament la hipòtesi nul·la
1−P-valor NO és la probabilitat que la hipòtesi alternativa sigui certa Trobeu més “Frequent misunderstandings” a wikipedia
51