· B4_Inf Conseqüències contrastables La ciència vol ser refutable Filosofia crítica...

51
B4_Inf EVIDÈNCIA / INFERÈNCIA - Què és. Principals tècniques - Elements de mostreig - Mostra aleatòria simple, paràmetre, estimador - Els estimadors són V.A. - Estimació puntual vs estimació per interval - Intervals de confiança de μ, π i σ - Proves d’hipòtesis - P-valor. Mecànica de PH - Exemples PH: casos típics - PH enfront IC

Transcript of  · B4_Inf Conseqüències contrastables La ciència vol ser refutable Filosofia crítica...

B4_Inf

EVIDÈNCIA / INFERÈNCIA

- Què és. Principals tècniques

- Elements de mostreig - Mostra aleatòria simple, paràmetre, estimador - Els estimadors són V.A. - Estimació puntual vs estimació per interval

- Intervals de confiança de μ, π i σ

- Proves d’hipòtesis - P-valor. Mecànica de PH - Exemples PH: casos típics - PH enfront IC

B4_Inf

Conseqüències contrastables

La ciència vol ser refutable

Filosofia crítica “refutable o fal·lible" de Karl R. Popper

El criteri de refutabilitat sosté que per ser col·locats en el rang de científics, els enunciats han de poder entrar en conflicte amb observacions possibles.

Així, el que en principi és possible refutar, però resisteix els nostres esforços per fer-ho, potser sigui fals però no és indigne de ser considerat sèriament, i fins i tot de ser creïble, encara que sols sigui temptativament.

Exemples: “Els marcians existeixen” : no hi ha mitjans per contradir-ho no és científic “El meu programa funciona” : si no aportes proves / dades no és tècnic

I la tècnica vol ser documentable

EVIDÈNCIA / INFERÈNCIA

2

B4_Inf

La metodologia estadística permet la inducció: inferir les característiques de la població a partir de les observacions d’una mostra

La Inferència Estadística defineix i quantifica els riscos d’aquest procés

Mètode científic i tècnic (estadístic): 1) per deducció disseny de la recollida de dades ( MOSTRA) 2) per inducció inferir (estimar) resultats

Exemples: “El meu programa funciona bé” 1) recollida de dades (proves o evidència) 2) anàlisis: estimar una mesura (p.e.: mitjana) del rendiment “El meu programa millora els resultats de ...” 1) recollida de dades 2) anàlisis: poder refutar la igualtat de rendiments

EVIDÈNCIA / INFERÈNCIA

3

B4_Inf

EVIDÈNCIA / INFERÈNCIA

Mapa

B4: Tècnica general de la inferència [estadística]

• estimar un paràmetre (Intervals de Confiança)

• refutar un paràmetre (Proves d’Hipòtesis)

B5: Aplicació (I): Avaluació de millores

• Disseny d’experiments: comparació de dues poblacions.

B6: Aplicació (II): Predicció

• Previsió d’una var. resposta, en funció d’una var. explicativa.

4

B4_Inf

MOSTRA ALEATÒRIA SIMPLE (M.A.S.)

Sigui la v.a. X: Ω → R

ωi → X(ωi) = xi

Direm que M.A.S. de grandària n de la v.a. X

a la funció vectorial M = (X1,X2,...,Xn)

M: Ωn → R n

ω = (ω1 ,ω2 , ... ωn) → M(ωi) = (X1,X2,...,Xn) (1) Tots els elements de la població tenen la mateixa probabilitat de pertànyer a la mostra.

(2) Qualsevol combinació de n elements té la mateixa probabilitat de pertànyer a la mostra. La informació aportada per les diferents unitats ha de ser independent entre sí.

És a dir, les Xi són v.a. independents i idènticament distribuïdes: v.a.i.i.d.

5

B4_Inf

Els indicadors que es calculen en les mostres reben el nom

d’ estadístics.

Els indicadors de la població que estem interessats en

conèixer reben el nom de paràmetres.

Per exemple, mitjana pot voler dir paràmetre esperança quan parlem del centre de gravetat d’una distribució poblacional, o

estadístic mitjana quan ens referim al promig d’una sèrie de

valors obtinguts d’una mostra.

ESTIMADORS

Quan un estadístic (d’una mostra) s’utilitza per conèixer el valor

d’un paràmetre (de la població), rep el nom d’ estimador.

Conceptes bàsics:

6

B4_Inf 7

ESTIMACIÓ PUNTUAL

Un estimador del paràmetre desconegut θ, a partir de la mostra M(ωi) (X1,X2,...,Xn)

és una funció de les v.a: = f (X1 , X2 , ... , Xn)

Estimació puntual: valor que l’estimador pren en una mostra concreta.

=nX nni iX∑ =1

El cas de la MITJANA:

és v.a. mitjana i és estimador de la tendència central µ

(la v.a. mitjana té E( )=E(Xi)=µ i V( )=V(Xi)/n=σ2/n (ja que E(Xi) =µ i V(Xi)=σ2 ))

(la dispersió és directament proporcional a la dispersió de Xi, i inversament proporcional a n)

(mitjana mostral avaluada en una mostra) és l’estimació puntual de µ x

nX nX

n/σ)( nXV

nxn

i i∑= =1

Error tipus: variabilitat de l’estimador.

En el cas anterior de la MITJANA, l’error tipus de la mitjana és o standard error of mean o se o “error” en el sentit negatiu de discrepància

i “tipus” en sentit d’esperat ja que es pot calcular a partir de V( ) = E( - µ)2 ) nX nX

B4_Inf 8

Alguns

estimadors: xParàmetre ( θ ) (POBLACIÓ) Estimador ( ) (MOSTRA)

µ (E(X),esperança, mitjana poblacional) (mitjana mostral)

σ2 (V(X), variança) σ (desviació tipus poblacional)

s2 s (desviació tipus mostral)

π (probabilitat) p (proporció)

θ

EXEMPLE: En 9 dies consecutius s’ha observat el nombre de terminals en una Universitat connectats a internet: 587, 470, 676, 451, 436, 672, 584, 697 i 408 (Σx=4981; Σx2=2860855) (nterm <- c(587,470,676,451,436,672,584,697,408))

Una estimació puntual del nombre de terminals diaris connectats en promig és:

=x Una estimació puntual de la variabilitat del nombre de terminals connectats un dia és:

( mean(nterm))

=s

553.4444

( sd(nterm)) 114.0988

L’estimació de l’error tipus o variabilitat de la mitjana és:

( sd(nterm)/sqrt(length(nterm)) =se 38.03292

(altres a Estadística per a enginyers informàtics. Ed UPC pgs.26-28 Ref: Eei.Ed.UPC pgs26-28)

B4_Inf 9

Inevitablement, les estimacions [puntuals] fallen o, millor dit,

com depenen de la mostra que “ens ha tocat”, fluctuen (encara que usualment tan sols observem un valor)

Les 2 obsessions de l’Estadística són:

- minimitzar

- quantificar

Per exemple, l’error tipus o típic informa de l’error esperat a l’equiparar el valor de

l’estimador obtingut en l’estudi amb el valor del paràmetre poblacional. Noti que l’error exacte en una mostra concreta roman desconegut, podent ser inferior o

superior que l’error típic o esperat.

els errors d’estimació

Com l’estimador és “qualsevol” estadístic que s’utilitzi amb fins inferencials,

hem de definir les propietats que permeten definir els “millors”.

INCERTESA DE L’ESTIMACIÓ PUNTUAL

B4_Inf 10

Propietats desitjables dels estimadors: 1) No tenir biaix (= sesgo, bias)

Biaix és la diferència entre el centre de la distribució del

estimador [E( )] i el valor del paràmetre a estimar [θ].

BIAIX = E( ) - θ

Un estimador del paràmetre θ és NO esbiaixat si BIAIX=0

2) Ser Eficient

Entre dos estimadors NO esbiaixats,

es diu que és més eficient el que té

una variància menor.

(Estadística per a enginyers informàtics. Ed UPC pgs.26-28 Ref: Eei.Ed.UPC pgs 44-47)

B4_Inf

Max

2 4 6 8

0.0

0.5

1.0

1.5

2Mean

2 4 6 8

0.0

0.1

0.2

0.3

0.4

2Median

2 4 6 8

0.00

0.05

0.10

0.15

0.20

0.25

0 1 2 3 4 5 6

0.00

0.05

0.10

0.15

0.20

0.25

0

X

f(x)

T=max(X)

Exemple: estimar el límit superior θ d’una llei uniforme, amb mínim zero

Tenim una mostra de 10 observacions. Què prenem?

a) el valor més gran

b) el doble de la mitjana

c) el doble de la mediana

Distribució teòrica

θ

θ

θ

θ

B4_Inf 12

El T.L.C. estableix que, si s’agafen mostres de grandària n d’una població de

mitjana µ i desviació típica σ, a mesura que creixi n, la distribució de la mitjana

mostral s’aproxima a la d’una normal de mitjana µ i desviació típica σ/√n.

TEOREMA DEL LÍMIT CENTRAL (repàs)

nX

nX

¿Quina grandària ha de tenir n per a que es compleixi el TLC?

Depèn.

Si X ~ N ⇒ ~ N ∀n,

Les combinacions lineals de normals i.i.d. sempre

són normals.

Si X és quantitativa ⇒ ~ N si n > 30

Com més s’assembli X a la normal abans passarà

aquesta similitud.

nX

nX

B4_Inf

Notació: Aquell a tal que FZ(a)=P(Z<a)=α l’indicarem per zα

(zα és el punt en una N(0,1) fins el qual s’acumula α probabilitat: percentil “alfa”) Per exemple: -1.960 = z0.025 1.960 = z0.975 1.645 = z0.95 Es compleix que: zα = - z1-α zα/2 = - z1-α/2

13

0.025 0.025

Recordeu: l’estadístic segueix la distribució N(0,1) n

xz/

)(σ

µ−=

B4_Inf

X ~ N(100µs, 10µs)

~ N(100µs, 10/√9 µs) = N(100µs, 3’33µs)

~ N(100µs, 10/√100 µs) = N(100µs, 1µs)

14

Com afitar un interval que conté la mitjana d’una mostra de mida n amb probabilitat donada

Situació: El temps d’execució d’un algoritme X segueix una N(100µs, 10µs).

Plantegem les distribucions de les v.a.: X , i

Calcularem, per n=9 i per n=100, els intervals amb probabilitats grans (95%)

d’assegurar que les possibles hi pertanyeran

(i deixin fora només una petita proporció “alfa”: 0.05 o 5%).

Distribucions:

x

9X 100X

9X

100X

B4_Inf 15

(Els límits v, w dels intervals els podem calcular utilitzant

les taules de N(0,1): z0’975 =1’96 z0’025 =-1’96)

Rang que conté el 95% de les execucions de l’algoritme

X v,w = µ ± z0,975 σ = 100 ± 1.960 ·10 = 100 ±19.60 = [80.40, 119.60]

Rang que conté el 95% de les n=9 de les infinites mostres de n=9 execucions.

n=9 v,w = µ ± z0,975 σ/√n =

Rang que conté el 95% de les n=100 de les infinites mostres de n=100 execs.

n=100 v,w = µ ± z0,975 σ/√n =

Representació esquemàtica:

100 ± 1.96·10/3 = 100 ± 6.53 = [93.47, 106.53]

100 ± 1.96·10/10 = 100 ± 1.96 = [98.04, 101.96]

X

X

X

X

B4_Inf 16

Hem vist que sabem calcular un “interval” que contingui a partir de E(X)=µ

Però el problema real és: calcular interval per µ, coneixent (passar d’un interval per a la mitjana mostral a un per a la mitjana poblacional µ )

ESTIMACIÓ PER INTERVAL

A partir d’una probabilitat 1- α entre dos valors a i b (simètrics): (amb σ coneguda)

ασ

µσ

µσ

µ−=

≤−

≤− 1

n

b

n

X

n

aP n ασµ

αα −=

≤−

≤ − 1212 z

n

XzP n

obtenim l’interval de la v. a.

amb probabilitat 1-α ασµσµ αα −=

+≤≤+ − 1212 n

zXn

zP nnX

I reordenant obtenim

l’interval de confiança

1-α del paràmetre µ

ασµσαα −=

+≤≤+ − 1212 n

zXn

zXP nn

( ) α−=≤≤ 1bXaP n

xx

x

B4_Inf 17

ασµσαα −=

+≤≤+ − 1212 n

zXn

zXP nn

Si 1-α és 95% (α=5%): ¡ el 95% dels intervals (IC) contindran E(X)=µ !

significa que amb una

confiança de 1-α podem assegurar que E(X)=µ estarà en el rang calculat.

Notem IC(μ, 1-α) a l’INTERVAL DE CONFIANÇA 1- α de μ, i l’expressem:

nzxIC σµ αα 21)( 1 , −±=−

Atenció: nosaltres només observarem una mostra, i no sabrem si l’IC trobat conté o

no μ, però sí sabem que aquest procediment a la llarga encerta el 100(1-α)%.

(tenint en compte que zα/2 = -z1-α/2 )

B4_Inf

Comprovació, amb 50 mostres de mida 9

18

Amb un IC determinat (p.ex., [985, 1004]), digueu “tenim un alt grau de confiança (i.e., 95%) de que el paràmetre es troba entre aquest dos valors”,

però no és correcte parlar de

probabilitat 95% que el paràmetre estigui entre els dos valors trobats, perquè el paràmetre no es considera un element aleatori. Serà desconegut, però no és incert!

B4_Inf 19

Interval de Confiança de µ=E(X) amb σ coneguda

Així doncs, l’interval de confiança 1-α de µ (amb σ coneguda) és:

(recordeu que ens basem en el TCL i perquè es complís calia que la variable X inicial

fos Normal o que n fos més gran de 30)

Per tant, els requisits per realitzar aquest càlcul són: n>30 o X→N

EXEMPLE: Una embotelladora d’ampolles de litre té una dispersió de σ=10cc.

En una mostra a l’atzar de n = 100 ampolles d’aquesta màquina, la mitjana

observada ha sigut = 995cc. Construir un interval de confiança del 95% de µ.

IC(µ, 0.95) = ± z1-α/2 σ/√n =

nzxIC σµ αα 21)( 1 , −±=−

x

x

= 995 ± 1.96·10/√100 = 995 ± 1.96 = [993.04, 996.96]

B4_Inf 20

EXERCICIS:

1) La glicèmia en mmol/L té una desviació típica de σ = 1 en una mostra de

n= 9 pacients, la mitjana = 5.

IC (µ, 0.95) = ± z1-α/2 σ/√n = 5 ± 1.96 · 1/√9 ≈ 5 ± 0.653 ≈ [4.35, 5.65] Creiem, amb una “força” del 95%, que l’autèntic valor poblacional es troba entre aquests límits

2) Sense canviar la confiança, com podríem reduir l’interval a la meitat?

IC (µ, 0.95) = ± z1-α/2 σ/√n

3) Calculeu l’ IC amb una confiança del 99%

IC (µ, 0.99) = ± z1-α/2 σ/√n =

xx

x

x

ATENCIÓ: Per estimar µ necessitem conèixer σ → situació molt particular

5 ± 2.576 · 1/√9 ≈ [4.14, 5.86]

1.96 · 1/√n = 0.653/2 → n≈36 (n ha de ser 4 vegades major)

ATENCIÓ: quan n augmenta la precisió dels IC augmenta (interval més estret) Si augmenta la confiança (disminuint el risc α d’error), la precisió dels IC disminueix

(interval més ample)

B4_Inf 21

Mecànica de la construcció de l’ I.C.

Passos ESQUEMA SOLUCIÓ

1

Definir l’estadístic a ser utilitzat

Especificar la seva distribució

Indicar les condicions o premisses necessàries

Delimitar el nivell de confiança (usualment 1-α=95%)

2 Calcular l’interval

3 Interpretar el resultat

B4_Inf

Interval de Confiança de µ=E(X) amb σ desconeguda

Si desconeixem σ, la podem substituir per S, però llavors l’estadístic

passa a ser que és el quocient de 2 v.a. i ja no es pot ns

x/

)( µ− nxz

/)(

σµ−

=

suposar que segueix una distribució N(0,1).

Tal com diu el pas 2 de la mecànica de construcció de l’IC, cal conèixer la llei de probabilitats que segueix l’estadístic. En aquest cas, es tracta d’una nova distribució que s’anomena ‘t de Student’ (i que es treballarà al laboratori).

Per aquest estadístic, la distribució de probabilitat concreta és tn-1 (n-1 graus de llibertat). Els percentils es poden trobar a taules específiques, o amb R. Així doncs, l’interval de confiança 1-α de µ (amb σ desconeguda) és:

nstxIC n 21,1)( 1 , ααµ −−±=−

ATENCIÓ: la situació de no conèixer la σ de la població és més freqüent

22

B4_Inf color gris Indica IC secundari

TCL: X1,…, Xn i.i.d. (n→∞), amb E(Xi )=µ i V(Xi )=σ2 , llavors =∑ =

nXn

i i1 )/,( 2 nNX n σµ≈ ( i també ),( 21

nnNXn

i i σµ≈∑ =

Estadístic mitjana mostral ( x ): )1,0()(

2N

nx

≈−

σ

µ 12

)(−≈

−nt

nsx µ

on nxx n

i i∑ ==

1

Estadístic variància mostral ( 2s ): 212

2 1−≈

−n

ns χσ

on ( ) ( )

11

)(

1

2

1

1

22

1

2

1

2

2

−=

−=

−=

∑∑∑∑ =

===

nn

xx

n

xnx

n

xxs

n

i in

ii

n

ii

n

ii

Paràmetre Estadístic Premisses Distribució Interval de Confiança 1-α (Risc α)

µ nxz

2

)(ˆσ

µ−=

[ X → N ò n ≥ 30 ]

i σ coneguda z → N(0,1) )(

2

2/1 nzx σµ α−±∈

µ nsxt

2

)(ˆ µ−= X → N t → t n-1 )(

2

2/1,1 nstx n αµ −−±∈

µ nsxz

2

)(ˆ µ−= n ≥ 100 z → N(0,1) )(

2

2/1 nszx αµ −±∈

σ (normal) 2

22 )1(ˆ

σ−

=nsX X → N x2 → χ2

n-1

−−∈

−−−2

2/,1

2

22/1,1

22 )1(,)1(

αα χχσ

nn

nSnS

π (Binomial

) n

pz)1()(ˆ

πππ

−−

= (1-π)n ≥ 5 πn ≥ 5 z → N(0,1)

))ˆ1(ˆ( 2/1 n

zP πππ α−

±∈ −

5'0ˆˆ == ππ oP

λ (Poisson) λ

λ)(ˆ −=

Lz λ ≥ 5 z → N(0,1) )( 2/1 LzL αλ −±∈

Formulari : Propietats de les mostres i Intervals de Confiança

23

B4_Inf 24

[ mean(nterm)-qz(0.975)*sigma/sqrt(n), mean(nterm)+qz(0.975)*sigma/sqrt(n) ]

EXEMPLE:

En 9 dies consecutius s’ha observat el nombre de terminals en una Universitat connectats a internet: 587,470,676,451,436,672,584,697 i 408. (nterm <- c(587,470,676,451,436,672,584,697,408))

(recordem que havíem calculat les estimacions puntuals: )

Una estimació per interval IC al 95% de confiança de la mitjana poblacional, assumint que la desviació poblacional val 100:

[488.11; 618.78]

[467.58 ; 639.31]

Una estimació per interval IC al 95% de confiança de la mitjana poblacional, sense assumir coneguda la desviació poblacional:

I interval IC al 99% de confiança:

I interval IC al 99% de confiança:

[465.74; 641.15

[425.83 ; 681.06]

IC (µ, 0.95) =

IC (µ, 0.99) =

IC (µ, 0.99) =

IC (µ, 0.95) =

444.553=x 099.114=s

[ mean(nterm)-qz(0.995)*sigma/sqrt(n), mean(nterm)+qz(0.995)*sigma/sqrt(n) ]

[ mean(nterm)-qt(0.975,8)*sd(nterm)/sqrt(n), mean(nterm)+qt(0.975,8)*sd(nterm)/sqrt(n) ]

[ mean(nterm)-qt(0.995,8)*sd(nterm)/sqrt(n), mean(nterm)+qt(0.995,8)*sd(nterm)/sqrt(n) ]

B4_Inf

Hem vist que, si desconeixem σ, s’ha de substituir per s. Però:

? nsμX ~

2

− És, ara, el quocient de 2 v.a. Quina distribució segueix?

Anem a definir més formalment la distribució tn-1, i també una altra (χ2, khi quadrat) amb la que està relacionada.

DISTRIBUCIONS DERIVADES DE LA NORMAL

Hem vist que la ‘z’ canvia per una nova distribució ‘tn-1’ en el càlcul de l’IC:

nstxIC n 21,1)( 1, ααµ −−±=−

(1-α és la confiança, i α és el risc)

(“Distribucions originades pel mostreig” a Estadística per a enginyers informàtics. Ed UPC pg 58)

25

B4_Inf 26

Distribució χ2 (Ji ó Khi quadrat)

Sigui X ~N(0,1),

llavors X2 ~ χ2 amb 1 grau de llibertat: χ21

Siguin X1 , X2 , ... , Xn n v.a. N(0,1) independents,

llavors X12 + X2

2 + ... + Xn2 ~ χ2

n

(amb “n” graus de llibertat)

Exemples:

Proveu el script de la khi quadrat ‘Chi2: comprovar és suma de n normals Z al quadrat (i que depèn de n)’

B4_Inf

n

xni i∑ ,1

22

)-(==

µσ

=

)-(

2

,1=2

2

2∑

σn

μx

nσσ

nni i

2,1

2

2,1

2

~ -)-(∑∑

nniini i xx

χσ

µσ

µ=

=

==

===

2

,12

2

21-

)-(

)1-()1-(∑

σσn

xx

nsnni i

21-1-

2

,12,1

2

~ -)-(∑∑

nnniini i

Yxxxxχ

σσ=

=

=

=

Llavors si Xi →N

De forma similar,

(podrem relacionar la distribució amb s2 per definir IC de σ2, tal com fem amb les distribucions Z i tn-1 amb per definir IC de µ)

Distribució de l’estadístic/estimador s2

21-nχ

¡ Coneixem la distribució de s2 !

x

27

B4_Inf 28

Distribució “t” DE STUDENT

-4 -3 -2 -1 -0 1 2 3 4

NormalT Student

Siguin dues v.a. independients :

Z ~ N(0,1),

Yn ~ χ2n

Llavors

Z / √ (Yn/n) ~ tn En el límit lim tn→∞ ~ N(0,1) (a la pràctica, n > 30) EXERCICI: proveu el script de la t de Student ‘t: comprovar és rati entre: Z, i sqrt(chi2_n / n) (i que depèn de n)’

B4_Inf 29

=

−=

∑ =

2

,12

1)(

σn

xxZ

ni i

==

=−

=

2

2

2

2

2

2

σσ

σµ

µsZ

nns

nX

nsXt

1

2,1

2~

1

1

)(−

= −

=

−=

∑n

ni i

tn

YZ

n

xxZ

σ

Distribució del quocient informació/soroll utilitzant S en lloc de σ

¡ Coneixem que el quocient informació/soroll segueix una ‘t’ de Student !

Observeu que es requereix la normalitat de cada X

B4_Inf

Premisses (o hipòtesis prèvies / requisits / condicions d’aplicació)

Per garantir el nivell de confiança de l’IC, s’han de complir les condicions: • Si sigma és coneguda, la mitjana mostral ha de ser Normal ( ~ N) • Si sigma no és coneguda, la variable observada ha de ser Normal (X ~ N)

– És més exigent, (amb una mostra prou gran la mitjana pot ser Normal encara que la variable original X no ho sigui)

– Amb grans mostres la variació de s serà limitada (s estima molt bé σ ), i podem considerar que ( – μ)/(s/√n) ≈ ( – μ)/(σ/√n) ≈ N(0,1)

x

Dist. de referència si… σ Coneguda σ desconeguda

X Normal Normal sempre t de Student sempre

X no Normal Normal si n gran

(n ≥ 30) Normal si n +gran

(n ≥ 100)

30

IC (μ, 1-α) de l’esperança µ

x x

I, per suposat, l’origen de la mostra ha de ser aleatori (v.a.i.i.d)

B4_Inf 31

Sigui X ~ B(n,π): E(X) = π·n

V(X) = π·(1-π)·n

Sigui P = X/n → E(P) = E(X/n) = E(X)/n = π·n / n = π

V(P) = V(X/n) = V(X)/n2 = π·(1-π)·n/n2 = π·(1-π)/n

Per construir l’ IC es pot recorre a la convergència de la B a la Normal:

Requisit: n gran i π no extrema [π·n ≥ 5 y (1-π)·n ≥ 5 ]

IC (π, 1-α) de la probabilitat π en una Binomial

nzPzPIC P /)1()1 ,( 2/121 ππσαπ αα −±=±=− −−

→ nP )1(,N πππ

Així, l' interval de confiança s’assemblaria al de µ:

Es a dir, sabem que σp = √[π·(1-π)/n]

B4_Inf

La paradoxa de que necessitem conèixer π per estimar π, es soluciona:

a) Substituint π per P

b) Amb el màxim de π·(1-π)

EXEMPLE:

Llencem 100 vegades una moneda a l’aire i observem 56 cares (P=0.56).

Les dues solucions per l’IC segons com estimem π:

IC (π, 0.95) = P ± z1-α/2 √[P·(1-P)/n] =

IC (π, 0.95) = P ± z1-α/2 √[0.5·0.5 /n] =

0.56 ± 1.96 √[0.56·0.44 /100] ≈ 0.56 ± 0’10

= [0.46, 0.66]

0.56 ± 1.96 √[0.52 /100] ≈ 0.56 ± 0’10

= [0.46, 0.66]

32

nzPIC /5.0)1 ,( 22/1 ααπ −±=−

nPPzPIC /)1()1 ,( 2/1 −±=− −ααπ

B4_Inf 33

Hem vist que: sempre que Xi ~ N (prerequisit) Per tant:

21-n2

2

χσs1)-(n ~

= )χ≤

σ1)-(ns≤(χPα-1 2

2α-11,n2

22

2α1,-n

= )

χ1≤

1)-(nsσ≤

χ1(Pα-1 2

2α1,-n2

2

22α-11,-n

= )

χ1)-(ns≤σ≤

χ1)-(ns(Pα-1 2

2α1,-n

22

22α-11,-n

2

IC (σ², 1-α) de la variança σ2 en una Normal

És a dir:

−−=−

−−−2

2/,1

2

22/1,1

22 )1(,)1()1 ,(

αα χχασ

nn

nsnsIC

Nota: no és un interval simètric, ja que la distribució no ho és. Això implica calcular dos valors en la distribució en lloc de fer ± .

B4_Inf 34

EXEMPLE: En les 25 execucions d’un mateix programa s’ha observat una

variabilitat s2=82.

Resultat: IC(σ2, 0.95) =

=

= 2

2,1-

2

22-1,1-

22 )1-(,)1-()95.0 ,(

αα χχσ

nn

nsnsIC

39.02 ≤σ ≤123.86:dir a és,364.39)1-25(8,401.12

)1-25(8 222

=

86.123 ≤ ≤02.39:ara,401.12)1-25(8,364.39

)1-25(8 222

σ

=

Malament!

IC(σ, 0.95) =

[39.02; 123.86]

[6.25; 11.13]

Ara sí

B4_Inf

PROVES D’HIPÒTESIS (PH)

EXEMPLE: Afirmo que encerto el 80% dels meus tirs lliures a basket, i un amic em posa a prova. Dels 20 tirs, solament faig 8. “Fuà! Algú que encerta un 80% gairebé mai faria 8 de 20; així que no em crec la teva afirmació”.

El raonament de l’amic es basa en demanar-se què passaria si l’afirmació fos certa i es repetís la mostra de 20 tirs moltes vegades. Segurament poques vegades encertaria un nombre tan baix com 8. Un resultat com aquest és tan poc freqüent que aporta certa evidència per rebutjar la meva afirmació.

De fet, aquesta evidència es pot quantificar:

Es a dir, si jo fos tan bo, solament 1 de cada 10000 vegades obtindria una puntuació tan nefasta (o pitjor).

Dos opcions: o he tingut mala sort o l’afirmació era falsa!

The Basic Practice of Statistics. David S. Moore. 4th Ed.

Sigui M = nº encerts: M ~ B(20, 0.8) → P(M ≤ 8) = 0.000102

35

B4_Inf

El raonament de les PH

Al igual que amb els IC, hem de pensar com si l’experiència es pogués repetir un gran nombre de vegades.

Però ara no volem l’IC que contengui el paràmetre, ara partim d’una afirmació (una hipòtesi de partida, o nul·la), i volem estudiar si les dades proporcionen proves en contra seu.

Una repetició intensa (una mostra infinita = la població) seria definitiva.

Però, amb una mostra finita, quina informació aporten les dades?

Nota:

Formalment, es distingeix entre les proves de Fisher (per aportar coneixement o evidencia o inferència) i els contrastos de Neyman-Pearson (per minimitzar els errors al prendre decisions). Els primers son rellevants per la Ciència (p.e., la Física) i els segons per la Tècnica (p.e. la Arquitectura). Però en aquest curs no distingirem i ho englobarem tot sota Proves de Hipòtesi PH).

Read more in: http://onlinestatbook.com/chapter9/significance.html

36

B4_Inf

El raonament de les PH (2)

La hipòtesi nul·la (H0) es planteja formalment amb un paràmetre (o varis). El paràmetre en qüestió pren un valor que representem:

H0: π = 0.80

π representa la probabilitat poblacional d’encertar un tir lliure, i volem comprovar si aquest valor és coherent amb les observacions.

Al igual que amb els IC, la mostra es concentra en un estadístic, que segueix una distribució de probabilitat coneguda si s’assumeix certa la H0.

Addicionalment a H0 afegim la hipòtesi alternativa H1, que pot ser totalment complementària a la nul·la (enfoc bilateral), o parcialment (unilateral):

H1: π ≠ 0.80 H1: π < 0.80

H1 determina el(s) sentit(s) més oposat(s) a H0: per exemple, el nombre de encerts a la canasta és l’estadístic, i si H1 fos “≠“ serien sospitosos tant els nombres d’encerts que van cap a 0 com els que van cap a 20. Si H1 fos “<“ serien sospitosos només els que van cap a 0 (que és el que hem pres, donat que el meu amic no confia molt en les meves habilitats).

37

B4_Inf

2’6 -2’6

P, o p-valor, és la probabilitat de, sota H0, obtenir resultats igual o més extrems que el observat.

Exemple, estadístic Z ~ N(0,1) valor observat amb la mostra: z = 2.6, bilateral P(Z<-2.6)= 0.0047 i P(Z>2.6) = 0.0047

P(|Z|>|z|)= 2 x 0.0047 = 0.0094 ( Taules: 2*(1-0.9953) ; R: pnorm(-2.6)+(1-pnorm(2.6)) )

P = P(v.a. Z “més lluny” de H0 que el valor observat z )

RECORDEU: “sota H0” = suposem (‘temptativament’) que és cert que els paràmetres poblacionals valen el que diu H0

38

P-valor

B4_Inf

1

0 0.01 0.05

0.1 Evidència contundent

Evidència important

Evidència dèbil

Absència d’evidència (no hi ha motius per oposar-se a H0)

P-v

alor

La qualificació del grau d’evidència, representat pel P-valor, varia radicalment en la part inferior de l’escala: noteu la diferència entre 0.01 i 0.0001 !!

39

B4_Inf

i. Escollir una variable segons els objectius de l’estudi

ii. Escollir un disseny i un estadístic iii. Definir una hipòtesi H0 que es vol posar a prova, enfront una

hipòtesi alternativa H1

iv. Especificar la distribució de l’estadístic si H0 fos certa (i les premisses adients)

v. Amb les dades de l’experiment, calcular el valor de P vi. Si P és petit, rebutjar H0 vii. Afegir l’estimació per interval IC(1-α)

40

Resolució de PH

Problema: què vol dir “Si P és petit”?

A. Valorar el cost que representa una conclusió equivocada (un exemple al llibre d’Ed. UPC)

B. Definir un llindar arbitrari per fixar què es considera petit

B4_Inf

Mecànica (operativa) de la resolució de PH

i. Escollir una variable segons els objectius de l’estudi ii. Escollir un disseny i un estadístic iii. Definir una hipòtesis H0 per posar a prova, i una H1

alternativa iv. Especificar la distribució de l’estadístic si H0 fos certa (i les

premisses adients); definir el risc α, usualment 0.05

v. Amb les dades, calcular el valor de P

vi. Si P < α rebutjar H0 (H0 és poc versemblant)

v. Amb les dades, calcular el valor de l’estadístic (z)

vi. Si z > z(α) rebutjar H0 (H0 és poc versemblant)

vii. Afegir l’estimació puntual i per interval IC(1-α)

Nota: les dues branques són equivalents

41

B4_Inf

EXEMPLE (bis)

3.0 -3.0

També es poden trobar els límits d’una regió crítica:

• Bilateral: a l’esquerra de zα/2 (-1.96), i a la dreta de z1-α/2 (1.96)

• Unilateral, per l’esquerra: per sota de zα (-1.645)

per la dreta: per sobre de z1-α (1.645)

Si l’estadístic cau a la regió crítica, llavors la hipòtesi nul·la és dubtosa.

Noteu que no és fàcil qualificar el grau d’evidència que les dades aporten: és un criteri que simplifica el procés a rebutjar/no rebutjar

42

B4_Inf

=997, s =10 i n=100. Podem pensar que la mitjana poblacional és 1000? i) Variable: contingut en envasos de 1000cc ii) Estimador: mitjana mostral. Estadístic: ( - µ) / (s/√n) iii) H0 : µ = 1000cc H1 : µ ≠ 1000cc iv) L’estadístic ( - µ) / (s/√n) sota H0 es distribueix N(0,1), ja que n = 100; α = 5%

v) Càlculs: = ( - µ) / (s/√n) = (997-1000) / (10/√100) = 3

P = Prob [(|z| > |-3|)] = 0.0027 (p-valor)

(Taules: 2*(1-0.9987) ; (R: pnorm(-3)+(1–pnorm(3)) )

vi) Conclusió: com que P és menor que α, es rebutja µ=1000cc

Conclusió pràctica: ens estan estafant!

vii) IC(µ,0.95) = ± z0’975 s/√n =

43

= 997 ± 1.96 · 10/√100 ≈ 997 ± 1.96 = [995.04; 998.96]

EXERCICI: (1) Si en el cas d’una embotelladora de 1 litre tenim: x

x

x

z

x

x

z

B4_Inf

=997, s =10 i n=100. Podem pensar que la mitjana poblacional és 1000? i) Variable: contingut en envasos de 1000cc ii) Estimador: mitjana mostral. Estadístic: ( - µ) / (s/√n) iii) H0 : µ = 1000cc H1 : µ ≠ 1000cc iv) L’estadístic ( - µ) / (s/√n) sota H0 es distribueix N(0,1), ja que n = 100; α = 5%

v) Càlculs: = ( - µ) / (s/√n) = (997-1000) / (10/√100) = 3

z0.025 = -1.96; z0.975 = 1.96

(R: qnorm(0.025) i qnorm(0.975) )

vi) Conclusió: com no pertany [-1.96, 1.96], es rebutja µ=1000cc

Conclusió pràctica: ens estan estafant!

vii) IC(µ,0.95) = ± z0.975 s/√n =

44

= 997 ± 1.96 · 10/√100 ≈ 997 ± 1.96 = [995.04; 998.96]

EXERCICI (2): Si en el cas d’una embotelladora de 1 litre tenim: x

This image cannot currently be displayed.

x

z

x

x

B4_Inf 45

Formulari : Proves d’hipòtesis

Paràmetre Hipòtesi Estadístic Premisses Distribució

sota H

Criteri Decisió

(Risc α)

µ H : µ = µ0 nyz

20 )(ˆ

σµ−

= Y→N ò n≥30

i σ coneguda z → N(0,1)

Rebutjar H si | z | > z1-α/2

(|z|>1.96 amb α=5%)

µ H : µ = µ0 nsyt

20 )(ˆ µ−

= Y → N t → t n-1 Rebutjar H si

| t | > t n-1,1-α/2

(| t^ | > t n-1,0.975 amb α=5%)

µ H : µ = µ0 nsyz

20 )(ˆ µ−

= n ≥ 100 z → N(0,1) Rebutjar H si | z | > z1-α/2

(|z|>1.96 amb α=5%)

π

(Binomial) H : π = π0 n

pz)1()(ˆ

00

0

πππ

−−

= (1-π0)n ≥ 5

π0n ≥ 5 z → N(0,1)

Rebutjar H si | z | > z1-α/2

(|z|>1.96 amb α=5%)

Anexe: λ

(Poisson) H : λ = λ0

0

0 )(ˆλλ−

=fz λ0 ≥ 5 z → N(0,1)

Rebutjar H si | z | > z1-α/2

(|z|>1.96 amb α=5%)

σ

(normal) H : σ = σ0 2

22 )1(ˆ

σ−

=nsX Y → N x2 → χ2

n-1

Rebutjar H si

x2 < χ2n-1,α/2

o x2 > χ2n-1,1-α/2

En les proves unilaterals s’acumula el valor de P-valor a un sol costat: H:µ ≤µ0 → Rebutjar H si z > z1-α

H:µ ≥µ0 → Rebutjar H si z < - z1-α

B4_Inf

Si σ és desconeguda, l’estadístic de referència és ( - µ) / (S/√n)

Que, sota H0, tindrà:

- distribució N, si la grandària mostral es suficient

( - µ) / (s/√n) ~ N(0,1) si n ≥ 100

- distribució t Student ‘n-1’, si la variable estudiada X es N

( - µ) / (s/√n) ~ tn-1 si X ~ N

46

PH sobre l’esperança μ

x

x

x

B4_Inf

i) Variable: ii) Estadístic: iii) H0:

iv) Distribució de l’estadístic:

v) Càlculs:

vi) Conclusió:

Conclusió pràctica:

vii) IC(µ,0.95)=

47

EXERCICI: En 9 fitxers, la diferencia D entre els temps d’execució de dos programes de compressió de fitxers ha estat de mitjana 6.71 i desviació 6.00. Acceptant que D ~ N, ¿es pot acceptar que E(D)=µ=0? (és a dir, acceptar que els dos compressors tarden el mateix en mitjana?)

µ = 0 H1: µ ≠ 0

D (diferència de temps)

sota H0, és tn-1 (i amb la premissa que

D és normal); α = 5%

)//()( nsdt µ−=

P = P (|t| > |3.355|) = 0.01 355.3)9/6/()071.6( =−=t

es rebutja E(D)=µ=0 ja que el p-valor (0.01) és < α

no tarden el mateix

6.71 ± 2.306 · 6.0/√9 ≈ 6.71 ± 4.61 = [ 2.1; 11.3 ]

(R: t.test( ) )

(R: pt(-3.355)+(1–pt(3.355)) )

B4_Inf

En el exemple anterior del basket, amb n=20, i) Variable: resultat cada tir (canasta o no) ii) Estadístic: nombre de encerts X iii) Hipòtesi H0 : π = 0.80 (sóc un magnífic tirador) Hipòtesi H1 : π < 0.80 (no sóc tan bo)

iv) Si H0 es certa: X ~ B(n, π) = B(20, 0.80)

Premisses: mostra de tirs independents, amb la mateixa probabilitat d’encert

Si n és gran (i π lluny de 0 i de 1), pot ser més simple utilitzar l’aproximació de la Binomial a la Normal (en aquest cas, treballem amb P=X/n enlloc de X):

iv) Si H0 es certa: P ≈ N(π, π(1- π)/n) (No s’aplicaria en l’exemple)

Premissa addicional: com a indicació, n·π > 5 i n·(1-π) > 5

48

PH d’una probabilitat π

B4_Inf

SITUACIÓ A: n=20 tirs i 8 encerts v) x = 8

P = P (X més lluny de H0 que x ) = 0.0001 (recordeu: unilateral)

vi) SÍ, hi ha (forta) evidència en contra de H0: π=0.80 vii) L’obtenció de l’IC quan la n és petita no és simple, però es pot trobar

amb la instrucció de R binom.test(). En aquest exemple val [0, 0.61]: si la mostra és petita obtindreu intervals molt amples!

SITUACIÓ B: n=100 llençaments d’una moneda, i 63 cares v) P=63/100=0.63=63%

^

49

z = P = vi) vii)

P (Z més lluny de H que z ) = 0.0094 (aquí, bilateral)

(P-π) / √[π·(1-π)/n] = (0.63-0.5) / √[0.5·0.5)/100] = 0.13/0.05= 2.6

IC(π,0.95)= [0.53, 0.73]

SÍ hi ha (certa) evidència en contra de H0: π=0.5

B4_Inf

PH enfront IC

Sobre el valor del paràmetre π en la població:

PH fa una pregunta “tancada” ¿és π = 0.5 ?

IC fa una pregunta “oberta”: ¿quin es el valor de π ?

Donar els resultats sempre amb IC implica: Si es rebutja H0, dir on es troba el paràmetre Si no es rebutja H0, quantificar la informació de que es disposa L’IC proporciona informació més fàcil d’interpretar que el P-valor.

50

B4_Inf

Recordi El P-valor diu amb quina freqüència pot passar l’event de la mostra

quan la hipòtesi H0 és correcta. Si P-valor és petit → tenim evidència en contra de H0

Si P-valor no és petit, NO demostra la “veritat” de H0

P=0.000 → P<0.001. P-valor NO és la probabilitat d’ “haver-se equivocat” que la hipòtesi nul·la sigui certa d’haver rebutjat erròniament la hipòtesi nul·la

1−P-valor NO és la probabilitat que la hipòtesi alternativa sigui certa Trobeu més “Frequent misunderstandings” a wikipedia

51