Tema 5: Contrastes de hipótesis -...

51
Tema 5: Contrastes de hip´ otesis Estad´ ıstica Aplicada (Bioqu´ ımica). Profesora: Amparo Ba´ ıllo Tema 5: Contrastes de hip´ otesis 1

Transcript of Tema 5: Contrastes de hipótesis -...

Tema 5: Contrastes de hipotesis

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 1

Planteamiento del problema

Sea X una v.a. con distribucion de probabilidad dada por unmodelo parametrico cuya expresion matematica es totalmenteconocida a excepcion de algun parametro desconocido θ ∈ Θ.Sea X1, . . . ,Xn una muestra aleatoria de la poblacion X .

Objetivo: Dada una particion del espacio parametricoΘ = Θ0 ∪Θ1, deseamos decidir, en base a la muestra obtenida, siθ ∈ Θ0 o si θ ∈ Θ1. Queremos contrastar

H0 : θ ∈ Θ0 (hipotesis nula)

H1 : θ ∈ Θ1 (hipotesis alternativa)

Un test para contrastar estas dos hipotesis consiste en proporcionaruna regla de decision que, a cada posible observacion de lamuestra (x1, . . . , xn), le asigne una decision: aceptar o rechazar H0.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 2

Espacio muestral

(x1,...,x

n)

(x1,...,x

n)

Región críticao de rechazoR

Región deaceptación A

Rechazo H0

Acepto H0

TEST

Decisión

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 3

Posibles errores de un test:

Error de tipo I: Rechazar H0 cuando H0 es cierta.

Error de tipo II: Aceptar H0 cuando H0 es falsa.

La funcion de potencia de un test con region de rechazo R paracontrastar H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 es la funcion

Θ −→ [0, 1]θ 7−→ Pθ(R).

Lo que nos gustarıa:

ΘΘ

1

θ

Potencia = 1Potencia = 1

Potencia = 0

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 4

Lo que en realidad se hace (teorıa de Neyman-Pearson):

1. Acotar la maxima probabilidad de error de tipo I.

• Se fija un nivel de significacion α ∈ (0, 1). Tıpicamenteα = 0.05.• Se define el tamano de un test como la maxima

probabilidad de error de tipo I: maxθ∈Θ0

Pθ(R).

• Se busca una region de rechazo R tal que maxθ∈Θ0

Pθ(R) ≤ α.

2. Minimizar la probabilidad de error de tipo II. Se intentabuscar una region de rechazo R que maximice la funcion depotencia cuando θ ∈ Θ1.

Las hipotesis H0 y H1 no son simetricas.

Los test de hipotesis suelen ser conservadores con la hipotesis nula:hace falta mucha evidencia muestral para rechazar H0.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 5

Contrastes en poblaciones normales

Contrastes sobre la media µ de una poblacion normal

• Sea X1, . . . ,Xn una muestra de X ∼ N(µ, σ) con σ desconocido.

H0 : µ = µ0 R =

{(x1, . . . , xn) : |x − µ0| ≥ tn−1;α/2

s√n

}H0 : µ ≤ µ0 R =

{(x1, . . . , xn) : x − µ0 ≥ tn−1;α

s√n

}H0 : µ ≥ µ0 R =

{(x1, . . . , xn) : x − µ0 ≤ tn−1;1−α

s√n

}En todo contraste las regiones de rechazo se pueden expresar enterminos del estadıstico del contraste, una funcion de la muestracuya distribucion de probabilidad es (al menos aproximadamentepara n grande) totalmente conocida bajo la hipotesis nula H0 (o enla frontera entre H0 y H1, que es la situacion mas desfavorablepara decidir entre ambas hipotesis).

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 6

En los contrastes acerca de la media de una poblacion normal elestadıstico del contraste es el estadıstico t

t =X − µ0

S/√n,

que sigue una distribucion t de Student tn−1 si µ = E (X ) es iguala µ0. Por eso estos contrastes reciben el nombre de t-tests. Lasregiones de rechazo se pueden expresar de manera equivalente ası:

H0 : µ = µ0 R ={

(x1, . . . , xn) : |t| ≥ tn−1;α/2

}H0 : µ ≤ µ0 R = {(x1, . . . , xn) : t ≥ tn−1;α}H0 : µ ≥ µ0 R = {(x1, . . . , xn) : t ≤ tn−1;1−α}

Como hacer un contraste de la t con R:

help(t.test)

t.test(x, y = NULL,

alternative = c("two.sided", "less", "greater"), mu = 0,

paired = FALSE, var.equal = FALSE, conf.level =

0.95,...)

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 7

Ejemplo 5.1: Se certifica que un material estandar de referenciade un suelo contiene 94.6 ppm de un contaminante organico. Unanalisis repetido arrojo los siguientes resultados: 98.6, 98.4, 97.2,94.6 y 96.2 ppm. A un nivel de significacion α = 0.05 ¿haysuficiente evidencia estadıstica para concluir que los resultadosdifieren del valor esperado?. Si se disminuye α a 0.01, ¿serechazarıa H0?.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 8

Ejemplo 5.1 (cont.):

X = c(98.6, 98.4, 97.2, 94.6, 96.2)

t.test(X,alternative="two.sided",mu=94.6)

One Sample t-test

data: X

t = 3.2421, df = 4, p-value = 0.03161

alternative hypothesis: true mean is not equal to 94.6

95 percent confidence interval:

94.94468 99.05532

sample estimates:

mean of x

97

¡Que curioso! R no parece dar una solucion al problema delcontraste. ¿O sı? Presentemos el concepto de p-valor (pagina 31).

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 9

Relacion entre contrastes de hipotesis e intervalos deconfianza

La region de rechazo

R =

{(x1, . . . , xn) : |x − µ0| ≥ tn−1;α/2

s√n

}del anterior contraste

H0 : µ = µ0α

H1 : µ 6= µ0

equivale aR = {(x1, . . . , xn) : µ0 /∈ IC1−α(µ)} .

En general, en muchos casos de hipotesis nula simple (es decir, deltipo H0 : θ = θ0) el test usual rechaza H0 (al nivel de significacionα) si y solo si el intervalo de confianza para θ de nivel de confianza1− α no contiene al valor θ0.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 10

Contrastes sobre la varianza σ2 de una poblacion normal

• Sea X1, . . . ,Xn una muestra de X ∼ N(µ, σ) con σ desconocido.

H0 : σ = σ0 R =

{(n − 1)s2

σ20

/∈ (χ2n−1;1−α/2 , χ

2n−1;α/2)

}H0 : σ ≤ σ0 R =

{(n − 1)s2

σ20

≥ χ2n−1;α

}H0 : σ ≥ σ0 R =

{(n − 1)s2

σ20

≤ χ2n−1;1−α

}El estadıstico del contraste

χ2 =(n − 1)S2

σ20

=

∑ni=1(Xi − X )2

σ20

(X-squared en R)

sigue una distribucion χ2n−1 si σ2 = V (X ) es igual a σ2

0.

Para hacer este contraste con R hay que instalar el paqueteTeachingDemos. Primero pinchar en Install Packages:

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 11

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 12

En el cuadro de dialogo

escribir TeachingDemos en el hueco y pinchar en Install. Si elpaquete se instala correctamente, en la consola aparece:> install.packages("TeachingDemos")

Installing package(s) into C:/R/R-2.15.1/library

(as lib is unspecified)

probando la URL ’http://cran.es.r-project.org/bin/windows/contrib/2.15/

TeachingDemos_2.9.zip’

Content type ’application/zip’ length 772933 bytes (754 Kb)

URL abierta

downloaded 754 Kb

package TeachingDemos successfully unpacked and MD5 sums checked

The downloaded binary packages are in

C:\usuarios\AppData\Local\Temp\Rtmp00ZpFR\downloaded_packages

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 13

Luego hay que “cargar” el paquete instalado, marcandolo en lalista de paquetes disponibles:

Observemos que, al tratar de cargar el paquete, en la consolaaparece el aviso de que la version de R que el autor deTeachingDemos utilizo era mas moderna que la que yo utilizo.Esto no tiene por que suponer ningun problema, a menos que en elpaquete se utilicen funciones de la version mas reciente.

La funcion especıfica de TeachingDemos que utilizaremos essigma.test.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 14

Ejemplo 5.1 (cont.):X = c(98.6, 98.4, 97.2, 94.6, 96.2)

sigma.test(X)

One sample Chi-squared test for variance

data: X

X-squared = 10.96, df = 4, p-value = 0.05403

alternative hypothesis: true variance is not equal to 1

95 percent confidence interval:

0.9835518 22.6250622

sample estimates:

var of X

2.74

sigma.test(X,sigma=2,alternative="greater")

One sample Chi-squared test for variance

data: X

X-squared = 2.74, df = 4, p-value = 0.6022

alternative hypothesis: true variance is greater than 4

95 percent confidence interval:

1.155176 Inf

sample estimates:

var of X

2.74

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 15

Contrastes con dos poblaciones normales independientes

• Sean X1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras aleatoriasindependientes de X ∼ N(µ1, σ1) e Y ∼ N(µ2, σ2)respectivamente (σ1 y σ2 desconocidas). X e Y son v.a.independientes.

H0 : σ1 = σ2 R =

{s2

1

s22

/∈ (Fn1−1;n2−1;1−α/2,Fn1−1;n2−1;α/2)

}=

{1 /∈ IC1−α

(σ2

1

σ22

)}H0 : σ1 ≤ σ2 R =

{s2

1

s22

> Fn1−1;n2−1;α

}H0 : σ1 ≥ σ2 R =

{s2

1

s22

< Fn1−1;n2−1;1−α

}

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 16

Ejemplo 5.2: Un microbiologo desea averiguar si hay diferencia enel tiempo que tarda en producir yogur utilizando dos tipos debacterias: lactobacillus acidophilus (A) y bulgaricus (B). Seprepararon siete remesas de yogur con cada tipo de lactobacilo. Acontinuacion se muestra el tiempo (en horas) hasta que se produjocada remesa:

Cultivo A6.8 6.3 7.4 6.1 8.2 7.3 6.9

Cultivo B6.1 6.4 5.7 5.5 6.9 6.3 6.7

Suponiendo que la distribucion de ambos conjuntos deobservaciones se puede considerar normal, contrastar la hipotesisde homocedasticidad (igualdad de varianzas):

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 17

Ejemplo 5.2 (cont.):

A = c(6.8, 6.3, 7.4, 6.1, 8.2, 7.3, 6.9)

B = c(6.1, 6.4, 5.7, 5.5, 6.9, 6.3, 6.7)

var.test(A,B,ratio=1,alternative="two.sided",conf.level

=0.9)

F test to compare two variances

data: A and B

F = 1.9814, num df = 6, denom df = 6, p-value = 0.4259

alternative hypothesis: true ratio of variances is not

equal to 1

90 percent confidence interval:

0.462521 8.487957

sample estimates:

ratio of variances

1.981378

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 18

• Sean X1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras aleatoriasindependientes de X ∼ N(µ1, σ1) e Y ∼ N(µ2, σ2)respectivamente (σ1 = σ2 desconocida). X e Y son v.a.independientes.

H0 : µ1 = µ2 R =

{|x − y | ≥ tn1+n2−2;α/2 sp

√1

n1+

1

n2

}= {0 /∈ IC1−α(µ1 − µ2)}

H0 : µ1 ≤ µ2 R =

{x − y ≥ tn1+n2−2;α sp

√1

n1+

1

n2

}H0 : µ1 ≥ µ2 R =

{x − y ≤ tn1+n2−2;1−α sp

√1

n1+

1

n2

}donde

s2p =

(n1 − 1)s21 + (n2 − 1)s2

2

n1 + n2 − 2

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 19

El estadıstico del contraste

t =X − Y

Sp

√1n1

+ 1n2

sigue una distribucion tn1+n2−2 si µ1 = µ2. Podemos reexpresar lasregiones de rechazo ası:

H0 : µ1 = µ2 R ={|t| ≥ tn1+n2−2;α/2

}H0 : µ1 ≤ µ2 R = {t ≥ tn1+n2−2;α}H0 : µ1 ≥ µ2 R = {t ≤ tn1+n2−2;1−α}

Ejemplo 5.2 (cont.):

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 20

Ejemplo 5.2 (cont.):

t.test(A,B,alternative="two.sided",conf.level=0.95,var.

equal=TRUE)

Two Sample t-test

data: A and B

t = 2.3375, df = 12, p-value = 0.03755

alternative hypothesis: true difference in means is not

equal to 0

95 percent confidence interval:

0.05238216 1.49047498

sample estimates:

mean of x mean of y

7.000000 6.228571

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 21

• Datos emparejados: Sea (X1,Y1), . . . , (Xn,Yn) una muestraaleatoria de (X ,Y ) donde X e Y no son independientes, pero lospares (Xi ,Yi ), para i = 1, . . . , n, son independientes entre sı.

Denotemos E (X ) = µ1 y E (Y ) = µ2 y supongamos queD = X − Y ∼ N(µ = µ1 − µ2, σ). EntoncesD1 = X1 − Y1, . . . ,Dn = Xn − Yn es una muestra aleatoria de D.

Podemos realizar los siguientes contrastes de hipotesis basandonosen los tests de la pagina 6:

H0 : µ1 = µ2 ⇔ H0 : µ = 0

H0 : µ1 ≤ µ2 ⇔ H0 : µ ≤ 0

H0 : µ1 ≥ µ2 ⇔ H0 : µ ≥ 0

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 22

Ejemplo 5.3: Consideremos el contenido en colesterol de 6muestras de plasma sanguıneo humano medido con dos tecnicasdistintas.

Contenido de colesterol (g/l)Muestra

de plasmaMetodo A Metodo B Diferencia di

1 1,46 1,42 0,042 2,22 2,38 -0,163 2,84 2,67 0,174 1,97 1,80 0,175 1,13 1,09 0,046 2,35 2,25 0,10

El metodo B da un resultado menor que el metodo A en 5 de las 6muestras. ¿Es el metodo B sistematicamente diferente del A?

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 23

Contrastes para distribuciones no normales

Tests de nivel aproximado α (muestras grandes) para lamedia de cualquier distribucion

Sea X1, . . . ,Xn una muestra aleatoria de X con E (X ) = µ <∞ yV (X ) = σ2 <∞. Entonces, por el Teorema Central del Lımite,

X − µs/√n

aprox.∼ N(0, 1).

H0 : µ = µ0 R =

{(x1, . . . , xn) :

∣∣∣∣ x − µ0

s/√n

∣∣∣∣ > zα/2

}H0 : µ ≤ µ0 R =

{(x1, . . . , xn) :

x − µ0

s/√n> zα

}H0 : µ ≥ µ0 R =

{(x1, . . . , xn) :

x − µ0

s/√n< −zα

}Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 24

Contrastes sobre una proporcion p

Sea X1, . . . ,Xn una muestra aleatoria de una v.a. X∼Bernoulli(p).Suponemos que n es grande. Por el TCL sabemos que

Xaprox.∼ N

(p,

√p(1− p)

n

).

H0 : p = p0 R =

{|x − p0| > zα/2

√p0(1− p0)

n

}

H0 : p ≤ p0 R =

{x − p0 > zα

√p0(1− p0)

n

}

H0 : p ≥ p0 R =

{x − p0 < z1−α

√p0(1− p0)

n

}

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 25

Ejemplo 5.5: Most Like it Hot es el tıtulo de un informe publicadopor el Pew Research Center el 18 de marzo de 2009:www.pewsocialtrends.org/2009/03/18/most-like-it-hot/

El informe afirma “by an overwhelming margin, Americans want tolive in a sunny place”. La afirmacion se basa en una muestrarepresentativa de 2260 adultos estadounidenses. De estos, 1288dijeron que preferirıan vivir en un clima calido en lugar de en unclima frıo. ¿Proporcionan los datos suficiente evidencia estadısticade que la mayorıa de los estadounidenses adultos prefieren un climacalido frente a uno frıo? Utilizar un nivel de significacion α = 0.01.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 26

Ejemplo 5.5 (cont.):prop.test(1288,2260,p=0.5,alternative="greater",correct=FALSE)

1-sample proportions test without continuity correction

data: 1288 out of 2260, null probability 0.5

X-squared = 44.1841, df = 1, p-value = 1.495e-11

alternative hypothesis: true p is greater than 0.5

95 percent confidence interval:

0.552708 1.000000

sample estimates:

p

0.5699115

La correccion por continuidad anade un termino extra al estadıstico delcontraste para corregir el error cometido al aproximar una distribuciondiscreta (binomial) por una distribucion continua (normal). La correccionajusta la probabilidad del error de tipo I (que se “infla” al emplear laaproximacion normal cuando el tamano muestral es pequeno). Porejemplo, en el caso del contraste H0 : p = p0, la region de rechazo esR = {|z | > zα/2} donde el estadıstico del contraste es

sin correccion por continuidad con correccion por continuidad

z = x−p0√p0(1−p0)

n

z =|x−p0|− 1

2n√p0(1−p0)

n

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 27

Comparacion de dos proporciones

Sean X1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras de X ∼ Bernoulli(p1) eY ∼ Bernoulli(p2), v.a. independientes.

H0 : p1 = p2 R =

{|x − y | > zα/2

√p(1− p)

(1

n1+

1

n2

)}

H0 : p1 ≤ p2 R =

{x − y > zα

√p(1− p)

(1

n1+

1

n2

)}

H0 : p1 ≥ p2 R =

{x − y < z1−α

√p(1− p)

(1

n1+

1

n2

)}

donde p =

∑n1i=1 xi +

∑n2j=1 yj

n1 + n2=

n1x + n2y

n1 + n2.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 28

Ejemplo 5.6: Basandose en las propiedades bioquımicas del xilitol,un azucar obtenido de la madera de abedul, unos investigadoresfinlandeses creen que el uso regular de este edulcorante puedeprevenir las otitis en ninos menores de 5 anos. Se tomo unamuestra de 165 ninos que tomaron cinco dosis diarias de un jarabeplacebo y 68 de ellos tuvieron infeccion de oıdo. Otros 159 ninostomaron cinco dosis diarias de xilitol y 46 de ellos sufrieron otitisdurante el estudio. ¿Hay suficiente evidencia de que el xilitolreduce el riesgo de infeccion de oıdo?

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 29

Ejemplo 5.6 (cont.):

prop.test(c(68,46),c(165,159),p=NULL,alternative="greater",correct=FALSE)

2-sample test for equality of proportions without continuity correction

data: c(68, 46) out of c(165, 159)

X-squared = 5.3554, df = 1, p-value = 0.01033

alternative hypothesis: greater

95 percent confidence interval:

0.03637624 1.00000000

sample estimates:

prop 1 prop 2

0.4121212 0.2893082

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 30

El concepto de p-valor

Dado un test, definido para todos los niveles de significacionposibles, se define el p-valor, para unos datos prefijados, como elınfimo de los valores α para los cuales se rechaza la hipotesis nulaa un nivel de significacion α.

P(x1, . . . , xn) = ınf{α : H0 es rechazada al nivel α}.

Cuanto mas pequeno es el p-valor, mas evidencia estadısticaaportan los datos a favor de H1.

Los programas informaticos que realizan contrastes de hipotesis (R,SPSS, Excel, Matlab,. . . ) no realizan el contraste para un nivel designificacion α, sino que directamente nos dan el p-valor delcontraste.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 31

Comparacion de medias de mas de dos poblacionesnormales (analisis de la varianza)

El objetivo del Analisis de la Varianza es estudiar si existe relacionentre el valor medio E (Y ) de una variable respuesta ocaracterıstica, Y , y una variable cualitativa, atributo o factor.

Ejemplo 5.7: Algunas variedades de nematodos (gusanosmicroscopicos que viven en el suelo) se alimentan de las raıces deplantas variadas y cultivos. Este parasito es especialmenteabundante en climas templados y humedos y puede causar grandesestragos en la produccion agraria. Las plagas de nematodos sepueden tratar, por ejemplo, con nematicidas. Sin embargo, debidoal pequeno tamano de los gusanos, es muy difıcil medir laefectividad de estos pesticidas directamente. Para comparar cuatronematicidas, se considera la cantidad (en libras) de tomates de unavariedad especıfica recogidos en campos de las mismasdimensiones:

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 32

Ejemplo 5.7 (cont.):

Nematicida

A B C D

18.6 18.7 19.4 19.018.4 19.0 18.9 18.818.4 18.9 19.5 18.618.5 18.5 19.2 18.718.3 18.8

Nematodos.txtNematodos

Produccion Nematicida18.6 A18.4 A18.4 A18.5 A18.3 A18.7 B19.0 B18.9 B18.5 B19.4 C18.9 C19.5 C19.2 C18.8 C19.0 D18.8 D18.6 D18.7 D

Página 1

Queremos averiguar si existen diferencias significativas entre laproduccion media de los campos dependiendo del tipo denematicida utilizado.

Datos = read.table("Nematodos.txt",

header=TRUE)

P = Datos$Produccion

N = Datos$Nematicida

plot(P ~ N,xlab="Nematicida",ylab="

Produccion")

A B C D

18

.41

8.6

18

.81

9.0

19

.21

9.4

Nematicida

Pro

du

ccio

n

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 33

En el Ejemplo 5.7 el factor toma I = valores (los niveles, gruposo tratamientos del factor). Se mide la produccion de tomate n1 =veces con el nematicida A, n2 = veces con el B, n3 = vecescon el C y n4 = veces con el D.

ni = no de observaciones de la respuesta para el nivel i del factorSi n1 = n2 = . . . = nI se dice que el diseno es equilibrado.

n =I∑

i=1

ni = no total de observaciones de Y

yij = j-esimo valor observado de la respuesta en el nivel i ,i = 1, . . . , I , j = 1, . . . , ni

Ejemplo 5.7 (cont.):

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 34

Suponemos que, en el nivel i del factor, la respuesta Y oscilaaleatoriamente en torno a un nivel desconocido µi , la media de lapoblacion i-esima: E (Yij) = µi . Cada observacion yij resulta deuna perturbacion aleatoria en torno al valor medio µi .

Nematicida

Pro

ducc

ión

A B C D

18.4

18.6

18.8

19.0

19.2

19.4

µ1

µ2

µ3

µ4

En el Modelo de Analisis de la Varianza (ANOVA = ANalysis OfVAriance) se supone que las ni observaciones Yi1,Yi2, . . . ,Yini dela poblacion i son una muestra aleatoria de una N(µi , σ). Sesupone tambien que todas las observaciones Yij , para i = 1, . . . , I ,j = 1, . . . , ni , son independientes entre sı.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 35

El modelo ANOVA con un factor depende de I + 1 parametrosdesconocidos: las medias µ1,. . . ,µI y la varianza comun σ2. Losestimamos respectivamente mediante las medias muestrales porniveles del factor

µi =1

ni

ni∑j=1

yij = yi•

y mediante la varianza residual

s2R =

1

n − I

I∑i=1

ni∑j=1

(yij − yi•)2

=(n1 − 1)s2

1 + (n2 − 1)s22 + . . .+ (nI − 1)s2

I

n − I,

donde s2i =

∑nij=1(yij − yi•)

2/(ni − 1) es la cuasi-varianza muestralen la poblacion i-esima.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 36

Ejemplo 5.7 (cont.):

i yij ni yi• s2i

1 18.6 18.4 18.4 18.5 18.32 18.7 19.0 18.9 18.53 19.4 18.9 19.5 19.2 18.84 19.0 18.8 18.6 18.7

n =

s2R =

tapply(P,N,mean)

A B C D

18.440 18.775 19.160 18.775

tapply(P,N,var)

A B C D

0.01300000 0.04916667 0.09300000 0.02916667

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 37

El contraste de igualdad de medias

H0 : µ1 = µ2 = . . . = µI

(todas las medias son iguales, el factor no influye)

H1 : µi 6= µj para algun par i 6= j .

(al menos dos de las medias difieren, el factor influye)

El contraste compara las diferencias entre medias muestrales con lavariabilidad experimental, medida por s2

R , para decidir si esta hapodido generar esas diferencias o no.

En concreto, sea

SCT =I∑

i=1

ni∑j=1

(yij − y••)2,

la variabilidad o suma de cuadrados total, que mide la dispersionentre los datos y la media global

y•• =1

n

I∑i=1

ni∑j=1

yij .

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 38

El analisis de la varianza descompone la variabilidad total en dosterminos: (1) SCE = la variabilidad entre las medias por grupos yla media general y (2) SCR = la variabilidad residual o variabilidaddentro del grupo. Especıficamente

SCT = SCE + SCR,

donde

SCE =I∑

i=1

ni (yi• − y••)2

denota la variabilidad o suma de cuadrados explicada por lasdiferencias entre niveles del factor y

SCR =I∑

i=1

ni∑j=1

(yij − yi•)2 = (n − I )s2

R

denota la variabilidad o suma de cuadrados residual.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 39

La tabla ANOVA y el contraste

Los terminos de la descomposicion de la variabilidad se disponenen la llamada tabla ANOVA

Fuentes de Suma de Grados de Varianzas o Cuadradosvariacion (FV) cuadrados (SC) libertad (gl) medios (CM) Estadıstico

Explicada oEntre grupos

SCE =I∑

i=1

ni (yi• − y••)2 I − 1 s2e =

SCE

I − 1F

Residual oDentro de los grupos

SCR =I∑

i=1

ni∑j=1

(yij − yi•)2 n − I s2R =

SCR

n − I

Total SCT =I∑

i=1

ni∑j=1

(yij − y••)2 n − 1

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 40

Si la hipotesis nula de igualdad de medias H0 : µ1 = µ2 = . . . = µIes cierta entonces

F =s2e

s2R

∼ FI−1,n−I .

Una region de rechazo para el contraste

H0 : µ1 = µ2 = . . . = µI = µ

H1 : µi 6= µj para algun par i 6= j .

al nivel de significacion α es

R = {F > FI−1,n−I ,α}.

Para I = 2 poblaciones, este contraste es matematicamenteequivalente al contraste t de Student que compara dos medias dedistribuciones normales con varianzas iguales.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 41

Ejemplo 5.7 (cont.): Para hacer la tabla ANOVA con R:

T=aov(Produccion~Nematicida,data=as.data.frame(Datos))

summary(T)

Df Sum Sq Mean Sq F value Pr(>F)

Nematicida 3 1.299 0.4329 9.197 0.00129 **

Residuals 14 0.659 0.0471

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 42

Observacion: El modelo de regresion lineal simple establece que elvalor de la variable respuesta Y cuando la variable explicativa Xtoma el valor x es:

Y = a + bx + ε,

siendo ε una v.a. N(0, σ).El modelo de analisis de la varianza con un factor establece que elvalor de la variable respuesta Y es:

Y = µ1 F1 + µ2 F2 + . . .+ µI FI + ε

donde

Fi =

{1 si el factor esta en el nivel i0 si el factor esta en un nivel distinto del i

y ε es una v.a. N(0, σ).Ambos modelos son casos particulares de modelos lineales, en losque la variable respuesta se estudia en terminos de variablesexplicativas de tal manera que la respuesta Y es una funcion linealde todos los parametros del modelo mas un termino de “ruido” ε.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 43

Contrastes no parametricos: contrastes χ2

En los contrastes parametricos el objetivo es contrastar si el valorde un parametro esta o no en una cierta region del espacioparametrico, supuesto que la v.a. X de interes sigue un modeloparametrico especıfico.

En los contrastes no parametricos no se parte de la hipotesis deque X sigue un modelo parametrico, sino que se establecenhipotesis mas generales y complejas, como, por ejemplo, que Xsiga o no un cierto modelo parametrico de distribucion.

Los contrastes no parametricos mas conocidos son los contrastesχ2, llamados ası porque el estadıstico del contraste sigueaproximadamente una distribucion χ2 cuando la hipotesis nula escierta.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 44

Contraste de bondad de ajuste (goodness-of-fit test)

Primer caso

Sea X1, . . . ,Xn una muestra de una poblacion X con distribucionde probabilidad desconocida. Queremos contrastar si, en base a lainformacion muestral, es razonable suponer que la distribucion deX viene dada por un determinado modelo de probabilidad P. Esdecir, queremos ver si los datos “se ajustan bien” a P:

H0: El modelo de probabilidad de X es P.H1: El modelo de probabilidad de X no es P.

Hacemos una particion (arbitraria) del espacio muestral de X en kclases A1, . . . ,Ak . Para cada Ai definimos

Oi = frecuencia absoluta observada en Ai

= Numero de individuos de la muestra X1, . . . ,Xn

que pertenecen a Ai

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 45

ei = frecuencia absoluta esperada en Ai si H0 es cierta= n P(Ai )

El estadıstico del contraste de bondad de ajuste

χ2 =k∑

i=1

(Oi − ei )2

ei=

k∑i=1

O2i

ei− n

sigue aproximadamente (cuando n es grande) una distribucionχ2k−1 si H0 es cierta.

Rechazamos la hipotesis nula H0: “El modelo de probabilidad de Xes P” al nivel de significacion α si

χ2 > χ2k−1;α.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 46

Un ejemplo clasico: el experimento de Mendel

Se cruzaron plantas de guisantes con fe-notipo rugoso-amarillo con otras de fe-notipo liso-verde. En la segunda gene-racion se podıan observar cuatro fenoti-pos (liso-amarillo, rugoso-amarillo, liso-verde, rugoso-verde) cuyas respectivasprobabilidades, segun el principio de latransmision independiente de Mendel,debıan ser

p1 =9

16, p2 =

3

16, p3 =

3

16, p4 =

1

16.

Observados n = 556 guisantes en la se-gunda generacion del experimento se ob-tuvieron los siguientes numeros de gui-santes con dichos fenotipos:

O1 = 315,O2 = 101,O3 = 108,O4 = 32.Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 47

¿Proporcionan estos resultados alguna evidencia en contra de lateorıa mendeliana?

Aplicando el test para contrastar

H0 : p1 =9

16, p2 =

3

16, p3 =

3

16, p4 =

1

16,

se tiene

e1 = 556· 9

16= 312.75, e2 = e3 = 556· 3

16= 104.25, e4 = 556· 1

16= 34.75

El valor del estadıstico del contraste es

χ2 =3152

312.75+

1012

104.25+

1082

104.25+

322

34.75−556 = 556.47−556 = 0.47

y el punto crıtico de la region de rechazo es χ24−1;0.05 = χ2

3;0.05 = 7.81.

Por tanto, no hay evidencia estadıstica en contra de la teorıa deMendel.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 48

Segundo caso

Sea X1, . . . ,Xn una muestra de una poblacion X con distribucionde probabilidad desconocida. En base a la informacion muestral,queremos contrastar si la distribucion de X viene dada por undeterminado modelo parametrico de probabilidad perteneciente ala familia F = {Pθ : θ ∈ Θ}. Es decir, queremos ver si los datos seajustan bien a un determinado modelo parametrico:

H0: El modelo de probabilidad de X es algun Pθ de la familia F .H1: El modelo de probabilidad de X no es ningun Pθ de F .

Hacemos una particion (arbitraria) del espacio muestral de X en kclases A1, . . . ,Ak . Para cada Ai definimos

Oi = frecuencia absoluta observada en Ai

ei = frecuencia absoluta esperada en Ai si H0 es cierta= n Pθ(Ai ) ' n Pθ(Ai ),

donde θ = (θ1, . . . , θr ) = e.m.v. de θ = (θ1, . . . , θr )

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 49

El estadıstico del contraste de bondad de ajuste

χ2 =k∑

i=1

(Oi − ei )2

ei=

k∑i=1

O2i

ei− n

sigue aproximadamente (cuando n es grande) una distribucionχ2k−1−r si H0 es cierta.

Rechazamos la hipotesis nula H0: “El modelo de probabilidad de Xes algun Pθ de la familia F” al nivel de significacion α si

χ2 > χ2k−1−r ;α.

Este tipo de contraste se aplica, por ejemplo, en Genetica paracontrastar ratios no mendelianos. La herencia no mendelianacomprende patrones de herencia diferentes de los formulados porMendel (dominancia incompleta, codominancia, alelos multiples,herencia poligenica o herencia ligada al sexo). En este tipo deproblemas los parametros desconocidos pueden ser coeficientes dedesequilibrio en el ligamiento, parametros de penetrancia, . . .

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 50

Ejemplo 5.8 (Equilibrio de Hardy-Weinberg, HWE): En unapoblacion de tamano infinito, con apareamiento al azar (panmixia),en la que no haya mutacion, migracion o seleccion, las frecuenciasalelicas se mantienen constantes con el tiempo, y las frecuenciasgenotıpicas vienen determinadas por las frecuencias alelicas:

P(AA) = p2

P(Aa) = 2pqP(aa) = q2

Para detectar si las frecuencias genotıpicas observadas sonsignificativamente diferentes de las esperadas por HWE se realizauna prueba χ2 de bondad de ajuste. ¿Son las siguientes frecuenciascompatibles con que la muestra haya sido tomada de unapoblacion en HWE?

AA AB BB Total

Oi 130 763 1698 2591

ei

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 51