Download - ESTADÍSTICOS: Valores que definen la distribución de una o ...

Transcript
Page 1: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Repaso de Conceptos Estadísticos Básicos

CONCEPTOS PREVIOS:

PARÁMETROS: Valores que definen la distribución de una o másvariables en una población. Se representan con caracteres griegos

Ejemplos: Media μ, Varianza σ2, Coeficiente de regresión ρ

ESTADÍSTICOS: Valores que definen la distribución de una o másvariables en una muestra. Se representan con caracteres latinos.Ejemplos: Media , Varianza s2, Coeficiente de regresión b

Se utilizan como estimadores de los parámetros de la distribuciónpoblacional

Page 2: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Inferencia: Descripción de características (parámetros, porejemplo) de una población a partir de una muestra

Estimación: De un parámetro poblacional con un estadísticomuestral

Método de estimación: Procedimiento para obtener un estimadorEjemplos: Mínimos cuadrados Máxima verosimilitud.

Distribución muestral de un estimador: Es la distribución que seobtendría con los valores del estimador (estadístico) de un númeroinfinito de muestras extraídas de la población en la que se estimael parámetro.

Ejemplo: Distribución muestral de las medias, es la distribuciónde infinitas medias maestrales

Page 3: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Sesgo Diferencia entre el valor medio de la distribución muestral de un determinado estimador y el parámetro que estimaEjemplo:

N~∞ muestras de tamaño n, extraídas de una población

Distribución  muestral de las medias:Media= media de todas las medias muestrales = media paramétrica=

x=µ

x

→ Es mador insesgado

Page 4: ESTADÍSTICOS: Valores que definen la distribución de una o ...

2

2

n

xxs

Distribución muestral de las varianzas:

La varianza muestral es:2

2sx

→ Estimador Sesgado

22

sx

2

2

1

x xs

n

Seudovarianza

Seudovarianza → Insesgado

Page 5: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Precisión de una estimación (error típico) Es la desviación típica de la distribución muestral del estimador.

Ejemplo: Si la varianza de la distribución muestral de las medias es  La precisión de error típico de la media de una muestra (como estimador de µ) es 

que se estima con 

La precisión de la estima

Es  

2

x n n

2

x

s ssn n

^

Xx s

Xs

Page 6: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Estimación por intervalo:Es la estimación de un valor paramétrico obtenida con unaprobabilidad dada (α) de que dicho valor se encuentre entre unmáximo y un mínimo determinados.

Ejemplo:

El intervalo de confianza del valor paramétrico.de la media con unα=0,05 (95% de probabilidad) es (si el tamaño muestral n es grande):

Porque en el intervalo comprendido entre 1,96 σ por encima y pordebajo de la media μ de una distribución normal se encuentran el95% de las observaciones. A α se le denomina nivel de significación

1,96 , 1,96

x xx S x S

Page 7: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Muy frecuentemente la inferencia estadística; es decir, la estima devalores paramétricos a partir de una muestra se hace medianteuna Prueba o Contraste de Hipótesis

Para poder probar las hipótesis hay que realizar varios pasosprevios:1) Lo primero es decidir cual es la variable que puede cuantificar elcarácter y poner de manifiesto el factor expresado en la hipótesis,que solo se podrá observar a partir de sus manifestaciones2) Lo segundo es decidir cual es el modelo que explica lavariabilidad de la variable elegida, es decir, cual es la población deesta variable3) El tercer paso es traducir la hipótesis planteada al lenguajeestadístico, lo que implica la elección del estadístico de prueba4) El cuarto paso es tomar la muestra y decidir las regiones deaceptación (Ho) y rechazo (Ha) de la hipótesis5) El quinto paso es establecer la rebla de decisión y laprobabilidad de error (nivel de significación)

Page 8: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Una hipótesis estadística es una afirmación sobre un modeloprobabilístico (población) que una vez asumido, la única o únicasconstantes desconocidas son los parámetros de la distribución(población) correspondiente

Una prueba de hipótesis es un método para dictaminar sobre laprobabilidad de esa afirmación, usando muestras comoinstrumento

Para probar una hipótesis estadística se divide el espacio de valoresposibles del parámetro, en el que se esta interesado, en dossubconjuntos; uno de ellos es el espacio definido por la hipótesisnula que constituirá la región de aceptación y el otro espacio es eldefinido por la hipótesis alternativa que constituirá la región deRechazo

Una vez tomada la muestra se decide que, con ciertasprobabilidades de error,el parámetro en cuestión pertenece a unode esos dos subconjuntos. Pero no existe certeza de que no secometerá un error

Page 9: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Ejemplo del examen tipo test con diez preguntas y cinco posiblesrespuestas. Cada pregunta se puede considerar una repetición delexperimento.Se trata de un experimento que se ajusta a una distribuciónBinomial donde, si se llama éxito (variable X) a un acierto delalumno , el parámetro de la distribución es p, la probabilidad de unacierto. Por lo que se tiene que decidir sobre al magnitud de p, paraello se puede adoptar la hipótesis de que el alumno no conoce lamateria, o hipótesis nula (Ho). y simplemente trata de adivinar larespuesta por puro azar. Traducido al lenguaje probabilístico, setiene una función de probabilidad binomial con p=1/5; mientrasque A pretende que su p es mayor de 0.2. Se tiene, entonces, unapartición natural del espacio de posibles valores para p. Los valoresde p ≤ 0.2, corresponden a la hipótesis H0, mientras que los valoresp>0.2 corresponden a la hipótesis alternativa de que el alumno si laconoce (Ha). La distribución de probabilidades de X depende delvalor de p. Se rechaza Ho si el alumno acierta más veces que lasque acertaría diciendo al azar un número del 1 a 5

Page 10: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Al tomar una decisión se puede estar errando de dos maneras: decidiendo que el alumno conoce la materia cuando no la conoce o decidiendo que no conoce la materia cuando si la conoce.Estadísticamente: se puede rechazar la Ho cuando es cierta y se puede norechazar la Ho cuando es falsa.

α = P(Error Tipo I) = P(rechazar la Ho cuando es cierta)β = P(Error Tipo II) = P(aceptar la Ho cuando es falsa)

Si δ(p) = P(rechazar Ho cuando el verdadero valor del parámetro es p), para todos los valores de p en la Ho δ(p) = Probabilidad de Error Tipo II = β y para todos los valores de p en la H1 d(p) = 1 - Probabilidad de Error Tipo II =1- β

Puesto que δ(p) es la probabilidad de rechazar una hipótesis dada, dependiendo del verdadero valor del parámetro, se la llama función de potencia de la prueba.

Page 11: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Prueba de hipótesis sobre la media de una distribución normal

La media de la distribución muestral de las medias es una variable con la siguiente distribución:

Si se quiere contrastar una hipótesis

Porque la región de rechazo es

O bien

Siendo

Page 12: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Si la muestra es pequeña

Este es un contraste de hipótesis relativo a la media para la cola derecha:

De forma similar sería para la cola izquierda:

Y para las dos colas:

Page 13: ESTADÍSTICOS: Valores que definen la distribución de una o ...
Page 14: ESTADÍSTICOS: Valores que definen la distribución de una o ...
Page 15: ESTADÍSTICOS: Valores que definen la distribución de una o ...

En la tabla de valores de t el valor para un contraste de medias de una cola para gl=9 y α =0,05 es 1,8331, por tanto para el contraste de cola izquierda

Page 16: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Comparación de las medias de dos grupos de observaciones

La media de la distribución muestral de la diferencia de las medias es:

Page 17: ESTADÍSTICOS: Valores que definen la distribución de una o ...
Page 18: ESTADÍSTICOS: Valores que definen la distribución de una o ...
Page 19: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Ejemplo de comparación de medias mediante una prueba t de Student y mediante un ANOVA de un factor (Ejemplo1)

Datos:G1 G26 59 38 47 3

Resultados:

t-Student = 4,666 P≤0,003

ANOVA 1 Factor

Origen Var. Suma de cuadrados gl Media cuadrática F P ≤ Inter-grupos 28,125 1 28,125 21,774 0,003Intra-grupos 7,750 6 1,292Total 35,875 7

F=t2

Page 20: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Comparación de más de dos medias: ANOVA de 1 Factor (Ejemplo2)

Datos:G1 G2 G36 5 19 3 38 4 27 3 1Cálculos:

Grupos Gi para i = (1,2,3)Número de grupos g = 3Número de observaciones por grupo n=4Número total de observaciones: N = g*n = 12G1→ x11 = 6 x12 = 5 x13 = 1G2→ x12 = 9 x22 = 3 x23 = 3G3→ x31 = 8 x32 = 4 x33 = 2G4→ x41 = 7 x42 = 3 x43 = 1Suma de las observaciones de cada grupo:

Medias de los grupos:

Media general:

1 2 330 15 7 ; ;x x x

1 2 37 5 3 75 1 75

, ; , ; ,x x x

.. 4, 333....x x

Page 21: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Suma de cuadrados:

Suma de cuadrados total sin corregir por la media: Es la suma de los cuadrados de todas las observaciones

Suma de cuadrados total corregida por la media: Es la suma de cuadrados total a la que se le resta el término de corrección (T.C.):

El término de corrección es:

= Suma de cuadrados de la media

No se puede mostrar la imagen en este momento.

No se puede mostrar la imagen en este momento.

No se puede mostrar la imagen en este momento.

No se puede mostrar la imagen en este momento.

Page 22: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Suma de los cuadrados de las medias de los grupos referida a la suma de cuadrados de la media → Es la suma de cuadrados “entre grupos”:

Resto = Suma de cuadrados Residual o del Error → Es la suma de cuadrados “intragrupos”:

Las sumas de cuadrados son aditivas:

Grados de libertad:

Dependen de los tamaños muestralesg.l. “Entre Grupos” = Nº Grupos -1 = 3-1 = 2

g.l. “Intra Grupos” = Nº Grupos * (Tamaño Grupo -1) = g (n-1) = 3*(4-1) = 9

g.l. Totales = Nº Observaciones -1 = 12-1 = 11

2 22 2

293 5

( ) ( ..)

,i i

iG

x xxSC xg n gn

10 5 Re ,I sidual Error TC GSC SC SC SC SC

IGT SCSCSC

Page 23: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Cuadrados medios o medias cuadráticas:

-Entre grupos:

-Intra grupos, residual o error:

F es un estadístico cuya distribución muestral es una “F de Snedecor”

Buscando en la tabla de valores de la F de Snedecor los correspondientes a 2 g.l. (numerador) y 9 g.l. (denominador)

α Valores de FProbalidad de 0,1 F=3,01encontrar un 0,05 F=4,26azar 0,01 F=8,02

0,005 F=10,11Todos son menores que F= 29,26, lo que quiere decir que el valor de Fencontrado tiene una probabilidad de haber salido por azar y no porquepertenece a la distribución F correspondiente a la hipótesis nula de igualdad devarianzas. Es, por lo tanto, un valor correspondiente a un cociente de varianzasdiferente se la unidad y, consecuentemente, entre las medias comparadas

97 8332

,GG

SCCM

1 1679

ReRe ,sidual

I sidualSCCM CM

97 833 83 8571 167

, ,,

G

residual

CMFCM

Page 24: ESTADÍSTICOS: Valores que definen la distribución de una o ...

EL MODELO LINEAL ADITIVO:

Las observaciones del ejemplo anterior se pueden expresar con el siguiente modelo:

ijiijx

22 2 3,75 4,33 0,58estimado por x x

-

1 1 1- - 7,5 - 4,33 3,17estimado por x x

3 3 3 1,75 4,33 2,58estimado por x x

Los son ij ij ix

Ejemplo, para la primera observación: 11 5 4 33 0 58 1 25, ( , ) ,

0i Lo que significa que las medias de los distintos grupos son iguales, ya que, por ejemplo:

1 2 1 22 0

Page 25: ESTADÍSTICOS: Valores que definen la distribución de una o ...

ALGUNOS MODELOS DE ANOVA

A) ANOVA de 1 FACTOR –ModeloI (Factores fijos)

Modelo:

O.V. g.l. C.M.E. Estima___

Entre grupos

Intra grupos (error o residual)

Total

ijiijx

1a 2 2a

ores in a ani

a

2res

a

ni 1

2

11

a

ia

o i a

i

nn n

a n

, siendo a el número de grupos. Si ni igual en todos, n0=n

Page 26: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Si se considera un modelo de efectos fijos, los cuadrados medios estiman:

g

iiIG

II

nEstimanCM

EstimaCM

22

2

i son los efectos de los grupos (diferencias entre las mediasparamétricas de cada grupo y la media paramétrica general)

En este caso, podemos comparar medidas:

Para saber si son diferentes de cero –Contraste de hipótesis-secomparan los dos C.M., ya que:

i

2

22

I

iI

I

G nCMCM

F

nos permite saber si los valores i

son significativamente diferentes de cero

Page 27: ESTADÍSTICOS: Valores que definen la distribución de una o ...

DISEÑO EXPERIMENTAL

Cuando se quiere contrastar una determinada hipótesis, es necesarioplantear un diseño experimental adecuado. El diseño experimental es lamanera de elegir las muestras y establecer los grupos que van a servirpara realizar el contraste de la hipótesis. El diseño experimental va apermitir generar los resultados experimentales (datos) con los que,siguiendo un determinado modelo, se pueden realizar los contrastes dehipótesis.

Cuando se quieren hacer contrastes de hipótesis relativos a lacomparación de las medias de varios grupos entre sí, o relativos a lacomparación de las varianzas de dichos grupos, recurrimos a los modeloslineales aditivos como el que hemos visto anteriormente. La solución deestos contrastes de hipótesis se obtiene mediante el análisis de varianza.Este análisis de varianza se denomina “unifactorial”, porque solamenteexiste un factor de clasificación de las observaciones.

Existen otros contrastes de hipótesis posibles y, por lo tanto, otros modeloslineales, como los que veremos a continuación.

Page 28: ESTADÍSTICOS: Valores que definen la distribución de una o ...

El ANOVA anterior, de efectos fijos, da lugar a una descomposición de lasuma de cuadrados total de una variable en dos componentes, intra y entregrupos. Los cuadrados medios correspondientes estiman la varianza residual(varianza de las observaciones) y el efecto debido a la diferencia entre lasmedias de los grupos, respectivamente. Nos sirve para comparar las mediasde más de dos grupos.

El ANOVA sirve también para estimar componentes de varianza, cuando elfactor de clasificación de los grupos que se está considerando es aleatorio.En este caso el cuadrado medio entre grupos no estima el efecto debido a ladiferencia de las medias, si no la varianza entre ellas.

La naturaleza fija o aleatoria de un factor de clasificación no es una propiedadintrínseca de dicho factor si no una propiedad asignada a dicho factor en eldiseño experimental que, a su vez, es consecuencia de la hipótesis que seestá contrastando.

Así, por ejemplo, se pueden estar contrastando la diferencia entre tres líneasconsanguíneas de animales (o tres líneas puras de plantas) concretas,elegidas a propósito (factor línea fijo), para comparar sus medias, o sepueden haber elegido esas tres líneas al azar en un conjunto de líneas parasaber si hay una varianza asociada al factor línea (factor aleatorio) ycuantificarla.

Page 29: ESTADÍSTICOS: Valores que definen la distribución de una o ...

A) ANOVA de 1 FACTOR –Modelo II (Factores aleatorios)

Modelo:

C.M.E. estima

ijiijx

2 2

2res o a

res

n

COMPONENTES DE LA VARIANZA:

% VARIACIÓN ENTRE GRUPOS:

%VARIACIÓN INTRA GRUPOS:

2

2 2 *100a

res a

ss s

2

2 2 *100res

res a

ss s

^`2 2

^2 2

. .. . . .

res res

a ao

s CMresidual C M ERRORC M GRUPOS C M ERRORs

n

Page 30: ESTADÍSTICOS: Valores que definen la distribución de una o ...

En el ejemplo anterior

2^

s2 C.M .ERROR1,167

a2

^

sa2

C.M .GRUPOSC.M .ERRORno

97,8331,167

4

224,167

Varianza total:

% VARIACIÓN ENTRE GRUPOS:

%VARIACIÓN INTRA GRUPOS:

2Total

2a

2i 24,167 1,167 25,334

2

2 2

24,167*100 *100 95,39%25,334

a

a

ss s

2

2 2

1,167*100 *100 4,61%25,334

res

res a

ss s

Page 31: ESTADÍSTICOS: Valores que definen la distribución de una o ...

B) ANOVA MULTIFACTORIAL:

Ejemplo de ANOVA de dos factores (diseño equilibrado)

COLUMNAS(C) (factor B)

FILAS (F) 

(factor A)

C= nº filas f= nº columnas n= número de observaciones por casilla o subgrupo

n n n n

n n n n

n n n n

n n n n

n n n n

Page 32: ESTADÍSTICOS: Valores que definen la distribución de una o ...

ijk i j ijkijFijo

ModeloI Y

O.V. g.l. CME

Entre filas f-1

Entre columnas c-1

Interacción (f-1) (c-1)

Error fc(n-1)

2 2

1

cnfc

f

fnc 22

1

cf

fcn 22

11

2

Page 33: ESTADÍSTICOS: Valores que definen la distribución de una o ...

ijk i j ijkij

AleatorioModeloI I Y A B AB

CME

2 2 2AB An nf

2 2 2AB Bn nc

2 2ABn

Entre filas

Entre columnas

Interacción

Error2

Page 34: ESTADÍSTICOS: Valores que definen la distribución de una o ...

ijk i j ijkijModelomixto Y A A

CME

Entre filas

Entre columnas

Interacción

Error

2 2 2

1

c

Bnfn

c

Bnc 22

2 2Bn

2

Page 35: ESTADÍSTICOS: Valores que definen la distribución de una o ...

SIGNIFICADO DE LOS EFECTOS Y DE LAS INTERACCIONES:

Niveles B1 B2 Media marginal

Factor B columnas (C)

Factor Afilas (f)

A1 1A

(B2-B1)1

A2 2A (B2-B1)2

_______

2 1B B

Media marginal (A2-A1)1 (A2-A1)2

1B

2B

_______

2 1A A

Page 36: ESTADÍSTICOS: Valores que definen la distribución de una o ...

________

2 1A A________

2 1B B

(A2-A1)1 y (A2-A1)2efectos simples

(B2-B1)1 y (B2-B1)2 efectos principales

Tres posibles situaciones:

1.- No hay interacción

B1 B2 B2 – B1

A1 2

A2 2

A2 – A1 6 6

Page 37: ESTADÍSTICOS: Valores que definen la distribución de una o ...

(B2-B1)1

(B2-B1)2

A1 A2

Lo mismo sería si consideramos las diferencias (A2–A1)1 y (A2–A1)2

Page 38: ESTADÍSTICOS: Valores que definen la distribución de una o ...

2.- Hay interacción debida al cambio de orden de los niveles de unfactor según el nivel del otro factor considerado

B1 B2 B2 – B1

A1 2

A2 -10

A2 – A1 6 6

A1 A2

(B2-B1)2(B2-B1)1

Page 39: ESTADÍSTICOS: Valores que definen la distribución de una o ...

3.- Hay interacción debida al cambio de magnitud de la diferenciaentre los dos niveles de un factor en función del nivel del otro factor queestemos considerando

B1 B2 B2 – B1

A1 2

A2 8

A2 – A1 6 2

(B2-B1)2

(B2-B1)1

A1 A2

Page 40: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Importante: La presencia o ausencia de efectos principales no nos dice nadasobre la posible existencia o no de interacción y viceversa.

Tipos de diseños con respecto al número de observaciones en cada casilla (subgrupo)

A.- Constante o equilibrado: Número igual de observaciones por subgrupo o casilla

B.- Desequilibrado: Número diferente de observaciones por subgrupo

B1.- Proporcional: Números múltiples en filas o columnas

B2.- Irregular: Número de observaciones diferentes

n n n n

n n n n

n n n n

3 6 9 2 4 6 4 8 12 6 4 8 3

4 2 5 1

1 5 3 6

El proporcional se resuelve como el equilibrado con pequeñas variantes en elcálculo de la S.C. El irregular exige el ajuste de los valores de los efectos por elmétodo de mínimos cuadrados: → Modelo Lineal General

Page 41: ESTADÍSTICOS: Valores que definen la distribución de una o ...

EL DISEÑO DE BLOQUES ALEATORIZADOS Supongamos cinco tratamientos: A,B,C,D,E, y F En cuatro bloques (4 Repeticiones/ Tratamiento) se asignan aleatoriamente los tratamientos en los bloques

Bloque 1 Bloque 2

A, B, C,D E, F son los tratamientos (hasta un nº=t) Puede haber bloques (hasta un nº=b) Suponemos 1 observación por tratamiento y bloque

A D E B C F

D E F A B C

Page 42: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Modelo: ij i j ijy Variación g.l. C.M. Esperado Bloques b-1 bt 22

Tratamientos t-1

t

itb 22

1

Error (r-1) (t-1) 2 Total rt-1 Se debe suponer que no existe interacción → Si hay más de una observación por tratamiento y bloque →Se puede estimar el error independiente de la interacción = Factorial de dos factores.

Page 43: ESTADÍSTICOS: Valores que definen la distribución de una o ...

C) ANOVA ANIDADO O JERÁRQUICO

Es el análisis de varianza correspondiente a un diseño factorial en el que uno de los factores (el factor subordinado o anidado) es siempre aleatorio (sus categorías han sido elegidas al azar en un universo infinito de posibles categorías) y están subordinadas al factor principal, que puede ser fijo o aleatorio.

Ejemplo :

Experimento para comparar distintos genotipos (estirpes) de gallos de una raza de gallinas. Se tienen las ganancias medias de peso diario en gramos de una muestra de 4 hijas por gallina apareada con un gallo de cada una de las tres estirpes distintas.

El factor gallo (estirpe) se considera un factor fijo, porque lo que interesa es conocer si hay diferencia entre las medias de tres estirpes concretas.

El factor gallina (anidado a el factor gallo) es aleatorio. Se eligen tres gallinas al azar para aparear con cada gallo.

Page 44: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Diseño:

Gallos♂1 ♂2 ♂3

Gallinas: ♀1 ♀2 ♀3 ♀4 ♀5 ♀6 ♀7 ♀8 ♀9

111 121 131 241 251 261 371 381 391Id. hijas 112 122 132 242 252 262 372 382 392

113 123 133 243 253 263 373 383 393114 124 134 244 254 264 374 384 394

Tipos de modelo de diseño anidado:

Modelo I: Mixto

Factor principal: Gallos (efectos medios a comparar)Factor Subordinado: Gallinas (varianza entre gallinas). Siempre aleatorio

ijk i Bij ijk

Bj i

Page 45: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Variación G.L. C.M. Esperado

Entre grupos a-1

22

1i

Bn nba

Entre Subgrupos a(b-1) 2 2

Bn

Dentro de Subgrupos ab(n-1) 2 Total abn-1

Modelo II: Puro

Ambos factores son aleatorios. En el ejemplo anterior, los gallos se elegirían al azar, siendo una muestra representativa de un universo de infinitos posibles genotipos. Se estiman las componentes de varianza entre gallos y entre gallinas anidadas a gallos (o entre los grupos de hijas de los distintos gallos y entre los grupos de hijas de las diferentes gallinas apareadas con cada gallo. Se trata de un diseño frecuentemente utilizado para estimar parámetros genéticos.

ijn Ai Bij ijk

Page 46: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Variación g.l. C.M. Esperado Entre grupos a-1 2 2 2

B A An nb

Entre subgrupos a(b-1) 2 2B An

Intra grupos

Dentro de subgrupos ab(n-1) 2

(Error)

Total abn-1

Si el tamaño muestral de los subgrupos no es igual para todos, en lugar de n, se utiliza n0

2

. .

i

bi

i ja b a

ij bi

i j

o

nn

nn

g l subgrupos

Page 47: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Pruebas de significación: Si F = CMsubs

CMerror es significativo se calcula F=

CMsubgrCMgrupos

Si “ no es significativo ver reglas en libro de estadística

Descomposición de la varianza: CMError = S2 % Variación entre subgrupos:

2Sub ErrorB A

CM CM Sn

=

2

2 2 2 100B A

B A A

S xS S S

2Grupos Subg

A

CM CMS

nb

% variación entre grupos:

= 2

2 2 2A

B A A

SS S S

Page 48: ESTADÍSTICOS: Valores que definen la distribución de una o ...

En el ejemplo:

Origen Numerador gl Denominador gl Valor F Sig. Intersección 1 24 122157,176 0 ,000 DIETA 2 24 6,882 0,004 FAMILIA(DIETA) 9 24 17,137 0 ,000

Estimación de la varianza:

Estimaciones de parámetros de varianza

Parámetro Estimación Error tipico Residuos 1,4166667 0,4089564 FAMILIA(DIETA) 6,7398990 3,0782787

Page 49: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Procedimiento en el SSPS para estimar las componentes de varianza:

ANOVA anidado o jerárquicoANALIZAR – MODELOS MIXTOS – LINEAL – CONTINUAREstablecer VARIABLE DEPENDIENTE Y FACTORES – ALEATORIOSEn ventana nueva: CONSTRUIR TÉRMINOS ANIDADOS –Entrar factor principal con flecha hacia la casilla “construir término” y AÑADIR – Entrar factor anidado con flecha hacia la casilla “construir término” DENTRO – factor principal con flecha hacia casilla “construir término” y AÑADIR – CONTINUAREn la ventana anterior: PEGAR: aparece el archivo Sintax. En este archivo cambiar /RANDOM dieta familia(dieta) | COVTYPE(VC) .Por /RANDOM familia(dieta) | COVTYPE(VC) .Quedaría:MIXED

crecimie BY dieta familia/CRITERIA = CIN(95) MXITER(100) MXSTEP(5) SCORING(1)SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0,

ABSOLUTE)PCONVERGE(0.000001, ABSOLUTE)/FIXED = | SSTYPE(3)/METHOD = REML

/RANDOM familia(dieta) | COVTYPE(VC) .

Page 50: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Comparación de medias

Tres planteamientos:

1.- Comparaciones “a priori”

Las comparaciones están planificadas al iniciar el experimento,independientemente del resultado del ANOVA. Ejemplo: la comparaciónde un conjunto de tratamiento con un tratamiento control

2.- Comparaciones múltiples o “a posteriori”

Son comparaciones no planificadas al iniciarse el experimento, dependendel resultado del ANOVA; una vez realizado éste y obtenido un valor de Fsignificativo se quiere saber cuales son las medias distintas entre si

3.- Contrastes ortogonales

Son contrastes de medias que se realizan cuando los niveles numéricosde un factor cuantitativo están igualmente espaciados y se quierenconocer tendencias. Ejemplo: los tratamientos consisten en dosisproporcionales de un determinado producto

Page 51: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Comparación de medias planificada “a priori”

Tres planteamientos:

1.- Obtención de una suma de cuadrados y un cuadrado medio para cadacomparación y contraste de dicho cuadrado medio con el cuadradomedio del error o el cuadrado medio de contraste que corresponda

Ejemplo5:Se quiere saber si hay diferencia en la producción de piezas hechas por cuatro trabajadores diferentes. Los datos son:

Page 52: ESTADÍSTICOS: Valores que definen la distribución de una o ...

El ANOVA es:

Antes de realizar el análisis se sabía que de los cuatro trabajadores, dosson mujeres (M) y dos hombres (H) y que dos tienen un C.I. Alto (A) ydos bajo (B) y “a priori” se quería saber si existe un efecto del sexo y unefecto del C.I. en la producción y si existe interacción entre ambosefectos

Page 53: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Antes de realizar el análisis se sabía que de los cuatro trabajadores, dosson mujeres (M) y dos hombres (H) y que dos tienen un C.I. Alto (A) ydos bajo (B) y “a priori”, antes de hacer el ANOVA, se quería saber siexiste un efecto del sexo y un efecto del C.I. en la producción y si existeinteracción entre ambos efectos. Es decir, se quiere comparar el númeromedio de piezas producido por los hombres con el producido por lasmujeres (efecto del sexo); la producción de los individuos con C.I. altocon la de los individuos con C.I. bajo (efecto del C.I.) y la producciónmedia de HA y Mb con la media de HB y MA.

Para obtener las SC correspondientes a estos contrastes se consideranlos siguientes coeficientes :

Page 54: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Con los que se calculan:

siendo nSc2 = 5x4 = 20

siendo nSc2 = 5x4 = 20

El ANOVA correspondiente a estos contrastes de medias es:

Page 55: ESTADÍSTICOS: Valores que definen la distribución de una o ...
Page 56: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Otros posibles contrastes de medias por ejemplo, comparar M de CI alto (MA) con H de CI bajo (CB) y viceversa, HA con MB. Los coeficientes de estos contrastes serían :

Y las SC:

Page 57: ESTADÍSTICOS: Valores que definen la distribución de una o ...

El ANOVA de estos contrastes:

Resolver estos dos últimos contrastes con el SPSS

Page 58: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Los contrastes que se han resuelto anteriormente son los relativos a lashipótesis nulas:

1) Ho: - m1 - m2 + m3 + m4 = 02) Ho: + m1 + m2 - m3 - m4 = 03) Ho: + m1 - m2 - m3 + m4 = 04) Ho: + m2 - m3 = 05) Ho: + m1 - m4 = 0

Las pruebas planeadas o a priori, se pueden formar con los diferentesniveles de un tratamiento, asignándole a cada nivel un coeficiente deforma que se cumplan las condiciones de ortogonalidad que son:

1) Dentro de una misma comparación, la suma de coeficientes ha de sercero.2) Entre los varios contrastes que se puedan formar dentro de un mismofactor, la suma de productos ordenados de los coeficientes ha de sernula, tomando todas las comparaciones dos a dos

De manera que cada comparación o contraste sea independiente de losdemás

Page 59: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Las reglas para la determinación de los coeficientes son:

1) Si se van a comparar dos grupos de igual tamaño, simplemente seasignan coeficientes +1 a los miembros de un grupo y -1 a los integrantesdel otro grupo. No importa a qué grupo se le asigne los coeficientespositivos o negativos.

2) En la comparación de grupos que contienen distintos números detratamientos, asígnese al primer grupo tantos coeficientes como númerode tratamientos tenga el segundo grupo; y a este último, tantoscoeficientes, del signo opuesto, como número de tratamientos tenga elprimer grupo. Por ejemplo, si entre cinco tratamientos se quiere compararlos dos primeros con los tres últimos, los coeficientes serían +3, +3, -2,-2, -2.

3) Redúzcanse los coeficientes a los enteros más pequeños posibles. Porejemplo, en la comparación de un grupo de dos tratamientos con ungrupo de cuatro se tendrá (regla segunda) los coeficientes +4, +4, -2, -2, -2, -2 pero éstos pueden reducirse, dividiendo por dos, a los coeficientes+2, +2, -1, -1, -1, -1.

4) Los coeficientes de la interacción siempre pueden determinarsemediante la multiplicación de los coeficientes correspondientes de losefectos principales.

Page 60: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Modelos con más de un factor

Si se tiene un modelo con más de un factor y se quiere hacer pruebasplaneadas de uno o mas factores, todo se haría lo mismo teniendo encuenta que habría que utilizar como término de error el mismo del factorque se esta descomponiendo

Ejemplo6.-Se han probado cuatro tratamientos en cuatro rebaños elegidos al azar.Los cuatro tratamientos son cuatro piensos que tienen las siguientescaracterísticas:

Page 61: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Se quieren comparar las medias de los piensos con distinto nivel energético , las medias de los piensos con distinto nivel proteico y la interacción entre ambos. Los coeficientes serán:

-1 +1 -1 +1 -1 -1 +1 +1 +1 -1 -1 +1

Page 62: ESTADÍSTICOS: Valores que definen la distribución de una o ...

En este caso los contrastes de los cuadrados medios de los dos factoresy de la interacción se deben hacer dividiendo dichos cuadrados mediospor el cuadrado medio del error, porque la interacción no es significativa

A continuación se muestra cuales serían las instrucciones a seguir en elSPSS para realizar los contrastes y para indicar que el término decomparación sea distinto del error:

Con el procedimiento MODELO LINEAL GENERAL UNIVARIANTE:

1ª VENTANA: ANALIZAR – MODELO LINEAL GENERAL –UNIVARIANTE2ª VENTANA: Establecer variable dependiente y factores – MODELO3ª VENTANA: Establecer modelo (con intersección) y tipo de SC –CONTINUARVuelve a la 2ª VENTANA: CONTRASTES4ª VENTANA: Elegir un modelo y CAMBIAR – CONTINUARVuelve a 2ª VENTANA: PEGAR – Aparece un archivo “Sintaxis1”

Page 63: ESTADÍSTICOS: Valores que definen la distribución de una o ...

En Sintaxis1: En la fila de CONTRAST poner:

/CONTRAST (t)=SPECIAL (1 -1 1 -1)/CONTRAST (t)=SPECIAL (1 1 -1 -1)/CONTRAST (t)=SPECIAL (1 -1 -1 1)/CONTRAST (t)=SPECIAL (0 1 -1 -0)/CONTRAST (t)=SPECIAL (1 0 0 -1)

El archivo Sintaxis1 quedaría:

UNIANOVAnpiezas BY t/CONTRAST (t)=SPECIAL (1 -1 1 -1)/CONTRAST (t)=SPECIAL (1 1 -1 -1)

/CONTRAST (t)=SPECIAL (1 -1 -1 1)/CONTRAST (t)=SPECIAL (0 1 -1 -0)/CONTRAST (t)=SPECIAL (1 0 0 -1)

/METHOD = SSTYPE(1)/INTERCEPT = INCLUDE/CRITERIA = ALPHA(.05)/DESIGN = t .

y EJECUTAR – TODO

Page 64: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Para realizar el contraste de un cuadrado medio con otro que determinamos:

En el archivo “Sintaxis1”:

Incluir las filas:/TEST=tratamie VS tratamie*rebaño

/TEST=rebaño VS tratamie*rebaño

El archivo Sintaxis1 quedaría:

UNIANOVAdato BY rebaño tratamie/METHOD = SSTYPE(3)/INTERCEPT = INCLUDE/CRITERIA = ALPHA(.05)/TEST=tratamie VS tratamie*rebaño/TEST=rebaño VS tratamie*rebaño

/DESIGN = rebaño tratamie rebaño*tratamie .

Page 65: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Con los contrastes sería:

UNIANOVAdato BY rebaño tratamie/CONTRAST (tratamie)=SPECIAL (1 -1 1 -1)/CONTRAST (tratamie)=SPECIAL (-1 -1 1 1)/CONTRAST (tratamie)=SPECIAL (1 -1 -1 1)/METHOD = SSTYPE(3)/INTERCEPT = INCLUDE/CRITERIA = ALPHA(.05)/TEST=tratamie VS tratamie*rebaño/TEST=rebaño VS tratamie*rebaño/DESIGN = rebaño tratamie rebaño*tratamie .

Si se quieren contrastar los CM de los contrastes con el término de interacción hay que hacerlo a mano

Page 66: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Comparación de medias “a posteriori” o comparación múltiple

Este tipo de comparación se realiza cuando no existe una idea previa alcomienzo del experimento sobre los contrastes entre los diferentesniveles de los tratamientos o cuando el objetivo es comparar todos losposibles pares de medias

Los contrastes pueden realizarse en cualquier tipo de diseño para losdiferentes niveles de cada uno de los factores, utilizando el CM del errordel ANOVA realizado con todos los factores

Procedimiento

1) Se ordenan todas las medias de mayor a menor

X4 > X3 > X1 > X2 > X5 > X6

2) Se hace un cuadro de doble entrada en el que se ordenan las mediasde mayor a menor en vertical y de menor a mayor en horizontal y serealizan las diferencias disponiéndolas en triángulo, de forma que amedida que se desciende en las columnas o se mueve hacia la derechaen las filas el número de medias comprendidas entre las dos que secomparan (ambas inclusive) disminuye de uno en uno, conforme seexpresa en la p de cada casilla de la tabla siguiente:

Page 67: ESTADÍSTICOS: Valores que definen la distribución de una o ...
Page 68: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Prueba DMS o diferencia mínima significativa (LSD-Least-Significant-Difference)

También llamada prueba t múltiple. Se puede usar, también, para pruebas apriori. Para el cálculo de la región crítica se usa la tabla t de la misma forma quese utiliza para contrastar dos medias, comprobando, al nivel a que fijemos, si lasdiferencias de medias tomadas dos a dos cumplen:

Donde es el error típico combinado, es decir, la raíz cuadrada del cuadradomedio del error dividido por el tamaño de submuestra. Esto es:

En el caso de que los tamaños de las submuestras sean diferentes (experimentodesequilibrado), se utiliza como n el valor de la media armónica de las tsubmuestras. El contraste sería entonces:

Page 69: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Prueba Tukey

Es como la anterior solo que no es secuencial y utiliza un solo rango crítico, que es el correspondiente a la p del número total de medias. Para el cálculo de este valor crítico se necesita el valor de q que se encuentra en la Tabla 8 (ver el archivo) según la expresión:

Siendo:el error típico combinado, es decir, la raíz cuadrada del cuadrado medio del

error dividido por el tamaño de submuestraq el valor que se encuentra en la tabla 8 para p=número total de medias y gl delerror-No se incluye el término porque va incluido en los valores de q de la tabla

En el caso de tamaños de submuestras diferentes se utilizaría como n el valorde la media armónica de las dos submuestras, siendo la prueba:

Page 70: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Prueba de Student-Newmans-Keuls o SNK

Se basa en el valor q (tabla 8), de recorrido Studentizado, pero en lugar de tomarun solo valor para la región crítica, correspondiente a la p del número total demedias que se van a comparar, la región crítica cambiará, dentro de la mismaprueba, con arreglo a la distancia, en número de medias, entre las dos mediasque se comparan. Por tanto, los valores de p dentro de una misma pruebacambiaran de un mínimo de p=2, correspondiente a dos medias contiguas, hastaun valor máximo de p=t-1, correspondiente a las dos medias de valor másalejado. Por lo que para cada valor de q se calcula su región crítica multiplicandoel valor q de la tabla por el error típico combinado de las medias, quedando laprueba de la siguiente manera:

Siendo el error típico combinado, es decir, la raíz cuadrada del cuadrado mediodel error dividido por el tamaño de submuestra y q los valores de la tabla 8 parap=número de medias entre las dos que se están contrastando y los gl del errorEn el caso de tamaños de submuestras diferentes se utilizaría como n el valor dela media armónica de las dos submuestras, siendo la prueba:

Page 71: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Prueba de Duncan o de amplitudes múltiples

Se parece a la prueba SNK en que usa amplitudes múltiples y regiones críticasvariables que dependen del número de medias que entran en cada etapa. Se usala tabla r (Tabla 7) para los rangos críticos. Para efectuar las comparacionesmúltiples entre t medias, se necesita, como en las anteriores pruebas, elcuadrado medio del error sus grados de libertad y el número de observaciones(n) en cada nivel del factorEl contraste consiste en:

Siendo:el error típico combinado, es decir, la raíz cuadrada del cuadrado medio del

error dividido por el tamaño de submuestra y r los valores de la tabla 7 parap=número de medias entre las dos que se están contrastando y los gl del error.

En el caso de tamaños de submuestras diferentes se utilizaría como n el valorde la media armónica de las dos submuestras, siendo la prueba:

Page 72: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Prueba de Scheffe

Es muy general en el sentido de que todas las posibles comparaciones puedenprobarse en cuanto a significación, es decir que no solamente se puedenestablecer contrastes entre dos medias sino entre ciertas combinaciones linealesde ellas, no siendo necesario que el número de elementos por tratamiento seaigual para todos ellos. El contraste consiste en:

Siendo:

En el caso de tamaños de submuestras diferentes se utilizaría como n el valorde la media armónica de las dos submuestras, siendo la prueba

Page 73: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Contrastes ortogonales con factores cuantitativos

Son comparaciones planeadas de los tratamientos cuando éstos tienenniveles numéricos igualmente espaciados. Se estudia la tendencia quepresenta la variable analizada al aumentar progresivamente los nivelesdel tratamiento. Esta tendencia puede ser lineal, cuadrática, cúbica, etc., yuna vez establecida servirá para interpretar los resultados

El cálculo de los coeficientes para estos contrastes se puede realizarteniendo en cuenta el tipo de función a la que se quiere ajustar los puntosobtenidos. Los coeficientes para las sumas cuadrados para las funcioneslineal, cuadrática y cúbica se encuentran en la Tabla 6 y no hay más queaplicarlos directamente para la obtención de las SC

EjemploSe han aplicado cuatro dosis,15, 20, 25 y 30 de un determinado producto a un cultivo celular, habiéndose obtenido las siguientes respuestas:

Page 74: ESTADÍSTICOS: Valores que definen la distribución de una o ...

El resultado del ANOVA es:

Como F(3,12; 0.05) = 4.49 los tratamientos son significativos. Para saber si elefecto de la dosis es lineal cuadrático o cúbico se toman los coeficientesdados en la Tabla 6 para dichas funciones y 3 gl (nº de tratamientos -1):

Las SC son:

Page 75: ESTADÍSTICOS: Valores que definen la distribución de una o ...

El ANOVA correspondiente será:

La respuesta es, por tanto, lineal

Page 76: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Se

Page 77: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Se

Page 78: ESTADÍSTICOS: Valores que definen la distribución de una o ...

Se

Page 79: ESTADÍSTICOS: Valores que definen la distribución de una o ...
Page 80: ESTADÍSTICOS: Valores que definen la distribución de una o ...
Page 81: ESTADÍSTICOS: Valores que definen la distribución de una o ...
Page 82: ESTADÍSTICOS: Valores que definen la distribución de una o ...