PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el...

25
Estadística descriptiva PARAMETROS Y ESTADISTICOS Marta Alperin Profesora Adjunta de Estadística [email protected] http://www.fcnym.unlp.edu.ar/catedras/estadistica

Transcript of PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el...

Page 1: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Estadística descriptiva

PARAMETROS Y ESTADISTICOS

Marta Alperin

Profesora Adjunta de Estadística

[email protected]

http://www.fcnym.unlp.edu.ar/catedras/estadistica

Page 2: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

• Medidas de tendencia central: Moda, Mediana, Media

aritmética, propiedades, ventajas e inconvenientes, Media

geométrica.

• Medidas de dispersión: Rango, Rango intercuartilico,

Varianza, Desvío estándar.

• Medidas de forma: asimetría y apuntamiento o curtosis.

• Ejemplo de cálculo con datos agrupados.

Page 3: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Estadística descriptiva:

Descripción de los datos con estadísticos y parámetros Para inferir como es la población necesitamos medidas rigurosamente definidas. Para describir las distribuciones se definen medidas o valores que dan cuenta de la:

a. Tendencia central

a. Dispersión o variabilidad de los datos

c. Forma

Nuestro interés es describir la muestra y la población. Cualquier medida referida a la:

• el tamaño de muestra lo representaremos con n, los de la población con N.

• MUESTRA recibe el nombre de “Estadístico o Estadística” y se designa con letras mayúsculas (X, Y, W, con algún adorno).

• POBLACIÓN recibe el nombre de “Parámetros” y se designan con letras griegas (σ, ρ, ц, Ф, γ, etc.).

Page 4: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

a.Tendencia central

1. Moda

2. Mediana

3. Promedio o Media Aritmética

4. Media Geométrica

Page 5: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

1. Moda: la Moda de una serie de datos es el valor que aparece con más frecuencia que cualquier otro. Ejemplo: para el siguiente conjunto de datos del largo del ala de mariposas emperador (mm)

Observación: la moda es inestable ya que puede cambiar con el método de redondeo de los datos. En distribuciones que aumentan o disminuyen continuamente y a ritmo constante, la moda podrá ser un valor extremo más que un valor de tendencia central. Puede haber distribuciones con 2 modas (bimodales) o mas de 2 (multimodales).

A B C D E F G

6,2 9,3 4,8 7,2 5,5 5,5 5,5

moda

Datos agrupados

La moda se encuentra en la clase de mayor frecuencia,

la clase modal.

CLX

21

1.mod.inf.ˆ

L.inf.mod = límite inferior de la clase modal,

Δ1 = valor absoluto de la diferencia entre la frecuencia de la clase

premodal y modal

Δ2 = valor absoluto de la diferencia entre la frecuencia de la clase

posmodal y modal

C = amplitud del intervalo de la clase modal

Histograma

0 5 10 15 20 25 30

Contenido de Limo (g)

0

5

10

15

20

25

30

No

. de

da

tos

Valor de la MODA

Page 6: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Mediana: La Mediana de una serie, cuando los valores se disponen según sus magnitudes, es el valor medio. Es una medida de posición que divide a una serie dejando a su izquierda el 50% de los valores menores a él y a su derecha el 50% de los valores mayores a él.

-Datos sin agrupar. n impar, el valor coincide con el valor central.

n par, se encuentra entre los dos valores centrales.

X~

A B C D E

6,2 9,3 4,8 7,2 5,5

Observación: una característica importante de la mediana es que no se deja influenciar con la magnitud de los valores de las colas de una distribución.

{4,8; 5,5; 6,2; 7,2; 9,3}

mediana

-Datos agrupados La clase mediana es la clase cuya frecuencia acumulada

supera primero el valor de la mitad mas uno de los datos

[(n+1)/2]

C

fme

fapnmedLX

2/1..inf.

~

Lme = límite inferior de la clase mediana

fap = frecuencia acumulada en la clase que precede

inmediatamente a la clase que tiene a la mediana

fme = frecuencia de la clase que tiene a la mediana

C = amplitud del intervalo

Polígono de frecuencia acumulada (Ojiva)

4 8 12 15 19 23 27

Contenido de limo (g)

F(x

)

100

20

80

40

60

OJIVA

Valor de la Mediana

50

Ejemplo: para el siguiente de datos del diámetro de concreciones del Valle de la Luna (mm):

Page 7: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Promedio o Media Aritmética: la media aritmética, , para un conjunto de

“n” observaciones {x1, x2, ..., xn}, es igual a las suma de los “n” valores dividido el

número total de valores (n). La media poblacional se designa con μ.

X

A B C D E

6,2 9,3 4,8 7,2 5,5

Ejemplo: para el siguiente conjunto de datos de diámetro cefálico de cobayos (mm)

n

xxxX n

...21

n

i

i

n

xX

1

n

i

ixn

X1

1

6,65

5,52,78,43,92,6

X

n

i

ii

n

afX

1

n

i

ii

n

cfX

1

Para datos agrupados

• Discretos •Continuos

fi: frecuencia a: valor de la variable

fi: frecuencia del intervalo de clase c: marca de clase del intervalo

mm

Page 8: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Propiedades: 1º Es un valor típico, es el centro de gravedad, es un punto de equilibrio. Su valor puede sustituir al valor de cada dato de la serie sin cambiar el total dado que:

2º La suma algebraica de las desviaciones con relación a la media es “0”

3º La suma del cuadrado de las desviaciones de los datos respecto a la media es menor que las desviaciones al cuadrado de cualquier otro punto.

Observación: una característica importante de la media es su inestabilidad. Por ejemplo con el agregado de datos extremos su valor cambia sustancialmente.

n

i

ixn

X1

1

n

i

ixXn1

n

i

i Xx1

0

n

i

i mínimoXx1

2

Page 9: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Media Geométrica: la media geométrica, G, para un conjunto de n observaciones

{x1, x2, ..., xn}, es igual a la raíz n-ésima del producto de las n observaciones.

Ejemplo: para el siguiente conjunto de datos de leyes de Cu (ppm)

A B C D E

6,2 9,3 4,8 7,2 5,5

nnxxxG 21

4,60,109605,52,78,43,92,6 55 G

Observaciones - G de un conjunto de números positivos es siempre menor a la media aritmética. - G es un mejor estimador de tendencia central cuando la distribución de frecuencias es de

asimetría a la derecha (ej. distribución lognormal).

- Se utiliza para calcular medidas de tendencia central de datos que se expresan como porcentajes, los llamados datos composicionales.

ppm

Para datos agrupados n fn

n

ff xxxG ...2

2

1

1

Page 10: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Relaciones entre Mediana, Moda, Media

•Distribución con asimetría positiva o cola a la derecha: Moda>Mediana>Media

•Distribución con asimetría negativa o de cola izquierda Media>Mediana>Moda

•En distribuciones simétricas Media = Mediana =Moda

Page 11: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

.

Precipitación

(mm)

Marca de Clase (ci)

Frecuencia observada

(fi)

Frecuencia acumulada

Frecuencia relativa %

Frecuencia

relativa acumulada %

0-50 25 21 21 22,58 22,58

50-100 75 34 55 36,56 59,14

100-150 125 26 81 27,96 87,10

150-200 175 8 89 8,60 95,70

200-250 225 4 93 4,30 100,0

PR EC IPITAC ION ES D E N OVIEMBR E

0 50 100 150 200 250

Precipitaciones (mm)

0

5

10

15

20

25

30

35

40

45

No

. de

ob

serv

aci

on

es

50 100 150 200

Precipitación (mm)

0

10

20

30

40

50

60

70

80

90

100

Fre

cuencia

rela

tiva a

cum

uld

a %

Ejemplo: el partido de Bolivar se ubica en el centro de la provincia de Buenos Aires,

en la Pampa húmeda. Pose relieve ligeramente ondulado con muy buenas condiciones físicas. Los suelos son aptos para una amplia gama de usos como los cultivos de cereales y oleaginosas, así como de pasturas implantadas. La precipitación es una variable muy importante para establecer no solo el balance hidrológico de una región, sino también para planificar el uso del suelo. Se presenta la distribución de la precipitación caída en Bolivar desde 1911-2002 durante el mes de noviembre agrupada en 5 clases

Page 12: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

n

i

ii

n

fcX

1

mmX 74,9793

8625

CLX

21

1mod.inf.ˆ

Clase que contiene la moda: [50-100]

L.inf.mod: 50 Δ1 = 21 - 34 = 13

C = 50 Δ2 = 26 - 34 = 8

C

fme

fapnmedLX

2/1..inf.

~

(n+1)/2= (93+1)/2 = 47

Clase que contiene a la mediana: [50-100]

L.inf.med. = 50 fme = 34

fap = 21 C = 50

Distribución con asimetría

positiva o cola a la derecha: Moda> Mediana>Media

80,95>88,24>97,74

mmX 24,885034

214750

~

Estadísticos de tendencia central

Promedio 8625)4225()8175()26125()475()2125(1

n

i

ii fc

Moda

Mediana

Precipitación

(mm)

Marca de Clase (ci)

Frecuencia observada

(fi)

Frecuencia

acumulada

(fi ac.) ci fi

0-50 25 21 21 525

50-100 75 34 55 2550

100-150 125 26 81 3250

150-200 175 8 89 1400

200-250 225 4 93 900

Suma 93 8625

mmX 95,8050813

1350ˆ

Page 13: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

b. Dispersión

1. Amplitud, rango o recorrido

2. Rango intercuartilico

3. Varianza o variancia

4. Desvío estándar

5. Coeficiente de variación

Page 14: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Amplitud, rango ó recorrido: El rango para un conjunto de n observaciones {x1, x2, ..., xn}, es la diferencia entre el valor máximo y el mínimo.

Ejemplo: largo (cm) de lombrices californianas

A B C D E

6,2 9,3 4,8 7,2 5,5

En este caso la amplitud es:

A = 9,3 - 4,8 = 4,5 cm

Page 15: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Otras medidas de dispersión:

Definición: El cuantil xα divide a la muestra de datos en dos partes: el α% de

los valores es menor que α y el (1 – α) de los valores es mayor que xα.

Existen otros valores de la variable semejantes a la Mediana que dividen a la población y la muestra en 4 (cuartiles), 10 (deciles) y 100 (percentiles).

Cfm

fapNLX

%)(%.inf.%

L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada en la clase que precede inmediatamente a la clase que tiene al α% fm: frecuencia de la clase que tiene al α% C : amplitud del intervalo

Rango inercuartilico Los cuartiles son 3: X0,25 (primer cuartil); X0,50 (segundo cuartil o mediana) y X0,75 (tercer cuartil).

• El rango intercuartilico RI es una medida de dispersión basada en el recorrido de los

cuartiles.

RI = X0,75 – X0,25

• Otros autores prefieren usar el recorrido basado en los percentiles

RI = X0,90 – X0,10

Page 16: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Varianza

Podríamos pensar en expresar la variación de los datos con respecto a la media como el promedio de las diferencias entre cada dato a la media.

n

XxXxXx n ...21 pero

Recordar la 2º propiedad de la media: el promedio de las desviaciones respecto a la Media siempre es cero.

Especimen xi xi - X

A 9 4

B 2 -3

C 7 2

D 5 0

E 4 -1

F 6 1

G 5 0

H 2 -3

Suma 40 0

Promedio: 40/8=5

)(),...,(),( 21 XxXxXx n

0...21

Xn

xxx n

Page 17: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Varianza es el promedio del cuadrado de las desviaciones de los datos con respecto a la media:

Especimen xi xi - X (xi - X)2

A 9 4 16

B 2 -3 9

C 7 2 4

D 5 0 0

E 4 -1 1

F 6 1 1

G 5 0 0

H 2 -3 9

Suma 40 0 40

Promedio: 40/8=5

Varianza: 40/8=5

La varianza se expresa en el cuadrado de las unidades de la variable.

N

xxx n

22

2

2

12 ...

N

i

ixN 1

22 1

n

i

i Xxn

S1

22

1

1Población

Ejemplo: para la población del número de individuos de parásitos encontrados en el intestino del Pingüino

de Magallanes de Punta Tombo:

Observación: Los valores altos tienen gran influencia en la varianza

Muestra

Cuando la S2 se usa para calcular σ2, la 3º propiedad de la media tiende a subestimar S2 . El sesgo se reduce cuando se usa (n -1) lo que produce un estimador mayor de σ 2.

Page 18: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Desvío estándar La desvío estándar de n observaciones (x1 , x2 , ... , xn), es la raíz cuadrada

positiva de la varianza:

N

i

ixN 1

2)(1

n

i

i Xxn

S1

2)(1

1

para la Población para la Muestra

N

i

ii

n

fXcS

1

2

1

N

i

ii

N

fc

1

2

ci: marca de intervalo de clase

fi: frecuencia de intervalo de clase

Datos agrupados

Ejemplo: para la población del número de individuos de parásitos encontrados en el intestino del Pingüino de Magallanes de Punta Tombo:

23,25

52

parasitos

Page 19: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Coeficiente de variación • Es una medida que da cuenta de la variabilidad relativa de las observaciones.

Para el ejemplo del número de parásitos de los pingüinos magallanes Promedio: 4 parásitos y Desvío estándar: 2,23 parásitos Coeficiente de variación: 0,5575 o 55,75%

Observaciones:

• El coeficiente de variación refleja una mezcla desconocida de la variabilidad natural, la

variabilidad introducida durante el proceso de muestreo y de causas aleatorias.

• El coeficiente de variación es útil para comparar la variabilidad entre varias muestras, aun si las mediciones fueran realizadas en diferentes unidades.

• Es una medida que se utiliza como guía para evaluar la conveniencia de efectuar o no la transformaciones de los datos.

Para la población: γ = σ/μ XPara la muestra CV = S /

• Se calcula como el cociente entre el desvío estándar y la media.

• Puede tomar valores positivos o negativos. • Carece de unidades pero suele expresarse en forma porcentual.

Page 20: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Rango o Amplitud

Coeficiente de variación

1058125)4.225()8.175()26.125()34.75()21.25( 22222

1

2

n

i

ii fc

7439062586252

2

1

n

i

ii fc

n

i

n

i

iii nfcfcn

si

1 1

22

1

1

mms 98,5280,2806

CV%=54%

54,074,97

98,52

mm

mmCV

Estadísticos de dispersión

A=250-0 = 250 mm A:Valor máximo – Valor mínimo

CV = S /

Varianza

Desvío estándar

Precipitación

(mm)

Marca de Clase (ci)

Frecuencia observada

(fi) ci fi ci

2 ci 2 fi

0-50 25 21 525 625 13125

50-100 75 34 2550 5625 191250

100-150 125 26 3250 15625 406250

150-200 175 8 1400 30625 245000

200-250 225 4 900 50625 202500

Suma 93 8625 1058125

22 8,2806193

19,7998991058125mms

X

nfcfcn

fXcn

sn

i

ii

n

i

iii

n

i

i

2

11

2

1

2

1

1)(

1

1

Page 21: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

c. Forma 1. Coeficiente de Simetría

2. Curtosis

Coeficiente de simetría: Informa si los datos están equilibrados en torno

a la media o si hay mas a la derecha o izquierda. Se define como:

Se puede demostrar que:

CS < 0, la asimetría es negativa (a) CS > 0, la asimetría es positiva (b) CS = 0 asimetría nula (simetría) (c)

3

3

S

XCS

n

i

i Xxn

X1

33 1donde:

Page 22: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Coeficiente de Exceso E o de Kurtosis o Curtosis K mide el grado

de achatamiento de un histograma con respecto al modelo teórico Normal. Se define como:

Se puede demostrar que:

E > 0, histograma más puntiagudo que el Normal (a) E < 0, histograma más achatado que el Normal (b) E = 0 histograma sin achatamiento (c)

a) Histograma puntiagudo o b) Histograma achatado o c) Histograma normal o leptocurtico platicurtico mesocurtico

4

4

S

XE

n

i

i Xxn

X1

44 1donde:

Page 23: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Asimetría y Curtosis Ejemplos para distribuciones con la misma media y el mismo número de datos

Las figuras de la izquierda (a, c y e) tienen bajo grado de asimetría. Las figuras de la derecha (b, d y f) son marcadamente asimétricas, la Moda está desplazada respecto a la media. Las 2 distribuciones de cada fila tienen curtosis semejantes: • a y b son las más “picudas” o leptocurticas, • c y d son mesocurticas ,y • e y f son las más “aplastadas” o platicurticas

Page 24: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Precipitación

(mm)

Marca de Clase

(ci)

Frecuencia observada

(fi) (xi- )3 (xi- )3 fi (xi- )4 (xi- )4 fi

0-50 25 21 -384875.167 -8082378.5 27995819.6 587912212

50-100 75 34 -11759.0268 -399806.912 267400.27 9091609.18

100-150 125 26 20257.1132 526684.943 552208.905 14357431.5

150-200 175 8 461173.253 3689386.03 35630245.5 285041964

200-250 225 4 2060989.39 8243957.57 262281510 1049126041

Suma 93 3977843.13 1945529258

4

4

S

XE

n

i

i Xxn

X1

4

4 )(1

3

3

S

XCS

n

i

i Xxn

X1

3

3 )(1

74,97X

S= 52,98

S3= 148708,53 5,4277293

13,39778433 X 29,0

53,148708

51,42772CS

S4= 7888577,58 4,2091966993

19455292584 X 66,2

58,7888577

4,20919669E

CS>0 la disitribución tiene asimetría positiva (cola derecha)

E >0 la distribución es mas puntiaguda que una distribución normal

Estadísticos de forma

Coeficiente de Exceso o de Curtosis

Coeficiente de Simetría donde,

donde,

Page 25: PARAMETROS Y ESTADISTICOS - Facultad de … · L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada

Agradezco su atención