Análisis previos de los datos

download Análisis previos de los datos

of 25

  • date post

    14-Jan-2016
  • Category

    Documents

  • view

    47
  • download

    0

Embed Size (px)

description

Análisis previos de los datos. Nicolás Arturo Núñez Gómez. Ph. D Facultad de Salud. Escalas de medición. No métrica: Nominal y Ordinal Métrica: Intervalo y razón Escalas sumadas: Σ (indicadores). - PowerPoint PPT Presentation

Transcript of Análisis previos de los datos

  • Anlisis previos de los datosNicols Arturo Nez Gmez. Ph. DFacultad de Salud

  • Escalas de medicin.

    No mtrica: Nominal y Ordinal

    Mtrica: Intervalo y razn

    Escalas sumadas: (indicadores)

  • Error de medida. Grado en que los valores observados no son representativos de los valores verdaderos. Ruido blanco.

    Valor observado = verdadero + ruido.

    Medida, tabulacin, informante, anlisis.Validez. Terica, precisinConfiabilidad. Repeticin de medida y control del error de medida

  • Significacin estadstica.Resultados de un modelo de anlisis de datos

    Significacin prcticaAplicabilidad y predictibilidad del modelo en la vida de las familias, las empresas y elestado

  • Significacin estadstica frente a potencia estadstica Inferencia estadstica de los valores de una poblacin o la relacin de variables de una muestra escogida aleatoriamente.

    hiptesis nula (Ho) que se formula y por tanto se quiere contrastar o rechazar.

    Hiptesis alternativa (H1) cualquier que sea diferente de la formulada, y que sea contraria a Ho.

  • Interpretar una inferencia se debe definir:Nivel de error aceptable, nivel de significacin . Positivo FalsoError Tipo I.- Se rechaza H0 cuando sta es verdaderaPotencia de la prueba = 1- . Error Tipo II.- Se acepta H0 cuando sta es falsaPotencia: efecto tamao, y tamao muestra. =0.05 y =80

  • EL VALOR TEORICOCombinacin lineal de variables con ponderaciones determinadas empricamente. El investigador especifica las variables, mientras que las ponderaciones son objeto especfico de determinacin por parte de la tcnica multivariante, Un valor terico de n variables ponderadas (X1a Xn) puede expresarse matemticamente as:

    Valor terico = w1X1 + w2X2 + w3X3 + + wnXn

    donde Xnes la variable observada y Wnes la ponderacin determinada por la tcnica multivariante.

  • ESCALAS DE MEDIDAEscalas de medidas no metricas:escalas nominales escalas ordinales

    Escalas de medidas mtricas:

    escalas de intervalosescalas de razn

  • ERROR DE MEDIDA Y MEDIDAS MULTIVARIANTES El error de medida es el grado en que los valores observados no son representativos de los valores verdaderos. El error de medida; errores en la entrada de datos, imprecisin en la medicin el valor observado obtenido representa tanto el nivel verdadero como el ruido.

  • El objetivo del investigador de reducir el error de medida puede seguir varios caminosLa validez es el grado en que la medida representa con precisin lo que se supone que representa. Si la misma medida se realiza repetidas veces, por ejemplo, las medidas ms fiables mostrarn una mayor consistencia que las medidas menos fiables.

  • SIGNIFICACION ESTADISTICA FRENTE A POTENCIA ESTADISTICAPara interpretar las inferencias estadsticas, se debe especificar los niveles aceptables de error estadstico. El nivel de error de Tipo I, tambin conocido como alfa (). El error de Tipo I es la probabilidad de rechazar la hiptesis nula cuando es cierta.Expresado en trminos ms sencillos, la posibilidad de que la prueba muestre significacin estadstica cuando en realidad no est presente (el caso de un positivo falso). Especificando un nivel alfa, el investigador fija los mrgenes admisibles de error especificando la probabilidad de concluir que la significacin existe cuando en realidad no existe.

  • el error de Tipo II o beta ().El error de Tipo II es la probabilidad de fallar en rechazar la hiptesis nula cuando es realmente falsa. Una probabilidad ms interesante es 1 - , denominado la potencia del test de inferencia estadstica. Potencia es la probabilidad de rechazar correctamente la hiptesis nula cuando debe ser rechazada. Por tanto, la potencia es la probabilidad de que la inferencia estadstica se indique cuando est presente.

  • La potencia1.Efecto tamao

    2.Alfa ()

    3.El tamao de la muestra

  • REPRESENTACION PARA EL ANALISIS MULTIVARIANTE INTERPRETACIONESTABLECER LA SIGNIFICACION PRACTICA ASI COMO LA ESTADISTICA TAMAO MUESTRAL AFECTA A TODOS LOS RESULTADOS CONOCER LOS DATOS PROCURAR LA PARSIMONIA DEL MODELOATENDER A LOS ERRORESVALIDAR LOS RESULTADOS

  • Pasos para desarrollar una investigacin con mtodos cuantitativos en economa Definir el problema de investigacin: objetivos y tcnicas multivariantesRecoleccin de bases de datosEvaluacin de supuestos bsicos: normalidad, linealidad, ~N(0,2), varianza constante.Estimacin del modelo y ajusteInterpretacin del valor tericoValidacin del modeloDiagrama de flujo de decisiones

  • *Los casos atpicos son observaciones con caractersticas diferentes de las dems.

    Su principal problema radica en que son elementos que pueden no ser representativos de la poblacin pudiendo distorsionar seriamente el comportamiento de los contrastes y resultados estadsticos. DatosD Atpicos

  • *Tipos de outliers

    Los casos atpicos pueden clasificarse en 4 categoras:

    Los que surgen de un error de procedimiento, tales como la entrada de datos o un error de codificacin. 2. observacin que ocurre como consecuencia de un acontecimiento extraordinario. En este caso, el outlier no representa ningn segmento vlido de la poblacin y puede ser eliminado del anlisis.

    3. observaciones cuyos valores caen dentro del rango de las variables observadas, pero que son nicas en la combinacin de los valores de dichas variables. Estas observaciones deberan ser retenidas en el anlisis pero estudiando qu influencia ejercen en los procesos de estimacin de los modelos considerados.4. las observaciones extraordinarias para las que el investigador no tiene explicacin. En estos casos lo mejor que se puede hacer es replicar el anlisis con y sin dichas observaciones con el fin de analizar su influencia sobre los resultados. Si dichas observaciones son influyentes el analista debera reportarlo en sus conclusiones y debera averiguar el por qu de dichas observaciones.

  • *Identificacin de outliers

    Los casos atpicos pueden identificarse desde una perspectiva univariante o multivariante.

    La perspectiva univariante utilizar grficamente histogramas o diagramas de caja o bien numricamente, mediante el clculo de puntuaciones tipificadas.

    Para muestras de 80 o incluso menos observaciones, las pautas sugeridas identifican como atpicos aquellos casos con valores estndar de 2.5 o superiores, para el resto 3.

  • *pares de variables mediante un grfico de dispersin. Casos que se ubiquen fuera del rango del resto de las observaciones pueden identificarse como puntos aislados en el grfico de dispersin. Para ayudar a determinar el rango esperado de las observaciones, se puede superponer sobre el grfico de dispersin una elipse que represente un intervalo de confianza especificado para una distribucin normal bivariante.

  • *

  • *Tipos de valores ausentesSe distinguen las dos situaciones siguientes:

    Datos ausentes prescindibles: son resultado de procesos que se encuentran bajo el control del investigador y pueden ser identificados explcitamente. En estos casos no se necesitan soluciones especficas para la ausencia de datos dado que dicha ausencia es inherente a la tcnica usada.

    2) Datos ausentes no prescindibles: son resultado de procesos que no se encuentran bajo el control del investigador y/o no pueden ser identificados explcitamente.

  • *Segn este grado el proceso de datos ausentes sepuede clasificar del siguiente modo:

    Datos ausentes aleatorios (MCAR), este es el mayor grado de aleatoriedad y se da cuando los datos ausentes son una muestra aleatoria simple de la muestra, sin un proceso subyacente que tiende a sesgar los datos observados. En este caso se podra solucionar el problema sin tener cuenta el impacto de otras variables

    b) Datos ausentes no aleatorios: en este caso existen patrones sistemticos en el proceso de datos ausentes y habra que evaluar la magnitud del problema calibrando, en particular, el tamao de los sesgos introducidos por dichos patrones. Si stos son grandes habra que atacar el problema directamente intentando averiguar cules son dichos valores.

  • *Aproximaciones al tratamiento de datos ausentes

    a)Utilizar slo los casos completos: conveniente si el tamao muestral no se reduce demasiado.

    b) Supresin de casos y/o variables con una alta proporcin de datos ausentes. Esta supresin deber basarse en consideraciones tericas y empricas. En particular, si algn caso tiene un dato ausente en una variable dependiente, habitualmente excluirlo puesto que cualquier proceso de imputacin puede distorsionar los modelos estimados.

    As mismo una variable independiente con muchos datos ausentes podr eliminarse si existen otras variables muy similares con datos observados

  • *c) Imputar valores a los datos ausentes utilizando valores vlidos de otras variables y/o casos de la muestra

    Mtodos de imputacin

    Los mtodos de imputacin pueden ser de tres tipos:

    1) Mtodos de disponibilidad completa que utilizan toda la informacin disponible a partir de un subconjunto de casos para generalizar sobre la muestra entera. Se utilizan habitualmente para estimar medias, varianzas y correlaciones

  • *2) Mtodos de sustitucin que estiman valores de reemplazo para los datos ausentes, sobre la base de otra informacin existente en la muestra. As se podra sustituir observaciones con datos ausentes por observaciones no muestrales o sustituir dichos datos por la media de los valores observados o mediante regresin sobre otras variables muy relacionadas con aquella a la que le faltan observaciones.

    3) Mtodos basados en modelos que construyen explcitamente el mecanismo por el que se producen los datos ausentes y lo estiman por mxima verosimilitud. Entran en esta categora el algoritmo EM o los procesos de aumen