Dados Monitorização Ambiental Descrição Estatística Univariada Multivariada · Estatística...
Transcript of Dados Monitorização Ambiental Descrição Estatística Univariada Multivariada · Estatística...
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
INTRODUÇÃO
Dados Monitorização Ambiental
Descrição Estatística • Univariada • Bivariada • Multivariada
Classificação d
A B C D E F G
Análise Espacial • Descrição
• Estimação
Mina de Feitais -Teor em As (%) Sondagem
0 4 8 12 16 20
h(m)
4
8
12
γ(h)
Modelo Esférico c0 = 0.4 %2 c1 = 10.8 %2 a = 6.3 m
c0+c1
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
PROGRAMA
1 - INTRODUÇÃO
2 - ESTATÍSTICA DESCRITIVA
2.1 - Estatística Descritiva Univariada (revisão) 2.1.1 - Quantis 2.1.2 - Medidas de síntese (tendência central, dispersão e simetria) 2.1.3 - Representações gráficas
2.2 - Estatística Descritiva Bivariada 2.2.1 - Medidas de correlação 2.2.2 - Tabelas de contingência 2.2.3 - Representações gráficas
2.3 - Estatística Descritiva Multivariada 2.3.1 - Introdução 2.3.2 - Análise em Componentes Principais 2.3.3 - Análise das Correspondências
3 - REGRESSÃO LINEAR
3.1 - Regressão Linear Simples
3.2 - Regressão Múltipla
4 - CLASSIFICAÇÃO AUTOMÁTICA
4.1 - Introdução
4.2 - Classificação Hierárquica
4.3 - Classificação Não Hierárquica
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
PROGRAMA
5 - SÉRIES TEMPORAIS
6 - GEOESTATÍSTICA (ESTATÍSTICA ESPACIAL)
6.1 - Generalidades
6.3 - Algumas características das variáveis regionalizadas
6.3 - Teoria das variáveis regionalizadas 6.3.1 - Funções Aleatórias 6.3.2 - Hipóteses restritivas. Estacionaridade de 2ª ordem. Estacionaridade intrínseca 6.3.3 - Medidas de continuidade espacial: covariância espacial, correlograma e variograma 6.3.4 - Propriedades da covariância e do variograma
6.4 - Análise Estrutural (Variografia) 6.4.1. - Cálculo dos variogramas experimentais 6.4.2. - Ajustamento do modelo teórico 6.4.3. - Alguns exemplos de análise estrutural
6.5 - Introdução à Estimação Geoestatística 6.5.1 - Inferência estatística 6.5.2 - Variância de estimação
6.6 - Estimação Linear em Geoestatística
6.6.1 - Introdução 6.6.2 - Estimador linear de krigagem 6.6.3 - Propriedades do estimador de krigagem
6.7 - Casos de estudo
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
BIBLIOGRAFIA
(ESTATÍSTICA DESCRITIVA)
Jambu, M. (1989) - Exploration Informatique et Statistique des Données. Dunod, 505 pp.
Jolliffe, I. T. (1986) - Principal Component Analysis. Springer-Verlag, 271 pp..
Lebart, L., Morineau, A. & Warwick, K.M. - Multivariate Descriptive Statistical Analysis. Wiley, New York, 1984.
Murteira, B.J.F. (1993) – Análise Exploratória de Dados – Estatística Descritiva. McGraw-Hill Portugal, 329pp.
Pereira, H. G. & Sousa, A. J. (1988) - Tratamento de Quadros Multidimensionais. CVRMUTL, 105 pp http://biomonitor.ist.utl.pt/~ajsousa/AnalDadosTratQuadMult.html
Reis, E. (1997) – Estatística Multivariada Aplicada. Edições Sílabo, 343 pp..
Sharma, S. (1996) - Applied Multivariate Techniques. Wiley, New York, 493 pp..
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
BIBLIOGRAFIA
(SÉRIES TEMPORAIS)
Bento J.F. Murteira, Daniel A. Muller, K. Feridun Turkman, 1993, “Análise de Sucessões Cronológicas”, McGraw-Hill (310 páginas).
L. Valadares Tavares, Rui Carvalho Oliveira, Isabel Hall Themido e F. Nunes Correia, 1996, “Investigação Operacional”, MsGraw-Hill de Portugal. (Capítulo 5 – Modelos de Previsão, páginas 229 a 266)
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
BIBLIOGRAFIA
(ESTATÍSTICA ESPACIAL. GEOESTATÍSTICA)
Cressie, N. (1991) - Statistics for spatial data analysis. Wiley-Interscience, 900 pp.
David, M. (1977) - Geostatistical ore reserve estimation. Elsevier, 364 pp.
Goovaerts, P. (1997) – Geoestatistics for Natural Resources Evaluation. Oxford University Press, New York, 483 pp.
Isaaks, E. H. & Srivastava, R. M. (1989) - An Introduction to Applied Geostatistics. Oxford University Press, New York, 561 pp.
Journel, A. & Huijbregts, Ch. J. (1978) - Mining Geostatistics. Academic Press, London, 600 pp..
Kitanidis, P. K. (1997) - Introduction to Geostatistics. Applications in Hydrogeology. Cambridge University Press, 249 pp.
Sousa, A. J. & Muge, F. (1990) - Elementos de Geoestatística. LMPM, IST, 63 p. http://biomonitor.ist.utl.pt/~ajsousa/AnalDadosTratQuadMult.html
Soares, A. (2000) – Geoestatística para as Ciências da Terra e do Ambiente. IST Press, 206p.
ACETATOS DA DISCIPLINA
http://biomonitor.ist.utl.pt/~ajsousa/EstAmb.html
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
SOFTWARE
ESTATÍSTICA DESCRITIVA
ANDAD
SPSS
SÉRIES TEMPORAIS
PEST Time Series Program for Windows (http://www.math.kth.se/matstat/gru/5b1545/itsm6.zip)
ASTSA (http://www.stat.pitt.edu/stoffer/tsa2/ - descarga de ASTSAsetup.exe ou de astsa.zip) é um package para Windows.
GEOESTATÍSTICA
GeoMS
ArcMap
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
REVISÃO DA ESTATÍSTICA DESCRITIVA
ESTATÍSTICA
Ramo da Matemática que se dedica ao estudo da colheita, organização, representação e análise de dados e aos métodos que permitem extrair conclusões e fazer inferências a partir desses dados.
POPULAÇÃO
Conjunto de todos os elementos sujeitos ao estudo. Aplica-se também ao conjunto dos valores tomados pelos vários elementos.
AMOSTRA
Qualquer subconjunto de valores (e/ou elementos) extraídos da população.
ESTATÍSTICA
Medida numérica de síntese de determinada característica de uma população
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
RAMOS DA ESTATÍSTICA
ESTATÍSTICA DESCRITIVA (DEDUTIVA)
Ramo da Estatística dedicado à representação e análise de um conjunto de dados, relacionados com uma amostra ou com uma população conhecida de forma exaustiva.
ESTATÍSTICA INFERENCIAL (INDUTIVA)
Ramo da Estatística dedicado à previsão/estimação de parâmetros de uma população a partir dos dados de uma amostra colhida de forma adequada
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
QUADRO DE DADOS GENÉRICO
Cada amostra i está localizada no ponto com coordenadas xi e é caracterizada por p atributos ou variáveis zij(xi).
zij(xi) - Variável regionalizada
Tipos de variáveis
• Quantitativas (contínuas)
• Qualitativas (discretas)
Exemplos: Teores químicos em amostras de solos
Condutividade
Intensidade de fracturação
Tipo de solo
Variável Indicatriz
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
TIPOS DE VARIÁVEIS
QUANTITATIVAS OU CONTÍNUAS
Variáveis que, a priori, podem tomar um número infinito não numerável de valores numéricos reais. Correspondem normalmente a grandezas medidas - a distâncias iguais entre números correspondem distâncias iguais entre os valores das características que estão a ser medidas.
Cota topográfica Teor de um determinado elemento químico Temperatura
As variáveis quantitativas podem ser de dois tipos:
• Variáveis de intervalo, em que o zero é definido arbitrariamente.
Cota topográfica Temperatura
• Rácios, em que o zero representa a ausência da característica a ser medida.
Teor de um determinado elemento químico
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
TIPOS DE VARIÁVEIS
QUALITATIVAS OU DISCRETAS
Variáveis que podem tomar um número discreto de valores numéricos ou um número finito de categorias disjuntivas.
Tipo de rocha Cor de uma determinada formação geológica Número de árvores por parcela Presença de determinada espécie vegetal
As variáveis qualitativas podem ser classificadas em várias categorias:
• Variáveis que verificam uma relação de ordem
Nº de partículas γ emitidas
⇒ Notas ou de preferência
Grau de fracturação de uma formação Aptidão agrícola de um solo
⇒Resultantes de variáveis quantitativas
• Variáveis que não verificam relação de ordem
⇒Qualitativas propriamente ditas
Litologia
⇒Binárias
Presença de formações impermeáveis
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
ESTATÍSTICA DESCRITIVA
A Estatística Descritiva, também chamada por vezes Análise Exploratória de Dados, desenvolveu um conjunto de medidas de síntese e de representações gráficas cujo objectivo é descrever e resumir um conjunto de dados e pesquisar as estruturas e anomalias presentes. Como regra, pretende-se que as medidas de síntese sejam robustas (resistentes) face aos valores anómalos (outliers) que possam estar presentes nos dados.
REPRESENTAÇÕES GRÁFICAS
• Histogramas
• Diagramas de extremos e quartis (Box plots)
• Stem and leaf
MEDIDAS DE SÍNTESE
• Quantis
• Medidas de tendência central Média Mediana Moda
• Medidas de dispersão Variância Desvio padrão Coeficiente de variação Coeficiente H ou Intervalo inter-quartis
• Medidas de assimetria Coeficiente de assimetria Coeficiente S’
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
QUANTIS Os quantis são grandezas que permitem uma síntese numérica do andamento das distribuições. Define-se como quantil de ordem q (Qq) como o valor xq tal F(xq)=q É habitual referir três tipos de quantis: quartis, decis e percentis. Os quartis (Q0.25 ,Q0.50 e Q0.75) dividem o intervalo de variação da variável (amplitude) em quatro partes iguais. Os decis (Q0.1 ,..., Q0.9) dividem o intervalo de variação da variável em dez partes iguais. Os percentis (Q0.10 ,..., Q0.90) dividem o intervalo de variação da variável em cem partes iguais.
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
HISTOGRAMA
Diagrama de barras em que as classes em que a variável foi dividida são colocadas por ordem ao longo do eixo dos x e a área das barras é proporcional ao número de valores em cada classe.
23 28 33 38 43 48 53
S
0
0.04
0.08
0.12
0.16
0.2
Frequência
x
1.0
F(x)
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
STEM AND LEAF DISPLAY
Método de representação gráfica de dados que evidencia a dispersão, vazios e concentrações dos valores tomados pela variável, permitindo simultaneamente visualizar esses mesmos valores.
Dados Stem-and-leaf display
240 1000 1 2 4
360 1000 3 3 67
420 1040 7 4 0228
500 1150 9 5 08
580 1000 11 6 05
700 960 11 7 037
600 420 8 8
650 370 8 9 36
770 400 6 10 00024
930 480 1 11 5
1020 730
Unidade = 10 2 | 4 representa 240
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
DIAGRAMA DE EXTREMOS E QUARTIS (BOX PLOT)
Representação gráfica da Análise Exploratória de Dados que mostra o intervalo dos 50% de valores centrais, a mediana, a amplitude e os valores anómalos ou aberrantes. A média também pode ser representada no diagrama.
25 30 35 40 45 50 55
S
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
MEDIDAS DE TENDÊNCIA CENTRAL
Média
∑=
==n
iix
nxm
1
1
Moda - valor que ocorre com maior frequência nos dados Mediana - Valor tal que no conjunto de dados existem 50% de valores inferiores e 50 % de valores superiores. É
igual ao 2º quartil
M Qe = 0 5.
⇒ Se o número de dados n é ímpar a mediana é o valor do meio, após ordenação dos dados.
⇒ Se o número de dados n é par a mediana é a média dos dois valores do meio, após ordenação dos dados.
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
MEDIDAS DE DISPERSÃO
Amplitude - Diferença entre os valores máximo e mínimo da variável
A x xx max min= −
Variância - Média dos quadrados dos desvios entre os valores observados e a média da variável
( )sn
x xii
n2
1
21= −
=∑
Desvio padrão - Medida de dispersão que se exprime na mesma unidade da variável
s s= 2
Coeficiente de variação - medida adimensional da dispersão relativa
Cs
xv =
Coeficiente H - Diferença entre o 3º e o 1º quartil. Mede o intervalo onde se distribuem os 50% dos valores centrais
H = Q0.75 - Q0.25
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
MEDIDAS DE ASSIMETRIA Coeficiente de assimetria (Skewness)
( )S
n
x mi
i
n=
−
=∑
13
31
σ
S > 0 - Assimetria positiva (os valores mais elevados de X apresentam maior dispersão)
S = 0 - Simetria
S < 0 - Assimetria negativa (os valores mais elevados de X apresentam menor dispersão)
0
30
60
90
120
150
180
25 26 28 30 32 33 35 37 39 40 42 44 45 47 49 51
0
40
80
120
160
200
240
280
320
0 0 1 2 3 3 4 5 6 6 7 8 9 9 10 11
S = -2.51 < 0 S = 3.76 > 0
Coeficiente de assimetria S’
( )S
m MH
e' =−
3
S´ > 0 - Assimetria positiva
S´ = 0 - Simetria S´ < 0 - Assimetria negativa
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
ESTATÍSTICA DESCRITIVA BIVARIADA
OBJECTIVO
Descrever a variação conjunta de pares de variáveis. REPRESENTAÇÕES GRÁFICAS
• Histogramas tridimensionais
• Diagramas de dispersão (Scattergrams)
• Diagramas Q-Q MEDIDAS DE ASSOCIAÇÃO
• Covariância
• Coeficiente de Correlação
de Pearson
de Spearman TABELAS
• Tabelas de contingência
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
HISTOGRAMAS TRIDIMENSIONAIS
Diagrama de barras em que as classes em que as variáveis foram divididas são colocadas por ordem ao longo do eixo dos x e dos y e o volume das barras é proporcional ao número de valores (frequência) em cada classe.
23 28 33 38 43 48 53
Teor em S (%)
22
27
32
37
42
47
Teor em Fe (%) 0
30
60
90
120
150
180
Frequência
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
DIAGRAMAS DE DISPERSÃO
Representação gráfica que permite estudar o comportamento conjunto de duas variáveis.
25 30 35 40 45 50 55
Teor em S (%)
23
27
31
35
39
43
47
Teor em Fe (%)
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
DIAGRAMAS Q-Q
Diagrama bidimensional em que os eixos representam cada uma das variáveis e as coordenadas dos pontos são dados pelos valores quantis.
23 27 31 35 39 43 47 51 55
Teor em S (%)
23
26
29
32
35
38
41
44
47
50
53
Teor em Fe (%)
1º Quartil
Mínimo
Mediana3º Quartil
Máximo
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
DIAGRAMAS Q-Q
0 0.2 0.4 0.6 0.8 1
S (n. ordem)
0
0.2
0.4
0.6
0.8
1
Fe (n. ordem)
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
MEDIDAS DE ASSOCIAÇÃO Covariância
Cov X Y Cov n x m y mXY i x i yi
n( ) ( )( )
=, = = − −∑
1
1
Propriedades
1. ( ) − ∞ < < +∞Cov X Y,
2. Cov(X, Y) = Cov(Y, X)
3. Cov(a+bX, c+dY) = bd Cov(X, Y)
4. Cov(X, -Y) = -Cov(X,Y)
5. Cov(X, X) = Var(X)
6. Cov(X, c) = 0
7. Cov X Y Cov Xi i( ) ( Y ), ,∑ ∑=
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
MEDIDAS DE ASSOCIAÇÃO
Coeficiente de correlação de Pearson
ρXYCov X Y
Var X Var Y=
( )
( ) ( )
,
Propriedades
1. − ≤ ≤ +1 1ρXY
A covariância e o coeficiente de correlação medem a intensidade da relação linear (eventualmente) existente entre duas variáveis aleatórias.
|ρXY| = 1 ⇒ Variáveis linearmente dependentes
ρXY = Cov(X, Y) = 0 ⇒ Variáveis linearmente independentes
Coeficiente de correlação de Spearman Coeficiente de correlação obtido a partir dos números de ordem das variáveis.
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST
TABELA DE CONTINGÊNCIAS
Quadro que cruza duas variáveis qualitativas. O elemento genérico n(i, j) dá o número de ocorrências simultâneas das modalidades de duas variáveis.
1 … j … p Soma 1 M i n(i, j) n(i) M k
Soma n(j) n
n n i jji
= ∑∑ ( , ) n i n i jj
( ) ( , )= ∑ n j n i ji
( ) ( , )= ∑
Variáveis independentes
n i j
n i
n j
nn i j
n j i
n
( , )
( )
( )( , )
( ) ( )= → ′ =
nindependencia
Medidas da independência
[ ]χ 2
2
=− ′
′∑
n i j n i j
n i j
( , ) ( , )
( , )
n
2χφ =