Dados Monitorização Ambiental Descrição Estatística Univariada Multivariada · Estatística...

28
Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST INTRODUÇÃO Dados Monitorização Ambiental Descrição Estatística Univariada Bivariada Multivariada Classificação d A B C D E F G Análise Espacial Descrição Estimação Mina de Feitais -Teor emAs ( % ) Sondagem 0 4 8 12 16 20 h(m ) 4 8 12 γ (h) Modelo Esférico c 0 = 0.4 % 2 c 1 = 10.8 % 2 a = 6.3m c 0 +c 1

Transcript of Dados Monitorização Ambiental Descrição Estatística Univariada Multivariada · Estatística...

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

INTRODUÇÃO

Dados Monitorização Ambiental

Descrição Estatística • Univariada • Bivariada • Multivariada

Classificação d

A B C D E F G

Análise Espacial • Descrição

• Estimação

Mina de Feitais -Teor em As (%) Sondagem

0 4 8 12 16 20

h(m)

4

8

12

γ(h)

Modelo Esférico c0 = 0.4 %2 c1 = 10.8 %2 a = 6.3 m

c0+c1

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

PROGRAMA

1 - INTRODUÇÃO

2 - ESTATÍSTICA DESCRITIVA

2.1 - Estatística Descritiva Univariada (revisão) 2.1.1 - Quantis 2.1.2 - Medidas de síntese (tendência central, dispersão e simetria) 2.1.3 - Representações gráficas

2.2 - Estatística Descritiva Bivariada 2.2.1 - Medidas de correlação 2.2.2 - Tabelas de contingência 2.2.3 - Representações gráficas

2.3 - Estatística Descritiva Multivariada 2.3.1 - Introdução 2.3.2 - Análise em Componentes Principais 2.3.3 - Análise das Correspondências

3 - REGRESSÃO LINEAR

3.1 - Regressão Linear Simples

3.2 - Regressão Múltipla

4 - CLASSIFICAÇÃO AUTOMÁTICA

4.1 - Introdução

4.2 - Classificação Hierárquica

4.3 - Classificação Não Hierárquica

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

PROGRAMA

5 - SÉRIES TEMPORAIS

6 - GEOESTATÍSTICA (ESTATÍSTICA ESPACIAL)

6.1 - Generalidades

6.3 - Algumas características das variáveis regionalizadas

6.3 - Teoria das variáveis regionalizadas 6.3.1 - Funções Aleatórias 6.3.2 - Hipóteses restritivas. Estacionaridade de 2ª ordem. Estacionaridade intrínseca 6.3.3 - Medidas de continuidade espacial: covariância espacial, correlograma e variograma 6.3.4 - Propriedades da covariância e do variograma

6.4 - Análise Estrutural (Variografia) 6.4.1. - Cálculo dos variogramas experimentais 6.4.2. - Ajustamento do modelo teórico 6.4.3. - Alguns exemplos de análise estrutural

6.5 - Introdução à Estimação Geoestatística 6.5.1 - Inferência estatística 6.5.2 - Variância de estimação

6.6 - Estimação Linear em Geoestatística

6.6.1 - Introdução 6.6.2 - Estimador linear de krigagem 6.6.3 - Propriedades do estimador de krigagem

6.7 - Casos de estudo

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

BIBLIOGRAFIA

(ESTATÍSTICA DESCRITIVA)

Jambu, M. (1989) - Exploration Informatique et Statistique des Données. Dunod, 505 pp.

Jolliffe, I. T. (1986) - Principal Component Analysis. Springer-Verlag, 271 pp..

Lebart, L., Morineau, A. & Warwick, K.M. - Multivariate Descriptive Statistical Analysis. Wiley, New York, 1984.

Murteira, B.J.F. (1993) – Análise Exploratória de Dados – Estatística Descritiva. McGraw-Hill Portugal, 329pp.

Pereira, H. G. & Sousa, A. J. (1988) - Tratamento de Quadros Multidimensionais. CVRMUTL, 105 pp http://biomonitor.ist.utl.pt/~ajsousa/AnalDadosTratQuadMult.html

Reis, E. (1997) – Estatística Multivariada Aplicada. Edições Sílabo, 343 pp..

Sharma, S. (1996) - Applied Multivariate Techniques. Wiley, New York, 493 pp..

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

BIBLIOGRAFIA

(SÉRIES TEMPORAIS)

Bento J.F. Murteira, Daniel A. Muller, K. Feridun Turkman, 1993, “Análise de Sucessões Cronológicas”, McGraw-Hill (310 páginas).

L. Valadares Tavares, Rui Carvalho Oliveira, Isabel Hall Themido e F. Nunes Correia, 1996, “Investigação Operacional”, MsGraw-Hill de Portugal. (Capítulo 5 – Modelos de Previsão, páginas 229 a 266)

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

BIBLIOGRAFIA

(ESTATÍSTICA ESPACIAL. GEOESTATÍSTICA)

Cressie, N. (1991) - Statistics for spatial data analysis. Wiley-Interscience, 900 pp.

David, M. (1977) - Geostatistical ore reserve estimation. Elsevier, 364 pp.

Goovaerts, P. (1997) – Geoestatistics for Natural Resources Evaluation. Oxford University Press, New York, 483 pp.

Isaaks, E. H. & Srivastava, R. M. (1989) - An Introduction to Applied Geostatistics. Oxford University Press, New York, 561 pp.

Journel, A. & Huijbregts, Ch. J. (1978) - Mining Geostatistics. Academic Press, London, 600 pp..

Kitanidis, P. K. (1997) - Introduction to Geostatistics. Applications in Hydrogeology. Cambridge University Press, 249 pp.

Sousa, A. J. & Muge, F. (1990) - Elementos de Geoestatística. LMPM, IST, 63 p. http://biomonitor.ist.utl.pt/~ajsousa/AnalDadosTratQuadMult.html

Soares, A. (2000) – Geoestatística para as Ciências da Terra e do Ambiente. IST Press, 206p.

ACETATOS DA DISCIPLINA

http://biomonitor.ist.utl.pt/~ajsousa/EstAmb.html

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

SOFTWARE

ESTATÍSTICA DESCRITIVA

ANDAD

SPSS

SÉRIES TEMPORAIS

PEST Time Series Program for Windows (http://www.math.kth.se/matstat/gru/5b1545/itsm6.zip)

ASTSA (http://www.stat.pitt.edu/stoffer/tsa2/ - descarga de ASTSAsetup.exe ou de astsa.zip) é um package para Windows.

GEOESTATÍSTICA

GeoMS

ArcMap

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

REVISÃO DA ESTATÍSTICA DESCRITIVA

ESTATÍSTICA

Ramo da Matemática que se dedica ao estudo da colheita, organização, representação e análise de dados e aos métodos que permitem extrair conclusões e fazer inferências a partir desses dados.

POPULAÇÃO

Conjunto de todos os elementos sujeitos ao estudo. Aplica-se também ao conjunto dos valores tomados pelos vários elementos.

AMOSTRA

Qualquer subconjunto de valores (e/ou elementos) extraídos da população.

ESTATÍSTICA

Medida numérica de síntese de determinada característica de uma população

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

RAMOS DA ESTATÍSTICA

ESTATÍSTICA DESCRITIVA (DEDUTIVA)

Ramo da Estatística dedicado à representação e análise de um conjunto de dados, relacionados com uma amostra ou com uma população conhecida de forma exaustiva.

ESTATÍSTICA INFERENCIAL (INDUTIVA)

Ramo da Estatística dedicado à previsão/estimação de parâmetros de uma população a partir dos dados de uma amostra colhida de forma adequada

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

QUADRO DE DADOS GENÉRICO

Cada amostra i está localizada no ponto com coordenadas xi e é caracterizada por p atributos ou variáveis zij(xi).

zij(xi) - Variável regionalizada

Tipos de variáveis

• Quantitativas (contínuas)

• Qualitativas (discretas)

Exemplos: Teores químicos em amostras de solos

Condutividade

Intensidade de fracturação

Tipo de solo

Variável Indicatriz

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

TIPOS DE VARIÁVEIS

QUANTITATIVAS OU CONTÍNUAS

Variáveis que, a priori, podem tomar um número infinito não numerável de valores numéricos reais. Correspondem normalmente a grandezas medidas - a distâncias iguais entre números correspondem distâncias iguais entre os valores das características que estão a ser medidas.

Cota topográfica Teor de um determinado elemento químico Temperatura

As variáveis quantitativas podem ser de dois tipos:

• Variáveis de intervalo, em que o zero é definido arbitrariamente.

Cota topográfica Temperatura

• Rácios, em que o zero representa a ausência da característica a ser medida.

Teor de um determinado elemento químico

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

TIPOS DE VARIÁVEIS

QUALITATIVAS OU DISCRETAS

Variáveis que podem tomar um número discreto de valores numéricos ou um número finito de categorias disjuntivas.

Tipo de rocha Cor de uma determinada formação geológica Número de árvores por parcela Presença de determinada espécie vegetal

As variáveis qualitativas podem ser classificadas em várias categorias:

• Variáveis que verificam uma relação de ordem

Nº de partículas γ emitidas

⇒ Notas ou de preferência

Grau de fracturação de uma formação Aptidão agrícola de um solo

⇒Resultantes de variáveis quantitativas

• Variáveis que não verificam relação de ordem

⇒Qualitativas propriamente ditas

Litologia

⇒Binárias

Presença de formações impermeáveis

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

ESTATÍSTICA DESCRITIVA

A Estatística Descritiva, também chamada por vezes Análise Exploratória de Dados, desenvolveu um conjunto de medidas de síntese e de representações gráficas cujo objectivo é descrever e resumir um conjunto de dados e pesquisar as estruturas e anomalias presentes. Como regra, pretende-se que as medidas de síntese sejam robustas (resistentes) face aos valores anómalos (outliers) que possam estar presentes nos dados.

REPRESENTAÇÕES GRÁFICAS

• Histogramas

• Diagramas de extremos e quartis (Box plots)

• Stem and leaf

MEDIDAS DE SÍNTESE

• Quantis

• Medidas de tendência central Média Mediana Moda

• Medidas de dispersão Variância Desvio padrão Coeficiente de variação Coeficiente H ou Intervalo inter-quartis

• Medidas de assimetria Coeficiente de assimetria Coeficiente S’

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

QUANTIS Os quantis são grandezas que permitem uma síntese numérica do andamento das distribuições. Define-se como quantil de ordem q (Qq) como o valor xq tal F(xq)=q É habitual referir três tipos de quantis: quartis, decis e percentis. Os quartis (Q0.25 ,Q0.50 e Q0.75) dividem o intervalo de variação da variável (amplitude) em quatro partes iguais. Os decis (Q0.1 ,..., Q0.9) dividem o intervalo de variação da variável em dez partes iguais. Os percentis (Q0.10 ,..., Q0.90) dividem o intervalo de variação da variável em cem partes iguais.

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

HISTOGRAMA

Diagrama de barras em que as classes em que a variável foi dividida são colocadas por ordem ao longo do eixo dos x e a área das barras é proporcional ao número de valores em cada classe.

23 28 33 38 43 48 53

S

0

0.04

0.08

0.12

0.16

0.2

Frequência

x

1.0

F(x)

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

STEM AND LEAF DISPLAY

Método de representação gráfica de dados que evidencia a dispersão, vazios e concentrações dos valores tomados pela variável, permitindo simultaneamente visualizar esses mesmos valores.

Dados Stem-and-leaf display

240 1000 1 2 4

360 1000 3 3 67

420 1040 7 4 0228

500 1150 9 5 08

580 1000 11 6 05

700 960 11 7 037

600 420 8 8

650 370 8 9 36

770 400 6 10 00024

930 480 1 11 5

1020 730

Unidade = 10 2 | 4 representa 240

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

DIAGRAMA DE EXTREMOS E QUARTIS (BOX PLOT)

Representação gráfica da Análise Exploratória de Dados que mostra o intervalo dos 50% de valores centrais, a mediana, a amplitude e os valores anómalos ou aberrantes. A média também pode ser representada no diagrama.

25 30 35 40 45 50 55

S

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

MEDIDAS DE TENDÊNCIA CENTRAL

Média

∑=

==n

iix

nxm

1

1

Moda - valor que ocorre com maior frequência nos dados Mediana - Valor tal que no conjunto de dados existem 50% de valores inferiores e 50 % de valores superiores. É

igual ao 2º quartil

M Qe = 0 5.

⇒ Se o número de dados n é ímpar a mediana é o valor do meio, após ordenação dos dados.

⇒ Se o número de dados n é par a mediana é a média dos dois valores do meio, após ordenação dos dados.

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

MEDIDAS DE DISPERSÃO

Amplitude - Diferença entre os valores máximo e mínimo da variável

A x xx max min= −

Variância - Média dos quadrados dos desvios entre os valores observados e a média da variável

( )sn

x xii

n2

1

21= −

=∑

Desvio padrão - Medida de dispersão que se exprime na mesma unidade da variável

s s= 2

Coeficiente de variação - medida adimensional da dispersão relativa

Cs

xv =

Coeficiente H - Diferença entre o 3º e o 1º quartil. Mede o intervalo onde se distribuem os 50% dos valores centrais

H = Q0.75 - Q0.25

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

MEDIDAS DE ASSIMETRIA Coeficiente de assimetria (Skewness)

( )S

n

x mi

i

n=

=∑

13

31

σ

S > 0 - Assimetria positiva (os valores mais elevados de X apresentam maior dispersão)

S = 0 - Simetria

S < 0 - Assimetria negativa (os valores mais elevados de X apresentam menor dispersão)

0

30

60

90

120

150

180

25 26 28 30 32 33 35 37 39 40 42 44 45 47 49 51

0

40

80

120

160

200

240

280

320

0 0 1 2 3 3 4 5 6 6 7 8 9 9 10 11

S = -2.51 < 0 S = 3.76 > 0

Coeficiente de assimetria S’

( )S

m MH

e' =−

3

S´ > 0 - Assimetria positiva

S´ = 0 - Simetria S´ < 0 - Assimetria negativa

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

ESTATÍSTICA DESCRITIVA BIVARIADA

OBJECTIVO

Descrever a variação conjunta de pares de variáveis. REPRESENTAÇÕES GRÁFICAS

• Histogramas tridimensionais

• Diagramas de dispersão (Scattergrams)

• Diagramas Q-Q MEDIDAS DE ASSOCIAÇÃO

• Covariância

• Coeficiente de Correlação

de Pearson

de Spearman TABELAS

• Tabelas de contingência

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

HISTOGRAMAS TRIDIMENSIONAIS

Diagrama de barras em que as classes em que as variáveis foram divididas são colocadas por ordem ao longo do eixo dos x e dos y e o volume das barras é proporcional ao número de valores (frequência) em cada classe.

23 28 33 38 43 48 53

Teor em S (%)

22

27

32

37

42

47

Teor em Fe (%) 0

30

60

90

120

150

180

Frequência

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

DIAGRAMAS DE DISPERSÃO

Representação gráfica que permite estudar o comportamento conjunto de duas variáveis.

25 30 35 40 45 50 55

Teor em S (%)

23

27

31

35

39

43

47

Teor em Fe (%)

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

DIAGRAMAS Q-Q

Diagrama bidimensional em que os eixos representam cada uma das variáveis e as coordenadas dos pontos são dados pelos valores quantis.

23 27 31 35 39 43 47 51 55

Teor em S (%)

23

26

29

32

35

38

41

44

47

50

53

Teor em Fe (%)

1º Quartil

Mínimo

Mediana3º Quartil

Máximo

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

DIAGRAMAS Q-Q

0 0.2 0.4 0.6 0.8 1

S (n. ordem)

0

0.2

0.4

0.6

0.8

1

Fe (n. ordem)

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

MEDIDAS DE ASSOCIAÇÃO Covariância

Cov X Y Cov n x m y mXY i x i yi

n( ) ( )( )

=, = = − −∑

1

1

Propriedades

1. ( ) − ∞ < < +∞Cov X Y,

2. Cov(X, Y) = Cov(Y, X)

3. Cov(a+bX, c+dY) = bd Cov(X, Y)

4. Cov(X, -Y) = -Cov(X,Y)

5. Cov(X, X) = Var(X)

6. Cov(X, c) = 0

7. Cov X Y Cov Xi i( ) ( Y ), ,∑ ∑=

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

MEDIDAS DE ASSOCIAÇÃO

Coeficiente de correlação de Pearson

ρXYCov X Y

Var X Var Y=

( )

( ) ( )

,

Propriedades

1. − ≤ ≤ +1 1ρXY

A covariância e o coeficiente de correlação medem a intensidade da relação linear (eventualmente) existente entre duas variáveis aleatórias.

|ρXY| = 1 ⇒ Variáveis linearmente dependentes

ρXY = Cov(X, Y) = 0 ⇒ Variáveis linearmente independentes

Coeficiente de correlação de Spearman Coeficiente de correlação obtido a partir dos números de ordem das variáveis.

Estatística Ambiental A. J. Sousa, CERENA, DEMG, IST

TABELA DE CONTINGÊNCIAS

Quadro que cruza duas variáveis qualitativas. O elemento genérico n(i, j) dá o número de ocorrências simultâneas das modalidades de duas variáveis.

1 … j … p Soma 1 M i n(i, j) n(i) M k

Soma n(j) n

n n i jji

= ∑∑ ( , ) n i n i jj

( ) ( , )= ∑ n j n i ji

( ) ( , )= ∑

Variáveis independentes

n i j

n i

n j

nn i j

n j i

n

( , )

( )

( )( , )

( ) ( )= → ′ =

nindependencia

Medidas da independência

[ ]χ 2

2

=− ′

′∑

n i j n i j

n i j

( , ) ( , )

( , )

n

2χφ =