Hist´oria da Estat´ıstica - inf.ufsc.bradriano.borgatto/DEF410007 Bioestatistica... · recebe os...

126

Transcript of Hist´oria da Estat´ıstica - inf.ufsc.bradriano.borgatto/DEF410007 Bioestatistica... · recebe os...

2

Historia da Estatıstica

ΣΣΣΣSTATÍSTICA

Babilônia China Egito

CRISTO ⇒⇒⇒⇒ Belém ⇒⇒⇒⇒ Censo

Século XVIII - STATUS

Meio Administração ⇒⇒⇒⇒ GOVERNO

3.000 a.C.

3

O que e estatıstica?

Qual a sua utilizacao?

Onde se utiliza?

Ha necessidade de se aprender estatıstica?

Quais os softwares que existem para analise de dados?

4

Definicoes dadas a estatıstica

“Estatıstica e a arte e ciencia de coletar, analisar e interpretar dados”.

(definicao informal de estatıstica)

“A estatıstica e uma ciencia da tomada de decisao diante de incertezas”.

(definicao ampla de estatıstica)

“O pensamento estatıstico sera um dia tao necessario para o cidadao quanto

a habilidade de ler e escrever”. (Wells, H. G., 1993)

“A estatıstica preocupa-se com a compreensao do mundo real atraves da in-

formacao que nos extraımos da classificacao e mensuracao. Sua caracterıstica

distintiva e lidar com a variabilidade e a incerteza, que estao em toda parte”.

(Bartholomew, 1995)

5

Exemplos Motivacionais:

i) Os arbitros de futebol de Santa Catarina estao aptos fisicamente?

ii) Criancas do ensino fundamental sao obesas?

iii) Servidores da UFSC com mais de 60 anos praticam esportes?

iv) Em qual modalidade de esporte ocorre maior numero de lesoes?

v) A disciplina de Bioestatıstica atende os anseios dos alunos que dela par-

ticipam?

6

Fases do planejamento de pesquisa

i) Planejamento do problema:

⇒ definicao da importancia do problema que se pretende estudar;

⇒ determinacao do objetivo e finalidade do estudo.

ii) Avaliacao da informacao existente:

⇒ revisao bibliografica.

iii) Formulacao de hipoteses:

⇒ em toda pesquisa, exceto naquelas meramente descritivas ou explo-

ratorias, e necessaria a formulacao de uma hipotese estatıstica que

podera ser comprovada ou rejeitada.

iv) Verificacao da hipotese:

⇒ consiste da coleta de dados, analise estatıstica e discussao dos resul-

tados.

v) Parte final:

⇒ Conclusao, Bibliografia, Anexos, Apendices.

7

HUMANAS BIOLÓGICAS

PLANEJAMENTO ANÁLISE

Descritiva Comparativa

8

Variáveis Tipos Exemplos

Nominal

cor dos olhos, sexo, estado civil

Qualitativas

ou Categóricas

Ordinal

nível de escolaridade, estágio da doença

Discretas

número de filhos por casal, quantidade de leitos

Quantitativas

Contínuas

medida de altura e peso, taxa de glicose

POPULAÇÃO

AMOSTRA

VARIÁVEIS

9

Termos comuns na estatıstica

i) Populacao: conjunto de todos os elementos que possuam pelo menos

uma caracterıstica (ou variavel) comum, a qual se deseja estudar.

⇒ Parametro: e uma medida numerica que descreve uma caracterıstica

de uma populacao. Sao valores fixos, geralmente desconhecidos e

usualmente representados por caracteres gregos.

Exemplos: µ (media populacional), π (proporcao populacional), σ2

(variancia populacional), σ (desvio-padrao populacional), etc.

ii) Amostra: pode ser definida como um subconjunto da populacao e a

partir dela faz-se inferencia sobre as caracterısticas da populacao. Uma

amostra tem que ser representativa da populacao.

⇒ Estatıstica: medida numerica que descreve uma caracterıstica de

uma amostra. Representada por caracteres latinos.

Exemplos: x (media amostral), p (proporcao amostral), s2 (variancia

amostral), s (desvio padrao amostral), etc.

10

CENSO

Probabilística Não Probabilística

-Simples ao acaso -Sistemática -Estratificada

AMOSTRA

POPULAÇÃO

11

Nocoes de alguns tipos de amostragem

Uma das formas de se conseguir que a amostra seja representativa da po-

pulacao, e fazer com que o processo de escolha da amostra seja, de alguma

forma, aleatorio.

Tecnicas Amostrais

As tecnicas amostrais a serem estudadas sao probabilısticas e sua carac-

terıstica principal e poder ser submetida a tratamento estatıstico, que per-

mite compensar erros amostrais. Sao elas:

i) Amostragem Simples ao Acaso;

ii) Amostragem Sistematica;

iii) Amostragem Estratificada.

12

=⇒ Amostragem simples ao acaso - ASA

E um metodo de selecionar, sem reposicao, n elementos de uma populacao

de tamanho N , conhecida e finita, em que todo elemento da populacao tem

probabilidade igual de ser escolhido para a amostra. Deve, assim como as

demais tecnicas amostrais, ser cuidadosamente planejada para se evitar qual-

quer tendenciosidade.

Utilizacao: utiliza-se este tipo de amostragem quando a populacao pode

ser considerada homogenea.

Processo de coleta: todos os N elementos da populacao devem ser enu-

merados. Sorteia-se, entao, n elementos para compor a amostra. Este sorteio

pode ser feito com o auxılio de uma tabela de numeros aleatorios, com a uti-

lizacao de algum programa computacional ou, utilizando-se uma urna que

recebe os numeros de 1 a N e procede-se ao sorteio de n elementos. Os

elementos correspondentes aos numeros escolhidos comporao a amostra.

13

=⇒ Amostragem sistematica

Os elementos sao escolhidos utilizando-se algum tipo de sistema. Um pro-

fessor, utilizando-se de sua lista de chamada, poderia compor uma amostra

chamando todos os alunos cujos numeros na pauta terminassem em um de-

terminado dıgito. Assim, o professor chamaria para compor sua amostra,

por exemplo, todos os alunos com numeros terminados em zero, ou seja, os

numeros 10, 20, 30, 40 e assim por diante.

Utilizacao: e utilizada quando a populacao esta naturalmente ordenada,

como fichas em um fichario, listas telefonicas, etc.

Processo de coleta: seja N o tamanho da populacao e n o tamanho da

amostra, entao calcula-se o intervalo de amostragem

k =N

n.

Sorteia-se um numero x entre 1 e k, formando a amostra dos elementos

correspondentes aos numeros: x, x + k, x + 2k, . . . .

14

Exemplo: Considere a lista de arbitros e assistentes do Parana, a seguir, e

retire uma amostra de 10 pessoas para exames de saude mais detalhados:

1) Adriana Franzmann

2) Altemar Roberto Domingues

3) Andreia Perdoncini

4) Antonio Dernival de Moraes

5) Antonio Oliveira Salazar Moreno

6) Aparecido Donizetti Santana

7) Bruno Boschilia

8) Carlos Jack Rodrigues Magno

9) Cleivaldo Bernardo

10) Edivaldo Elias da Silva

11) Evandro Rogerio Roman

12) Everson Veneton Teixeira

15

13) Faustino Vicente Lopes

14) Francisco Aurelio Prado

15) Francisco Carlos Vieira

16) Gilson Bento Coutinho

17) Gilson Pereira

18) Ildelfonso Trombeta

19) Ito Dari Rannov

20) Ivan Carlos Bohn

21) Jose Amilton Pontarolo

22) Jose Carlos Dias Passos

23) Jose Ricardo Bigaski Stoller

24) Marcos Tadeu Silva Mafra

25) Mauricio Batista dos Santos

26) Moises Aparecido de Souza

27) Nilo Neves de Souza Junior

16

28) Rogerio Carlos Rolim

29) Rubens Berton

30) Sandro Cesar da Rocha

31) Sandro Schmidt

32) Sirlei Piva

33) Vagner Vicentin

17

=⇒ Amostragem Estratificada

Quando e possıvel identificar sub-grupos ou sub-populacoes, mais ou menos

homogeneas, deve-se utilizar esta tecnica e, a partir dos sub-grupos, utiliza-se

a amostragem simples ao acaso ou sistematica para selecionar os elementos

que irao compor a amostra.

Utilizacao: quando a populacao for heterogenea.

Processo de coleta: deve-se dividir as N unidades da populacao em es-

tratos disjuntos e homogeneos, de tamanhos N1, N2, . . . , Nj , e selecionar,

ao acaso, uma amostra de tamanhos n1, n2, . . . , nj , de modo que o tamanho

da amostra seja n = n1 + n2 + . . . + nj .

O mais comum e utilizar-se a amostragem estratificada proporcional,

que consiste em selecionar os elementos da amostra entre os varios estratos,

em numero proporcional ao tamanho de cada um dos estratos.

18

Exemplo: Considere a populacao de arbitros e arbitros assistentes de futebol

do Parana, relacionados a seguir. Retire uma amostra de 10 arbitros para

estudo, considerando-se a amostragem proporcional.

Arbitros:

1) Antonio Dernival de Moraes

2) Antonio Oliveira Salazar Moreno

3) Carlos Jack Rodrigues Magno

4) Cleivaldo Bernardo

5) Edivaldo Elias da Silva

6) Evandro Rogerio Roman

7) Francisco Carlos Vieira

8) Ito Dari Rannov

9) Jose Ricardo Bigaski Stoller

10) Marcos Tadeu Silva Mafra

11) Mauricio Batista dos Santos

19

12) Nilo Neves de Souza Junior

13) Sandro Cesar da Rocha

14) Sandro Schmidt

Assistentes:

1) Altemar Roberto Domingues

2) Aparecido Donizetti Santana

3) Bruno Boschilia

4) Everson Veneton Teixeira

5) Faustino Vicente Lopes

6) Francisco Aurelio Prado

7) Gilson Bento Coutinho

8) Gilson Pereira

9) Ildelfonso Trombeta

10) Ivan Carlos Bohn

20

11) Jose Amilton Pontarolo

12) Jose Carlos Dias Passos

13) Moises Aparecido De Souza

14) Rogerio Carlos Rolim

15) Rubens Berton

16) Vagner Vicentin

17) Sirlei Piva

18) Adriana Franzmann

19) Andreia Perdoncini

21

Dimensionamento da amostra

384 1064 500.000

384 1067 1.000.000

383 1055 100.000

377 1013 20.000

356 879 5.000

277 516 1.000

79 91 100

d=5% d=3%

Margem de Erro População

22

A determinacao do tamanho da amostra depende dos seguintes fatores:

1) Tamanho da populacao - pode-se classifica-la em finita e infinita.

2) Variancia ou percentual - Variancia (variaveis quantitativas) e percentual

(variaveis qualitativas).

3) Nıvel de confianca - em geral, utiliza-se o nıvel de 95% de confianca, cujo

valor e dado por z = 1, 96.

4) Margem de erro ou precisao - a diferenca entre o valor da estatıstica e o

valor do parametro.

5) Informacao na literatura - informacoes obtidas na literatura, podem dar

indicativos dos valores a serem utilizados na determinacao do valor de n.

23

Determinacao do tamanho amostral para variaveis qualitativas

Quando se dispoe de variaveis categoricas, utilizam-se as seguintes formulas:

n0 =z2 p (1 − p)

d2

e

n =n0

1 +n0

N

Em populacoes finitas sao utilizadas as duas formulas. Para populacoes

infinitas, apenas a primeira formula deve ser utilizada.

Exemplo: Com o objetivo de se verificar o grau de satisfacao dos alunos

de Educacao Fısica de SC em relacao ao curso, determine o tamanho da

amostra, considerando-se N = 4000. Considere uma precisao de 4% e um

nıvel de confianca de 95%.

24

Determinacao do tamanho amostral para variaveis contınuas

Para variaveis quantitativas, tem-se:

n0 =z2 σ2

d2

e

n =n0

1 +n0

N

Para populacoes finitas, utilizam-se as duas formulas e, para populacoes in-

finitas, apenas a primeira formula e utilizada.

Exemplo: Numa pesquisa para se determinar a taxa media do teor de

hemoglobina dos alunos da UFSC, do ano de 2005, determine o tamanho

da amostra, considerando-se z = 1, 96, uma precisao de 0, 5mg e σ2 = 9mg2.

25

Reflexoes

1. Um pesquisador estudando o salario medio dos funcionarios da UFSC,

escolheu como amostra os primeiros 20 funcionarios que encontrou. Com

base nessa amostra, determinou-se o salario medio de todos os funcionarios

da UFSC. O seu procedimento merece crıticas?

2. Foi feito um estudo para determinar a estatura media dos alunos do

primeiro ano do curso de Educacao Fısica. Foi selecionada uma amostra em

que foram incluıdos os primeiros 10 alunos que adentraram a sala de aula

num determinado dia. A amostra sera adequada para a pesquisa em questao?

26

Os 10 mandamentos de um questionario

1. O questionario dever ser adequado no tamanho a natureza da pesquisa, a

amostra e a forma de pesquisa. Ex.: por telefone devem ser mais curtos

que as entrevistas.

2. Deve-se usar perguntas fechadas de multiplas alternativas quando a amostra

e grande para facilitar o tratamento estatıstico. Mas sempre utilizando

algumas abertas para as questoes subjetivas.

3. Fazer quantos pre-testes forem necessarios.

4. Cuidado com perguntas pessoais: idade, renda, etc.

5. Nunca colocar duas variaveis numa so pergunta. Ex: Voce gosta de

filmes policiais e de comedias?

6. Perguntar o que a pessoa pode se lembrar. Ex.: Ninguem lembra quantas

garrafas de refrigerante consome por ano?

27

7. O formato do questionario deve ser de tal modo que nao de a impressao

que o questionario e grande. Poucos responderao um questionario de

cerca de 10 folhas.

8. Deve ser usada a linguagem da populacao e nao do pesquisador.

9. Os entrevistadores devem conhecer bem o questionario para esclarecer,

sem influenciar.

10. Evitar usar escalas diferentes em tamanho e na sequencia, para nao con-

fundir o entrevistado.

Relatorio

→ Deixar claro como o estudo foi conduzido, possibilitando a sua reproducao;

→ Analisar os dados e sua qualidade;

→ Processo de construcao da hipotese e a confirmacao ou nao usando metodolo-

gia cientıfica;

→ Resumo das conclusoes e indicacoes para novas pesquisas.

28

Descricao da Amostragem

Consumo alimentar de adolescentes matriculados em um colegio

particular de Teresina, Piauı, Brasil. Carvalho et al. 2001

O universo do estudo foi constituıdo pelos adolescentes de 10 a 19 anos,

matriculados na rede privada de ensino em Teresina. Para representar esse

universo foi pesquisada uma escola que voluntariamente aceitou participar

da investigacao. Do total de 862 adolescentes matriculados nessa escola no

ano de 1996, foram selecionados 360, por amostragem sistematica, com inter-

valos de sistematizacao igual a 3, ou seja, de cada tres adolescentes, um foi

incluıdo na pesquisa, sendo que o primeiro foi escolhido aleatoriamente entre

os tres primeiros numeros da lista fornecida pela direcao da escola. Esse

tamanho amostral embute um erro de 5% e um nıvel de confianca de 95%,

nos estimadores de proporcao (%).

29

Determinacao do perfil dos usuarios e da composicao quımica e

nutricional da alimentacao oferecida no restaurante universitario

da Universidade Estadual Paulista, Araraquara, Brasil. Fausto et

al. 2001

A amostra populacional da pesquisa foi constituıda de 403 usuarios do RU

(212 mulheres e 191 homens). Como e estimado que o RU forneca em torno

de 500 refeicoes de almoco nos dias de maior frequencia, esse numero corre-

sponde a 80,6% dos usuarios, aproximadamente.

30

Estatıstica Descritiva

A organizacao e apresentacao de dados se da atraves de:

Tabelas estatısticas;

Graficos;

Medidas resumo.

Elementos essenciais de uma tabela:

i) Tıtulo;

ii) Corpo;

iii) Cabecalho;

iv) Coluna indicadora.

31

Tabela 1: Qualificacao dos alunos atuantes na rede CENESP -

Centro de Excelencia Esportiva, no ano de 2003.

Qualificacao Alunos

Graduacao 233

Especializacao 136

Mestrado 93

Doutorado 28

Total 490

Fonte: Ministerio do Esporte.

32

Elementos complementares de uma tabela:

i) Fonte: e a indicacao do orgao ou entidade responsavel pelo fornecimento

dos dados ou pela sua elaboracao;

ii) Notas: sao informacoes destinadas a esclarecer ou conceituar o conteudo

das tabelas, ou indicar a metodologia adotada;

iii) Chamadas: sao informacoes de natureza especıfica sobre determinada

parte da tabela, destinada a conceituar ou esclarecer dados.

Observacoes:

E recomendada a nao-delimitacao das tabelas, a esquerda e a direita,

por tracos verticais. No entanto, sera facultativo o emprego de tracos

verticais para separacao das colunas, no corpo da tabela;

No caso da tabela ter de ocupar mais de uma pagina, nao sera delimitada

na parte inferior e o cabecalho sera repetido na pagina seguinte. Nesse

caso, usa-se no cabecalho, ou na coluna indicadora, a expressao continua

ou conclusao, conforme o caso.

33

Tabela 2: Qualificacao dos alunos atuantes na rede CENESP -

Centro de Excelencia Esportiva, no ano de 2003.

Qualificacao Alunos

Graduacao 233

Especializacao 136

Mestrado 93

Doutorado1 28

Total 490

Nota: Nao inclui dados do CENESP da UFSM.

1Dados apenas das Universidades Paulistas.

Fonte: Ministerio do Esporte.

34

TABELA DE DUPLA ENTRADA (ou CONTINGENCIA)

Tabela 3: Perfil do alunos do 1o ano do curso de Educacao

Fısica, quanto a idade e sexo. UFSC, 2005.

GeneroIdade

Feminino MasculinoTotal

17 3 0 3

18 8 3 11

19 11 5 16

20 6 4 10

21 1 1 2

24 0 1 1

Total 29 14 43

Fonte: Depto. de Ed. Fısica - UFSC

35

Medidas resumo

Distribuicao de frequencia de variaveis discretas

Tabela 4: Numero de filhos de atletas profissionais de Flo-

rianopolis.

Numero de Frequencia Absoluta Frequencia relativa

Filhos fi fr%

0 1 4,76

1 4 19,05

2 6 28,57

3 10 47,62

Total 21 100,00

Fonte: Fictıcia.

36

Figura 1: Numero de filhos de atletas de Florianopolis.

37

Distribuicao de frequencia de variaveis contınuas

As variaveis contınuas e algumas vezes as variaveis discretas assumem, em

geral, muitos valores e, assim, usa-se descrever essas variaveis atraves de

tabelas de classes de frequencias ou tabelas de intervalo.

Considere o teste de aptidao motora aplicado a 50 alunos do ensino medio,

correspondendo a uma serie de dois minutos de exercıcios abdominais:

48 39 42 43 45 22 23 24 25 23 32 30 31 32 33

12 15 16 19 20 18 30 31 32 33 33 26 26 27 28

28 27 33 30 31 32 33 29 29 27 28 41 39 38 35

37 35 34 36 36

Alem dos dados brutos, rol e amplitude total (At), tem-se que definir:

i) Numero de classes: k = 1 + 3, 3 ∗ Log(n)

ii) Amplitude de classes: a =At

k

38

Tabela 5: Escores obtidos por alunos do ensino medio, em teste

de aptidao motora em uma serie de dois minutos de

exercıcios abdominais.

Escores Frequencias Porcentagens

12 ⊢ 18 3 6, 0

18 ⊢ 24 6 12, 0

24 ⊢ 30 12 24, 0

30 ⊢ 36 18 36, 0

36 ⊢ 42 7 14, 0

42 ⊢ 48 3 6, 0

48 ⊢ 54 1 2, 0

Total 50 100, 0

Fonte: Fictıcia.

39

Figura 2: Escores do teste de aptidao motora em uma serie

de dois minutos de exercıcios abdominais.

40

Graficos

O objetivo da representacao grafica e apresentar de maneira clara, rapida e

objetiva os dados coletados. Algumas regras para a confeccao de graficos sao:

toda representacao grafica deve ter tıtulo, escala e fonte dos dados;

enumeracao dos graficos utilizando-se de algarismos arabicos;

as escalas devem crescer da esquerda para a direita e de baixo para cima

e serem uniformes;

as legendas explicativas devem ser colocadas, de preferencia, a direita do

grafico.

a razao da altura para a largura pode variar de 60% a 80%.

Existem inumeras formas graficas interessantes, serao apresentados apenas

alguns tipos de graficos.

41

Variaveis Qualitativas

Grafico em colunas ou barras

O grafico em colunas e em barras consistem em construir retangulos, em que

uma das dimensoes e proporcional a magnitude a ser representada (ni ou fi),

sendo a outra arbitraria, porem igual para todas as colunas ou barras.

As colunas sao dispostas paralelamente umas as outras, horizontal ou verti-

calmente. Alem do tıtulo e fonte de referencias deve-se observar o seguinte:

a) as barras devem ter todas a mesma largura;

b) a distancia entre as barras deve ser constante e de preferencia menor que

a largura das barras.

42

Figura 3: Dados sobre as doencas mais comuns ocorridas no

Estado de Sao Paulo, em 1998.

43

Figura 4: Tempo gasto (em semanas) nos varios tipos de

treinamentos.

44

Grafico em setores circulares

E uma forma adequada de se visualizar a proporcao que cada categoria re-

presenta em relacao ao total dos dados. Sua construcao leva em conta que:

n − 360o

fi − θoi

=⇒ θoi =

360

nfi.

Exercıcio: Fazer o exemplo da Figura 3.

45

Figura 5: Alunos integrantes do CENESP, a nıvel nacional, de

acordo com a qualificacao. Brasil, 2003.

46

Variaveis Quantitativas

Grafico de dispersao

E aquele em que cada dado e representado por um ponto (X,Y) do sistema

de coordenadas cartesianas. O objetivo deste tipo de diagrama e verificar se

existe algum tipo de associacao (correlacao) entre as variaveis observadas.

A Figura a seguir mostra a relacao entre o peso (kg) e a estatura (m) de 15

atletas.

47

Figura 6: Diagrama de dispersao para as variaveis estatura (m) e peso (kg).

48

Grafico de Linhas

Usado quando os dados estao associados ao temp. Consiste em se colocar

no eixo horizontal do grafico a escala temporal (ano, mes, dia, etc) e no eixo

vertical a variavel a ser estudada (frequencia, taxa ou medida). E usual unir

os pontos atraves de segmentos de reta.

A Figura 7 apresenta a evolucao do Indice de Massa Corporal - (IMC) medio

de um grupo de atletas, submetidos a varios tipos de treinamento ao longo

de um ano.

49

Figura 7: IMC medio para um grupo de 10 atletas.

50

Ilusao dos Graficos

Tabela 6: Numero de atendimentos de emergencia no Hospital Universitario,

da UFSC, no primeiro semestre de 2005.

Meses Numero de atendimentos

Janeiro 410

Fevereiro 430

Marco 450

Abril 408

Maio 408

Junho 405

Os graficos, com escalas diferentes, para representar os dados da Tabela 6,

sao dados pelas Figuras 8 e 9.

51

Figura 8: Grafico distorcido. Figura 9: Grafico Correto.

52

Medidas de Posicao

Vimos que a informacao contida num conjunto de dados pode ser resumida

na forma de tabelas e graficos. Frequentemente, entretanto, necessitamos de

um “ındice”que expresse certa propriedade dos dados.

“Estatıstica”

As “Estatısticas”sao ındices numericos que representam propriedades

especıficas das variaveis.

As medidas de posicao mais utilizadas:

i) media;

ii) mediana;

iii) moda.

53

Media Aritmetica:

A medida de tendencia central mais comum e a media aritmetica, represen-

tada por x. E definida como a soma das observacoes dividida pelo numero

delas.

Genericamente, sejam x1, x2, . . . , xn os n valores da variavel X, obtidos pelo

pesquisador. A media aritmetica pode ser escrita como:

x =1

n

n∑

i=1

xi,

sendo xi o valor observado e n o total de observacoes.

Quando dados de uma amostra de determinada populacao sao utilizados,

a media aritmetica calculada sera uma estimativa, pois emprega-se apenas

uma fracao do conjunto total.

54

Caso as observacoes estejam agrupadas em distribuicoes de frequencias, o

calculo da media passa a ser:

x =

k∑

i=1

xifi

k∑

i=1

fi

=

k∑

i=1

xifi

n,

sendo xi o valor observado (ou ponto medio da classe), k o numero de classes,

n o total de observacoes e fi as frequencias observadas.

55

Exemplo: Considere a distribuicao de frequencias da Tabela 7.

Tabela 7: Distribuicao de frequencia das idades

Idades fi xi xifi

10 ⊢ 20 10 15 150

20 ⊢ 30 15 25 375

30 ⊢ 40 20 35 700

40 ⊢ 50 15 45 675

50 ⊢ 60 8 55 440

60 ⊢ 70 2 65 130

Total (n) 70 2470

FONTE: Dados fictıcios

56

Mediana:

Peso de alguns alunos dessa sala de aula Dados brutos: 40, 52, 48, 54, 60, 58, 45, 54, 42. Dados em ordem crescente: 40, 42, 45, 48, 52, 54, 54, 58, 60.

MEDIANA = 52

MEDIANA

Mediana de um conjunto de n observações x x xn1 2, , ,K , é o valor “do meio” do conjunto, quando os dados estão dispostos em ordem crescente.

57

Peso de alguns alunos dessa sala de aula Dados brutos: 40, 52, 110, 48, 54, 60, 58, 45, 54, 42. Dados em ordem crescente: 40, 42, 45, 48, 52, 54, 54, 58, 60, 110.

A MEDIANA é pouco afetada por valores extremos ou discrepantes, ou seja, costumamos dizer que a mediana é uma medida mais ROBUSTA do que a média aritmética.

MEDIANA = 2

5452+= 53

58

Determinacao da Mediana usando a formula

Exemplo. Calcular a mediana dos dois conjuntos de dados a seguir:

• 20, 10, 15, 9, 30, 12, 18

• 20, 10, 15, 9, 30, 12, 18, 22

FÓRMULAS

n ímpar

+=2

1nX xMd

n par 2

122

+

+

=nn

X

xx

Md

a) onde ][ix é a observação que ocupa a i-ésima

posição, no conjunto de dados colocados em ordem crescente ou decrescente.

59

Moda:

Outra medida que pode ser utilizada e a moda, representada por “Mo”,

definida como a realizacao mais frequente do conjunto de valores observados.

A moda pode ser obtida mesmo que a variavel seja qualitativa.

Exemplo 1: Considere a altura (em cm) dos alunos do curso de mestrado

em Educacao Fısica:

155 161 163 163 168 168 168 169 172 175.

Logo, a altura modal entre esses alunos e Mo = 168 cm, pois este valor se

repetiu em maior numero de vezes.

Exemplo 2: o conjunto de numeros 1, 2, 3, 4 e 5 nao tem moda (Amodal).

60

Exemplo 3: o conjunto de numeros 1, 2, 2, 3, 4, 4 e 5 tem duas modas

(bimodal), 2 e 4.

Exemplo 4: Considere os seguintes dados:

Tipo de Sangue Frequencia

O 277

A 141

B 102

AB 37

O sangue tipo O ocorreu com maior frequencia. Entao a moda dessa amostra

e sangue tipo O.

61

Moda de dados agrupados em classes

Para dados agrupados em uma tabela de distribuicao de frequencias para

variaveis quantitativas discretas, a determinacao da moda e imediata,

bastando, para isso, consultar a tabela, localizando o valor que apresenta a

maior frequencia, sendo este valor a moda. Considere os dados da Tabela 8,

calcule a moda.

Tabela 8: Tempo (em semanas) de treinamento para que o

atleta atinja sua melhor forma.

Tempo (semanas) 2 5 6 7 8 9 30

Numero de atletas 2 4 10 5 4 1 1

Neste caso, a moda e 6 semanas, pois e o valor que ocorre com maior

frequencia.

62

Observacoes:

i) se a distribuicao dos dados e absolutamente simetrica em torno de um

valor central, entao a media, a mediana e a moda coincidem;

ii) se a media for maior do que a moda, a distribuicao de frequencia tem

assimetria positiva;

iii) se a media for menor que a moda, tem-se assimetria negativa da dis-

tribuicao de frequencia;

iv) media, mediana e moda tem interpretacoes diferentes, mas ajudam igual-

mente a representar um conjunto de dados. A media pode ser vista como

ponto de equilıbrio das observacoes, a mediana como o ponto medio e a

moda como o ponto de maxima frequencia;

v) dados categoricos (ou qualitativos) nao tem media nem mediana, mas

podem ter moda.

63

Utilizacao das medidas de tendencia central

a) Escolha da media:

i) quando a distribuicao dos dados e aproximadamente simetrica;

ii) quando for necessario obter posteriormente outros parametros que

podem depender da media, como por exemplo a variancia, o desvio

padrao, etc.

b) Escolha da mediana

i) quando ha valores extremos;

ii) quando desejamos conhecer o ponto central da distribuicao;

iii) quando a distribuicao dos dados e muito assimetrica.

c) Escolha da moda

i) quando a medida de interesse e o ponto mais tıpico ou popular dos

dados;

ii) quando precisamos apenas de uma rapida ideia sobre a tendencia

central dos dados.

64

Medidas Separatrizes

O Percentil e uma generalizacao do conceito de mediana. Enquanto a me-

diana divide um conjunto de valores dispostos em ordem crescente em duas

partes iguais os percentis podem dividir em 100 partes iguais.

As principais separatrizes sao:

i) mediana;

ii) os quartis;

iii) os decis;

iv) os percentis.

65

Quartis:

Dividem as observacoes ordenadas em quatro partes iguais:

Q1 - separa os 25% inferiores dos 75% superiores dos valores ordenados;

Q2 - o segundo quartil e a mediana, que separa os 50% das observacoes;

Q3 - separa os 75% inferiores dos 25% superiores dos dados.

Observacao: A formula do percentil engloba a mediana, os quartis e os

decis.

66

Percentis:

CÁLCULO DO PERCENTIL DE ORDEM 100p ( pP100 )

np inteiro ⇒2

]1[][100

++= npnp

p

xxP

np não inteiro ⇒ ]1)[int(100 += npp xP

Exemplo: O professor de estatıstica deseja saber qual e a nota que deixa

pelo menos 25% das notas abaixo dela?

1,0 1,0 1,3 1,6 1,8 2,0 2,6 2,8 2,9 3,0

3,1 3,6 3,6 3,8 3,8 4,0 4,1 4,2 4,4 4,5

5,0 5,9 6,2 6,3 6,3 6,4 6,8 7,0 7,2 7,3

7,9 7,9 8,1 8,3 8,4 8,7 8,8 8,8 8,9 9,0

9,3 9,3 9,4 9,5 9,6 9,7 9,8 9,8 10,0 10,0

67

Grafico de Caixa

Uma aplicacao interessante para os quartis e a construcao do chamado grafico

de caixa (ou box plot), que tem por finalidade a deteccao de observacoes dis-

crepantes e o estudo da simetria da distribuicao.

O box plot da uma ideia da posicao, dispersao, assimetria, caudas e dados

discrepantes. A posicao central e dada pela mediana e a dispersao por dq. As

posicoes relativas de q1, q2, q3 dao uma nocao da assimetria da distribuicao.

Os comprimentos das caudas sao dados pelas linhas que vao do retangulo

aos valores remotos e pelos valores atıpicos. (Bussab & Morettin, 2003).

68

Construcao de um grafico de caixa:

1. Calcular o primeiro quartil (Q1), a mediana (Md) e o terceiro quartil

(Q3).

2. Calcular a amplitude interquartılica (ou distancia interquartılica), dada

por dq = Q3 − Q1.

3. Verificar se ha observacoes discrepantes. Especificamente, consideraremos

os dados que sejam menores do que Q1−1, 5dq ou maiores que Q3+1, 5dq

como sendo discrepantes do restante dos dados. Sao representados indi-

vidualmente no grafico de caixa por *.

4. Calcular os limite inferior e superior dos dados sem considerar os valores

discrepantes.

5. Construir o grafico de caixa seguindo o esquema abaixo.

69

Grafico de Caixas (ou Box Plot)

Figura 10: Esboco do grafico de caixas.

70

Figura 11: Escores dos alunos do ensino medio em uma serie

de exercıcios abdominais.

71

Medidas de Dispersao

A

B

x

Uma “Estatıstica de dispersao”refere-se

a variabilidade dos dados

Nas duas distribuicoes (A e B) qual tem

maior dispersao?

Amostra Teste de Velocidade Fase 1 Fase 2 Fase 3 1 200 152 205 2 210 248 203 3 190 260 195 4 215 200 197 5 185 140 200

Média 200 200 200

Exemplo: Cinco velocistas foram

submetidos a um teste especıfico de

velocidade, durante 30 segundos, em

3 fases de treinamento. Em relacao

a qual das 3 fases, os velocistas se

saıram melhor?

72

.

.

.

.

73

Amplitude:

A maneira simples de medir a variabilidade de uma variavel e atraves da

“distancia”entre duas posicoes na distribuicao.

Amplitude de Variacao:A = xmax − xmin

74

Variancia:

TESTE DE VELOCIDADE

Observações Desvio Quadrado do Desvio 1 (200 – 200) = 0 (200 – 200)2 = 0 2 (210 – 200) = 10 (210 – 200) 2 = 100 3 (190 – 200) = -10 (190 – 200) 2 = 100 4 (215 – 200) = 15 (215 – 200) 2 = 225 5 (185 – 200) = -15 (185 – 200) 2 = 225 SOMA 0,00 650

Soma dos Desvios é sempre zero (exceto por problemas de

arredondamento).

Melhor utilizar a SOMA DE QUADRADOS DOS

DESVIOS que será sempre positiva.

SOMA DE QUADRADOS

( )∑=

−=n

1i

2i xxSQ

o seu valor aumenta a medida em que aumenta o

número de observações (n).

VARIÂNCIA

( )1n

xxs

n

1i

2i

2

−=∑=

75

Desvio Padrao:

A unidade de medida da variancia tambem fica elevada ao quadrado, gerando

escalas sem sentido pratico. Assim, caso a unidade de mensuracao seja metros

(m), a unidade de medida da variancia sera m2.

Uma forma de se obter uma medida de dispersao com a mesma unidade

de medida dos dados e, simplesmente, extrair a raiz quadrada da variancia,

obtendo-se o desvio padrao. Ele e representado por s.

s =√

s2

Na apresentacao de resultados, em geral, utiliza-se:

[media ± desvio]

Para os dados da Tabela 5 , os escores das abdominais sao dados por:

76

[30, 32 ± 7, 641028]

Coeficiente de Variacao:

O Coeficiente de variacao e uma forma de se medir a variabilidade de uma

variavel de modo independente da UNIDADE DE MEDIDA utilizada ou da

ORDEM DE GRANDEZA dos dados.

CV =s

x× 100

Esta medida pode ser bastante util na comparacao de duas variaveis ou dois

grupos.

Em geral, considera-se:

=⇒ Baixa dispersao: CV < 15%;

77

=⇒ Media dispersao: 15% < CV < 30%

=⇒ Alta dispersao: CV > 30%

Calcule o coeficiente de variacao do Exemplo do teste de velocidade

78

Probabilidades

Exemplo 1: Um atleta realiza, nos treinamentos, 20 saltos em distancia

e consegue atingir a marca de 12 m em 15 deles. Qual a probabilidade do

atleta conseguir atingir a marca dos 12 m, em um dado salto?

Exemplo 2: Suponha que um atleta realize tres saltos em distancia, com o

objetivo de atingir a marca de 12 m. Qual a probabilidade do atleta atingir

a marca de 12 m duas vezes, dado que a probabilidade de exito e de p = 0, 75?

Exemplo 3: Qual a probabilidade de uma pessoa acertar na mega-sena?

79

Propriedades da Probabilidade

i) 0 ≤ P (A) ≤ 1, para qualquer evento A;

ii) P (Ω) = 1, em que Ω e o espaco amostral;

iii) P (φ) = 0;

iv) Se Ac for o evento complementar de A, entao P (A) = 1 − P (Ac).

80

Distribuicoes de Probabilidade

Ha varios tipos de distribuicao de probabilidade. Cita-se entre os varios

tipos:

i) Distribuicao Binomial;

P (X = k) =(nk

)pk(1 − p)n−k

E(X) = np

V (X) = np(1 − p)

81

i) Distribuicao Hipergeometrica (Mega Sena);

P (X = i) =

(ki

)(a−kb−i

)(ab

)

a = total de numeros no jogo

b = total de numeros extraıdos

k = total de numeros que se aposta

i = total de numeros com que se ganha

82

Mega-Sena

Probabilidade de Acerto

(1 em .......) Qtde Nº

Jogados

Valor das

Apostas Sena Quina Quadra

6 1,50 50.063.860 154.518 2.332

7 10,50 7.151.980 44.981 1.038

8 42,00 1.787.995 17.192 539

9 126,00 595.998 7.791 312

10 315,00 238.399 3.973 195

11 693,00 108.363 2.211 129

12 1.386,00 54.182 1.317 90

13 2.574,00 29.175 828 65

14 4.504,50 16.671 544 48

15 7.507,50 10.003 370 37

83

ii) Distribuicao de Poisson;

P (X = k) =e−λλk

k!, k = 0, 1, . . . em que λ representa o numero

medio de ocorrencias.

E(X) = λ

V (X) = λ

iii) Distribuicao Normal;

f(x) =1

σ√

2πe−

1

2 (x−µ

σ )2

, −∞ < X < +∞

E(X) = µ

V (X) = σ2

84

85

86

f(x)

x

FUNÇÃO DE DENSIDADE DA DISTRIBUIÇÃO NORMAL 2x

2

1

e2

1)x(f

σµ−−

πσ=

• Propriedades da Distribuicao Normal

σσσσ1

σσσσ2

σσσσ3

µµµµ1µµµµ

2µµµµ3

87

µ

µ+ 3σµ + σµ − σµ− 2σ µ+ 2σ

µ− 3σ

66%

95%

99.7%

0 1-1 2-2 3-3

66%

95%

99.7%

PADRONIZAÇÃO

X N

ZX

Z N

X X

X

X

= −⇒ ≈

( , )

( ; )

µ σµ

σ0 1

88

Exemplo: Suponha que a pressao arterial sistolica de jovens atletas da

natacao tenha distribuicao N(120, 100). Qual a probabilidade de se encontrar

uma pessoa com pressao sistolica acima de 140 mmHg?

89

Introducao a Inferencia Estatıstica

Os modelos probabilısticos procuram medir a variabilidade de fenomenos ca-

suais de acordo com as ocorrencias. Na pratica, frequentemente o pesquisador

tem alguma ideia sobre a forma da distribuicao, mas nao dos valores exatos

dos parametros que a especificam.

População

Amostra aleatória de

tamanho n

“Característica” da população ou parâmetro

µ

Amostragem

Inferência estatística

“Característica” da amostra

x

90

Intervalos de Confianca

Intervalos de confianca para a media

X ∼ N(µ, σ2/n), para n “grande”, e

Z =X − µ

σ/√

n∼ N(0, 1)

Considerando nıvel de confianca de 95%

IC(µ)95% :

[x − 1, 96

σ√n

; x + 1, 96σ√n

]

Exemplo: Considere os dados do teste de aptidao motora correspondendo a

uma serie de dois minutos de exercıcios abdominais. Suponha que o desvio-

padrao da populacao seja conhecido e igual a 7, 64. Determine o intervalo de

confianca para a media ao nıvel 95%. Teste a hipotese de que a media seja

µ = 35.

91

Um problema com a construcao de tais intervalos e que, em geral, nao se

conhece o verdadeiro desvio-padrao populacional σ. Para grandes amostras

(n ≥ 30), o desvio-padrao amostral s sera uma boa estimativa de σ.

Caso o tamanho da amostra seja menor que 30 e o desvio-padrao po-

pulacional nao seja conhecido, deve-se utilizar de probabilidade para pe-

quenas amostras. Essa distribuicao e a t de Student, pseudonimo de William

S. Gosset em 1908. Assim,

IC(µ)95% :

[x − tn−1;α/2

s√n

; X + tn−1;α/2s√n

]

Exemplo: Refaca o exercıcio anterior, considerando-se que nao se conheca

o desvio-padrao populacional. Construa um I.C. para a media ao nıvel de

95%. Teste a hipotese de que a media populacional seja µ = 30.

92

Intervalo de Confianca para a Proporcao:

Intervalo de confianca de 95%

IC(p)95% :

[p − 1, 96

√p(1 − p)

n; +1, 96

√p(1 − p)

n

]= 1 − α

Exemplo: Baseado em cursos anteriores, acredita-se que a proporcao de

alunos do curso de mestrado em Ed. Fısica que nao e de Florianopolis, seja

de p = 0, 25. Teste a afirmativa, ao nıvel de 95%.

93

Testes de Hipoteses

Chama-se de hipotese estatıstica, qualquer afirmacao que se faca sobre um

parametro populacional desconhecido.

O objetivo de um teste estatıstico de hipoteses e fornecer ferramentas que

permitam tomar a decisao de aceitar ou rejeitar uma hipotese estatıstica

atraves dos resultados de uma amostra.

A hipotese lancada para ser rejeitada ou nao rejeitada e chamada hipotese

nula, H0.

Exemplos:

1. H0: O gasto medio energetico e o mesmo entre homens e mulheres

H1: O gasto medio energetico e diferente entre homens e mulheres

2. H0: O gasto medio energetico e o mesmo entre homens e mulheres

H1: O gasto medio energetico e maior para os homens

94

3. H0: O gasto medio energetico e o mesmo entre homens e mulheres

H1: O gasto medio energetico e maior para as mulheres

Hipoteses usando os parametros:

1. H0 : µH = µM

H0 : µH 6= µM

2. H0 : µH = µM

H0 : µH > µM

3. H0 : µH = µM

H0 : µH < µM

Decisao do teste:

Ao se tomar uma decisao, nos preocupamos com a probabilidade de se rejeitar

hipotese H0 quando ela e verdadeira, e a denominamos por p − valor.

95

Passos para construcao de um teste de hipoteses:

1) Construcao das hipoteses hipoteses estatısticas (H0 e H1)

2) Obtencao das informacoes estatıtiscas disponıveis no conjunto de dados

da amostra (em geral, media e variancia) e escolha do teste adequado;

3) Use as observacoes da amostra para calcular o valor da estatıstica do

teste;

4) Atraves do valor da estatıstica do teste, determine o p − valor e tome a

decisao estatıstica (se p−valor < 0, 05 rejeita-se H0, se p−valor > 0, 05

aceita-se H0).

96

Teste de Hipoteses para duas medias

1o Passo: Hipóteses

210 :H µ=µ vs :H

:H

21

211

211

µ>µµ<µµ≠µ

2o Passo: Estatística do teste

Média Var. Amostra 1 x11 x12 . . . x1n 1x 2

1s Amostra 2 x21 x22 . . . x2n 2x 2

2s

97

2.1. Variâncias homogêneas

−+−+−

+

−=

2nn

s)1n(s)1n(

n

1

n

1

xxt

21

222

211

21

21calc

2.1. Variâncias heterogêneas

2

22

1

21

21calc

n

s

n

s

xxt

+

−=

3o Passo: Regiões de Rejeição

211 :H µ≠µ 211 :H µ<µ 211 :H µ>µ

4o Passo: Conclusões usando o p-valor

98

Teste de Hipoteses para duas medias pareadas

1o Passo: Hipóteses

210 :H µ=µ vs :H

:H

21

211

211

µ>µµ<µµ≠µ

2o Passo: Estatística do teste

Média Var. Amostra 1 x11 x12 . . . x1n 1x 2

1s Amostra 2 x21 x22 . . . x2n 2x 2

2s

diferença (di) d1 d2 . . . dn d 2ds

n

s

dt

2d

0calc

θ−= com (n-1) g.l., sendo n = número de pares

3o Passo: Regiões de Rejeição

211 :H µ≠µ 211 :H µ<µ 211 :H µ>µ

4o Passo: Conclusões usando o p-valor

99

Analise de Variancia

A ideia basica da analise de variancia e decompor a variabilidade total, em

partes atribuıdas a causas conhecidas e independentes e a uma parte residual

de origem desconhecida e de natureza aleatoria.

Considere a variavel Soma de 7 Dobras Cutaneas (SM7DC), avaliada para 5

grupos (considerando-se a posicao dos jogadores). Pode-se afirmar que media

de SM7DC e a mesma para todos os grupos?

Goleiros Zagueiros Laterais Meias Atacantes

51,1 48,2 48,8 77,8 41,7

51,3 56,5 49,6 60,8 54,1

57,9 45,0 49,8 76,1 49,1

51,2 80,4 36,7 53,2 37,6

53,9 43,3 40,1 79,1 47,0

100

Banzatto & Kronka (1995), enunciam alguns conceitos basicos relaciona-

dos as etapas da experimentacao, que sao:

i) Experimento ou ensaio: e um trabalho previamente planejado, que

segue determinados princıpios basicos e no qual se faz a comparacao

dos efeitos dos tratamentos;

ii) Tratamento: e o metodo, elemento ou material cujo efeito se deseja

medir ou comparar em um experimento. Os tratamentos podem ser

considerados fixos ou aleatorios, dependendendo da forma como o exper-

imento e conduzido.

iii) Unidade experimental ou parcela: e a unidade que vai receber o

tratamento e fornecer os dados que deverao refletir seu efeito.

iv) Delineamento experimental: e o plano utilizado na experimentacao

e implica na forma como os tratamentos serao designados a unidades

experimentais. Alguns exemplos de delineamentos experimentais sao:

101

delineamento inteiramente casualizado, delineamento em blocos casual-

izados, delineamento em quadrado latino e delineamento em parcelas

subdivididas.

Princıpios basicos da experimentacao

i) Repeticao: a ideia, em experimentacao, e comparar grupos, nao ape-

nas unidades. As unidades experimentais do mesmo grupo recebem, em

estatıstica, o nome de repeticoes. O numero de repeticoes e limitado

pelos recursos disponıveis e sua finalildade e obter uma estimativa do

erro experimental;

ii) Casualizacao: consiste em se aplicar os tratamentos as parcelas, atraves

do sorteio. Tem por finalidade propiciar a todos os tratamentos a

mesma probabilidade de serem designados a qualquer das unidades

102

experimentais. A casulizacao foi formalmente proposta por Fisher, na

decada de 1920;

iii) Controle Local: A finalidadedo princıpio do controle local e dividir

um ambiente heterogeneo em sub-ambientes homogeneos e tornar o de-

lineamento experimental mais eficiente, pela reducao do erro exper-

imental. Esses sub-ambientes homogeneos sao chamados blocos.

Planejamento do experimento

Para se ter um experimento planejado, e necessario definir:

i) a unidade experimental;

ii) a variavel em analise e a forma como sera medida;

iii) os tratamentos que serao comparados;

103

iv) a forma como os tratamentos serao designados as unidades experimen-

tais.

Ao nıvel de 5% de significancia, concluir a respeito da SM7DC e sobre as

posicoes.

A media geral e o desvio padrao da SM7DC sao, respectivamente, dados

por:

x = 53,612mm s = 12,49814mm

104

As medias e desvios para cada posicao sao apresentadas a seguir:

Goleiros Zagueiros Laterais Meias Atacantes

Media (mm) 53,08 54,68 45,0 69,4 45,9

Desvio Padrao (mm) 2,938027 15,4818 6,155079 11,68268 6,426897

Experimentos inteiramente ao acaso

Por levar em consideracao apenas os princıpios da repeticao e da casual-

izacao, sao considerados os mais simples delineamentos experimentais. Sao

instalados em situacao de homogeneidade, por isso, sao muito usados em

laboratorios, casas de vegetacao, etc.

O modelo estatıstico para o delineamento inteiramente casualizado e:

yij = µ + αi + ǫij , (1)

em que:

105

i. yij e o valor observado na parcela j que recebeu o tratamento i;

ii. µ e a media geral;

iii. αi denota o i-esimo tratamento utilizado no experimento;

iv. ǫij denota o erro aleatorio associado a j-esima repeticao do i-esimo trata-

mento;

v. i = 1, . . . , I e j = 1, . . . , J , sendo I o numero de tratamentos utilizados

e J o numero de repeticoes de cada tratamento.

So e possıvel realizar uma analise de variancia se forem satisfeitas as seguintes

condicoes:

1) aditividade: o modelo deve ser aditivo, ou seja, os efeitos devem se

somar (nao ha interacao);

2) independencia: os erros (ǫij), devidos ao efeito de fatores nao controla-

dos, devem ser independentes;

3) homocedasticidade ou homogeneidade de variancias: os erros (ǫij),

106

devido ao efeito de fatores nao controlados, devem possuir uma variancia

comum σ2;

4) normalidade: os erros (ǫij), devidos ao efeito de fatores nao controlados,

devem possuir uma distribuicao normal de probabilidade.

A independencia dos erros e, ate certo ponto, garantida pelo princıpio da

casualizacao.

A homogeneidade das variancias pode ser verificada pelo teste de Hartley

1. F maximo ou teste de Hartley: e dado por

Fmax =s2

max

s2min

.

com I = no de tratamentos e ν = n − 1, numero de graus de liberdade;

Para a verificacao de normalidade dos erros, em geral, utilizam-se os testes

de normalidade, tal como o teste de Shapiro-Wilk.

Quando se instala um experimento no delineamento inteiramente casualizado,

o objetivo e, em geral, verificar se existe diferenca significativa entre pelo

107

menos duas medias de tratamentos. As hipoteses testadas sao:

H0 : µ1 = µ2 = . . . = µI

H1 : Pelo menos duas medias de tratamentos diferem entre si

Para verificarmos se a hipotese nula (H0) e aceita ou nao, completa-se o

seguinte Quadro da Analise de Variancia:

Causa de Somas de Quadrados

Variacaog.l.

Quadrados MediosFcalc p − valor

Tratamentos I - 1 SQTrat SQTratI−1

QMTratQMRes probabilidade

Resıduo I(J-1) SQRes SQResI(J−1)

Total IJ - 1 SQTotal

108

Completando-se o quadro da analise de variancia para o Exemplo 1, tem-se:

H0 : µ1 = µ2 = µ3 = µ4 = µ5

H1 : Pelo menos um dos tratamentos difere dos demais

Causa de Variacao gl S.Q. Q.M. Fcalc p-valor

Tratamentos 4 1921,63 480,41 5,2582 0,004636

Resıduo 20 1827,26 91,36

109

Teste de Comparacoes MultiplasNa analise realizada, rejeitou-se a hipotese de que as medias dos tratamentos

(Posicoes) fossem iguais. Claro que, nessa situacao, seria logico perguntar

quais as medias que diferem entre si. Sera que a media da SM7DC do goleiros

e diferente da media da SM7DC dos laterais? Sera que a media da SM7DC

de zagueiros e diferente dos atacantes? E assim por diante.

Para responder a estas perguntas o pesquisador precisa de um metodo que

forneca a diferenca mınima significativa entre duas medias. Ha diversos testes

de comparacoes multiplas para calcular a diferenca mınima significativa, en-

tre eles:

i) Teste t;

ii) Teste de Scheffe;

iii) Teste de Duncan;

iv) Teste de Dunnett;

v) Teste de Tukey.

110

Teste Tukey

Para obter o valor da diferenca mınima significativa (d.m.s.) pelo teste de

Tukey, calcula-se:

∆ = q

√QMRes

rem que:

→ QMRes e o quadrado medio do resıduo da analise de variancia;

→ r e o numero de repeticoes dos tratamentos;

→ q e a amplitude total estudentizada e seu valor tabelado em funcao do

numero de tratamento (I) e do numero de graus de liberdade do resıduo.

Para o exemplo em questao, tem-se que:

QMRes = 91, 36;

r = 5;

q = q5;20 = 4, 23

111

logo, a diferenca mınima significativa sera, ao nıvel de 5%:

∆ = 4, 23

√91, 36

5= 18,09.

Construindo-se a tabela das medias ordenadas em ordem decrescente, tem-se:

Medias (mm)

Meias 69,40 a

Zagueiros 54,68 ab

Goleiros 53,08 ab

Atacantes 45,90 b

Laterais 45,00 b

em que letras iguais indicam medias semelhantes.

112

Correlacao Linear

Correlacao

A correlacao e usada para observar a relacao que existe entre duas variaveis

(por exemplo: altura e peso)

Que tipo de associacao existe entre duas variaveis?

A correlacao e significativa?

113

Diagramas de Dispersao

Correlação negativa: à medida que x cresce, y decresce.

x = horas de treinamentoy = número de acidentes

Horas de treinamento

Aci

dent

es

114

Correlação positiva: à medidaque x cresce, y cresce também.

x = nota no vestibulary = média de notas na graduação

Méd

iade

not

asna

grad

uaçã

oNota no vestibular

Não há correlação linear.

x = altura y = QI

Altura

QI

115

Coeficiente de Correlacao Linear

Mede a intensidade e a direção darelação linear entre duas variáveis.

O intervalo de r vai de –1 a 1.

Se r estápróximo de 1, há uma forte

correlaçãopositiva.

Se r estápróximo a –1, há uma forte correlaçãonegativa.

Se r estápróximo de 0,

não hácorrelação

linear.

–1 0 1–1 0 1–1 0 1

116

Exercıcio: Faca o diagrama de dispersao e determine o coeficiente de cor-

relacao para o conjunto de dados abaixo.

Tabela 9: Peso (em kg) e estatura (em m) de 10 atletas

Estatura (X) Peso (Y)

1,87 75,2

1,82 81,2

1,94 85,9

1,69 68,5

1,67 72,1

1,80 77,3

1,78 71,1

1,75 70,5

1,73 65,6

1,71 65,6

Baseado no valor de r, posso afirmar que existe correlacao entre peso e es-

tatura dos atletas?

117

Teste de hipoteses para o coeficiente de correlacao

Hipoteses:

H0 : ρ = 0 (Nao existe correlacao entre as variaveis)

H1 : ρ 6= 0 (Existe correlacao entre as variaveis)

t =r√

n − 2√1 − r2

gl = n − 2

Exercıcio: Faca o teste de hipoteses para verificar se existe relacao entre o

peso e a altura dos atletas

118

Regressao Linear Simples

Existem situacoes nas quais o pesquisador deseja verificar o relacionamento

funcional que eventualmente possa existir entre duas variaveis. Estudaremos

aqui os relacionamentos do tipo linear.

é um mínimo

119

Reta de Regressao Estimada

A equacao estimada da reta e dada por:

Yi = β0 + β1Xi

Os valores de β0 e β1 sao obtidos por:

β1 =

n∑

i=1

XiYi −∑

Xi

∑Yi

n[∑

X2i − (P

Xi)2

n

] e β0 = Y − β1X

β1 = −41, 93 e β1 = 64, 88

Portanto,

Yi = −41, 93 + 64, 88 · Xi

P esosi = −41, 93 + 64, 88 · Estatura

120

Analise de Variancia na Regressao

A determinacao da equacao de regressao deve ser precedida de uma analise

de variancia, a fim de comprovar estatisticamente, se os dados apresentam

a suposta relacao linear entre a variaveis X e Y. Hipoteses a serem testadas

pela analise de variancia na regressao:

H0 : β1 = 0, ou seja, nao existe a regressao

H1 : β1 6= 0, ou seja, existe a regressao

121

Quadro da Analise de Variancia na Regressao

Causas de Graus de Somas de Quadrado

Variacao Liberdade quadrados medioFcal

Regressao 1 SQRegr QMRegr QMRegr/QMRes

Resıduo n-2 SQRes QMRes

Total n-1 SQTotal

SQTotal =

n∑

i=1

Y 2i − (

∑i=1 Yi)

2

n

SQReg = β12

[∑

X2i − (

∑Xi)

2

n

]

SQRes = SQTotal − SQRegr

122

Testes Qui-Quadrado

A distribuicao qui-quadrado e tambem utilizada para testar hipoteses em

que os dados disponıveis para analises estao na forma de frequencia (nao-

parametricos).

Exemplo: Um dado e lancado 300 vezes. Com os resultados observados, ha

evidencias de que o dado nao seja honesto? α = 5%.

Ocorrencia (i) 1 2 3 4 5 6 Total

Freq. Observada 43 49 56 45 66 41 300

Freq. Esperada 50 50 50 50 50 50 300

A estatıstica de teste de Pearson e dada por:

X2 =

k∑

i=1

(Oi − Ei)2

Ei

123

em que:

X2 e a estatıstica de teste e X2 ∼ χ2n−1,α;

Oi e a frequencia observada de uma determinada classe ou valor da

variavel;

Ei e a frequencia esperada.

Portanto,

X2 =(43 − 50)2

50+ . . . +

(41 − 50)2

50

X2 = 8, 96.

O p − valor = 0, 1107.

Conclusao: Como p− valor > 0, 05, nao se rejeita H0, ou seja, ha evidencias

de que o dado seja honesto.

124

Considere os dados de um estudo realizado para verificar se a modalidade

do esporte esta associado com o tipo de lesao. Os dados sao apresentados a

seguir:

Tipo de lesaoModalidades

Leve Moderada GraveTotal

Futebol 28 28 19 75

Natacao 15 12 8 35

Total 43 40 27 110

Ha evidencias de que as modalidades estejam associadas com o tipo de lesao?

As hipoteses que estao sendo testadas sao:

H0 : As variaveis sao independentes;

H1 : As variaveis nao sao independentes;

Para obtencao dos valores esperados, multiplica-se os totais marginais e

125

divide-se pelo total. Assim,

E11 =75 ∗ 43

110= 29, 318 E12 =

75 ∗ 40

110= 27, 273 E13 =

75 ∗ 27

110= 18, 409,

e assim por diante.

Tipo de lesaoModalidades

Leve Moderada GraveTotal

Futebol 28 (29,318) 28 (27,273) 19 (18,409) 75

Natacao 15 (13,682) 12 (12,727) 8 ( 8,591) 35

Total 43 40 27 110

O valor calculado e: X2 = 0, 3068 (p − valor = 0, 8578). Como o p −valor = 0, 8578, aceita-se H0, ou seja, as variaveis sao independentes.

126

Restricoes ao uso do teste qui-quadrado

i) Para tabelas do tipo 2 × 2, deve-se aplicar uma correcao, chamada

correcao de continuidade (ou correcao de Yates), dada por:

X2 =

k∑

i=1

(|Oi − Ei| − 0, 5)2

Ei

ii) Quando as frequencias esperadas sao menores que 5, pode-se proceder

da seguinte forma:

– juntar classes adjacentes (desde que faca sentido junta-las), evitando-

se que a frequencia esperada seja menor que 5;

– aplica-se o teste exato de Fisher.