Hist´oria da Estat´ıstica - inf.ufsc.bradriano.borgatto/DEF410007 Bioestatistica... · recebe os...
-
Upload
trinhduong -
Category
Documents
-
view
217 -
download
0
Transcript of Hist´oria da Estat´ıstica - inf.ufsc.bradriano.borgatto/DEF410007 Bioestatistica... · recebe os...
2
Historia da Estatıstica
ΣΣΣΣSTATÍSTICA
Babilônia China Egito
CRISTO ⇒⇒⇒⇒ Belém ⇒⇒⇒⇒ Censo
Século XVIII - STATUS
Meio Administração ⇒⇒⇒⇒ GOVERNO
3.000 a.C.
3
O que e estatıstica?
Qual a sua utilizacao?
Onde se utiliza?
Ha necessidade de se aprender estatıstica?
Quais os softwares que existem para analise de dados?
4
Definicoes dadas a estatıstica
“Estatıstica e a arte e ciencia de coletar, analisar e interpretar dados”.
(definicao informal de estatıstica)
“A estatıstica e uma ciencia da tomada de decisao diante de incertezas”.
(definicao ampla de estatıstica)
“O pensamento estatıstico sera um dia tao necessario para o cidadao quanto
a habilidade de ler e escrever”. (Wells, H. G., 1993)
“A estatıstica preocupa-se com a compreensao do mundo real atraves da in-
formacao que nos extraımos da classificacao e mensuracao. Sua caracterıstica
distintiva e lidar com a variabilidade e a incerteza, que estao em toda parte”.
(Bartholomew, 1995)
5
Exemplos Motivacionais:
i) Os arbitros de futebol de Santa Catarina estao aptos fisicamente?
ii) Criancas do ensino fundamental sao obesas?
iii) Servidores da UFSC com mais de 60 anos praticam esportes?
iv) Em qual modalidade de esporte ocorre maior numero de lesoes?
v) A disciplina de Bioestatıstica atende os anseios dos alunos que dela par-
ticipam?
6
Fases do planejamento de pesquisa
i) Planejamento do problema:
⇒ definicao da importancia do problema que se pretende estudar;
⇒ determinacao do objetivo e finalidade do estudo.
ii) Avaliacao da informacao existente:
⇒ revisao bibliografica.
iii) Formulacao de hipoteses:
⇒ em toda pesquisa, exceto naquelas meramente descritivas ou explo-
ratorias, e necessaria a formulacao de uma hipotese estatıstica que
podera ser comprovada ou rejeitada.
iv) Verificacao da hipotese:
⇒ consiste da coleta de dados, analise estatıstica e discussao dos resul-
tados.
v) Parte final:
⇒ Conclusao, Bibliografia, Anexos, Apendices.
8
Variáveis Tipos Exemplos
Nominal
cor dos olhos, sexo, estado civil
Qualitativas
ou Categóricas
Ordinal
nível de escolaridade, estágio da doença
Discretas
número de filhos por casal, quantidade de leitos
Quantitativas
Contínuas
medida de altura e peso, taxa de glicose
POPULAÇÃO
AMOSTRA
VARIÁVEIS
9
Termos comuns na estatıstica
i) Populacao: conjunto de todos os elementos que possuam pelo menos
uma caracterıstica (ou variavel) comum, a qual se deseja estudar.
⇒ Parametro: e uma medida numerica que descreve uma caracterıstica
de uma populacao. Sao valores fixos, geralmente desconhecidos e
usualmente representados por caracteres gregos.
Exemplos: µ (media populacional), π (proporcao populacional), σ2
(variancia populacional), σ (desvio-padrao populacional), etc.
ii) Amostra: pode ser definida como um subconjunto da populacao e a
partir dela faz-se inferencia sobre as caracterısticas da populacao. Uma
amostra tem que ser representativa da populacao.
⇒ Estatıstica: medida numerica que descreve uma caracterıstica de
uma amostra. Representada por caracteres latinos.
Exemplos: x (media amostral), p (proporcao amostral), s2 (variancia
amostral), s (desvio padrao amostral), etc.
10
CENSO
Probabilística Não Probabilística
-Simples ao acaso -Sistemática -Estratificada
AMOSTRA
POPULAÇÃO
11
Nocoes de alguns tipos de amostragem
Uma das formas de se conseguir que a amostra seja representativa da po-
pulacao, e fazer com que o processo de escolha da amostra seja, de alguma
forma, aleatorio.
Tecnicas Amostrais
As tecnicas amostrais a serem estudadas sao probabilısticas e sua carac-
terıstica principal e poder ser submetida a tratamento estatıstico, que per-
mite compensar erros amostrais. Sao elas:
i) Amostragem Simples ao Acaso;
ii) Amostragem Sistematica;
iii) Amostragem Estratificada.
12
=⇒ Amostragem simples ao acaso - ASA
E um metodo de selecionar, sem reposicao, n elementos de uma populacao
de tamanho N , conhecida e finita, em que todo elemento da populacao tem
probabilidade igual de ser escolhido para a amostra. Deve, assim como as
demais tecnicas amostrais, ser cuidadosamente planejada para se evitar qual-
quer tendenciosidade.
Utilizacao: utiliza-se este tipo de amostragem quando a populacao pode
ser considerada homogenea.
Processo de coleta: todos os N elementos da populacao devem ser enu-
merados. Sorteia-se, entao, n elementos para compor a amostra. Este sorteio
pode ser feito com o auxılio de uma tabela de numeros aleatorios, com a uti-
lizacao de algum programa computacional ou, utilizando-se uma urna que
recebe os numeros de 1 a N e procede-se ao sorteio de n elementos. Os
elementos correspondentes aos numeros escolhidos comporao a amostra.
13
=⇒ Amostragem sistematica
Os elementos sao escolhidos utilizando-se algum tipo de sistema. Um pro-
fessor, utilizando-se de sua lista de chamada, poderia compor uma amostra
chamando todos os alunos cujos numeros na pauta terminassem em um de-
terminado dıgito. Assim, o professor chamaria para compor sua amostra,
por exemplo, todos os alunos com numeros terminados em zero, ou seja, os
numeros 10, 20, 30, 40 e assim por diante.
Utilizacao: e utilizada quando a populacao esta naturalmente ordenada,
como fichas em um fichario, listas telefonicas, etc.
Processo de coleta: seja N o tamanho da populacao e n o tamanho da
amostra, entao calcula-se o intervalo de amostragem
k =N
n.
Sorteia-se um numero x entre 1 e k, formando a amostra dos elementos
correspondentes aos numeros: x, x + k, x + 2k, . . . .
14
Exemplo: Considere a lista de arbitros e assistentes do Parana, a seguir, e
retire uma amostra de 10 pessoas para exames de saude mais detalhados:
1) Adriana Franzmann
2) Altemar Roberto Domingues
3) Andreia Perdoncini
4) Antonio Dernival de Moraes
5) Antonio Oliveira Salazar Moreno
6) Aparecido Donizetti Santana
7) Bruno Boschilia
8) Carlos Jack Rodrigues Magno
9) Cleivaldo Bernardo
10) Edivaldo Elias da Silva
11) Evandro Rogerio Roman
12) Everson Veneton Teixeira
15
13) Faustino Vicente Lopes
14) Francisco Aurelio Prado
15) Francisco Carlos Vieira
16) Gilson Bento Coutinho
17) Gilson Pereira
18) Ildelfonso Trombeta
19) Ito Dari Rannov
20) Ivan Carlos Bohn
21) Jose Amilton Pontarolo
22) Jose Carlos Dias Passos
23) Jose Ricardo Bigaski Stoller
24) Marcos Tadeu Silva Mafra
25) Mauricio Batista dos Santos
26) Moises Aparecido de Souza
27) Nilo Neves de Souza Junior
16
28) Rogerio Carlos Rolim
29) Rubens Berton
30) Sandro Cesar da Rocha
31) Sandro Schmidt
32) Sirlei Piva
33) Vagner Vicentin
17
=⇒ Amostragem Estratificada
Quando e possıvel identificar sub-grupos ou sub-populacoes, mais ou menos
homogeneas, deve-se utilizar esta tecnica e, a partir dos sub-grupos, utiliza-se
a amostragem simples ao acaso ou sistematica para selecionar os elementos
que irao compor a amostra.
Utilizacao: quando a populacao for heterogenea.
Processo de coleta: deve-se dividir as N unidades da populacao em es-
tratos disjuntos e homogeneos, de tamanhos N1, N2, . . . , Nj , e selecionar,
ao acaso, uma amostra de tamanhos n1, n2, . . . , nj , de modo que o tamanho
da amostra seja n = n1 + n2 + . . . + nj .
O mais comum e utilizar-se a amostragem estratificada proporcional,
que consiste em selecionar os elementos da amostra entre os varios estratos,
em numero proporcional ao tamanho de cada um dos estratos.
18
Exemplo: Considere a populacao de arbitros e arbitros assistentes de futebol
do Parana, relacionados a seguir. Retire uma amostra de 10 arbitros para
estudo, considerando-se a amostragem proporcional.
Arbitros:
1) Antonio Dernival de Moraes
2) Antonio Oliveira Salazar Moreno
3) Carlos Jack Rodrigues Magno
4) Cleivaldo Bernardo
5) Edivaldo Elias da Silva
6) Evandro Rogerio Roman
7) Francisco Carlos Vieira
8) Ito Dari Rannov
9) Jose Ricardo Bigaski Stoller
10) Marcos Tadeu Silva Mafra
11) Mauricio Batista dos Santos
19
12) Nilo Neves de Souza Junior
13) Sandro Cesar da Rocha
14) Sandro Schmidt
Assistentes:
1) Altemar Roberto Domingues
2) Aparecido Donizetti Santana
3) Bruno Boschilia
4) Everson Veneton Teixeira
5) Faustino Vicente Lopes
6) Francisco Aurelio Prado
7) Gilson Bento Coutinho
8) Gilson Pereira
9) Ildelfonso Trombeta
10) Ivan Carlos Bohn
20
11) Jose Amilton Pontarolo
12) Jose Carlos Dias Passos
13) Moises Aparecido De Souza
14) Rogerio Carlos Rolim
15) Rubens Berton
16) Vagner Vicentin
17) Sirlei Piva
18) Adriana Franzmann
19) Andreia Perdoncini
21
Dimensionamento da amostra
384 1064 500.000
384 1067 1.000.000
383 1055 100.000
377 1013 20.000
356 879 5.000
277 516 1.000
79 91 100
d=5% d=3%
Margem de Erro População
22
A determinacao do tamanho da amostra depende dos seguintes fatores:
1) Tamanho da populacao - pode-se classifica-la em finita e infinita.
2) Variancia ou percentual - Variancia (variaveis quantitativas) e percentual
(variaveis qualitativas).
3) Nıvel de confianca - em geral, utiliza-se o nıvel de 95% de confianca, cujo
valor e dado por z = 1, 96.
4) Margem de erro ou precisao - a diferenca entre o valor da estatıstica e o
valor do parametro.
5) Informacao na literatura - informacoes obtidas na literatura, podem dar
indicativos dos valores a serem utilizados na determinacao do valor de n.
23
Determinacao do tamanho amostral para variaveis qualitativas
Quando se dispoe de variaveis categoricas, utilizam-se as seguintes formulas:
n0 =z2 p (1 − p)
d2
e
n =n0
1 +n0
N
Em populacoes finitas sao utilizadas as duas formulas. Para populacoes
infinitas, apenas a primeira formula deve ser utilizada.
Exemplo: Com o objetivo de se verificar o grau de satisfacao dos alunos
de Educacao Fısica de SC em relacao ao curso, determine o tamanho da
amostra, considerando-se N = 4000. Considere uma precisao de 4% e um
nıvel de confianca de 95%.
24
Determinacao do tamanho amostral para variaveis contınuas
Para variaveis quantitativas, tem-se:
n0 =z2 σ2
d2
e
n =n0
1 +n0
N
Para populacoes finitas, utilizam-se as duas formulas e, para populacoes in-
finitas, apenas a primeira formula e utilizada.
Exemplo: Numa pesquisa para se determinar a taxa media do teor de
hemoglobina dos alunos da UFSC, do ano de 2005, determine o tamanho
da amostra, considerando-se z = 1, 96, uma precisao de 0, 5mg e σ2 = 9mg2.
25
Reflexoes
1. Um pesquisador estudando o salario medio dos funcionarios da UFSC,
escolheu como amostra os primeiros 20 funcionarios que encontrou. Com
base nessa amostra, determinou-se o salario medio de todos os funcionarios
da UFSC. O seu procedimento merece crıticas?
2. Foi feito um estudo para determinar a estatura media dos alunos do
primeiro ano do curso de Educacao Fısica. Foi selecionada uma amostra em
que foram incluıdos os primeiros 10 alunos que adentraram a sala de aula
num determinado dia. A amostra sera adequada para a pesquisa em questao?
26
Os 10 mandamentos de um questionario
1. O questionario dever ser adequado no tamanho a natureza da pesquisa, a
amostra e a forma de pesquisa. Ex.: por telefone devem ser mais curtos
que as entrevistas.
2. Deve-se usar perguntas fechadas de multiplas alternativas quando a amostra
e grande para facilitar o tratamento estatıstico. Mas sempre utilizando
algumas abertas para as questoes subjetivas.
3. Fazer quantos pre-testes forem necessarios.
4. Cuidado com perguntas pessoais: idade, renda, etc.
5. Nunca colocar duas variaveis numa so pergunta. Ex: Voce gosta de
filmes policiais e de comedias?
6. Perguntar o que a pessoa pode se lembrar. Ex.: Ninguem lembra quantas
garrafas de refrigerante consome por ano?
27
7. O formato do questionario deve ser de tal modo que nao de a impressao
que o questionario e grande. Poucos responderao um questionario de
cerca de 10 folhas.
8. Deve ser usada a linguagem da populacao e nao do pesquisador.
9. Os entrevistadores devem conhecer bem o questionario para esclarecer,
sem influenciar.
10. Evitar usar escalas diferentes em tamanho e na sequencia, para nao con-
fundir o entrevistado.
Relatorio
→ Deixar claro como o estudo foi conduzido, possibilitando a sua reproducao;
→ Analisar os dados e sua qualidade;
→ Processo de construcao da hipotese e a confirmacao ou nao usando metodolo-
gia cientıfica;
→ Resumo das conclusoes e indicacoes para novas pesquisas.
28
Descricao da Amostragem
Consumo alimentar de adolescentes matriculados em um colegio
particular de Teresina, Piauı, Brasil. Carvalho et al. 2001
O universo do estudo foi constituıdo pelos adolescentes de 10 a 19 anos,
matriculados na rede privada de ensino em Teresina. Para representar esse
universo foi pesquisada uma escola que voluntariamente aceitou participar
da investigacao. Do total de 862 adolescentes matriculados nessa escola no
ano de 1996, foram selecionados 360, por amostragem sistematica, com inter-
valos de sistematizacao igual a 3, ou seja, de cada tres adolescentes, um foi
incluıdo na pesquisa, sendo que o primeiro foi escolhido aleatoriamente entre
os tres primeiros numeros da lista fornecida pela direcao da escola. Esse
tamanho amostral embute um erro de 5% e um nıvel de confianca de 95%,
nos estimadores de proporcao (%).
29
Determinacao do perfil dos usuarios e da composicao quımica e
nutricional da alimentacao oferecida no restaurante universitario
da Universidade Estadual Paulista, Araraquara, Brasil. Fausto et
al. 2001
A amostra populacional da pesquisa foi constituıda de 403 usuarios do RU
(212 mulheres e 191 homens). Como e estimado que o RU forneca em torno
de 500 refeicoes de almoco nos dias de maior frequencia, esse numero corre-
sponde a 80,6% dos usuarios, aproximadamente.
30
Estatıstica Descritiva
A organizacao e apresentacao de dados se da atraves de:
Tabelas estatısticas;
Graficos;
Medidas resumo.
Elementos essenciais de uma tabela:
i) Tıtulo;
ii) Corpo;
iii) Cabecalho;
iv) Coluna indicadora.
31
Tabela 1: Qualificacao dos alunos atuantes na rede CENESP -
Centro de Excelencia Esportiva, no ano de 2003.
Qualificacao Alunos
Graduacao 233
Especializacao 136
Mestrado 93
Doutorado 28
Total 490
Fonte: Ministerio do Esporte.
32
Elementos complementares de uma tabela:
i) Fonte: e a indicacao do orgao ou entidade responsavel pelo fornecimento
dos dados ou pela sua elaboracao;
ii) Notas: sao informacoes destinadas a esclarecer ou conceituar o conteudo
das tabelas, ou indicar a metodologia adotada;
iii) Chamadas: sao informacoes de natureza especıfica sobre determinada
parte da tabela, destinada a conceituar ou esclarecer dados.
Observacoes:
E recomendada a nao-delimitacao das tabelas, a esquerda e a direita,
por tracos verticais. No entanto, sera facultativo o emprego de tracos
verticais para separacao das colunas, no corpo da tabela;
No caso da tabela ter de ocupar mais de uma pagina, nao sera delimitada
na parte inferior e o cabecalho sera repetido na pagina seguinte. Nesse
caso, usa-se no cabecalho, ou na coluna indicadora, a expressao continua
ou conclusao, conforme o caso.
33
Tabela 2: Qualificacao dos alunos atuantes na rede CENESP -
Centro de Excelencia Esportiva, no ano de 2003.
Qualificacao Alunos
Graduacao 233
Especializacao 136
Mestrado 93
Doutorado1 28
Total 490
Nota: Nao inclui dados do CENESP da UFSM.
1Dados apenas das Universidades Paulistas.
Fonte: Ministerio do Esporte.
34
TABELA DE DUPLA ENTRADA (ou CONTINGENCIA)
Tabela 3: Perfil do alunos do 1o ano do curso de Educacao
Fısica, quanto a idade e sexo. UFSC, 2005.
GeneroIdade
Feminino MasculinoTotal
17 3 0 3
18 8 3 11
19 11 5 16
20 6 4 10
21 1 1 2
24 0 1 1
Total 29 14 43
Fonte: Depto. de Ed. Fısica - UFSC
35
Medidas resumo
Distribuicao de frequencia de variaveis discretas
Tabela 4: Numero de filhos de atletas profissionais de Flo-
rianopolis.
Numero de Frequencia Absoluta Frequencia relativa
Filhos fi fr%
0 1 4,76
1 4 19,05
2 6 28,57
3 10 47,62
Total 21 100,00
Fonte: Fictıcia.
37
Distribuicao de frequencia de variaveis contınuas
As variaveis contınuas e algumas vezes as variaveis discretas assumem, em
geral, muitos valores e, assim, usa-se descrever essas variaveis atraves de
tabelas de classes de frequencias ou tabelas de intervalo.
Considere o teste de aptidao motora aplicado a 50 alunos do ensino medio,
correspondendo a uma serie de dois minutos de exercıcios abdominais:
48 39 42 43 45 22 23 24 25 23 32 30 31 32 33
12 15 16 19 20 18 30 31 32 33 33 26 26 27 28
28 27 33 30 31 32 33 29 29 27 28 41 39 38 35
37 35 34 36 36
Alem dos dados brutos, rol e amplitude total (At), tem-se que definir:
i) Numero de classes: k = 1 + 3, 3 ∗ Log(n)
ii) Amplitude de classes: a =At
k
38
Tabela 5: Escores obtidos por alunos do ensino medio, em teste
de aptidao motora em uma serie de dois minutos de
exercıcios abdominais.
Escores Frequencias Porcentagens
12 ⊢ 18 3 6, 0
18 ⊢ 24 6 12, 0
24 ⊢ 30 12 24, 0
30 ⊢ 36 18 36, 0
36 ⊢ 42 7 14, 0
42 ⊢ 48 3 6, 0
48 ⊢ 54 1 2, 0
Total 50 100, 0
Fonte: Fictıcia.
39
Figura 2: Escores do teste de aptidao motora em uma serie
de dois minutos de exercıcios abdominais.
40
Graficos
O objetivo da representacao grafica e apresentar de maneira clara, rapida e
objetiva os dados coletados. Algumas regras para a confeccao de graficos sao:
toda representacao grafica deve ter tıtulo, escala e fonte dos dados;
enumeracao dos graficos utilizando-se de algarismos arabicos;
as escalas devem crescer da esquerda para a direita e de baixo para cima
e serem uniformes;
as legendas explicativas devem ser colocadas, de preferencia, a direita do
grafico.
a razao da altura para a largura pode variar de 60% a 80%.
Existem inumeras formas graficas interessantes, serao apresentados apenas
alguns tipos de graficos.
41
Variaveis Qualitativas
Grafico em colunas ou barras
O grafico em colunas e em barras consistem em construir retangulos, em que
uma das dimensoes e proporcional a magnitude a ser representada (ni ou fi),
sendo a outra arbitraria, porem igual para todas as colunas ou barras.
As colunas sao dispostas paralelamente umas as outras, horizontal ou verti-
calmente. Alem do tıtulo e fonte de referencias deve-se observar o seguinte:
a) as barras devem ter todas a mesma largura;
b) a distancia entre as barras deve ser constante e de preferencia menor que
a largura das barras.
44
Grafico em setores circulares
E uma forma adequada de se visualizar a proporcao que cada categoria re-
presenta em relacao ao total dos dados. Sua construcao leva em conta que:
n − 360o
fi − θoi
=⇒ θoi =
360
nfi.
Exercıcio: Fazer o exemplo da Figura 3.
45
Figura 5: Alunos integrantes do CENESP, a nıvel nacional, de
acordo com a qualificacao. Brasil, 2003.
46
Variaveis Quantitativas
Grafico de dispersao
E aquele em que cada dado e representado por um ponto (X,Y) do sistema
de coordenadas cartesianas. O objetivo deste tipo de diagrama e verificar se
existe algum tipo de associacao (correlacao) entre as variaveis observadas.
A Figura a seguir mostra a relacao entre o peso (kg) e a estatura (m) de 15
atletas.
48
Grafico de Linhas
Usado quando os dados estao associados ao temp. Consiste em se colocar
no eixo horizontal do grafico a escala temporal (ano, mes, dia, etc) e no eixo
vertical a variavel a ser estudada (frequencia, taxa ou medida). E usual unir
os pontos atraves de segmentos de reta.
A Figura 7 apresenta a evolucao do Indice de Massa Corporal - (IMC) medio
de um grupo de atletas, submetidos a varios tipos de treinamento ao longo
de um ano.
50
Ilusao dos Graficos
Tabela 6: Numero de atendimentos de emergencia no Hospital Universitario,
da UFSC, no primeiro semestre de 2005.
Meses Numero de atendimentos
Janeiro 410
Fevereiro 430
Marco 450
Abril 408
Maio 408
Junho 405
Os graficos, com escalas diferentes, para representar os dados da Tabela 6,
sao dados pelas Figuras 8 e 9.
52
Medidas de Posicao
Vimos que a informacao contida num conjunto de dados pode ser resumida
na forma de tabelas e graficos. Frequentemente, entretanto, necessitamos de
um “ındice”que expresse certa propriedade dos dados.
“Estatıstica”
As “Estatısticas”sao ındices numericos que representam propriedades
especıficas das variaveis.
As medidas de posicao mais utilizadas:
i) media;
ii) mediana;
iii) moda.
53
Media Aritmetica:
A medida de tendencia central mais comum e a media aritmetica, represen-
tada por x. E definida como a soma das observacoes dividida pelo numero
delas.
Genericamente, sejam x1, x2, . . . , xn os n valores da variavel X, obtidos pelo
pesquisador. A media aritmetica pode ser escrita como:
x =1
n
n∑
i=1
xi,
sendo xi o valor observado e n o total de observacoes.
Quando dados de uma amostra de determinada populacao sao utilizados,
a media aritmetica calculada sera uma estimativa, pois emprega-se apenas
uma fracao do conjunto total.
54
Caso as observacoes estejam agrupadas em distribuicoes de frequencias, o
calculo da media passa a ser:
x =
k∑
i=1
xifi
k∑
i=1
fi
=
k∑
i=1
xifi
n,
sendo xi o valor observado (ou ponto medio da classe), k o numero de classes,
n o total de observacoes e fi as frequencias observadas.
55
Exemplo: Considere a distribuicao de frequencias da Tabela 7.
Tabela 7: Distribuicao de frequencia das idades
Idades fi xi xifi
10 ⊢ 20 10 15 150
20 ⊢ 30 15 25 375
30 ⊢ 40 20 35 700
40 ⊢ 50 15 45 675
50 ⊢ 60 8 55 440
60 ⊢ 70 2 65 130
Total (n) 70 2470
FONTE: Dados fictıcios
56
Mediana:
Peso de alguns alunos dessa sala de aula Dados brutos: 40, 52, 48, 54, 60, 58, 45, 54, 42. Dados em ordem crescente: 40, 42, 45, 48, 52, 54, 54, 58, 60.
MEDIANA = 52
MEDIANA
Mediana de um conjunto de n observações x x xn1 2, , ,K , é o valor “do meio” do conjunto, quando os dados estão dispostos em ordem crescente.
57
Peso de alguns alunos dessa sala de aula Dados brutos: 40, 52, 110, 48, 54, 60, 58, 45, 54, 42. Dados em ordem crescente: 40, 42, 45, 48, 52, 54, 54, 58, 60, 110.
A MEDIANA é pouco afetada por valores extremos ou discrepantes, ou seja, costumamos dizer que a mediana é uma medida mais ROBUSTA do que a média aritmética.
MEDIANA = 2
5452+= 53
58
Determinacao da Mediana usando a formula
Exemplo. Calcular a mediana dos dois conjuntos de dados a seguir:
• 20, 10, 15, 9, 30, 12, 18
• 20, 10, 15, 9, 30, 12, 18, 22
FÓRMULAS
n ímpar
+=2
1nX xMd
n par 2
122
+
+
=nn
X
xx
Md
a) onde ][ix é a observação que ocupa a i-ésima
posição, no conjunto de dados colocados em ordem crescente ou decrescente.
59
Moda:
Outra medida que pode ser utilizada e a moda, representada por “Mo”,
definida como a realizacao mais frequente do conjunto de valores observados.
A moda pode ser obtida mesmo que a variavel seja qualitativa.
Exemplo 1: Considere a altura (em cm) dos alunos do curso de mestrado
em Educacao Fısica:
155 161 163 163 168 168 168 169 172 175.
Logo, a altura modal entre esses alunos e Mo = 168 cm, pois este valor se
repetiu em maior numero de vezes.
Exemplo 2: o conjunto de numeros 1, 2, 3, 4 e 5 nao tem moda (Amodal).
60
Exemplo 3: o conjunto de numeros 1, 2, 2, 3, 4, 4 e 5 tem duas modas
(bimodal), 2 e 4.
Exemplo 4: Considere os seguintes dados:
Tipo de Sangue Frequencia
O 277
A 141
B 102
AB 37
O sangue tipo O ocorreu com maior frequencia. Entao a moda dessa amostra
e sangue tipo O.
61
Moda de dados agrupados em classes
Para dados agrupados em uma tabela de distribuicao de frequencias para
variaveis quantitativas discretas, a determinacao da moda e imediata,
bastando, para isso, consultar a tabela, localizando o valor que apresenta a
maior frequencia, sendo este valor a moda. Considere os dados da Tabela 8,
calcule a moda.
Tabela 8: Tempo (em semanas) de treinamento para que o
atleta atinja sua melhor forma.
Tempo (semanas) 2 5 6 7 8 9 30
Numero de atletas 2 4 10 5 4 1 1
Neste caso, a moda e 6 semanas, pois e o valor que ocorre com maior
frequencia.
62
Observacoes:
i) se a distribuicao dos dados e absolutamente simetrica em torno de um
valor central, entao a media, a mediana e a moda coincidem;
ii) se a media for maior do que a moda, a distribuicao de frequencia tem
assimetria positiva;
iii) se a media for menor que a moda, tem-se assimetria negativa da dis-
tribuicao de frequencia;
iv) media, mediana e moda tem interpretacoes diferentes, mas ajudam igual-
mente a representar um conjunto de dados. A media pode ser vista como
ponto de equilıbrio das observacoes, a mediana como o ponto medio e a
moda como o ponto de maxima frequencia;
v) dados categoricos (ou qualitativos) nao tem media nem mediana, mas
podem ter moda.
63
Utilizacao das medidas de tendencia central
a) Escolha da media:
i) quando a distribuicao dos dados e aproximadamente simetrica;
ii) quando for necessario obter posteriormente outros parametros que
podem depender da media, como por exemplo a variancia, o desvio
padrao, etc.
b) Escolha da mediana
i) quando ha valores extremos;
ii) quando desejamos conhecer o ponto central da distribuicao;
iii) quando a distribuicao dos dados e muito assimetrica.
c) Escolha da moda
i) quando a medida de interesse e o ponto mais tıpico ou popular dos
dados;
ii) quando precisamos apenas de uma rapida ideia sobre a tendencia
central dos dados.
64
Medidas Separatrizes
O Percentil e uma generalizacao do conceito de mediana. Enquanto a me-
diana divide um conjunto de valores dispostos em ordem crescente em duas
partes iguais os percentis podem dividir em 100 partes iguais.
As principais separatrizes sao:
i) mediana;
ii) os quartis;
iii) os decis;
iv) os percentis.
65
Quartis:
Dividem as observacoes ordenadas em quatro partes iguais:
Q1 - separa os 25% inferiores dos 75% superiores dos valores ordenados;
Q2 - o segundo quartil e a mediana, que separa os 50% das observacoes;
Q3 - separa os 75% inferiores dos 25% superiores dos dados.
Observacao: A formula do percentil engloba a mediana, os quartis e os
decis.
66
Percentis:
CÁLCULO DO PERCENTIL DE ORDEM 100p ( pP100 )
np inteiro ⇒2
]1[][100
++= npnp
p
xxP
np não inteiro ⇒ ]1)[int(100 += npp xP
Exemplo: O professor de estatıstica deseja saber qual e a nota que deixa
pelo menos 25% das notas abaixo dela?
1,0 1,0 1,3 1,6 1,8 2,0 2,6 2,8 2,9 3,0
3,1 3,6 3,6 3,8 3,8 4,0 4,1 4,2 4,4 4,5
5,0 5,9 6,2 6,3 6,3 6,4 6,8 7,0 7,2 7,3
7,9 7,9 8,1 8,3 8,4 8,7 8,8 8,8 8,9 9,0
9,3 9,3 9,4 9,5 9,6 9,7 9,8 9,8 10,0 10,0
67
Grafico de Caixa
Uma aplicacao interessante para os quartis e a construcao do chamado grafico
de caixa (ou box plot), que tem por finalidade a deteccao de observacoes dis-
crepantes e o estudo da simetria da distribuicao.
O box plot da uma ideia da posicao, dispersao, assimetria, caudas e dados
discrepantes. A posicao central e dada pela mediana e a dispersao por dq. As
posicoes relativas de q1, q2, q3 dao uma nocao da assimetria da distribuicao.
Os comprimentos das caudas sao dados pelas linhas que vao do retangulo
aos valores remotos e pelos valores atıpicos. (Bussab & Morettin, 2003).
68
Construcao de um grafico de caixa:
1. Calcular o primeiro quartil (Q1), a mediana (Md) e o terceiro quartil
(Q3).
2. Calcular a amplitude interquartılica (ou distancia interquartılica), dada
por dq = Q3 − Q1.
3. Verificar se ha observacoes discrepantes. Especificamente, consideraremos
os dados que sejam menores do que Q1−1, 5dq ou maiores que Q3+1, 5dq
como sendo discrepantes do restante dos dados. Sao representados indi-
vidualmente no grafico de caixa por *.
4. Calcular os limite inferior e superior dos dados sem considerar os valores
discrepantes.
5. Construir o grafico de caixa seguindo o esquema abaixo.
71
Medidas de Dispersao
A
B
x
Uma “Estatıstica de dispersao”refere-se
a variabilidade dos dados
Nas duas distribuicoes (A e B) qual tem
maior dispersao?
Amostra Teste de Velocidade Fase 1 Fase 2 Fase 3 1 200 152 205 2 210 248 203 3 190 260 195 4 215 200 197 5 185 140 200
Média 200 200 200
Exemplo: Cinco velocistas foram
submetidos a um teste especıfico de
velocidade, durante 30 segundos, em
3 fases de treinamento. Em relacao
a qual das 3 fases, os velocistas se
saıram melhor?
73
Amplitude:
A maneira simples de medir a variabilidade de uma variavel e atraves da
“distancia”entre duas posicoes na distribuicao.
Amplitude de Variacao:A = xmax − xmin
74
Variancia:
TESTE DE VELOCIDADE
Observações Desvio Quadrado do Desvio 1 (200 – 200) = 0 (200 – 200)2 = 0 2 (210 – 200) = 10 (210 – 200) 2 = 100 3 (190 – 200) = -10 (190 – 200) 2 = 100 4 (215 – 200) = 15 (215 – 200) 2 = 225 5 (185 – 200) = -15 (185 – 200) 2 = 225 SOMA 0,00 650
Soma dos Desvios é sempre zero (exceto por problemas de
arredondamento).
Melhor utilizar a SOMA DE QUADRADOS DOS
DESVIOS que será sempre positiva.
SOMA DE QUADRADOS
( )∑=
−=n
1i
2i xxSQ
o seu valor aumenta a medida em que aumenta o
número de observações (n).
VARIÂNCIA
( )1n
xxs
n
1i
2i
2
−
−=∑=
75
Desvio Padrao:
A unidade de medida da variancia tambem fica elevada ao quadrado, gerando
escalas sem sentido pratico. Assim, caso a unidade de mensuracao seja metros
(m), a unidade de medida da variancia sera m2.
Uma forma de se obter uma medida de dispersao com a mesma unidade
de medida dos dados e, simplesmente, extrair a raiz quadrada da variancia,
obtendo-se o desvio padrao. Ele e representado por s.
s =√
s2
Na apresentacao de resultados, em geral, utiliza-se:
[media ± desvio]
Para os dados da Tabela 5 , os escores das abdominais sao dados por:
76
[30, 32 ± 7, 641028]
Coeficiente de Variacao:
O Coeficiente de variacao e uma forma de se medir a variabilidade de uma
variavel de modo independente da UNIDADE DE MEDIDA utilizada ou da
ORDEM DE GRANDEZA dos dados.
CV =s
x× 100
Esta medida pode ser bastante util na comparacao de duas variaveis ou dois
grupos.
Em geral, considera-se:
=⇒ Baixa dispersao: CV < 15%;
77
=⇒ Media dispersao: 15% < CV < 30%
=⇒ Alta dispersao: CV > 30%
Calcule o coeficiente de variacao do Exemplo do teste de velocidade
78
Probabilidades
Exemplo 1: Um atleta realiza, nos treinamentos, 20 saltos em distancia
e consegue atingir a marca de 12 m em 15 deles. Qual a probabilidade do
atleta conseguir atingir a marca dos 12 m, em um dado salto?
Exemplo 2: Suponha que um atleta realize tres saltos em distancia, com o
objetivo de atingir a marca de 12 m. Qual a probabilidade do atleta atingir
a marca de 12 m duas vezes, dado que a probabilidade de exito e de p = 0, 75?
Exemplo 3: Qual a probabilidade de uma pessoa acertar na mega-sena?
79
Propriedades da Probabilidade
i) 0 ≤ P (A) ≤ 1, para qualquer evento A;
ii) P (Ω) = 1, em que Ω e o espaco amostral;
iii) P (φ) = 0;
iv) Se Ac for o evento complementar de A, entao P (A) = 1 − P (Ac).
80
Distribuicoes de Probabilidade
Ha varios tipos de distribuicao de probabilidade. Cita-se entre os varios
tipos:
i) Distribuicao Binomial;
P (X = k) =(nk
)pk(1 − p)n−k
E(X) = np
V (X) = np(1 − p)
81
i) Distribuicao Hipergeometrica (Mega Sena);
P (X = i) =
(ki
)(a−kb−i
)(ab
)
a = total de numeros no jogo
b = total de numeros extraıdos
k = total de numeros que se aposta
i = total de numeros com que se ganha
82
Mega-Sena
Probabilidade de Acerto
(1 em .......) Qtde Nº
Jogados
Valor das
Apostas Sena Quina Quadra
6 1,50 50.063.860 154.518 2.332
7 10,50 7.151.980 44.981 1.038
8 42,00 1.787.995 17.192 539
9 126,00 595.998 7.791 312
10 315,00 238.399 3.973 195
11 693,00 108.363 2.211 129
12 1.386,00 54.182 1.317 90
13 2.574,00 29.175 828 65
14 4.504,50 16.671 544 48
15 7.507,50 10.003 370 37
83
ii) Distribuicao de Poisson;
P (X = k) =e−λλk
k!, k = 0, 1, . . . em que λ representa o numero
medio de ocorrencias.
E(X) = λ
V (X) = λ
iii) Distribuicao Normal;
f(x) =1
σ√
2πe−
1
2 (x−µ
σ )2
, −∞ < X < +∞
E(X) = µ
V (X) = σ2
86
f(x)
x
FUNÇÃO DE DENSIDADE DA DISTRIBUIÇÃO NORMAL 2x
2
1
e2
1)x(f
σµ−−
πσ=
• Propriedades da Distribuicao Normal
σσσσ1
σσσσ2
σσσσ3
µµµµ1µµµµ
2µµµµ3
87
µ
µ+ 3σµ + σµ − σµ− 2σ µ+ 2σ
µ− 3σ
66%
95%
99.7%
0 1-1 2-2 3-3
66%
95%
99.7%
PADRONIZAÇÃO
X N
ZX
Z N
X X
X
X
≈
= −⇒ ≈
( , )
( ; )
µ σµ
σ0 1
88
Exemplo: Suponha que a pressao arterial sistolica de jovens atletas da
natacao tenha distribuicao N(120, 100). Qual a probabilidade de se encontrar
uma pessoa com pressao sistolica acima de 140 mmHg?
89
Introducao a Inferencia Estatıstica
Os modelos probabilısticos procuram medir a variabilidade de fenomenos ca-
suais de acordo com as ocorrencias. Na pratica, frequentemente o pesquisador
tem alguma ideia sobre a forma da distribuicao, mas nao dos valores exatos
dos parametros que a especificam.
População
Amostra aleatória de
tamanho n
“Característica” da população ou parâmetro
µ
Amostragem
Inferência estatística
“Característica” da amostra
x
90
Intervalos de Confianca
Intervalos de confianca para a media
X ∼ N(µ, σ2/n), para n “grande”, e
Z =X − µ
σ/√
n∼ N(0, 1)
Considerando nıvel de confianca de 95%
IC(µ)95% :
[x − 1, 96
σ√n
; x + 1, 96σ√n
]
Exemplo: Considere os dados do teste de aptidao motora correspondendo a
uma serie de dois minutos de exercıcios abdominais. Suponha que o desvio-
padrao da populacao seja conhecido e igual a 7, 64. Determine o intervalo de
confianca para a media ao nıvel 95%. Teste a hipotese de que a media seja
µ = 35.
91
Um problema com a construcao de tais intervalos e que, em geral, nao se
conhece o verdadeiro desvio-padrao populacional σ. Para grandes amostras
(n ≥ 30), o desvio-padrao amostral s sera uma boa estimativa de σ.
Caso o tamanho da amostra seja menor que 30 e o desvio-padrao po-
pulacional nao seja conhecido, deve-se utilizar de probabilidade para pe-
quenas amostras. Essa distribuicao e a t de Student, pseudonimo de William
S. Gosset em 1908. Assim,
IC(µ)95% :
[x − tn−1;α/2
s√n
; X + tn−1;α/2s√n
]
Exemplo: Refaca o exercıcio anterior, considerando-se que nao se conheca
o desvio-padrao populacional. Construa um I.C. para a media ao nıvel de
95%. Teste a hipotese de que a media populacional seja µ = 30.
92
Intervalo de Confianca para a Proporcao:
Intervalo de confianca de 95%
IC(p)95% :
[p − 1, 96
√p(1 − p)
n; +1, 96
√p(1 − p)
n
]= 1 − α
Exemplo: Baseado em cursos anteriores, acredita-se que a proporcao de
alunos do curso de mestrado em Ed. Fısica que nao e de Florianopolis, seja
de p = 0, 25. Teste a afirmativa, ao nıvel de 95%.
93
Testes de Hipoteses
Chama-se de hipotese estatıstica, qualquer afirmacao que se faca sobre um
parametro populacional desconhecido.
O objetivo de um teste estatıstico de hipoteses e fornecer ferramentas que
permitam tomar a decisao de aceitar ou rejeitar uma hipotese estatıstica
atraves dos resultados de uma amostra.
A hipotese lancada para ser rejeitada ou nao rejeitada e chamada hipotese
nula, H0.
Exemplos:
1. H0: O gasto medio energetico e o mesmo entre homens e mulheres
H1: O gasto medio energetico e diferente entre homens e mulheres
2. H0: O gasto medio energetico e o mesmo entre homens e mulheres
H1: O gasto medio energetico e maior para os homens
94
3. H0: O gasto medio energetico e o mesmo entre homens e mulheres
H1: O gasto medio energetico e maior para as mulheres
Hipoteses usando os parametros:
1. H0 : µH = µM
H0 : µH 6= µM
2. H0 : µH = µM
H0 : µH > µM
3. H0 : µH = µM
H0 : µH < µM
Decisao do teste:
Ao se tomar uma decisao, nos preocupamos com a probabilidade de se rejeitar
hipotese H0 quando ela e verdadeira, e a denominamos por p − valor.
95
Passos para construcao de um teste de hipoteses:
1) Construcao das hipoteses hipoteses estatısticas (H0 e H1)
2) Obtencao das informacoes estatıtiscas disponıveis no conjunto de dados
da amostra (em geral, media e variancia) e escolha do teste adequado;
3) Use as observacoes da amostra para calcular o valor da estatıstica do
teste;
4) Atraves do valor da estatıstica do teste, determine o p − valor e tome a
decisao estatıstica (se p−valor < 0, 05 rejeita-se H0, se p−valor > 0, 05
aceita-se H0).
96
Teste de Hipoteses para duas medias
1o Passo: Hipóteses
210 :H µ=µ vs :H
:H
21
211
211
µ>µµ<µµ≠µ
2o Passo: Estatística do teste
Média Var. Amostra 1 x11 x12 . . . x1n 1x 2
1s Amostra 2 x21 x22 . . . x2n 2x 2
2s
97
2.1. Variâncias homogêneas
−+−+−
+
−=
2nn
s)1n(s)1n(
n
1
n
1
xxt
21
222
211
21
21calc
2.1. Variâncias heterogêneas
2
22
1
21
21calc
n
s
n
s
xxt
+
−=
3o Passo: Regiões de Rejeição
211 :H µ≠µ 211 :H µ<µ 211 :H µ>µ
4o Passo: Conclusões usando o p-valor
98
Teste de Hipoteses para duas medias pareadas
1o Passo: Hipóteses
210 :H µ=µ vs :H
:H
21
211
211
µ>µµ<µµ≠µ
2o Passo: Estatística do teste
Média Var. Amostra 1 x11 x12 . . . x1n 1x 2
1s Amostra 2 x21 x22 . . . x2n 2x 2
2s
diferença (di) d1 d2 . . . dn d 2ds
n
s
dt
2d
0calc
θ−= com (n-1) g.l., sendo n = número de pares
3o Passo: Regiões de Rejeição
211 :H µ≠µ 211 :H µ<µ 211 :H µ>µ
4o Passo: Conclusões usando o p-valor
99
Analise de Variancia
A ideia basica da analise de variancia e decompor a variabilidade total, em
partes atribuıdas a causas conhecidas e independentes e a uma parte residual
de origem desconhecida e de natureza aleatoria.
Considere a variavel Soma de 7 Dobras Cutaneas (SM7DC), avaliada para 5
grupos (considerando-se a posicao dos jogadores). Pode-se afirmar que media
de SM7DC e a mesma para todos os grupos?
Goleiros Zagueiros Laterais Meias Atacantes
51,1 48,2 48,8 77,8 41,7
51,3 56,5 49,6 60,8 54,1
57,9 45,0 49,8 76,1 49,1
51,2 80,4 36,7 53,2 37,6
53,9 43,3 40,1 79,1 47,0
100
Banzatto & Kronka (1995), enunciam alguns conceitos basicos relaciona-
dos as etapas da experimentacao, que sao:
i) Experimento ou ensaio: e um trabalho previamente planejado, que
segue determinados princıpios basicos e no qual se faz a comparacao
dos efeitos dos tratamentos;
ii) Tratamento: e o metodo, elemento ou material cujo efeito se deseja
medir ou comparar em um experimento. Os tratamentos podem ser
considerados fixos ou aleatorios, dependendendo da forma como o exper-
imento e conduzido.
iii) Unidade experimental ou parcela: e a unidade que vai receber o
tratamento e fornecer os dados que deverao refletir seu efeito.
iv) Delineamento experimental: e o plano utilizado na experimentacao
e implica na forma como os tratamentos serao designados a unidades
experimentais. Alguns exemplos de delineamentos experimentais sao:
101
delineamento inteiramente casualizado, delineamento em blocos casual-
izados, delineamento em quadrado latino e delineamento em parcelas
subdivididas.
Princıpios basicos da experimentacao
i) Repeticao: a ideia, em experimentacao, e comparar grupos, nao ape-
nas unidades. As unidades experimentais do mesmo grupo recebem, em
estatıstica, o nome de repeticoes. O numero de repeticoes e limitado
pelos recursos disponıveis e sua finalildade e obter uma estimativa do
erro experimental;
ii) Casualizacao: consiste em se aplicar os tratamentos as parcelas, atraves
do sorteio. Tem por finalidade propiciar a todos os tratamentos a
mesma probabilidade de serem designados a qualquer das unidades
102
experimentais. A casulizacao foi formalmente proposta por Fisher, na
decada de 1920;
iii) Controle Local: A finalidadedo princıpio do controle local e dividir
um ambiente heterogeneo em sub-ambientes homogeneos e tornar o de-
lineamento experimental mais eficiente, pela reducao do erro exper-
imental. Esses sub-ambientes homogeneos sao chamados blocos.
Planejamento do experimento
Para se ter um experimento planejado, e necessario definir:
i) a unidade experimental;
ii) a variavel em analise e a forma como sera medida;
iii) os tratamentos que serao comparados;
103
iv) a forma como os tratamentos serao designados as unidades experimen-
tais.
Ao nıvel de 5% de significancia, concluir a respeito da SM7DC e sobre as
posicoes.
A media geral e o desvio padrao da SM7DC sao, respectivamente, dados
por:
x = 53,612mm s = 12,49814mm
104
As medias e desvios para cada posicao sao apresentadas a seguir:
Goleiros Zagueiros Laterais Meias Atacantes
Media (mm) 53,08 54,68 45,0 69,4 45,9
Desvio Padrao (mm) 2,938027 15,4818 6,155079 11,68268 6,426897
Experimentos inteiramente ao acaso
Por levar em consideracao apenas os princıpios da repeticao e da casual-
izacao, sao considerados os mais simples delineamentos experimentais. Sao
instalados em situacao de homogeneidade, por isso, sao muito usados em
laboratorios, casas de vegetacao, etc.
O modelo estatıstico para o delineamento inteiramente casualizado e:
yij = µ + αi + ǫij , (1)
em que:
105
i. yij e o valor observado na parcela j que recebeu o tratamento i;
ii. µ e a media geral;
iii. αi denota o i-esimo tratamento utilizado no experimento;
iv. ǫij denota o erro aleatorio associado a j-esima repeticao do i-esimo trata-
mento;
v. i = 1, . . . , I e j = 1, . . . , J , sendo I o numero de tratamentos utilizados
e J o numero de repeticoes de cada tratamento.
So e possıvel realizar uma analise de variancia se forem satisfeitas as seguintes
condicoes:
1) aditividade: o modelo deve ser aditivo, ou seja, os efeitos devem se
somar (nao ha interacao);
2) independencia: os erros (ǫij), devidos ao efeito de fatores nao controla-
dos, devem ser independentes;
3) homocedasticidade ou homogeneidade de variancias: os erros (ǫij),
106
devido ao efeito de fatores nao controlados, devem possuir uma variancia
comum σ2;
4) normalidade: os erros (ǫij), devidos ao efeito de fatores nao controlados,
devem possuir uma distribuicao normal de probabilidade.
A independencia dos erros e, ate certo ponto, garantida pelo princıpio da
casualizacao.
A homogeneidade das variancias pode ser verificada pelo teste de Hartley
1. F maximo ou teste de Hartley: e dado por
Fmax =s2
max
s2min
.
com I = no de tratamentos e ν = n − 1, numero de graus de liberdade;
Para a verificacao de normalidade dos erros, em geral, utilizam-se os testes
de normalidade, tal como o teste de Shapiro-Wilk.
Quando se instala um experimento no delineamento inteiramente casualizado,
o objetivo e, em geral, verificar se existe diferenca significativa entre pelo
107
menos duas medias de tratamentos. As hipoteses testadas sao:
H0 : µ1 = µ2 = . . . = µI
H1 : Pelo menos duas medias de tratamentos diferem entre si
Para verificarmos se a hipotese nula (H0) e aceita ou nao, completa-se o
seguinte Quadro da Analise de Variancia:
Causa de Somas de Quadrados
Variacaog.l.
Quadrados MediosFcalc p − valor
Tratamentos I - 1 SQTrat SQTratI−1
QMTratQMRes probabilidade
Resıduo I(J-1) SQRes SQResI(J−1)
Total IJ - 1 SQTotal
108
Completando-se o quadro da analise de variancia para o Exemplo 1, tem-se:
H0 : µ1 = µ2 = µ3 = µ4 = µ5
H1 : Pelo menos um dos tratamentos difere dos demais
Causa de Variacao gl S.Q. Q.M. Fcalc p-valor
Tratamentos 4 1921,63 480,41 5,2582 0,004636
Resıduo 20 1827,26 91,36
109
Teste de Comparacoes MultiplasNa analise realizada, rejeitou-se a hipotese de que as medias dos tratamentos
(Posicoes) fossem iguais. Claro que, nessa situacao, seria logico perguntar
quais as medias que diferem entre si. Sera que a media da SM7DC do goleiros
e diferente da media da SM7DC dos laterais? Sera que a media da SM7DC
de zagueiros e diferente dos atacantes? E assim por diante.
Para responder a estas perguntas o pesquisador precisa de um metodo que
forneca a diferenca mınima significativa entre duas medias. Ha diversos testes
de comparacoes multiplas para calcular a diferenca mınima significativa, en-
tre eles:
i) Teste t;
ii) Teste de Scheffe;
iii) Teste de Duncan;
iv) Teste de Dunnett;
v) Teste de Tukey.
110
Teste Tukey
Para obter o valor da diferenca mınima significativa (d.m.s.) pelo teste de
Tukey, calcula-se:
∆ = q
√QMRes
rem que:
→ QMRes e o quadrado medio do resıduo da analise de variancia;
→ r e o numero de repeticoes dos tratamentos;
→ q e a amplitude total estudentizada e seu valor tabelado em funcao do
numero de tratamento (I) e do numero de graus de liberdade do resıduo.
Para o exemplo em questao, tem-se que:
QMRes = 91, 36;
r = 5;
q = q5;20 = 4, 23
111
logo, a diferenca mınima significativa sera, ao nıvel de 5%:
∆ = 4, 23
√91, 36
5= 18,09.
Construindo-se a tabela das medias ordenadas em ordem decrescente, tem-se:
Medias (mm)
Meias 69,40 a
Zagueiros 54,68 ab
Goleiros 53,08 ab
Atacantes 45,90 b
Laterais 45,00 b
em que letras iguais indicam medias semelhantes.
112
Correlacao Linear
Correlacao
A correlacao e usada para observar a relacao que existe entre duas variaveis
(por exemplo: altura e peso)
Que tipo de associacao existe entre duas variaveis?
A correlacao e significativa?
113
Diagramas de Dispersao
Correlação negativa: à medida que x cresce, y decresce.
x = horas de treinamentoy = número de acidentes
Horas de treinamento
Aci
dent
es
114
Correlação positiva: à medidaque x cresce, y cresce também.
x = nota no vestibulary = média de notas na graduação
Méd
iade
not
asna
grad
uaçã
oNota no vestibular
Não há correlação linear.
x = altura y = QI
Altura
QI
115
Coeficiente de Correlacao Linear
Mede a intensidade e a direção darelação linear entre duas variáveis.
O intervalo de r vai de –1 a 1.
Se r estápróximo de 1, há uma forte
correlaçãopositiva.
Se r estápróximo a –1, há uma forte correlaçãonegativa.
Se r estápróximo de 0,
não hácorrelação
linear.
–1 0 1–1 0 1–1 0 1
116
Exercıcio: Faca o diagrama de dispersao e determine o coeficiente de cor-
relacao para o conjunto de dados abaixo.
Tabela 9: Peso (em kg) e estatura (em m) de 10 atletas
Estatura (X) Peso (Y)
1,87 75,2
1,82 81,2
1,94 85,9
1,69 68,5
1,67 72,1
1,80 77,3
1,78 71,1
1,75 70,5
1,73 65,6
1,71 65,6
Baseado no valor de r, posso afirmar que existe correlacao entre peso e es-
tatura dos atletas?
117
Teste de hipoteses para o coeficiente de correlacao
Hipoteses:
H0 : ρ = 0 (Nao existe correlacao entre as variaveis)
H1 : ρ 6= 0 (Existe correlacao entre as variaveis)
t =r√
n − 2√1 − r2
gl = n − 2
Exercıcio: Faca o teste de hipoteses para verificar se existe relacao entre o
peso e a altura dos atletas
118
Regressao Linear Simples
Existem situacoes nas quais o pesquisador deseja verificar o relacionamento
funcional que eventualmente possa existir entre duas variaveis. Estudaremos
aqui os relacionamentos do tipo linear.
é um mínimo
119
Reta de Regressao Estimada
A equacao estimada da reta e dada por:
Yi = β0 + β1Xi
Os valores de β0 e β1 sao obtidos por:
β1 =
n∑
i=1
XiYi −∑
Xi
∑Yi
n[∑
X2i − (P
Xi)2
n
] e β0 = Y − β1X
β1 = −41, 93 e β1 = 64, 88
Portanto,
Yi = −41, 93 + 64, 88 · Xi
P esosi = −41, 93 + 64, 88 · Estatura
120
Analise de Variancia na Regressao
A determinacao da equacao de regressao deve ser precedida de uma analise
de variancia, a fim de comprovar estatisticamente, se os dados apresentam
a suposta relacao linear entre a variaveis X e Y. Hipoteses a serem testadas
pela analise de variancia na regressao:
H0 : β1 = 0, ou seja, nao existe a regressao
H1 : β1 6= 0, ou seja, existe a regressao
121
Quadro da Analise de Variancia na Regressao
Causas de Graus de Somas de Quadrado
Variacao Liberdade quadrados medioFcal
Regressao 1 SQRegr QMRegr QMRegr/QMRes
Resıduo n-2 SQRes QMRes
Total n-1 SQTotal
SQTotal =
n∑
i=1
Y 2i − (
∑i=1 Yi)
2
n
SQReg = β12
[∑
X2i − (
∑Xi)
2
n
]
SQRes = SQTotal − SQRegr
122
Testes Qui-Quadrado
A distribuicao qui-quadrado e tambem utilizada para testar hipoteses em
que os dados disponıveis para analises estao na forma de frequencia (nao-
parametricos).
Exemplo: Um dado e lancado 300 vezes. Com os resultados observados, ha
evidencias de que o dado nao seja honesto? α = 5%.
Ocorrencia (i) 1 2 3 4 5 6 Total
Freq. Observada 43 49 56 45 66 41 300
Freq. Esperada 50 50 50 50 50 50 300
A estatıstica de teste de Pearson e dada por:
X2 =
k∑
i=1
(Oi − Ei)2
Ei
123
em que:
X2 e a estatıstica de teste e X2 ∼ χ2n−1,α;
Oi e a frequencia observada de uma determinada classe ou valor da
variavel;
Ei e a frequencia esperada.
Portanto,
X2 =(43 − 50)2
50+ . . . +
(41 − 50)2
50
X2 = 8, 96.
O p − valor = 0, 1107.
Conclusao: Como p− valor > 0, 05, nao se rejeita H0, ou seja, ha evidencias
de que o dado seja honesto.
124
Considere os dados de um estudo realizado para verificar se a modalidade
do esporte esta associado com o tipo de lesao. Os dados sao apresentados a
seguir:
Tipo de lesaoModalidades
Leve Moderada GraveTotal
Futebol 28 28 19 75
Natacao 15 12 8 35
Total 43 40 27 110
Ha evidencias de que as modalidades estejam associadas com o tipo de lesao?
As hipoteses que estao sendo testadas sao:
H0 : As variaveis sao independentes;
H1 : As variaveis nao sao independentes;
Para obtencao dos valores esperados, multiplica-se os totais marginais e
125
divide-se pelo total. Assim,
E11 =75 ∗ 43
110= 29, 318 E12 =
75 ∗ 40
110= 27, 273 E13 =
75 ∗ 27
110= 18, 409,
e assim por diante.
Tipo de lesaoModalidades
Leve Moderada GraveTotal
Futebol 28 (29,318) 28 (27,273) 19 (18,409) 75
Natacao 15 (13,682) 12 (12,727) 8 ( 8,591) 35
Total 43 40 27 110
O valor calculado e: X2 = 0, 3068 (p − valor = 0, 8578). Como o p −valor = 0, 8578, aceita-se H0, ou seja, as variaveis sao independentes.
126
Restricoes ao uso do teste qui-quadrado
i) Para tabelas do tipo 2 × 2, deve-se aplicar uma correcao, chamada
correcao de continuidade (ou correcao de Yates), dada por:
X2 =
k∑
i=1
(|Oi − Ei| − 0, 5)2
Ei
ii) Quando as frequencias esperadas sao menores que 5, pode-se proceder
da seguinte forma:
– juntar classes adjacentes (desde que faca sentido junta-las), evitando-
se que a frequencia esperada seja menor que 5;
– aplica-se o teste exato de Fisher.