Statistic ˘ a Aplicat ˘ a

207
Iulian Stoleriu Statistic ˘ a Aplicat ˘ a

Transcript of Statistic ˘ a Aplicat ˘ a

Page 1: Statistic ˘ a Aplicat ˘ a

[Iulian Stoleriu]

Statistica Aplicata

Page 2: Statistic ˘ a Aplicat ˘ a

Statistica Aplicata (C1)

1 Elemente de Statistic teoretic (C1)

Populaµie statistic

O populaµie (colectivitate) statistic este o mulµime de elemente ce posed o trasatur comun ce urmeaz a studiat . Aceasta poate nit sau innit , real sau imaginar . In acest material vom nota populatiastatistica cu Ω. Din punct de vedere matematics, Ω este o multime nevida. Elementele ce constituie ocolectivitate statistic se vor numi unit µi statistice sau indivizi. Vom nota cu ω o unitate statistic . Dac populaµia este nit , atunci num rul N al unit µilor statistice ce o compun (i.e., |Ω|) îl vom numi volumul

colectivit µii (sau volumul populaµiei).

Caracteristica (variabila) unei populaµii statistice este o anumit proprietate urm rit la indivizii ei înprocesul prelucr rii statistice ³i care constituie obiectul m sur rii. Spre exemplu, inaltimea barbatilordintr-o anumita tara, rata inltrarii apei in solul urban, media la Bacalaureat, altitudinea, culoareafrunzelor, nationalitatea participantilor la un congres international etc. Din punct de vedere matematic,caracteristica este reprezentata printr-o variabila aleatoare denita pe Ω. Spre exemplu, daca populatiastatistica este mulµimea tuturor studenµilor dintr-o universitate înrolaµi în anul întâi de master, atuncio caracteristica a sa ar media la licenµ obµinut de ecare dintre ace³ti studenµi. Teoretic, mulµimeavalorilor acestei caracteristici este intervalul [6, 10], iar aceasta variabila poate lua orice valoare din acestinterval. Caracteristicile pot : cantitative (sau m surabile sau numerice) (e.g., 2, 3, 5.75, 1/3, . . . ) saucalitative (categoriale sau atribute) (e.g., albastru, foarte bine, german etc). La rândul lor, variabilelecantitative pot discrete (num rul de sosiri ale unui tramvai în staµie) sau continue (timpul de a³teptareîntre dou sosiri ale tramvaiului în staµie). Caracteristicile pot depinde de unul sau mai multi parametri,parametrii ind astfel caracteristici numerice ale colectivit µii.

Vom numi date (sau date statistice) informaµiile obµinute în urma observaµiei valorilor unei caracteristicia unei populatii statistice. In cazul mentionat mai sus, datele sunt mediile la licenµ observate. Îngeneral, datele pot calitative (se mai numesc ³i categoriale) sau cantitative, dup cum caracteristica (sauvariabila) observat este calitativ (exprima o calitate sau o categorie) sau, respectiv, cantitativ (are ovaloare numerica). Totodata, aceste date pot date de tip discret, dac sunt obµinute în urma observ riiunei caracteristici discrete (o variabila aleatoare discret , sau o variabila ale carei posibile valori suntin numar nit sau cel mult numarabil), sau date continue, dac aceast caracteristic este continu (ovariabil aleatoare de tip continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau chiarde pe axa reala). În cazul din exemplul de mai sus, datele vor cantitative ³i continue. Datele calitativemai pot nominale sau ordinale. Variabilele nominale au nivele distincte, fara a avea o anumita ordine.De exemplu, culoarea parului, sau genul unei persoane. Pe de alta parte, valorile ordinale fac referintala ordinea lor. De exemplu: schimbarea starii unui pacient dupa un anumit tratamen (aceasta poate: imbunatatire semnicativa, imbunatatire moderata, nicio schimbare, inrautatire moderata, inrautatiresemnicativa).

În Statistic , se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, X, . . ., si valorilelor cu litere mici, x, y, x, . . ..

In general, volumul colectivitatii poate foarte mare sau chiar innit, astfel ca efectuarea unui recensamant

(i.e., observarea caracteristicii de interes pentru toate elementele ce compun colectivitatea) este e foartecostisitoare sau imposibila. Pentru a efectua o analiza a caracteristicii de interes sau chiar a repartitieidatelor observate, este sucienta analiza unei selectii de volum sucient de mare formata din observatii ale

Page 3: Statistic ˘ a Aplicat ˘ a

SA 1 [Dr. Iulian Stoleriu] 2

caracteristicii, urmand ca aceasta analiza sa e extrapolata (folosind metode statistice specice) pentruintreaga populatie.

O selecµie (sau e³antion) este o colectivitate parµial de elemente extrase (la întâmplare sau nu) din colec-tivitatea general , în scopul cercet rii lor din punctul de vedere al unei caracteristici. Dac extragerea seface la întâmplare, atunci spunem c am facut o selecµie întâmpl toare. Num rul indivizilor din selecµiaaleas se va numi volumul selecµiei. Dac se face o enumerare sau o listare a ec rui element component alunei a populaµii statistice, atunci spunem c am facut un recens mânt. Selecµia ar trebui s e reprezen-tativ pentru populaµia din care face parte. Numim o selecµie repetat (sau cu repetiµie) o selecµie în urmac reia individul ales a fost reintrodus din nou în colectivitate. Altfel, avem o selecµie nerepetat . Selecµianerepetat nu prezint interes dac volumul colectivit µii este nit, deoarece în acest caz probabilitateaca un alt individ s e ales într-o extragere nu este aceea³i pentru toµi indivizii colectivit µii. Pe de alt parte, dac volumul întregii populaµii statistice este mult mai mare decât cel al e³antionului extras, atunciputem presupune c selecµia efectuat este repetat , chiar dac în mod practic ea este nerepetat .

Selecµiile aleatoare se pot realiza prin diverse metode, în funcµie de urm torii factori: disponibilitateainformaµiilor necesare, costul operaµiunii, nivelul de precizie al informaµiilor etc. Câteva metode de selec-µie: selecµie simpl , selecµie sistematic , selecµie straticat , selecµie ciorchine, selecµia de tip experienµ ,selecµie de convenienµ , selecµie de cot etc.

Parametrii sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avem acces la intreagapopulatie, parametrii sunt niste constante necunoscute, ce urmeaza a explicate sau estimate pe bazadatelor. Spre exemplu, pentru variabilele cantitative ale populatiei, putem avea: parametri care sa descrietendinta centrala a populatiei (e.g., media, mediana, momente), parametri care sa descrie dispersia datelor(e.g., dispersia, deviatia standard, coecient de variatie), parametri de pozitie (e.g., cuantile), parametri cedescriu forma (e.g., skewness, kurtosis). Pentru date bidimensionale, datele pot descrise de parametrii cedescriu legatura intre variabile: corelatia sau coecientul de corelatie. Pentru date calitative (categoriale),cei mai des utilizati parametri sunt: π− proportia din populatie ce are caracteristica de interes (e.g.,numarul de fumatori din tara), cote (sanse teoretica pentru observarea caracteristicii de interes la intreagapopulatie) (e.g., exista 70% sanse sa ploua maine).

Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii necunoscuti,obtinand descrieri numerice pentru populatie. Astfel de indicatori se numesc statistici. Prin intermediulstatisticilor putem trage concluzii despre populaµia Ω, din care a provenit e³antionul observat. Teoriaprobabilit µilor ne ofer procedee de determinare a repartiµiei asimptotice a unei statistici, sau chiar, inanumite cazuri, a statisticii exacte. Repartiµia exact este acea repartiµie ce poate determinat pentruorice volum al selecµiei. În general, dac se lucreaz cu selecµii de volum redus (n < 30), atunci repartiµiaexact ar trebui s e cunoscut a priori, dac se dore³te luarea de decizii prin inferenµ . Repartiµia

asimptotic este repartiµia limit a statisticii când n → ∞, iar utilizarea acesteia conduce la rezultatebune doar pentru n ≥ 30.

In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatii din acestea.Mai concret, detine metodele necesare de a realiza urmatoarele cerinte: sa descrie cat mai del si sugestivacele date (prin grace sau indicatori statistici), sa estimeze anumiti parametri de interes (e.g., mediateoretica, deviatia standard, asimetria ale caracteristicii), sa verice prin inferenta ipotezele ce se pot facereferitoare la anumiti parametri ai caracteristicii sau chiar la forma acesteia.

Page 4: Statistic ˘ a Aplicat ˘ a

SA 1 [Dr. Iulian Stoleriu] 3

Variabile aleatoare

În general, rezultatul posibil al unui experiment aleator poate asociat unei valori reale, precizândregula de asociere. O astfel de regul de asociere se nume³te variabil aleatoare (prescurtat, v.a.). Senume³te variabil deoarece poate lua valori diferite, se nume³te aleatoare deoarece valorile observatedepind de rezultatele experimentului aleator, ³i este "real " deoarece valoarea numeric este un num rreal. A³adar, din punct de vedere euristic, o variabil aleatoare este o cantitate ce poate avea oricevaloare dintr-o multime data, ecarei valori atribuindu-se o anumita pondere (frecventa relativa). Înviaµ de zi cu zi întâlnim numeroase astfel de funcµii, e.g., numerele ce apar la extragerea loto, rezultatulmasurarii fertilitatii solului in diverse locatii, num rul clienµilor deserviµi la un anumit ghi³eu într-oanumit perioad , timpul de a³teptare a unei persoane într-o staµie de autobuz pân la sosirea acestuia,calicativele obµinute de elevii de clasa a IV-a la un test de matematic etc.De regula, variabilele aleatoare sunt notate cu litere de la sfâr³itul alfabetului, X, Y, Z sau ξ, η, ζ etc.

Exemplu 1.1. Un exemplu simplu de variabila aleatoare este urm torul. Consider m experimentulaleator al arunc rii unei monede. Acest experiment poate avea doar dou rezultate posibile, notate S(stema) ³i B (banul). A³adar, spaµiul selecµiilor este Ω = S, B. Acestui experiment aleator îi putemata³a variabila aleatoare real X, care asociaz feµei S valoarea 1 ³i feµei B valoarea 0. Matematic, scriemastfel: X : Ω → R, X(S) = 1, X(B) = 0. Astfel, valorile 1 ³i 0 pentru X vor indica faµa ap rut laaruncarea monedei. O astfel de variabil aleatoare se nume³te variabil aleatoare Bernoulli ³i poate ata³at oric rui eveniment aleator ce are doar dou rezultate posibile, numite generic succes ³i e³ec.

Variabilele aleatoare (prescurtat v.a.) pot discrete sau continue. Variabilele aleatoare discrete sunt celecare pot lua o mulµime nit sau cel mult num rabil (adica, o multime care poate numarata) de valori.O variabil aleatoare se nume³te variabil aleatoare continu (sau de tip continuu) dac mulµimea tuturorvalorilor sale este totalitatea numerelor dintr-un interval real (posibil innit) sau toate numerele dintr-oreuniune disjunct de astfel de intervale, cu precizarea c pentru orice posibil valoare c, P (X = c) = 0.

Exemple de v.a. discrete: num rul feµei ap rute la aruncarea unui zar, num rul de apariµii ale unuitramvai într-o staµie într-un anumit interval, num rul de insuccese ap rute pân la primul succes etc. Dinclasa v.a. de tip continuu amintim: timpul de a³teptare la un ghi³eu pân la servire, preµul unui activnanciar într-o perioad bine determinat .

Pentru a specica o v.a. discret , va trebui s enumer m toate valorile posibile pe care aceasta le poatelua, împreun cu probabilit µile corespunzatoare. Suma tuturor acestor probabilit µi va întotdeaunaegal cu 1, care este probabilitatea realizarii evenimentului sigur. Când se face referire la repartiµia uneiv.a. discrete, se înµelege modul în care probabilitatea total 1 este distribuit între toate posibilele valoriale variabilei aleatoare. Pentru o scriere compact , adeseori unei v.a. discrete i se atribuie urm toareareprezentare schematica:

tabelul de repartiµie

X x1 x2 x3 . . . xnpk p1 p2 p3 . . . xn

(1.1)

unde pk este probabilitatea cu care variabila X ia valoarea xk (matematic, scriem pk = P (X = xk)) ³i

suma tuturor probabilit µilor corespunz toare variabilei discrete este egal cu 1 (scriem can∑i=1

pi = 1).

Page 5: Statistic ˘ a Aplicat ˘ a

SA 1 [Dr. Iulian Stoleriu] 4

Exemplu 1.2.

Presupunem c X este v.a. ce reprezint nu-m rul de puncte ce apare la aruncarea unuizar ideal. Aceast variabila o putem reprezentaschematic ca in tabelul alaturat.

tabelul de repartiµie

X 1 2 3 4 5 6

pk 1/6 1/6 1/6 1/6 1/6 1/6

Dac X este o v.a. discret de forma (1.1), atunci denim funcµia de probabilitate (de frecvenµ ) (en.,probability mass function) ata³at variabilei aleatoare discrete X ca ind o funcµie ce ataseaza ecareirealizari ale unei variabile probabilitatea cu care aceasta realizare este observata. Matematic, scriem ca

f(xi) = pi, i ∈ 1, 2, . . . , n.

În cuvinte, pentru ecare posibil valoare a unei v.a. discrete, funcµia de probabilitate ata³eaz probabili-tatea cu care X ia aceast valoare. Funcµia de probabilitate este pentru o v.a. discreta ceea ce o densitatede repartiµie este pentru o variabil aleatoare continu .

Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare intr-un intervala chiar din R. Deoarece in aceste multimi exista o innitate de valori, nu mai putem deni o variabilaaleatoare continua la fel ca in cazul discret, precizandu-i ecare valoare pe care o ia si ponderea cores-punzatoare. In schimb, pentru o variabila aleatoare continua, putem preciza multimea in care aceasta iavalori si o functie care sa descrie repartizarea acestor valori. O astfel de functie se numeste functie dedensitate a repartitiei, sau simplu, densitate de repartiµie (en., probability density function).

Exemplu 1.3. Vom spune c o variabila aleatoare X are o repartitie (sau distributie) normala de medie

µ ³i deviatie standard σ (notam aceasta prin X ∼ N (µ, σ)) dac X poate lua orice valoare reala si aredensitatea de repartitie data de:

f(x; µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , pentro orice x ∈ R.

Aceasta repartitie se mai nume³te ³i repartiµia gaussian sau distribuµia gaussian .

Funcµia de probabilitate sau densitatea de repartiµie poate depinde de unul sau mai mulµi parametri reali.Spre exemplu, repartitia normala are doi parametri, µ si σ.

Funcµia de repartiµie (sau funcµia de repartiµie cumulat )

Numim funcµie de repartiµie ata³at v.a reale X o funcµie F : R→ [0, 1], denit prin

F (x) = P (X ≤ x), pentru orice x ∈ R.

Termenul din englez pentru funcµia de repartiµie este cumulative distribution function (cdf). Functia derepartitie asociaza ecarei valori reale x probabilitatea cu care variabila X ia valori mai mici sau egale cux. Ea este o functie crescatoare, care ia valori intre 0 si 1.

În cazul unei variabile aleatoare discrete, cu tabelul de repartiµie dat de (1.1), funcµia de repartiµie este:

F (x) =∑

i;xi≤x

pi, (1.2)

adic suma tuturor probabilit µilor corespunz toare valorilor lui X care nu-l dep ³esc pe x.

Page 6: Statistic ˘ a Aplicat ˘ a

SA 1 [Dr. Iulian Stoleriu] 5

Dac X este o variabil aleatoare continu ³i f este densitatea sa de repartiµie, atunci funcµia de repartiµieeste dat de formula:

F (x) =

x∫−∞

f(t) dt, x ∈ R. (1.3)

Mai mult, F ′(x) = f(x), pentru orice x ∈ R.

Parametrii populaµiei

O colectivitate statistica poate descrisa folosind una sau mai multe variabile. Pentru ecare dintreaceste variabile se pot determina anumite cantitati sau calitati specice, numite parametri. Astfel, acestiparametri sunt niste trasaturi caracteristice colectivitatii, ce pot determinate sau estimate pe baza unormasuratori (observatii) ale variabilelor. In continuare vom prezenta cativa parametri numerici importantipentru o variabila aleatoare, folositi in analiza statistica. Vom denumi acesti parametri caracteristicinumerice ale unei variabile aleatoare.

Media (sau valoarea a³teptat ) (en., expected value; fr., espérance; ger., Erwartungswert)

Pentru o variabila, media este o masura a tendintei centrale a valorilor sale. De remarcat faptul ca existavariabile (atat discrete cat si continue) care nu admit o valoare medie.

Dac X este o v.a. discret având tabelul de repartiµie (1.1), atunci media acestei v.a. (dac exist !)se dene³te prin:

µ =

n∑i=1

xipi. (1.4)

Daca U(x) este o functie, atunci media pentru variabila aleatoare U(X) se deneste prin

E(U(X)) =n∑i=1

U(xi)pi.

Dac X este o v.a. de tip continuu, cu densitatea de repartiµie f(x), atunci media (teoretic ) acesteiv.a., dac exist (!), se dene³te astfel:

µ =

∫ ∞−∞

xf(x)dz. (1.5)

Daca U(x) este o functie, atunci media pentru variabila aleatoare U(X) (dac exist !) se denesteprin

E(U(X)) =

∫ ∞−∞

U(x)f(x)dz.

Notaµii: În cazul în care poate pericol de confuzie (spre exemplu, atunci când lucr m cu mai multevariabile în acela³i timp), vom folosi notaµia µX . Pentru media teoretic a unei variabile aleatoare se maifolosesc ³i notaµiile: m, M(X) sau E(X).

Dispersia (sau varianµa) (en., variance) ³i abaterea standard (en., standard deviation)

Consideram X o variabil aleatoare care admite medie nita µ. Dorim sa stim in ce masura valorile acestevariabile sunt imprastiate in jurul valorii medii. Variabila aleatoare X0 = X − µ (numit abaterea lui X

Page 7: Statistic ˘ a Aplicat ˘ a

SA 1 [Dr. Iulian Stoleriu] 6

de la media sa), atunci E(X0) = 0. A³adar, nu putem m sur gradul de împr ³tiere a valorilor lui X înjurul mediei sale doar calculând X − µ. Avem nevoie de o alt m sur . Aceasta este dispersia variabileialeatoare, notat prin σ2 sau V ar(X). În cazul în care poate pericol de confuzie (spre exemplu, atuncicând lucr m cu mai multe variabile în acela³i timp), vom folosi notaµia σ2

X .

σ2 =n∑i=1

(xi − µ)2pi

(in cazul unei v.a. discrete).

σ2 =

∫ ∞−∞

(x− µ)2f(x) dz

(in cazul unei v.a. continue).

Alte formule pentru dispersie:

σ2 = E[X2]− µ2 =

n∑i=1

x2i pi − µ2 , în cazul discret∫ ∞

−∞x2f(x) dz − µ2 , în cazul continuu

Numim abatere standard (sau deviaµie standard) cantitatea σ =√σ2. Are avantajul ca unitatea sa de

masura este aceeasi cu a variabilei X.

În conformitate cu teorema lui Cebâ³ev1, pentru orice variabila aleatoare X ce admite medie si oricea > 0, are loc inegalitatea:

P (|X − µ| ≥ kσ) ≤ 1

k2. (1.6)

În cuvinte, probabilitatea ca valorile variabilei X sa devieze de la medie cu mai mult de k deviatii standardeste mai mica decat 1

k2. În cazul particular k = 3, obµinem regula celor 3σ:

P (|X − µ| ≥ 3σ) ≤ 1

9≈ 0.1.

sauP (µ− 3σ < X < µ+ 3σ) ≥ 8

9, (1.7)

semnicând c o mare parte din valorile posibile pentru X se a în intervalul [µ− 3σ, µ+ 3σ].

Coecientul de variaµie

Este denit prin CV =σ

µsau, sub forma de procente, CV = 100

σ

µ%. Este util in compararea variatiilor

a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca variatiile sunt egale, atunci vomspune ca setul de observatii ce are media mai mica este mai variabil decat cel cu media mai mare.

Standardizarea unei variabile aleatoare

Pentru o variabila aleatoare X de medie µ ³i dispersie σ2, variabila aleatoare Y =X − µσ

se nume³te

variabila aleatoare standardizat (sau normat ). Astfel, prin standardizarea unei variabile, vom obtineurmatoarele proprietati ale sale: E(Y ) = 0, V ar(Y ) = 1.Daca X este o variabila normala (scriem asta prin X ∼ N (µ, σ)), atunci standardizarea sa este o variabilanormala standard, adica X−µ

σ ∼ N (0, 1).

1Pafnuty Lvovich Chebyshev (1821− 1894), matematician rus

Page 8: Statistic ˘ a Aplicat ˘ a

SA 1 [Dr. Iulian Stoleriu] 7

Momente centrate

Pentru o v.a. X (discret sau continu ), ce admite medie, momentele centrate sunt valorile a³teptate aleputerilor lui X − µ. Denim astfel µk(X) = E((X − µ)k). In particular,

µk(X) =

n∑i=1

(xi − µ)kpi;

(in cazul unei v.a. discrete).

µk(X) =

∫ ∞−∞

(x− µ)kf(x) dx;

(in cazul unei v.a. continue).

Momente speciale:

µ2(X) = σ2. Se observa ca al doilea moment centrat este chiar dispersia.

γ1 =µ3(X)

σ3este coecientul de asimetrie (en., skewness);

Coecientul γ1 este al treilea moment centrat standardizat. O repartiµie este simetric dac γ1 = 0.Vom spune c asimetria este pozitiv (sau la dreapta) dac γ1 > 0 ³i negativ (sau la stânga) dac γ1 < 0.

K =µ4(X)

σ4− 3 este excesul (coecientul de aplatizare sau boltire) (en., kurtosis).

Este o m sur a boltirii distribuµiei (al patrulea moment standardizat). Termenul (−3) apare pentruc indicele kurtosis al distribuµiei normale s e egal cu 0. Vom avea o repartiµie mezocurtic pentruK = 0, leptocurtic pentru K > 0 sau platocurtic pentru K < 0. Un indice K > 0 semnic faptulc , în vecin tatea modului, curba densit µii de repartiµie are o boltire (ascuµire) mai mare decâtclopotul lui Gauss. Pentru K < 0, în acea vecin tate curba densit µii de repartiµie este mai plat decât curba lui Gauss.

Cuantile

Fie o v.a. X ce are funcµia de repartiµie F (x). Pentru un α ∈ (0, 1), denim cuantila de ordin α aceavaloare reala xα ∈ R pentru care

F (xα) = P (X ≤ xα) = α. (1.8)

(1) Cuantilele sunt m suri de poziµie, ce m soar locaµia uneianumite observaµii faµ de restul datelor. A³a cum se poateobserva din Figura 1.1, valoarea xα este acel num r real pentrucare aria ha³urat este chiar α.(2) În cazul în care X este o variabil aleatoare discret ,atunci (1.8) nu are soluµie pentru orice α. Îns , dac exist o soluµie a acestei ecuaµiei F (x) = α, atunci exist o innitatede soluµii, ³i anume intervalul ce separ dou valori posibile.

Figura 1.1: Cuantila de ordin α.

(3) Cazuri particulare de cuantile:

Page 9: Statistic ˘ a Aplicat ˘ a

SA 1 [Dr. Iulian Stoleriu] 8

pentru α = 1/2, obtinem mediana. Astfel, F (Me) = 0.5. Mediana (notata Me) este valoarea careimparte repartitia in doua parti in care variabila X ia valori cu probabilitati egale. Scriem astaastfel:

P (X ≤Me) = P (X > Me) = 0.5.

Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat media pentrutendinta centrala a valorilor variabilei.

pentru α = i/4, i ∈ 1, 2, 3, obtinem cuartilele. Prima cuartila, Q1, este acea valoare pentru careprobabilitatea ca X sa ia o valoare la stanga ei este 0.25. Scriem asta astfel: P (X ≤ Q1) = 0.25.Cuartila a doua este chiar mediana, deci Q2 = Me. Cuartila a treia, Q3, este acea valoare pentrucare probabilitatea ca X sa ia o valoare la stanga ei este 0.75. Scriem asta astfel: P (X ≤ Q3) = 0.75.

pentru α = j/10, j ∈ 1, 2, . . . , 9, obtinem decilele. Prima decila este acea valoare pentru careprobabilitatea ca X sa ia o valoare la stanga ei este 0.1. S.a.m.d.

pentru α = j/100, j ∈ 1, 2, . . . , 99, obtinem centilele. Prima centila este acea valoare pentrucare probabilitatea ca X sa ia o valoare la stanga ei este 0.01. S.a.m.d.

(4) Dac X ∼ N (0, 1), atunci cuantilele de ordin α le vom nota prin zα.

Modul (valoarea cea mai probabil )

Este valoarea cea mai probabila pe care o lua variabila aleatoare X. Cu alte cuvinte, este acea valoare x∗

pentru care f(x∗) (densitatea de repartiµie sau funcµia de probabilitate) este maxim . O repartiµie poates nu aib niciun mod, sau poate avea mai multe module.

Covarianµa ³i coecientul de corelaµie

Conceptul de corelaµie (sau covarianµ ) este legat de modul în care dou variabile aleatoare tind s semodice una faµ de cealalt ; ele se pot modica e în aceea³i direcµie (caz în care vom spune c X1 ³iX2 sunt direct <sau pozitiv> corelate) sau în direcµii opuse (X1 ³i X2 sunt invers <sau negativ> corelate).Consideram variabilele X1, X2 ce admit mediile, respectiv, µ1, µ2.

Denim corelaµia (sau covarianµa) variabilelor X1 ³i X2, notat prin cov(X1, X2), cantitatea

cov(X1, X2) = E[(X1 − µ1)(X2 − µ2)].

Daca X1 si X2 coincid, sa spunem ca X1 = X2 = X, atunci cov(X, X) = σ2X .

O relaµie liniar între dou variabile este acea relaµie ce poate reprezentat cel mai bine printr-o linie.Corelaµia detecteaz doar dependenµe liniare între dou variabile aleatoare. Putem avea o corelaµie po-

zitiv , însemnând c X1 ³i X2 cresc sau descresc împreun (vezi cazurile in care ρ = 0.85 sau ρ = 1 inFigura 19.2), sau o corelaµie negativ , însemnând c X1 ³i X2 se modic în direcµii opuse (vezi cazulρ = −0.98 in Figura 19.2). In cazul ρ = −0.16 din Figura 19.2, nu se observa nicio tendinta, caz in carputem banui ca variabilele nu sunt corelate.

Page 10: Statistic ˘ a Aplicat ˘ a

SA 1 [Dr. Iulian Stoleriu] 9

O m sur a corelaµiei dintre dou variabile este coecientulde corelaµie. Acesta este foarte utilizat în ³tiinµe ca ind om sur a dependenµei liniare între dou variabile. Se nume³tecoecient de corelaµie al v.a. X1 ³i X2 cantitatea

ρ =cov(X1, X2)

σ1σ2,

unde σ1 si σ2 sunt deviatiile standard pentru X1, respec-tiv, X2. Uneori se mai noteaza prin ρ(X1, X2) sau ρX1, X2 .Coecientul de corelatie ia valori intre −1 (perfect negativcorelate) si 1 (perfect pozitiv corelate) si masoara gradul decorelatie liniara dintre doua variabile.

Figura 1.2: Reprezentare de datebidimensionale.

Legi limita in Teoria Probabilitatilor

Legea (tare) a numerelor mari:

Teoremele limit clasice descriu comportarea asimptotic a sumei Sn, potrivit normalizat . Legea nume-relor mari descrie comportamentul asimptotic al unui sir de variabile aleatoare. În cazul cel mai simplu (sicel mai utilizat in Statistica), in care variabilele aleatoare Xkk≥1 sunt independente stochastic ³i identicrepartizate, cu E(Xn) = µ < ∞, ∀n ∈ N, atunci legea tare a numerelor mari spune ca sirul Snn≥1, cu

Sn =n∑k=1

Xk satisface convergenta:Snn

a.s.−→ µ.

Astfel, de³i variabilele aleatoare independente Xkk≥1 pot lua valori dep rtate de mediile lor, mediaaritmetic a unui num r sucient de mare de astfel de variabile aleatoare ia valori în vecin tatea lui m,cu o probabilitate foarte mare.

In Statistica, acest ³ir de v.a. poate privit ca ind un model pentru repetiµii independente ale unuiexperiment aleator, efectuate în aceleasi condiµii. De³i avem de-a face cu un ³ir de funcµii ce iau valoriîntâmpl toare, suma unui num r sucient de mare de variabile aleatoare î³i pierde caracterul aleator.

Legea tare a numerelor mari e foarte util în metode de simulare tip Monte Carlo.

Teorema limita centrala

Teorema limita centrala este un rezultat foarte important in Statistica. Ea ne permite s aproxim m sumede variabile aleatoare identic repartizate, avînd orice tip de repartiµii (atât timp cât variaµia lor e nit ),cu o variabila aleatoare normal .Presupunem ca in urma unor masuratori am obtinut datele x1, x2, . . . , xn si ca aceste date sunt realizarile

unor variabile X1, X2, . . . , Xn. Daca aceste variabile sunt normale, atunci suma acestora (Sn =n∑i=1

Xi)

cat si media lor (X =1

n

n∑i=1

Xi) sunt tot variabile normale, pentru orice volum al selectiei, n.

Page 11: Statistic ˘ a Aplicat ˘ a

SA 1 [Dr. Iulian Stoleriu] 10

Matematic, teorema TLC ne spune c , dac avem un ³ir de v.a. independente stochastic ³i identic repar-tizate, atunci, pentru n sucient de mare, repartiµia asimptotic a sumei Sn este o variabil N (µ, σ

√n).

Acest fapt este echivalent cu a spune c variabila aleatoare sum standardizat

Sn =Sn − nµσ√n

=Sn − E(Sn)

D2(Sn)(1.9)

este o v.a. de repartiµie N (0, 1).

Totodat , mai avem c distribuµia variabilei aleatoare medie de selecµie X =Snn

=1

n

n∑k=1

Xk este aproxi-

mativ normal N (µ,σ√n

).

A³adar, Teorema limita centrala spune ca, dac variabilele X1, X2, . . . , Xn nu sunt neap rat normalrepartizate, atunci, pentru un volum n este sucient de mare, repartitiile pentru Sn si X tind sa etot normale. Spunem astfel ca repartitiile asimptotice (la limita) pentru Sn si X sunt normale. Cu catvolumul observatiilor este mai mare, cu atat suma sau media lor sunt mai aproape de repartitia normala.

Mai mult, daca variabilele Xi au aceeasi medie (µ) si aceeasi deviatie standard σ, atunci media X este

o variabila normala de medie µX = µ si deviatie standard σX =σ√n. Se observa ca, daca n este foarte

mare, atunci deviatia standard a lui X scade, astfel ca valorile sale vor deveni foarte apropiate de µ.

Se pune problema: Cât de mare ar trebui s e n, în practic , pentru c teorema limit central s e

aplicabil ? Se pare ca un num r n astfel încât n ≥ 30 ar sucicient pentru aproximarea cu repartiµianormal de³i, dac variabilele sunt simetrice, aproximarea ar putea bun ³i pentru un num r n mai micde 30.

Statistici

Consider m o caracteristic de interes X a unei populaµii statistice ³i e x1, x2, . . . , xn un set de dateobservate pentru aceast caracteristic . Fiec rei date observate xi i se poate asocia o variabil aleatoareXi, astfel încât xi devine o posibil valoarea a variabilei Xi. Variabilele aleatoare X1, X2, . . . , Xn senumesc variabile aleatoare de selecµie ³i pot interpretate ca ind un set de observaµii independente asupravariabilei X. Toate aceste variabile de selectie sunt identic repartizate, repartiµia comun ind repartiµiavariabilei X. A³adar, Xi este o observaµie a variabilei X ³i xi este valoarea corespunz toare observat .

Se nume³te statistic (sau funcµie de selecµie) o funcµie de aceste variabile aleatoare de selecµie, i.e., ovariabil aleatoare de forma

Sn(X) = g(X1, X2, . . . , Xn),

unde g este o funcµie g : Rn → R m surabil .Ca o observaµie, numele de statistic este folosit în literatura de specialitate atât pentru variabila aleatoarede mai sus, cât ³i pentru valoarea ei, înµelesul exact desprinzându-se din context. Repartiµia unei statisticise mai nume³te ³i repartiµia (distribuµia) de selecµie.

În literatur , statistica este notat cu una dintre urm toarele:

Sn(X), S(X, n), S(X1, X2, . . . , Xn).

Valoarea numeric Sn(x) = g(x1, x2, . . . , xn)

Page 12: Statistic ˘ a Aplicat ˘ a

SA 1 [Dr. Iulian Stoleriu] 11

se nume³te valoarea funcµiei de selecµie pentru un set dat de observaµii x1, x2, . . . , xn.

Prin intermeniul statisticilor putem trage concluzii despre populaµia din care a provenit e³antionul obser-vat. Teoria probabilit µilor ne ofer procedee de determinare atât a repartiµiei exacte a lui Sn(X), cât ³ia repartiµiei asimptotice a lui Sn(X). Repartiµia exact este acea repartiµie ce poate determinat pentruorice volum al selecµiei. În general, dac se lucreaz cu selecµii de volum redus (n < 30), atunci repartiµiaexact ar trebui s e cunoscut a priori, dac se dore³te luarea de decizii prin inferenµ . Repartiµia

asimptotic este repartiµia limit a Sn(X) când n→∞, iar utilizarea acesteia conduce la rezultate bunedoar pentru n ≥ 30.

De cele mai multe ori, o statistic este utilizat în urm toarele cazuri:

în probleme de estimare punctual a parametrilor populaµiei;

în obµinerea intervalelor de încredere pentru un parametru necunoscut;

ca o statistic test pentru vericarea ipotezelor statistice.

Exemple de statistici:

Media de selecµie: Numim medie de selecµie (de volum n), statistica X =1

n

n∑i=1

Xi.

Valoarea mediei de selecµie pentru valori ale acestor variabile aleatoare este media empiric : x =1

n

n∑i=1

xi.

Media de selecµie satisface urm toarele propriet µi:

[1] E(X) = E(X); V ar(X) = 1nV ar(X)

[2] Xa.s.−→ E(X) (n→∞)

Convergenµa de mai sus spune c media de selecµie X se apropie mult de media teoretic a populaµieiatunci când volumul selecµiei este mare.

[3] Dac X1, X2, . . . , Xn, variabile aleatoare de selecµie repetat de volum n, ce urmeaz o repartiµiedat , atunci pentru un volum n sucient de mare, statistica X este o variabil normal . Matematic scriemc X satisface:

X ∼ N(µ,

σ√n

). (n > 30)

În cazul în care Xi sunt toate normale, atunci concluzia este valid pentru orice n ∈ N∗.

[3] Dac selecµia se face f r revenire dintr-o populaµie de volum mai mic decât 30 ³i X nu este neap ratnormal repartizat , atunci putem spune doar c

E(X) = µ ³i V ar(X) =σ√n

√N − nN − 1

,

f r a putea preciza care este repartiµia asimptotic a lui X. Aici N este volumul populaµiei ³i n estevolumul selecµiei, cu n > 0.05N .

Page 13: Statistic ˘ a Aplicat ˘ a

SA 1 [Dr. Iulian Stoleriu] 12

Dispersie de selecµie (sau varianµa selecµiei): Numim dispersie de selecµie (de volum n), statistica S2 (sau

S2X , dac avem mai multe variabile) denit prin: S2 =

1

n− 1

n∑i=1

[Xi −X]2.

Valoarea dispersiei de selecµie pentru valori ale acestor variabile aleatoare este dispersia (sau variaµia)empiric : simplitate, o vom nota cu s2 (sau s2

X , dac avem mai multe variabile), iar valoarea acesteiapentru un ω(n) xat este:

s2 =1

n− 1

n∑i=1

[xi − x]2.

în anumite situaµii, în locul lui S2 se mai utilizeaz statistica S2∗(X), denit prin:

S2∗(X) =

1

n

n∑i=1

[Xi −X]2.

Motivaµia pentru considerarea statisticii S2 în detrimentul lui S2∗ este dat de faptul c prima statis-

tic estimeaz variaµia teoretic σ2 mai bine decât cea de-a doua. Aceste statistici satisfac urm toarelepropriet µi:

Dispersiile de selecµie veric urm toarele propriet µi:

[1] E(S2∗) =

n− 1

nσ2; E(S2) = σ2

[2] S2 prob−→ σ2 (n→∞)

[3] Dac X1, X2, . . . , Xn, variabile aleatoare de selecµie repetat de volum n, ce urmeaz o repartiµiedat , atunci pentru un volum n sucient de mare, statistica S2 este o variabil χ2(n− 1).Matematic scriem c S2 satisface: n−1

σ2 S2 ∼ χ2(n− 1)

[4] Dup cum vom vedea în capitolul urm tor, primele dou relaµii arat c statistica S2 este un esti-mator nedeplasat pentru dispersia teoretic σ2, pe când S2

∗ este estimator deplasat.

Funcµia de repartiµie de selecµie Fie X1, X2, . . . , Xn variabile aleatoare de selecµie repetat de volum n.

Numim funcµie de repartiµie de selecµie (de volum n), funcµia F ∗n(x) =n(x)

n, ∀x ∈ R,

unde n(x) = card i, Xi ≤ x reprezint num rul de elemente din selecµie mai mici sau egale cu x.Relaµia din deniµie poate scris ³i sub forma:

F ∗n(x) =1

n

n∑i=1

χ(−∞, x](Xi), ∀x ∈ R, (1.10)

unde χA este funcµia indicatoare a mulµimii A.Pentru un x ∈ R xat, F ∗n este o variabil aleatoare repartizat binomial B(n, F (x)).Pentru o selecµie xat , F ∗n(x) ia valorile:

F ∗n(x) =card i, xi ≤ x

n,

(i.e., este funcµia de repartiµie empiric ).

Funcµia de repartiµie de selecµie satisface urm toarele propriet µi:

[1] E(F ∗n(x)) = F (x), ∀x ∈ R;

Page 14: Statistic ˘ a Aplicat ˘ a

SA 1 [Dr. Iulian Stoleriu] 13

[2] V ar(F ∗n(x)) = 1n [F (x)(1− F (x))], ∀x ∈ R

În Statistic , exist o serie de criterii care permit s se aprecieze apropierea lui F ∗n(x) de F (x). Mai jos,amintim doar dou dintre ele.

[3] Funcµia de repartiµie de selecµie satisface convergenµa

F ∗n(x)a.s.−−−→n→∞

F (x), x xat în R.

[4] Pentru n ∈ N sucient de mare, funcµia de repartiµie de selecµie satisface proprietatea

√n(F ∗n(x)− F (x)) ∼ N ( 0,

√F (x)(1− F (x)) ), x xat în R.

Page 15: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 14

2 Statistica Aplicata (L1)

Generarea de numere (pseudo-)aleatoare

Numerele generate de Matlab sunt rezultatul compil rii unui program deja existent în Matlab, a³adarel vor pseudo-aleatoare. Putem face abstracµie de modul programat de generare ale acestor numere ³is consider m c acestea sunt numere aleatoare.

Generarea de numere uniform repartizate într-un interval, U(a, b)

Funcµia rand

Funcµia rand genereaz un num r aleator repartizat uniform în [0, 1].De exemplu, comanda

X = (rand < 0.5)

simuleaz aruncarea unei monede ideale. Mai putem spune ca num rul X astfel generat este unnum r aleator repartizat B(1, 0.5).

De asemenea, num rul

Y = sum(rand(10,1) < 0.5)

urmeaz repartiµia B(10, 0.5) (simularea a 10 arunc ri ale unei monede ideale).

rand(m, n) genereaz o matrice aleatoare cu m× n componente repartizate U(0, 1).

Comanda a+ (b− a) ∗ rand genereaz un num r pseudo-aleator repartizat uniform în [a, b].

Folosind comanda s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente, repre-zentând starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimbastarea curent a generatorului sau iniµializarea lui, putem folosi comanda

rand(method, s)

unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state','seed' sau 'twister'), iar s este un num r natural între 0 ³i 232 − 1, reprezentând starea iniµiali-zatorului. De exemplu,

rand('state', 125)

xeaz generatorul la starea 125.

Observaµia 2.1. Printr-o generare de numere aleatoare uniform distribuite în intervalul (a, b) înµelegemnumere aleatoare care au aceea³i ³ans de a oriunde în (a, b), ³i nu numere la intervale egale.

Page 16: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 15

Figura 2.1 reprezint cu histograme date uniform distribuite în intervalul [−2, 3], produse de comandaMatlab:

hist(5*rand(1e4,1)-2,100)

Figura 2.1: Reprezentarea cu histograme a datelor uniforme.

Generarea de numere repartizate normal, N (µ, σ)

Funcµia randn

Funcµia randn genereaz un num r aleator repartizat normal N (0, 1).

randn(m, n) genereaz o matrice aleatoare cu m× n componente repartizate N (0, 1).

Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generato-rului, folosim comanda:

randn(method, s)

unde unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state'

sau 'seed'), iar s este un num r natural între 0 ³i 232 − 1, reprezentând starea iniµializatorului.

Comanda m+σ∗randn genereaz un num r aleator repartizat normal N (m, σ). De exemplu, codulurm tor produce Figura 2.2:

x = 0:0.05:10;

y = 5 + 1.1*randn(1e5,1); % date distribuite N (5, 1.1)

hist(y,x)

Page 17: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 16

0 2 4 6 8 100

50

100

150

200

250

Figura 2.2: Reprezentarea cu histograme a datelor normale.

Generarea de numere aleatoare de o repartiµie dat

Comenzile Matlab

legernd(<param>, m, n)

³i

random('lege', <param>, m, n).

Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu m linii ³i n coloane, având componentenumere aleatoare ce urmeaz repartiµia lege. În loc de lege putem scrie oricare dintre expresiile din Tabelul2.1. De exemplu,

normrnd (5, 0.2, 100, 10);

genereaz o matrice aleatoare cu 100× 10 componente repartizate N (5, 0.2).

random ('poiss',0.01, 200, 50);

genereaz o matrice aleatoare cu 200× 50 componente repartizate P(0.01).

Utilizând comanda

randtool

putem reprezenta interactiv selecµii aleatoare pentru diverse repartiµii. Comanda deschide o interfaµ grac ce reprezint prin histograme selecµiile dorite, pentru parametrii doriµi (vezi Figura 2.3). Datelegenerate deMatlab pot exportate în ³ierulWorkspace cu numele dorit. De exemplu, folosind dateledin Figura 2.3, am generat o selecµie aleatoare de 10000 de numere ce urmeaz repartiµia lognormal deparametri µ = 2 ³i σ = 0.5 ³i am salvat-o (folosind butonul Export) într-un vector L.

Page 18: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 17

Figura 2.3: Interfaµ pentru generarea de numere aleatoare de o repartiµie dat .

Tabelul 2.1 conµine câteva repartiµii uzuale ³i funcµiile corespunz toare în Matlab.

repartiµii probabilistice discrete repartiµii probabilistice continue

norm: repartiµia normal N (µ, σ)bino: repartiµia binomial B(n, p) unif: repartiµia uniform continu U(a, b)nbin: repartiµia binomial negativ BN(n, p) exp: repartiµia exponenµial exp(λ)poiss: repartiµia Poisson P(λ) gam: repartiµia Gamma Γ(a, λ)unid: repartiµia uniform discret U(n) beta: repartiµia Beta β(m,n)geo: repartiµia geometric Geo(p) logn: repartiµia lognormal logN (µ, σ)hyge: repartiµia hipergeometric H(n, a, b) chi2: repartiµia χ2(n)

t: repartiµia student t(n)f: repartiµia Fisher F(m, n)

wbl: repartiµia Weibull Wbl(k, λ)

Tabela 2.1: Repartiµii uzuale în Matlab

Page 19: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 18

Simularea unui experiment aleator

Simularea arunc rii unei monede

Comanda

X = (rand < 0.5);

simuleaz aruncarea unei monede ideale. Vom mai spunem c num rul X astfel generat este unnum r aleator repartizat B(1, 0.5) (similar cu schema bilei revenite, în cazul în care o urn are bilealbe ³i negre în num r egal ³i extragem o bil la întâmplare)

Num rul

Y = sum (rand(30,1)<0.5)

urmeaz repartiµia B(30, 0.5) (simularea a 30 arunc ri ale unei monede ideale).

Acela³i experiment poate modelat ³i prin comanda

round(rand(30,1))

Pentru a num ra câte feµe de un anumit tip au ap rut, folosim

sum(round(rand(30,1)))

Simularea în Matlab a unei v.a. de tip discret

S consider m o variabil aleatoare ce poate avea doar 3 rezultate posibile, a, b ³i c, cu probabilit µile derealizare 0.5, 0.2 ³i, respectiv, 0.3. Tabloul de repartiµie asociat este:

X :

(a b c

0.5 0.2 0.3

),

Pentru a modela aceast variabil aleatoare în Matlab, proced m astfel: alegem uniform la întâmplareun num r x din intervalul [0, 1]. Dac x < 0.5, atunci convenim c rezultatul a s-a realizat, dac 0.5 < x < 0.7, atunci rezultatul b s-a realizat. Altfel, rezultatul v.a. X este c. Dac acest experiment serepet de multe ori, atunci rezultatele pot folosite în estimarea probabilit µilor de realizare a variabileialeatoare. Cu cât vom face mai multe experimente, cu atât vom aproxima mai bine valorile teoretice aleprobabilit µilor, deci putem spune c am aproximat variabila aleatoare X.În Matlab, scriem:

syms a b c % declaram a, b si c ca variabile simbolice

r = rand;

X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)

Page 20: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 19

Folosind aceast metod , putem simula aruncarea unui zar ideal. Avem 6 rezultate posibile, ³i anume,apariµia unei feµe cu 1, 2, 3, 4, 5 sau 6 puncte. Pentru a simula acest experiment, modic m în modconvenabil problema. Vom considera c punctele din intervalul [0, 1] formeaz mulµimea tuturor cazurilorposibile ³i împ rµim intervalul [0, 1] în 6 subintervale de lungimi egale:

(0,1

6), (

1

6,

2

6), (

2

6,

3

6), (

3

6,

4

6), (

4

6,

5

6), (

5

6, 1)

.

corespunz toare, respectiv, celor ³ase feµe, s zicem în ordinea cresc toare a punctelor de pe ele. Vomvedea mai târziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete închise, deschisesau mixte nu are efect practic asupra calculului probabilit µii dorite. Acum, dac dorim s simul m înMatlab apariµia feµei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un num r "laîntâmplare" din intervalul [0, 1] ³i veric m dac acesta se a în intervalul (2

6 ,36). A³adar, comanda

Matlab

u = rand; (u < 3/6 & u > 2/6)

simuleaz aruncarea unui zar ideal. Ca o observaµie, deoarece cele 6 feµe sunt identice, putem simplicaaceast comanda ³i scrie

(rand < 1/6).

Repartiµii probabilistice în Matlab

Funcµia de probabilitate (pentru v.a. discrete) ³i densitatea de repartiµie (pentru v.a. continue) (ambelenotate anterior prin f(x)) se introduc în Matlab cu ajutorul comenzii pdf, astfel:

pdf('LEGE', x, <param>) sau LEGEpdf(x, <param>).

Funcµia de repartiµie F (x) a unei variabile aleatoare se poate introduce în Matlab cu ajutorul comenziicdf, astfel:

cdf('LEGE', x, <param>) sau LEGEcdf(x, <param>).

Inversa funcµiei de repartiµie pentru repartiµii continue, F−1(y), se introduce cu comanda icdf, astfel:

icdf('LEGE', y, <param>) sau LEGEinv(y, <param>).

În comenzile de mai sus, LEGE poate oricare dintre legile de repartiµie din Tabelul 2.1, x este un scalar sauvector pentru care se calculeaz f(x) sau F (x), y este un scalar sau vector pentru care se calculeaz F−1(y),iar <param> este un scalar sau un vector ce reprezint parametrul (parametrii) repartiµiei considerate.

Observaµia 2.2. Fie X o variabil aleatoare ³i F (x, θ) funcµia sa de repartiµie, θ ind parametrul repar-tiµiei. Pentru un x ∈ R, relaµia matematic

P (X ≤ x) = F (x)

o putem scrie astfel în Matlab:

cdf('numele repartiµiei lui X',x,θ). (2.1)

Page 21: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 20

Problema poate aparea la evaluarea în Matlab a probabilit µii P (X < x). Dac repartiµia considerat este una continu , atunci corespondentul în Matlab este tot (2.1), deoarece în acest caz

P (X ≤ x) = P (X < x) + P (X = x) = P (X < x).

De exemplu, dac X ∼ N (5, 2), atunci

P (X < 4) = cdf('norm', 4, 5, 2).

Dac X este de tip discret, atunci

P (X < x) =

P (X ≤ [x]) , x nu e întreg

P (X ≤ m− 1) , x = m ∈ Z,

unde [x] este partea întreag a lui x.De exemplu, dac X ∼ B(10, 0.3), atunci

P (X < 5) = P (X ≤ 4)

= cdf('bino', 4, 10, 0.3) = 0.8497.

Exerciµii rezolvate

Exerciµiu 2.1. Un sondaj preliminar a determinat c 42% dintre persoanele cu drept de vot dintr-oanumit µar ar vota candidatul C pentru pre³edinµie. Alegem la întâmplare 200 de votanµi. Care esteprobabilitatea ca un procent dintre ace³tia, situat între 40% ³i 50%, îl vor vota pe C la pre³edinµie?

- S not m cu p = 0.42 ³i cu X variabila aleatoare ce reprezint num rul de votanµi ce au alescandidatul C, din selecµia aleatoare de volum n = 200 considerat . Este clar c X ∼ B(n, p). Se cereprobabilitatea P (80 ≤ X ≤ 100) (deoarece 40% din 200 înseamn 80 etc). Deoarece X este o variabil aleatoare discret , avem c :

P = P (80 ≤ X ≤ 100) = P (X ≤ 100)− P (X < 80) = FX(100)− FX(79),

unde FX este funcµia de repartiµie a lui X.În Matlab:

P = binocdf(100, 200, 0.42) - binocdf(79, 200, 0.42) = 0.7303. √

Exerciµiu 2.3. O companie independent de evalu ri statistice a estimat ca un anumit candidat are 25%³anse s câ³tige alegerile locale. Dorim s efectu m un alt sondaj de opinie care s verice rezultatulcompaniei. Determinaµi care ar trebui s e volumul minim de selecµie pentru ca, cu o probabilitate de celpuµin 0.97, procentul de aleg tori ce intenµioneaz s -l voteze pe respectivul candidat se încadreaz întrevalorile 20% ³i 30%. Determinaµi volumul minim folosind dou metode: teorema lui Cebâ³ev ³i teoremalimit central .

Soluµie: S not m cu νn num rul de votanµi (din n ale³i aleator) care voteaz cu respectivul candidat.Se cere cel mai mic n ∈ N pentru care

P(

0.2 ≤ νnn≤ 0.3

)≥ 0.97,

Page 22: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 21

echivalent cuP(∣∣∣νnn− 0.25

∣∣∣ ≤ 0.05)≥ 0.97.

(i) Observ m c variabila aleatoare νn ∼ B(n, 0.25), de unde E(νn) = n4 ³i V ar(νn) = 3n

16 . A³adar,

E(νnn

) = 0.25, V ar(νnn

) =3

16n.

Folosim inegalitatea lui Cebâ³ev pentru X = νnn , a = 0.05. G sim c :

P(∣∣∣νnn− 0.25

∣∣∣ ≤ 0.05)≥ 1− V ar

(νnn

)0.052

= 1− 75

n.

Impunem condiµia

1− 75

n≥ 0.97,

de unde obµinem c n ≥ 2500 .

(ii) C ut m n astfel încât

P(−0.05 ≤ νn

n− 0.25 ≤ 0.05

)= 0.97. (2.2)

Ne a³tept m ca valoarea lui n s e mare, deci putem aplica Teorema limit central . Aplicând TLC,scriem c variabila aleatoare standardizat

νn − E(νn)

σ(νn)= 4

νn − 0.25n√3n

∼ N (0, 1).

Folosind aceasta, rescriem egalitatea (2.2) astfel:

0.97 = P(−0.05 ≤ νn

n− 0.25 ≤ 0.05

)= P

(−0.05× 4

√n

3≤ 4

νn − 0.25n√3n

≤ 0.05× 4

√n

3

)= Θ

(0.2

√n

3

)−Θ

(−0.2

√n

3

)= Θ

(0.2

√n

3

)−[1−Θ

(0.2

√n

3

)]= 2Θ

(0.2

√n

3

)− 1

de unde Θ(0.2√

n3

)= 0.985 ³i 0.2

√n3 = z0.985 ≈ 2.17 (cuantila de ordin 0.985 pentru repartiµia normal

standard). Din ultima egalitate g sim c n ≈ 353.1969. În Matlab, calcul m astfel:

n = 3*(norminv(0.985,0,1)/0.2)^2

A³adar, pentru ca relaµia din enunµ s aib loc, va trebui ca n ≥ 354 .Observ m, din nou, c aceast valoare este mult mai mic decât cea g sit anterior. √

Page 23: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 22

Exerciµii propuse

Exerciµiu 2.2. Temperatura T (0C) dintr-un anumit proces chimic are repartiµia U(−5, 5).Calculaµi P (T < 0); P (−2.5 < T < 2.5); P (−2 ≤ T ≤ 3).

Exerciµiu 2.3. Temperatura de topire a unui anumit material este o v.a. cu media de 120 oC ³i deviaµiastandard de 2 oC. Determinaµi temperatura medie ³i deviaµia standard în oF , ³tiind c oF = 1.8 oC + 32.

Exerciµiu 2.4. Dac Z ∼ N (0, 1), calculaµi:P (Z ≤ 1.35); P (0 ≤ Z ≤ 1); P (1 ≤ Z); P (|Z| > 1.5).

Exerciµiu 2.5. Calculaµi cuartilele repartiµiei N (0, 1). De asemenea, calculaµi z0.95 ³i z0.975.

Page 24: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 23

3 Elemente de Statistic descriptiv (C2)

Statistica descriptiv este acea ramur a Statisticii care se preocup de descrierea datelor statistice, pringruparea, reprezentarea grac ³i calcularea unor m suri empirice ale formei sau tendinµei datelor. Esteprimul pas pe care il face un statistician ce urmareste sa scoata informatii dintr-un set de date.

Daca datele statistice sunt negrupate, atunci se prefera o grupare a lor in clase, pentru o mai bunaobservare a lor. Dupa gruparea in clase (care este la latitudinea statisticianului), datele sunt asezate intabele de frecvente. Aceste tabele pot contine, pe langa clasele construite, frecvente absolute, frecventerelative, frecvente cumulate, frontierele claselor, valorile de mijloc. Uneori doar un singur tip de frecventeeste sucient pentru a continua analiza datelor. Un exemplu de tabel de frecvente este Tabelul 3.4.

Exista mai multe optiuni pentru reprezentarea graca a datelor, in functie de tipul de date pe care le avem.Spre exemplu, pentru date discrete sunt preferate reprezentarile cu bare sau cu sectoare de disc. Dupacaz, mai pot folosite reprezentari cu puncte sau stem&leaf. Pentru date continue se folosesc histogramesau sectoare de disc.

Organizarea ³i descrierea datelor

Presupunem c avem o colectivitate statistic , c reia i se urm re³te o anumit caracteristic (sau varia-bila). Spre exemplu, colectivitatea este mulµimea tuturor studenµilor dintr-o universitate înrolaµi în anulîntâi de master, iar caracteristica este media la licenµ obµinut de ecare dintre ace³ti studenµi. Teoretic,mulµimea valorilor acestei caracteristici este intervalul [6, 10], iar aceasta variabila poate lua orice valoaredin acest interval.

Vom numi date (sau date statistice) informaµiile obµinute în urma observarii valorilor acestei caracteristici.In cazul mentionat mai sus, datele sunt mediile la licenµ observate. În general, datele pot calitative (semai numesc ³i categoriale) sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ (exprima o calitate sau o categorie) sau, respectiv, cantitativ (are o valoare numerica). Totodata, acestedate pot date de tip discret, dac sunt obµinute în urma observ rii unei caracteristici discrete (o variabilaaleatoare discret , sau o variabila ale carei posibile valori sunt in numar nit sau cel mult numarabil),sau date continue, dac aceast caracteristic este continu (o variabil aleatoare de tip continuu, sau ovariabila ce poate lua orice valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul demai sus, datele vor cantitative ³i continue.

În Statistica clasic , se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z, . . ., sivalorile lor cu litere mici, x, y, z, . . .. In mare parte din acest curs vom folosi notatia Z pentru variabilaaleatoare si cu z o posibila valoare (sau realizare) a sa. Daca in exemplul de mai sus notam cu Z variabilamedie la licenta, atunci un anume z observat va media la licenta pentru un student din colectivitateales aleator.

Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea ³i re-prezentarea graca a datelor, dar ³i în calcularea anumitor caracteristici numerice pentru acestea. Dateleînainte de prelucrare, adic exact a³a cum au fost culese, se numesc date negrupate. Un exemplu dedate negrupate (de tip continuu) sunt cele observate in Tabelul 3.1, reprezentând timpi (în min.sec) dea³teptare pentru primii 100 de clienµi care au a³teptat la un ghi³eu pân au fost serviµi.

De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urm re³te ase grupa datele, pentru o mai u³oar gestionare. Imaginaµi-v c enumer m toate voturile unei selecµiiîntâmpl toare de 15000 de votanµi, abia ie³iµi de la vot. Mai degrab , ar mai util ³i practic s grup m

Page 25: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 24

1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76

0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14

2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28

0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67 3.89

1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74 4.85

3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 4.12

3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88

5.36 1.32

Tabela 3.1: Date statistice negrupate

datele dup numele candidaµilor, precizând num rul de voturi ce l-a primit ecare. Asadar, pentru o maibuna descriere a datelor, este necesara gruparea lor in clase de interes.

Gruparea datelor

Datele prezentate sub form de tabel (sau tablou) de frecvenµe se numesc date grupate. Datele de selecµieobµinute pot date discrete sau date continue, dup cum caracteristicile studiate sunt variabile aleatoarediscrete sau, respectiv, continue.

(1) Date de tip discret: Dac datele de selecµie sunt discrete (e.g., z1, z2, . . . , zn), este posibil camulte dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt z′1, z

′2, . . . , z

′r,

r ≤ n. Atunci, putem grupa datele într-un a³a-numit tabel de frecvenµe (vezi exemplul din Tabelul8.1). Alternativ, putem organiza datele negrupate într-un tabel de frecvenµe, dup cum urmeaz :

data z′1 z′2 . . . z′rfrecventa f1 f2 . . . fr

(3.1)

unde fi este frecvenµa apariµiei valorii z′i, (i = 1, 2, . . . , r), ³i se va numi distribuµia empiric de selecµie alui Z. Aceste frecvenµe pot absolute sau de relative. Un tabel de frecvenµe (sau o distribuµie de frecvenµe)conµine cel puµin dou coloane: o coloan ce reprezint datele observate (grupate în clase) ³i o coloan de frecvenµe. În prima coloan apar clasele, adic toate valorile distincte observate. Datele din aceast coloan nu se repet . Prin frecvenµa absolut a clasei înµelegem num rul de elemente ce aparµine ec reiclase în parte. De asemenea, un tabel de frecvenµe mai poate conµine frecvenµe relative sau cumulate. Ofrecvenµ relativ se obµine prin împ rµirea frecvenµei absolute a unei categorii la suma tuturor frecvenµelordin tabel. Astfel, suma tuturor frecvenµelor relative este egal cu 1. Frecvenµa (absolut ) cumulat a uneiclase se obµine prin cumularea tuturor frecvenµelor absolute pân la (inclusiv) clasa respectiv . Frecvenµarelativ cumulat a unei clase se obµine prin cumularea tuturor frecvenµelor relative pân la (inclusiv)clasa respectiv .

A³adar, elementele unui tabel de frecvenµe pot : clasele (ce conµin valori pentru variabile), frecvenµeabsolute, frecvenµe relative sau cumulate. Într-un tabel, nu este obligatoriu s apar toate coloanele cufrecvenµe sau ele s apar în aceast ordine.

Vom numi o serie de timpi (sau serie dinamic ori cronologic ) un set de date culese la momente diferitede timp. O putem reprezenta sub forma unui tablou de forma

data :

(z1 z2 . . . znt1 t2 . . . tn

),

unde zi sunt valorile caracteristicii, iar ti momente de timp (e.g., r spunsurile citite de un electrocardio-graf).

Page 26: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 25

nota frecvenµa absolut frecvenµa cumulat frecvenµa relativ frecvenµa relativ cumulat 2 2 2 2.22% 2.22%3 4 6 4.44% 6.66%4 8 14 8.89% 15.55%5 15 29 16.67% 32.22%6 18 47 20.00% 52.22%7 17 64 18.89% 71.11%8 15 79 16.67% 87.78%9 7 86 7.78% 95.56%10 4 90 4.44% 100%

Total 90 - 100% -

Tabela 3.2: Tabel cu frecvenµe pentru date discrete.

În Tabelul 8.1, sunt prezentate notele studenµilor din anul al III-lea la examenul de Statistic . Acesta esteexemplu de tabel ce reprezent o caracteristic discret .

(o glum povestit de G. Pólya,2 despre cum NU ar trebui interpretat frecvenµa relativ )Un individ suferind merge la medic. Medicul îl examineaz îndelung ³i, balansând dezam git capul, îi spunepacientului:"Of... drag domnule pacient, am dou ve³ti: una foarte proast ³i una bun . Mai întâi v aduc la cuno³tinµ vestea proast : suferiµi de o boal groaznic . Statistic vorbind, din zece pacienµi ce contracteaz aceast boal ,doar unul scap ."Pacientul, deja în culmea disper rii, este totu³i consolat de doctor cu vestea cea bun :"Dar, µi pe pace! Dumneavoastr aµi venit la mine, ³i asta v face tare norocos", continu optimist doctorul."Am avut deja nou pacienµi ce au avut aceea³i boal ³i toµi au murit, a³a c ... veµi supravieµui!"

(2) Date de tip continuu: Dac datele statistice sunt realiz ri ale unei variabile Z de tip continuu,atunci se obi³nuieste s se fac o grupare a datelor de selecµie în clase. Datele de tip continuu pot grupate într-un tablou de distribuµie sau sub forma unui tabel de distribuµie, dupa cum urmeaza:

data [a0, a1) [a1, a2) . . . [ar−1, ar)frecventa f1 f2 . . . fr

clasa frecvenµa valoare medie[a0, a1) f1 z′1[a1, a2) f2 z′2

......

...[ar−1, ar) fr z′r

Tabela 3.3: Tabel cu frecvenµe pentrudate de tip continuu.

În particular, putem grupa datele de tip continuu din Tabelul 3.1 în tabloul de distribuµie urm tor:

data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)frecventa 14 17 21 18 16 14

Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot modicate dupa cum doreste utiliza-torul. Uneori, tabelul de distribuµie pentru o caracteristic de tip continuu mai poate scris ³i sub formaunui tabel ca in (3.1), unde

2György Pólya (1887− 1985), matematician ungur

Page 27: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 26

vârsta frecvenµa frecvenµa relativ frecvenµa cumulat vârsta medie[18, 25) 34 8.83% 8.83% 21.5[25, 35) 76 19.74% 28.57% 30[35, 45) 124 32.21% 60.78% 40[45, 55) 87 22.60% 83.38% 50[55, 65) 64 16.62% 100.00% 60Total 385 100% - -

Tabela 3.4: Tabel cu frecvenµe pentru rata somajului.

z′i =ai−1 + ai

2este elementul de mijloc al clasei [ai−1, ai);

fi este frecvenµa apariµiei valorilor din [ai−1, ai), (i = 1, 2, . . . , r),r∑i=1

fi = n.

Pentru denirea claselor unui tabel de frecvenµe, nu exist o regul precis . Fiecare utilizator de date î³ipoate crea propriul tabel de frecvenµe. Scopul nal este ca acest tabel s scoat în evidenµ caracteristiceledatelor, cum ar : existenµa unor grupe (clase) naturale, variabilitatea datelor într-un anumit grup (clas ),informaµii legate de existenµa unor anumite date statistice care nu au fost observate in selecµia dat etc.În general, aceste caracteristici nu ar putea observate privind direct setul de date negrupate. Totu³i,pentru crearea tabelelor de frecvenµe, se recomand urm torii pa³i:

1. Determinarea num rului de clase (disjuncte). Este recomandat ca num rul claselor s e între 5 ³i20. Dac volumul datelor este mic (e.g., n < 30), se recomand constituirea a 5 sau 6 clase. Deasemenea, dac este posibil, ar util ca ecare clas s e reprezentat de cel puµin 5 valori (pentruun num r mic de clase). Dac num rul claselor este mai mare, putem avea ³i mai puµine date într-oclas , dar nu mai puµin de 3. O clas cu prea puµine valori (0, 1 sau 2) poate s nu e reprezentativ .

2. Determinarea l µimii claselor. Dac este posibil, ar bine dac toate clasele ar avea aceea³i l µime.Acest pas depinde, în mare m sur , de alegerea din pasul anterior.

3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât ecare dat sta-tistic s aparµine unei singure clase.

În practic , un tabel de frecvenµe se realizeaz prin încerc ri, pân avem convingerea c gruparea f cut poate surprinde cât mai del datele observate.

A³adar, dac ne este dat o în³iruire de date ale unei caracteristici discrete sau continue, atunci le putemgrupa imediat în tabele sau tablouri de frecvenµe. Invers (avem tabelul sau tabloul de repartiµie ³i vrem s enumer m datele) nu este posibil, decât doar în cazul unei caracteristici de tip discret. De exemplu, dac ni se d Tabelul 3.4, ce reprezint rata somajului într-o anumit regiune a µ rii pe categorii de vârste, nuam putea ³ti cu exactitate vârsta exact a persoanelor care au fost selecµionate pentru studiu.

Observ m c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi valoare de

mijloc pentru o clas , valoarea obµinut prin media valorilor extreme ale clasei. În cazul Tabelului 3.4,valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenµa cumulat a unei clase este suma frec-venµelor tuturor claselor cu valori mai mici.

Page 28: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 27

Reprezentarea datelor statistice

Un tabel de frecvenµe sau o distribuµie de frecvenµe (absolute sau relative) sunt de cele mai multe ori bazaunor reprezent ri grace, pentru o mai bun vizualizare a datelor. Aceste reprezent ri pot f cute îndiferite moduri, dintre care amintim pe cele mai uzuale.

Reprezentare prin puncte

Reprezentarea prin puncte (en., dot plot) este folosit , deregula, pentru selecµii de date de tip discret de dimensiunimici. Sunt reprezentate puncte a³ezate unul peste celalalt,reprezentând num rul de apariµii ale unei valori pentrucaracteristica dat . Un astfel de grac este reprezentat înFigura 3.1. Aceste reprezent ri sunt utile atunci când sedore³te scoaterea în evidenµ a anumitor pâlcuri de date(en., clusters) sau chiar lipsa unor date (goluri). Au avan-tajul de a conserva valoarea numeric a datelor reprezentate.

Figura 3.1: Reprezentarea cu puncte.

Reprezentarea stem-and-leaf

Este folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic. Urm torul set dedate negrupate reprezinta punctajele (din 100 de puncte) obµinute de cei 20 de elevi ai unui an de studiula o testare semestrial :

50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96

Tabelul 3.3 reprezint aceste date sub forma stem-and-leaf (ramur -frunz ). Se observ c acest tabelarat atât cum sunt repartizate datele, cât ³i forma repartiµiei lor (a se privi gracul c având pe OYdrept axa absciselor ³i OX pe cea a ordonatelor). A³adar, 7|5 semnic un punctaj de 75. Pentru unvolum prea mare de date, aceast reprezentare nu este cea mai bun metod de vizualizare a datelor. Însecµiunile urm toare vom prezenta ³i alte metode utile.

Page 29: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 28

Figura 3.2: Reprezentarea datelor discrete.

stem leaf109 2 68 1 5 6 87 3 5 7 7 7 96 1 2 2 4 8 85 0 3 5 94 1 4 83 4 921 80

Figura 3.3: Tabel stem-and-leaf reprezentândpunctajele studenµilor.

Reprezentarea cu bare (bar charts)

Este util pentru reprezentarea variabilelor discrete cu un num r mic de valori diferite. Barele suntdreptunghiuri ce reprezint frecvenµele ³i nu sunt unite între ele. Fiecare dreptunghi reprezint o singur valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regul , pe orizontal iar frecvenµele pevertical . În Figura 3.41 sunt reprezentate datele din tabelul cu note. Se poate schimba orientarea cate-goriilor ³i a claselor; în acest caz barele vor ap rea pe orizontal (vezi Figura 3.42).

Figura 3.4: Reprezent rile cu bare.

Figura 3.5 contine o reprezentare de date folosind bare 3D.

Page 30: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 29

Figura 3.5: Reprezentare 3D prin bare.

Histograme

Cuvântul "histogram " a fost introdus pentru prima oar de Karl Pearson3 în 1895. Acesta deriv dincuvintele grece³ti histos (gr., ridicat în sus) ³i gramma (gr., desen, înregistrare). O histogram este oform pictorial a unui tabel de frecvenµe, foarte util pentru selecµii mari de date de tip continuu. Seaseam n cu reprezentarea prin bare, cu urm toarele dou diferenµe: nu exist spaµii între bare (de³i, potap rea bare de înalµime zero ce arat a spaµiu liber) ³i ariile barelor sunt proporµionale cu frecvenµelecorespunz toare. Num rul de dreptunghiuri este egal cu num rul de clase, l µimea dreptunghiului esteintervalul clasei, iar în lµimea este a³a încât aria ec rui dreptunghi reprezint frecvenµa. Aria total atuturor dreptunghiurilor este egal cu num rul total de observaµii. Dac barele unei histograme au toateaceea³i l µime, atunci în lµimile lor sunt proporµionale cu frecvenµele. În lµimile barelor unei histogrameise mai numesc ³i densit µi de frecvenµ .În cazul în care l µimile barelor nu sunt toate egale, atunci în lµimile lor satisfac:

în lµimea = k · frecvenµal µimea clasei

, k = factor de proporµionalitate.

S presupunem c am grupat datele din Tabelul 3.5 într-o alt manier , în care clasele nu sunt echi-distante (vezi Tabelul 3.7). În Tabelul 3.7, datele din ultimele dou clase au fost cumulate într-o singur clas , de l µime mai mare decât celelalte, deoarece ultima clas din Tabelul 3.5 nu avea suciente date.Histograma ce reprezint datele din Tabelul 3.7 este cea din Figura 3.8. Conform cu regula proporµio-nalit µii ariilor cu frecvenµele, se poate observa c primele patru bare au în lµimi egale cu frecvenµelecorespunz toare, pe când în lµimea ultimei bare este jum tate din valoarea frecvenµei corespunz toare,deoarece l µimea acesteia este dublul l µimii celorlalte.

3Karl Pearson (1857− 1936), statistician, avocat ³i eugenist britanic

Page 31: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 30

În lµimea (în cm) frecvenµa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 25) 10[25, 30) 2

Tabela 3.5: Tabel cu în lµimile plantelor.

Tabela 3.6: Histograme pentru datele din Tabelul 3.5.

În general, pentru a construi o histogram , vom aveaîn vedere urm toarele:− datele vor împ rµite (unde este posibil) în clasede lungimi egale. Uneori aceste diviz ri sunt naturale,alteori va trebui s le fabric m.− num rul de clase este, în general, între 5 ³i 20.− înregistraµi num rul de date ce cad în ecare clas (numite frecvenµe).− gura ce conµine histograma va avea clasele pe ori-zontal ³i frecvenµele pe vertical .

Figura 3.6: Histogram 3D.

Observaµia 3.1. (1) Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 3.7 este[20, ∞)), atunci se obi³nuie³te ca l µimea ultimului interval s e luat drept dublul l µimii intervaluluiprecedent.(2) În multe situaµii, capetele intervalelor claselor sunt ni³te aproxim ri, iar în locul acestora vom puteautiliza alte valori. Spre exemplu, s consider m clasa [15, 20). Aceast clas reprezint clasa acelor plantece au în lµimea cuprins între 15cm ³i 20cm. Deoarece valorile în lµimilor sunt valori reale, valorile 15³i 20 sunt, de fapt, aproxim rile acestor valori la cel mai apropiat întreg. A³adar, este posibil ca aceast clas s conµin acele plante ce au în lµimile situate între 14.5cm (inclusiv) ³i 20.5cm (exclusiv). Amputea face referire la aceste valori ca ind valorile reale ale clasei, numite frontierele clasei. În cazul încare am determinat frontierele clasei, l µimea unei clase se dene³te ca ind diferenµa între frontierele ce-icorespund. În concluzie, în cazul clasei [15, 20), aceasta are frontierele 14.5 - 20.5, l µimea 6 ³i densitateade frecvenµ 17

6 . Pentru exemplicare, în Tabelul 3.9 am prezentat frontierele claselor, l µimile lor ³idensit µile de frecvenµ pentru datele din Tabelul 3.4.

Reprezentare prin sectoare de disc (pie charts)

Se poate reprezenta distribuµia unei caracteristici ³i folosind sectoare de disc (diagrame circulare) (en.,pie charts), ecare sector de disc reprezentând câte o frecvenµ relativ . Aceast variant este util înspecial la reprezentarea datelor calitative.

Page 32: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 31

În lµimea (în cm) frecvenµa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 30) 12

Tabela 3.7: Tabel cu în lµimile plantelor.

Tabela 3.8: Histograme pentru datele din Tabelul 3.7.

în lµimea (în cm) frontierele l µimea frecvenµa densitatea de frecvenµ [18, 25) 17.5− 25.5 8 34 4.25[25, 35) 24.5− 35.5 11 76 6.91[35, 45) 34.5− 45.5 11 124 11.27[45, 55) 44.5− 55.5 11 87 7.91[55, 65) 54.5− 65.5 11 64 5.82

Tabela 3.9: Tabel cu frontierele claselor.

Exist ³i posibilitatea de a reprezenta datele prin sectoare 3 dimensionale. În Figura 3.8 am reprezentatdatele din Tabelul 3.4.

10%

11%

16%

26%

22%

16%

Nota 5Nota 6Nota 7Nota 8Nota 9Nota 10

Figura 3.7: Reprezentarea pe disc a frecvenµelor rela-tive ale notelor din tabelul cu note

Figura 3.8: Reprezentare pe disc 3D

Page 33: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 32

OgivePentru frecventele cumulate pot folosite ogive. Oogiv reprezint gracul unei frecvenµe cumulate(absolut sau relativ ).

X = [2 4 8 15 18 17 15 7 4];

plot(2:10, cumsum(X), '*-')

Figura 3.9: Ogiva pentru frecvenµele absolutecumulate din Tabelul 8.1

Diagrama Q-Q sau diagrama P-P

Q-Q plot (diagrama cuantila-cuantila) si P-P plot (diagrama probabilitate-probabilitate) sunt utilizate in adetermina apropierea dintre doua seturi de date (repartitii). Daca datele provin dintr-o acceasi repartitie,atunci ele se aliniaza dupa o dreapta desenata in gura. Diagrama Q-Q este bazata pe rangurile valorilor,iar diagrama P-P este bazata pe functiile de repartitie empirice.

Figura 3.10: Exemplu de diagrama Q-Q plot

S consider m o populaµie statistic de volum N ³i o caracteristic a sa, X, ce are funcµia de repartiµieF . Asupra acestei caracteristici facem n observaµii, în urma c rora culegem un set de date statistice.Dup cum am v zut anterior, datele statistice pot prezentate într-o form grupat (descrise prin tabelede frecvenµe) sau pot negrupate, exact a³a cum au fost culese în urma observ rilor. Pentru analizaacestora, pot utilizate diverse tehnici de organizare ³i reprezentare grac a datelor statistice îns , decele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat . Suntem interesaµi în a

Page 34: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 33

atribui acestor date anumite valori numerice reprezentative. Pot denite mai multe tipuri de astfel devalori numerice, e.g., m suri ale tendinµei centrale (media, modul, mediana), m suri ale dispersiei (dis-persia, deviaµia standard), m suri de poziµie (cuantile, distanµa intercuantilic ) etc. În acest capitol, vomintroduce diverse m suri descriptive numerice, atât pentru datele grupate, cât ³i pentru cele negrupate.

M suri descriptive ale datelor negrupate

Consider m un set de date statistice negrupate, x1, x2, . . . , xn (xi ∈ R, i = 1, 2 . . . , n, n ≤ N), ce cores-pund unor observaµii f cute asupra variabilei X. Pe baza acestor observatii, denim urm toarele m suridescriptive ale datelor, in scopul de a estima parametrii reali ai caracteristicilor populatiei. Deoarece elese bazeaza doar pe observatiile culese, aceste masuri se mai numesc si masuri empirice.

Valoarea medie

Este o m sur a tendinµei centrale a datelor. Pentru o selecµie x1, x2, . . . , xn, denim:

x =1

n

n∑i=1

xi,

ca ind media datelor observate. Aceasta medie empirica este un estimator pentru media teoretica,µ = EX, daca aceasta exista.

Pentru ecare i, cantitatea di = xi− x se nume³te deviaµia valorii xi de la medie. Aceasta nu poate denit ca o m sur a gradului de împr ³tiere a datelor, deoarece

n∑i=1

(xi − x) = 0.

Momentele

Pentru k ∈ N∗, momentele de ordin k se denesc astfel:

αk =1

n

n∑i=1

xki .

Pentru ecare k ∈ N∗, momentele centrate de ordin k se denesc astfel:

µk =1

n

n∑i=1

(xi − x)k.

Dispersia

Aceasta este o m sur a gradului de împr ³tiere a datelor în jurul valorii medii. Pentru o selecµiex1, x2, . . . , xn, denim dispersia astfel:

s2 = µ2 =1

n− 1

n∑i=1

(xi − x)2

(=

1

n− 1[

n∑i=1

x2i − n(x)2]

).

Page 35: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 34

Deviaµia standard

Este tot o m sur a împr ³tierii datelor în jurul valorii medii. Pentru o selecµie x1, x2, . . . , xn,denim deviaµia standard:

s =

√√√√ 1

n− 1

n∑i=1

(xi − x)2.

Coecientul de variaµie (sau de dispersie)

Aceste coecient (de obicei, exprimat în procente) este util atunci când compar m dou repartiµiiavând unit µi de m sur diferite. Nu este folosit atunci când x sau µ este foarte mic. Pentrudoua populatii care au aceeasi deviatie standard, gradul de variatie a datelor este mai mare pentrupopulatie ce are media mai mica.

CV =s

x, coecient de variaµie,

Amplitudinea (plaja de valori, range)

Pentru un set de date, amplitudinea (en., range) este denit ca ind diferenµa dintre valoarea ceamai mare ³i valoarea cea mai mic a datelor, i.e., xmax − xmin.

Scorul z

Este num rul deviaµiilor standard pe care o anumit observaµie, x, le are sub sau deasupra mediei.Pentru o selecµie x1, x2, . . . , xn, scorul X este denit astfel:

x =x− xs

.

Corelaµia (covarianµa)

Dac avem n perechi de observaµii, (x1, y1), (x2, y2), . . . , (xn, yn), denim corelaµia (covarianµa):

covsel =1

n− 1

n∑i=1

(xi − x)(yi − y). (3.2)

Coecientul de corelaµie

rsel =covselsxsy

, coecient de corelaµie,

Funcµia de repartiµie empiric

Se nume³te funcµie de repartiµie empiric asociat unei variabile aleatoareX ³i unei selecµii x1, x2, . . . , xn,funcµia F ∗n : R −→ [0, 1], denit prin

F ∗n(x) =cardi; xi ≤ x

n. (3.3)

Propoziµia de mai jos arat c funcµia de repartiµie empiric aproximeaz funcµia de repartiµieteoretic (vezi Figura 3.11).

Propoziµie: Fie Ω o colectivitate statistic ³i X o caracteristic a sa, ce se dore³te a studiat .Notez cu F (x) funcµia de repartiµie (teoretica) a lui X. Pentru o selecµie de valori ale lui X,x1, x2, . . . , xn, construim funcµia de repartiµie empiric , F ∗n(x). Atunci:

F ∗n(x)prob−→ F (x), când n→∞, ∀x ∈ R.

Page 36: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 35

Figura 3.11: Funcµia de repartiµie empiric ³i funcµia de repartiµie teoretic pentru distribuµia normal .

Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se dene³te prin

γ1 =µ3

µ3/22

=µ3

s3=

1n

∑ni=1(xi − x)3[

1n−1

∑ni=1(xi − x)2

]3/2.

O repartiµie este simetric dac γ1 = 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac γ1 > 0 ³i negativ (sau la stânga) dac γ1 < 0.

Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se dene³te prin

K =µ4

µ22

− 3 =µ4

s4− 3 =

1n

∑ni=1(xi − x)4(

1n

∑ni=1(xi − x)2

)2 − 3.

Este o m sur a boltirii distribuµiei (al patrulea moment standardizat). Termenul (−3) apare pentruc indicele kurtosis al distribuµiei normale s e egal cu 0. Vom avea o repartiµie mezocurtic pentruK = 0, leptocurtic pentru K > 0 sau platocurtic pentru K < 0. Un indice K > 0 semnic faptulc , în vecin tatea modului, curba densit µii de repartiµie are o boltire (ascuµire) mai mare decâtclopotul lui Gauss. Pentru K < 0, în acea vecin tate curba densit µii de repartiµie este mai plat decât curba lui Gauss.

Cuantile

Cuantilele (de ordin q) sunt valori ale unei variabile aleatoare care separ repartiµia ordonat în qp rµi egale.Pentru q = 2, cuantila xq se nume³te median , notat prin x0.5 sau Me.Presupunem c observaµiile sunt ordonate, x1 < x2 < · · · < xn. Pentru aceast ordine, denimvaloarea median :

x0.5 =

x(n+1)/2 , dac n = impar;

(xn/2 + xn/2+1)/2 , dac n = par;

Pentru q = 4, cuantilele se numesc cuartile (sunt în num r de 3). Prima cuartil , notat x0.25 sauQ1, se nume³te cuartila inferioar , a doua cuartil este mediana, iar ultima cuartil , notat x0.75

Page 37: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 36

sau Q3, se nume³te cuartila superioar . Diferenµa Q3 −Q1 se nume³te distanµa intercuartilic .Pentru q = 10 se numesc decile (sunt în num r de 9), pentru q = 100 se numesc percentile (sunt înnum r de 99), pentru q = 1000 se numesc permile (sunt în num r de 999). Sunt m suri de poziµie,ce m soar locaµia unei anumite observaµii faµ de restul datelor.

Modul

Modul (sau valoarea modal ) este acea valoare x∗ din setul de date care apare cel mai des. Un setde date poate avea mai multe module. Dac apar dou astfel de valori, atunci vom spune c setulde date este bimodal, pentru trei astfel de valori avem un set de date trimodal etc. În cazul în caretoate valorile au aceea³i frecvenµ de apariµie, atunci spunem c nu exist mod. De exemplu, setulde date

1 3 5 6 3 2 1 4 4 6 2 5

nu admite valoare modal . Nu exist un simbol care s noteze distinctiv modul unui set de date.

Valori aberante (en. outliers)

Valorile aberante sunt valori statistice observate care sunt îndep rtate de marea majoritate a ce-lorlalte observaµii. Ele pot ap rea din cauza unor m sur tori defectuoase sau în urma unor eroride m surare. De cele mai multe ori, ele vor excluse din analiza statistic . Din punct de vederematematic, valorile aberante sunt valorile ce nu aparµin intervalului urm tor.

[Q1 − 1.5(Q3 −Q1), Q3 + 1.5(Q3 −Q1)]

Sinteza prin cele cinci valori statistice (ve number summary)

Reprezint cinci m suri statistice empirice caracteristice unui set de date statistice. Acestea sunt(în ordine cresc toare): cea mai mic valoare observat (min

ixi), prima cuartil (Q1), mediana

(Me), a treia cuartil (Q3) ³i cea mai mare valoare observat (maxixi). Aceste cinci numere pot

reprezentate grac într-o diagram numit box-and-whisker plot.

În gurile de mai jos sunt desenate astfel de diagrame. Datele din Tabelul 3.4 sunt reprezentate înprima gur de mai jos prin dou diagrame box-and-whiskers. În prima diagram (numerotat cu 1)am generat uniform datele din tabel, p strând clasele; în a doua diagram am folosit reprezentareadatelor din acela³i tabel prin centrele claselor. Reprezent rile sunt cele clasice, cu dreptunghiuri.Valorile aberante sunt reprezentate prin puncte în diagrama box-and-whisker plot.

vârsta f. abs. f. rel. f. cum. mijlocul clasei[18, 25) 34 8.83% 8.83% 21.5[25, 35) 76 19.74% 28.57% 30[35, 45) 124 32.21% 60.78% 40[45, 55) 87 22.60% 83.38% 50[55, 65) 64 16.62% 100.00% 60Total 385 100% - -

Tabela 3.10: Tabel cu frecvenµe.

Figura 3.12: Box-an-whisker plot pentru datele

din Tabelul 3.4

Page 38: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 37

În Figura 3.13, am reprezentat cu box-and-whiskerun set de date discrete ce conµine dou valori abe-rante. Aici dreptunghiul a fost crestat (notchedbox-and whisker plot); lungimea crest turii oferindun interval de încredere pentru median . Valorileaberante sunt reprezentate in gura prin puncte inafata range-ului datelor.

Figura 3.13: Box-an-whisker plot pentru un set de date

discrete

M suri descriptive ale datelor grupate

Consider m un set de date statistice grupate (de volum n), ce reprezinta observaµii asupra variabilei X.

Pentru o selecµie cu valorile de mijloc x1, x2, . . . , xr ³i frecvenµele absolute corespunz toare, f1, f2,

. . . , fr, cur∑i=1

fi = n, denim:

xf =1

r

r∑i=1

xifi, media (empiric ) de selecµie, (sau, media ponderat )

s2 =1

n− 1

r∑i=1

fi(xi − xf )2 =1

n− 1

(r∑i=1

x2i fi − n x2

f

), dispersia empiric ,

s =√s2, deviaµia empiric standard.

Formule similare se pot da ³i pentru m surile descriptive ale întregii populaµii.Mediana pentru un set de date grupate este acea valoare ce separ toate datele în dou p rµi egale. Sedetermin mai întâi clasa ce conµine mediana (numit clas median ), apoi presupunem c în interiorulec rei clase datele sunt uniform distribuite. O formul dup care se calculeaz mediana este:

Me = l +n2 − FMe

fMec,

unde: l este limita inferioar a clasei mediane, n este volumul selecµiei, FMe este suma frecvenµelor pân la (exclusiv) clasa median , fMe este frecvenµa clasei mediane ³i c este l µimea clasei.

Similar, formulele pentru cuartile sunt:

Q1 = l1 +n4 − FQ1

fQ1

c ³i Q3 = l3 +3n4 − FQ3

fQ3

,

Page 39: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 38

unde l1 si l3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, iar FQ este sumafrecvenµelor pân la (exclusiv) clasa ce contine cuartila, fQ este frecvenµa clasei unde se gaseste cuartila.

Pentru a aa modul unui set de date grupate, determin m mai întâi clasa ce conµine aceast valoare (clas modal ), iar modul va calculat dup formula:

Mod = l +d1

d1 + d2c,

unde d1 ³i d2 sunt frecvenµa clasei modale minus frecvenµa clasei anterioare ³i, respectiv, frecvenµa claseimodale minus frecvenµa clasei posterioare, l este limita inferioar a clasei modale ³i c este l µimea claseimodale.

Transformari de date

Uneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru a obtine valoriapropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilor observate (folosind functiileln sau log10, daca valorile sunt toate pozitive), radacina patrata a valorilor, transformarea logit, radacinide ordin superior etc. In Tabelul 3.11 am sugerat tipul de transformare ce poate utilizat in functie decoecientul de skewness γ1.

In ce conditii. . . skewness formula

date aproape simetrice −0.5 < γ1 < 0.5 nicio transformareskewness moderat pozitiv, date nenegative 0.5 ≤ γ1 < 1 yi =

√xi

skewness moderat pozitiv, exista date < 0 0.5 ≤ γ1 < 1 yi =√xi + C

skewness moderat negativ −1 < γ1 ≤ 0.5 yi =√C − xi

skewness mare negativ γ1 ≤ −1 yi = ln(C − xi) sau yi = log10(C − xi)skewness mare pozitiv, date pozitive γ1 ≥ 1 yi = lnxi sau yi = log10 xiskewness mare pozitiv, exista date ≤ 0 γ1 ≥ 1 yi = ln(xi + C) sau yi = log10(xi + C)

Tabela 3.11: Exemple de transformari de date statistice

unde C > 0 este o constanta ce poate determinata astfel incat datele transformate sa aiba un skewnesscat mai aproape de 0. Aceasta constanta va aleasa astfel incat functia ce face transformarea este denita.

De exemplu, presupunem ca datele observate sunt x1, x2, . . . , xn si acestea nu sunt toate pozitive, cuun coecient de asimetrie (skewness) γ1 = 1.3495. Ne uitam la valoarea minima a datelor; aceasta estexmin = −0.8464. Pentru a obtine un set de valori pozitive, vom adauga valoarea 1 la toate datele observate.Apoi,logaritmam valorile obtinute. Cele doua procedee cumulate sunt echivalente cu folosirea directa aformulei ln(1 + xi) (adunand valoarea 1, am facut toate argumentele logaritmului pozitive). Obtinemastfel un nou set de date, si anume y1, y2, . . . , yn, unde yi = ln(1 + xi). Un exemplu este cel din Figura3.14. Se observa ca datele logaritmate sunt aproape normale. O analiza statistica poate condusa pentrudatele yi, urmand ca, eventual, la nal sa aplicam transformarea inversa xi = eyi − 1 pentru a transformarezultatele pentru datele initiale.

Page 40: Statistic ˘ a Aplicat ˘ a

CSA 2 [Dr. Iulian Stoleriu] 39

Figura 3.14: Datele intiale si datele logaritmate

Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor in puncteleneselectate), de multe ori este necesara transformarea inversa a datelor, pentru a determina proprietatiledatelor originale. De aceea, ar potrivit de a exprima indicatorii statistici atat pentru datele transformate,cat si pentru datele originale. Un exemplu este cel din Tabelul 3.12.

Indicatorul datele originale datele tranformatexi yi = ln(1 + xi)

Minimum −0.8464 −1.8734Maximum 14.1107 2.7154Media 6.02142 1.51Cuartila Q1 3.1152 0.6532Mediana 6.5200 1.2512Cuartila Q3 8.7548 1.5785Deviatia standard 5.2511 0.7524Dispersia 27.5741 0.5661Skewness 6.2322 0.0233Kurtosis 78.6077 2.9786Numarul de observatii 100 100χ2 pentru testul de normalitate (cu 7 grade de libertate) − 7.1445

Tabela 3.12: Exemplu de indicatori pentru datele originale si pentru datele transformate

Page 41: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 40

4 Statistica Aplicata (L2)

Exerciµiu 4.1. Urm torul set de date reprezint preµurile (în mii de euro) a 20 de case, vândute într-oanumit regiune a unui ora³:

113 60.5 340.5 130 79 475.5 90 100 175.5 100

111.5 525 50 122.5 125.5 75 150 89 100 70

(a) Determinaµi amplitudinea, media, mediana, modul, deviatia standard, cuartilele ³i distanµa intercu-artilic pentru aceste date. Care valoare este cea mai reprezentativ ?(b) Desenaµi diagrama box-and-whiskers ³i comentaµi-o. Exista valori aberante?(c) Calculaµi coecientii de asimetrie si de aplatizare.

Soluµie: Rearanj m datele în ordine cresc toare:

50 60.5 70 75 79 89 90 100 100 100 111.5

113.5 122.5 125.5 130 150 175.5 340.5 475.5 525

Amplitudinea este 525 − 50 = 475, media lor este 154.15, me-

diana este100 + 111.5

2= 105.75, modul este 100, cuartila in-

ferioar este Q1 =79 + 89

2= 84, Q2 = Me, cuartila superi-

oar este Q3 =130 + 150

2= 140 ³i distanµa intercuartilic este

d = Q3 −Q1 = 56.Mediana este valoarea cea mai reprezentativ în acest caz, deoa-rece cele mai mari trei preµuri, anume 340.5, 475.5, 525, m rescmedia ³i o fac mai puµin reprezentativ pentru celelalte date. Încazul în care setul de date nu este simetric, valoarea median estecea mai reprezentativ valoare a datelor.

Deviatia standard este s =

√√√√ 1

n− 1

n∑i=1

(xi − x)2 = 133.3141. Fo-

losind formulele, gasim ca γ1 = 1.9598 (asimetrie la dreapta) siK = 5.4684 (boltire pronuntata). Figura 4.1: Box-an-whisker plot pentru

datele din Exerciµiul 4.1

Valorile aberante sunt cele ce se aa in afara intervalului [Q1−1.5(Q3−Q1), Q3+1.5(Q3−Q1)] = [0, 178].Se observa ca valorile 340.5 475.5 525 sunt valori aberante, reprezentate prin puncte in gura.În Matlab,

X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ...

111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70

a = range(X); m = mean(X); Me = median(X); Mo = mode(X); boxplot(X)

Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75); d = Q3 - Q1;

g1 = skewness(X); K = kurtosis(X);√

Page 42: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 41

Exerciµiu 4.2. Consider m datele din Tabelul 3.5.(a) Determinaµi amplitudinea, media, mediana, modul, dispersia si distanta intercuartilic pentru acestedate.(b) Desenaµi diagrama box-and-whiskers ³i comentaµi-o. Exista valori aberante?

Soluµie: Amplitudinea este a = 30. Folosind centrele claselor, media este

x =

∑(x · f)

n=

1

70(2.5× 5 + 7.5× 13 + 12.5× 23 + 17.5× 17 + 22.5× 10 + 27.5× 2) = 13.9286.

Dispersia este:

s2 =1

n− 1(∑

(x2 · f)− n · x2)

=1

69(2.52 × 5 + 7.52 × 13 + 12.52 × 23 + 17.52 × 17 + 22.52 × 10 + 27.52 × 2 − 70 · 13.92862)

= 37.06.

Clasa median este clasa [10, 15). Deoarece în clasele anterioare ([0, 5) ³i [5, 10)) se a deja 5 + 13 = 18date mai mici decât mediana, pentru a aa valoarea median a plantelor (i.e., acea valoare care este maimare decât alte 35 de valori la stanga ei ³i mai mic decât alte 35 de plante de la dreapta sa), va trebuis determin m acea valoare din clasa median ce este mai mare decât alte 17 valori din aceast clas .A³adar, avem nevoie de a determina o fracµie 17

23 dintre valorile clasei mediane. În concluzie, valoareamedian este

Me = 10 +35− 18

23× 5 = 13.6957.

Clasa modal este [10, 15), iar modul este Mo = 10 + 1010+6 × 5 = 13.125.

Calcul m acum prima cuartil dupa formula Q1 = l1 +n4 − FQ1

fQ1

. Clasa in care se gaseste prima cuartila

este [5, 10) (o valoare din acest interval va avea la stanga sa 70/4 dintre valorile observate). Avem:FQ1 = 5, fQ1 = 13, c = 5, de unde Q1 = 9.8077.Similar, clasa in care se gaseste a treia cuartila este [15, 20) (o valoare din acest interval va avea la dreaptasa 70/4 dintre valori. Avem: FQ3 = 41, fQ3 = 10, c = 5, de unde Q3 = 18.3824.

Folosind Matlab:

X = [5*rand(1,5), 5+5*rand(1,13),10+5*rand(1,23), 15+5*rand(1,17), ...

20+5*rand(1,10), 25+5*rand(1,2)]; % datele

x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor

f = [5; 13; 23; 17; 10; 2]; % frecventele

n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1);

Q1 = quantile(X,0.25); Me = median(X); Q2 = quantile(X,0.75); √

Exerciµiu 4.3. O companie de asigur ri a înregistrat num rul de accidente pe s pt mân ce au avut locîntr-un anumit sat, în decurs de un an (52 de s pt mâni). Acestea sunt, în ordine:

1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2,

4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2

(a) Construiµi un tabel de frecvenµe care s conµin num rul de accidente, frecvenµele absolute ³i relative.(b) G siµi media empiric , mediana ³i deviaµia standard empiric .

Page 43: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 42

(c) Reprezentaµi prin bare rezultatele din tabelul de frecvenµe.(d) G siµi ³i reprezentaµi grac (cdfplot) funcµia de repartiµie empiric a num rului de accidente.

Soluµie: (a) Tabelul de frecvenµe este Tabelul 4.1.

num rul 0 1 2 3 4

frecv. abs. 7 9 14 12 10

frecv. rel. 0.1346 0.1731 0.2692 0.2308 0.1923

Tabela 4.1: Tabel de frecvenµe pentru Exerciµiu 4.3

(b) Avem:

x =

52∑i=1

xi = 2.1731, s =

√√√√ 1

51

52∑i=1

(xi − x)2 = 1.3094, Me = 2.

(c) Reprezentarea prin bare a num rului de accidente ³i gracul lui F ∗n(x) sunt reprezentate în Figura 4.2.

(d) Funcµia de repartiµie empiric este:

F ∗n(x) = P (X ≤ x) =

0, dac x < 0;752 , dac x ∈ [0, 1);1652 , dac x ∈ [1, 2);3052 , dac x ∈ [2, 3);4252 , dac x ∈ [3, 4);

1, dac x ≥ 4.

Figura 4.2: Reprezentare pentru num rul de accidente.

Codul Matlab pentru calcule ³i grace este:

Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)];

m = mean(Y); s = std(Y); Me = median(Y);

subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare

subplot(1,2,2); cdfplot(Y) % graficul functiei de repartitie empirice √

Page 44: Statistic ˘ a Aplicat ˘ a

LSA 1 [Dr. Iulian Stoleriu] 43

Exerciµii propuse

Exerciµiu 4.4. Pentru un set de 5 valori, media empiric este x = 50 ³i dispersia empiric este s2 = 4.Dac trei dintre valori sunt 48, 51, 52, determinaµi ³i celelalte dou valori.

Exerciµiu 4.5. Se consider urm toarea selecµie de note obµinute de elevii unei ³coli la teza de Matema-tic .

5, 7, 8, 6, 9, 7, 10, 4, 7, 9, 6, 5, 7, 8, 7, 6, 10, 8, 6, 9, 4, 7, 5, 8, 8, 7, 5, 4, 8, 6

(a) Estimaµi media, deviaµia standard ³i mediana populaµiei din care provine aceast selecµie, precizândformulele folosite.(b) Grupaµi datele ³i scrieµi funcµia de repartiµie empiric .(c) Reprezentaµi un box-and-whisker plot pentru date.

Exerciµiu 4.6. Pentru evaluarea rezultatelor obµinute la proba de Matematic a examenului de Bacalau-reat de c tre elevii unei ³coli, s-a f cut un sondaj de volum 30 printre elevii ³colii, notele ind urm toarele:

3.72 7.45 4.65 6.95 5.00 4.30 8.93 7.14 8.24 6.67 9.33 9.05 5.86 6.75 7.20

7.28 6.65 5.90 7.75 4.33 7.18 8.00 5.50 7.70 4.12 8.40 7.00 6.90 5.00 7.80

(a) Descrieµi datele folosind o reprezentare stem& leaf.(b) Calculaµi media, dispersia ³i mediana pentru selecµia considerat , precizând formulele folosite.(c) Determinaµi cele cinci m suri statistice din ve number summary

(d) Reprezentaµi un box-and-whisker plot pentru date.(e) Ionel a obµinut nota 8.45 la examen. Determinaµi scorul s u.

Exerciµiu 4.7. Tabelul de mai jos conµine notele la Matematic a 10 elevi dintr-o anumit ³coal obµinutela: testul de simulare a examenului de Bacalaureat (T) ³i la examenul Bacalaureat (B).

T 6.15 5.75 8.45 8.90 7.83 6.50 10 4.50 9.25 7.65B 7.23 6.00 7.76 9.63 6.90 6.33 9.90 3.24 8.67 7.90

(a) Reprezentaµi cele dou seturi de date prin câte un box-and-whisker plot, în aceea³i gur .(b) Reprezentaµi datele din tabel printr-o diagram scatter.(c) Calculaµi coecientul de corelaµie empiric între notele la cele dou teste.

Page 45: Statistic ˘ a Aplicat ˘ a

CSA 3 [Dr. Iulian Stoleriu] 44

Statistica Aplicata (C3)

5 Estimatori. Intervale de incredere (C3)

Una dintre problemele de care se preocupa Statistica este estimarea parametrilor unei populatii. Conside-ram o populatie statistica de volum N (nit sau innit) si X o caracteristica (variabila aleatoare) a sa. Pebaza unor observatii asupra lui X, x1, x2, . . . , xn, dorim sa estimam parametrii µ = EX, σ2 = D2(X).In continuare, vom preciza atat estimatori punctuali pentru acesti parametri, cat si intervale de incredere.

Deoarece setul de valori observate poate sa difere de la un esantion la altul, vom considera in locul lorvariabilele aleatoare de selecµie repetat de volum n, X1, X2, . . . , Xn. Cu alte cuvinte, xi este o posibilavaloare a variabilei Xi (i = 1, 2, , . . . , n). Aceste variabile sunt independente si repartitia lor comuna esterepartiµia lui X.

O functie f(X1, X2, . . . , Xn) ce depinde de aceste variabile se va numi generic statistic . In caz canu este pericol de confuzie, valoarea statisticii pentru un esantion, f(x1, x2, . . . , xn), se numestetot statistic .

Se nume³te estimator al lui θ o statistic θ = θ(X1, X2, . . . , Xn), cu ajutorul c reia dorim s îlaproxim m pe θ. În acest caz, ne-am dori s ³tim în ce sens ³i cât de bine este aceast aproximaµie.

Dac x1, x2, . . . , xn sunt date observate, atunci θ = θ(x1, x2, . . . , xn) se nume³te estimaµie a luiθ. A³adar, o estimaµie pentru un parametru necunoscut este valoarea estimatorului pentru selecµiaobservat . Prin abuz de notaµie, vom nota atât estimatorul cât ³i estimaµia cu θ ³i vom face diferenµaîntre ele prin precizarea variabilelor de care depind.

Deoarece estimarile sunt bazate doar pe valorile unei submultimi din colectivitate, ele nu pot exacte.Apar astfel erori de aproximare. Ne-am dori s ³tim în ce sens ³i cât de bine un estimator aproximeaza(se apropie) de valoarea estimata. Pentru aceasta, avem nevoie de anumite cantitati care sa cuanticeerorile de aproximare. In acest sens, vom discuta aici despre: deplasare, eroarea medie patratica si eroareastandard.

Un estimator θ se numeste estimator nedeplasat (en., unbiased estimator) pentru parametrul θ dac media estimatorului este chiar valoarea parametrului pe care estimeaza. Matematic, scriem astfel:

E(θ) = θ.

Altfel, spunem c θ este un estimator deplasat pentru θ, iar deplasarea (distorsiunea) se dene³teprin:

b(θ, θ) = E(θ)− θ.Cantitatea b(θ, θ) este o m sur a erorii pe care o facem în estimarea lui θ prin θ.

O alta masura a incertitudinii cu care un estimator aproximeaza parametrul este eroarea standard

(en., standard error), notata aici prin σ(θ) sau σθ. Spre exemplu, daca estimatorul θ este X, atunci

σX =σ√n,

Page 46: Statistic ˘ a Aplicat ˘ a

SA 3 [Dr. Iulian Stoleriu] 45

unde σ este deviatia standard a unei singure observatii. Se observa de aici ca σX va tinde la 0 dacan creste nemarginit. Astfel, daca numarul de masuratori creste, media acestor masuratori se apropiemult de valoarea parametrului µ.

Un estimator pentru eroarea standard (en., estimated standard error), notata aici prin σ(θ) sau σθsau sθ. Spre exemplu, daca estimatorul θ este X, atunci un estimator pentru eroarea standard este

sX =s√n,

unde s este estimatorul nedeplasat pentru deviatia standard.

Numim eroare medie p tratic a unui estimator θ pentru θ (en., mean squared error) cantitatea

MSE(θ, θ) = E([θ − θ

]2).

Aceasta cantitate ne va indica valoarea medie a patratului diferentei dintre estimator si valoareaparametrului estimat. Pentru un estimator nedeplasat, MSE este chiar dispersia estimatorului, σ2

θ.

Exemple:

1. Media de selecµie

X =1

n

n∑i=1

Xi

este un estimator nedeplasat pentru parametrul µ (media teoretic ).

2. Dispersia de selecµie modicat

S2 =1

n− 1

n∑i=1

[Xi −X]2

este un estimator nedeplasat pentru dispersia teoretic pentru parametrul σ2.

3. dispersia de selecµie

S2∗ =

1

n

n∑i=1

[Xi −X]2

este un estimator deplasat pentru parametrul σ2, deplasarea ind

b(s2, σ2) = −σ2

n.

Un estimator nedeplasat θ pentru θ, θ ∈ Θ, se nume³te estimator nedeplasat uniform de dispersie

minim (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dac pentru orice altestimator nedeplasat pentru θ, notat cu θ∗, avem

V ar(θ) ≤ V ar(θ∗),

pentru orice valoarea a parametrului θ.

Page 47: Statistic ˘ a Aplicat ˘ a

SA 3 [Dr. Iulian Stoleriu] 46

Estimatorul θ pentru θ este un estimator consistent dac

θ(X1, X2, . . . , Xn)prob−→ θ, când n −→∞.

În acest caz, valoarea numeric a estimatorului, θ(x1, x2, . . . , xn), se nume³te estimaµie consistent

pentru θ.

Pentru un anumit parametru pot exista mai mulµi estimatori nedeplasati. De exemplu, pentruparametrul λ din repartiµia Poisson P(λ) exist urm torii estimatori:

X ³i S2.

Dintre doi estimatori pentru un parametru, este de preferat acel estimator care are dispersia minima.In exemplul anterior il vom alege pe X.

Metodele clasice de determinare a unor estimatori punctuali sunt: metoda momentelor, metodaverosimilitatii maxime, metoda minimului lui χ2, metoda celor mai mici patrate. Aceste metode aufost studiate in cursurile anterioare de Statistica si nu le mai tratam aici.

Dac θ este un estimator pentru θ este un estimator obµinut prin metoda verosimilit µii maxime³i h(x) este o funcµie bijectiv , atunci h(θ) = h(θ). În cazul în care h(x) nu este bijectiv , atuncirelaµia anterioar nu este neap rat valabil , dup cum arat exemplul urm tor.

Exemplu 5.1. Fie θ un estimator pentru θ. P tratul acestui estimator, θ2 nu este, în general,estimatorul pentru θ2. Aici, h(x) = x2.De exemplu, s presupunem c X ∼ N (0, 1) ³i avem urm toarele 20 de observaµii asupra lui X:

0.3617; -2.0587; -2.3320; -0.3709; 1.2857; 0.5570; -0.1802; -0.0357; 1.9344; 1.3056

0.0831; -0.3277; -0.3558; 0.4334; -1.2230; -1.0381; -2.7359; -0.0312; 2.0718; -0.5944

0.6286; -0.5350; 2.2090; -0.6057; 1.4352; 1.1948; 0.7431; -0.1214; 0.8678; -1.0030

Un estimator absolut corect pentru media teoretic a lui X, i.e., pentru µX = 0, este X.(pentru selecµia dat , X = 0.0521). Variabila aleatoare X2 urmeaz repartiµia χ2(1) ³i are mediaµX2 = 1 (vezi repartiµia χ2). Un estimator absolut corect pentru µX2 este X2. Pe de alt parte,pentru selecµia dat avem c X2 ≈ 1.4 iar

(X)2

= 0.027.

Estimarea parametrilor prin intervale de încredere

Dup cum am v zut anterior, putem determina estimaµii punctuale pentru parametrii unei populatii îns , oestimaµie punctual , nu precizeaz cât de aproape se g se³te estimaµia θ(x1, x2, . . . , xn) faµ de valoareareal a parametrului θ. De exemplu, dac dorim s estim m masa medie a unor produse alimentarefabricate de o anumit ma³in , atunci putem g si un estimator punctual (e.g., media de selecµie) care s ne indice c aceasta este de 500 de grame. Ideal ar dac aceast informaµie ar prezentat sub forma:masa medie este 500g±10g.Putem obµine astfel de informaµii dac vom construi un interval în care, cu o probabilitate destul de mare,s g sim valoarea real a lui θ.S consider m o selecµie repetat de volum n, X1, X2, . . . , Xn, ce urmeaz repartiµia lui X. Dorim s

Page 48: Statistic ˘ a Aplicat ˘ a

SA 3 [Dr. Iulian Stoleriu] 47

g sim un interval aleator care s acopere cu o probabilitate mare (e.g., 0.95, 0.98, 0.99 etc) valoareaposibil a parametrului necunoscut.

Pentru un α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim interval de

încredere (en., condence interval (C.I.)) pentru parametrul θ, cu probabilitatea de încredere 1 − α, uninterval aleator (θ, θ) astfel încât

P (θ < θ < θ) = 1− α, (5.1)

unde θ(X1, X2, . . . , Xn) ³i θ(X1, X2, . . . , Xn) sunt statistici. Spre exemplu, un interval de încredere cusemnicaµia 0.95 (en., a 95% C.I.) este un interval aleator ce acoper valoarea real a parametrului θ cuprobabilitatea 0.95. Probabilitatea 0.95 este asociat intervalului ³i nu parametrului de estimat, θ. Cu altecuvinte, în cazul unui interval de încredere cu încrederea de 95%, este gre³it armaµia c probabilitateaca parametrul estimat s se ae în acest interval este de 0.95. Intervalul este aleator iar parametrul deestimat este o constant .Pentru o observaµie xat , capetele intervalului (aleator) de încredere vor funcµii de valorile de selecµie.De exemplu, pentru datele observate, x1, x2, . . . , xn, intervalul(

θ(x1, x2, . . . , xn), θ(x1, x2, . . . , xn))

se nume³te valoare a intervalului de încredere pentru θ. Pentru simplitate îns , vom folosi termenulde "interval de încredere" atât pentru intervalul propriu-zis, cât ³i pentru valoarea acestuia, înµelesuldesprinzându-se din context.Valoarea α se nume³te nivel de semnicaµie sau probabilitate de risc.

Cu cât α este mai mic (de regul , α = 0.01 sau 0.02 sau 0.05), cu atât ³ansa (care este (1 − α) · 100%)ca valoarea real a parametrului θ s se g seasc în intervalul g sit este mai mare. De³i ³ansele 99%sau 99.99% par a foarte apropiate ³i ar da rezultate asem n toare, sunt cazuri în care ecare sutimeconteaz . De exemplu, s presupunem c într-un an calendaristic un eveniment are ³ansa de 99% de a serealiza, în orice zi a anului, independent de celelalte zile. Atunci, ³ansa ca acest eveniment s se realizezeîn ecare zi a anului în tot decursului acestui an este de 0.99365 ≈ 2.55%. Dac ³ansa de realizare înecare zi ar fost de 99.99%, atunci rezultatul ar fost ≈ 96.42%, ceea ce înseamn o diferenµ foartemare generat de o diferenµ iniµial foarte mic .

Intervalul de încredere pentru valoarea real a unui parametru nu este unic. Dac ni se dau condiµiisuplimentare (e.g., xarea unui cap t), atunci putem obµine intervale innite la un cap t ³i nite lacel lalt cap t.

În continuare, vom preciza intervale de încredere pentru parametrii unor caracteristici normale.

O singur populaµie statistic

Interval de încredere pentru medie, când dispersia este cunoscut

Intervalul de incredere pentru medie poate bilateral (daca nu exista alte informatii suplimentare despreinterval, atunci il alegem centrat) sau unilateral (daca nu exista limita superioara sau inferioara pentrumedie). Vom nota cu prin zα cuantila de ordin α pentru repartitia N (0, 1).

(1) Intervalul de încredere bilateral pentru media teoretic µ când σ este cunoscut este:

(µ, µ) =

(x− z1−α

2

σ√n, x+ z1−α

2

σ√n

). (5.2)

Page 49: Statistic ˘ a Aplicat ˘ a

SA 3 [Dr. Iulian Stoleriu] 48

(2) Dac pentru media teoretic nu se precizeaz o limit superioar , atunci intervalul de încredere este:

(µ, ∞) =

(x− z1−α

σ√n, ∞

).

(3) Dac pentru media teoretic nu se precizeaz o limit inferioar , atunci intervalul de încredere este:

(−∞, µ) =

(−∞, x+ z1−α

σ√n

).

În cazul în care volumul selecµiei este mare (de cele mai multe ori în practic , aceasta înseamn n ≥ 30)metoda de determinare a unui interval de încredere prezentat mai sus se poate aplica ³i pentru selecµiidintr-o colectivitate ce nu este neap rat normal . Aceasta este o consecinµ faptului c , pentru n mare,statistica X urmeaz repartiµiaN (0, 1) pentru orice form a repartiµiei caracteristiciiX (conform teoremeilimit central ).

Intervalele de încredere determinate mai sus sunt valide pentru selecµia (repetat sau nerepetat ) dintr-opopulaµie innit , sau pentru selecµii repetate dintr-o populaµie nit . În cazul selecµiilor nerepetate dincolectivit µi nite, în estimarea intervalelor de încredere vom µine cont ³i de volumul N al populaµiei. Spreexemplu, dac selecµia de volum n se face dintr-o populaµie nit de volum N ³i n ≥ 0.05N , atunci uninteval de încredere centrat pentru media populaµiei este:

(µ, µ) =

(x− z1−α

2

σ√n

√N − nN − 1

, x+ z1−α2

σ√n

√N − nN − 1

). (5.3)

Interval de încredere pentru medie, când dispersia este necunoscut

Ne a m în condiµiile din secµiunea precedent (i.e., o caracteristic normal , X ∼ N (µ, σ)), mai puµinfaptul c σ este cunoscut. Dac deviaµia standard σ nu este cunoscut , atunci ea va trebui estimat . timdeja c o estimaµie absolut corect pentru σ este statistica s, dat prin

s =

√√√√ 1

n− 1

n∑i=1

(xi − x)2.

Intervalele de incredere sunt:

(1) Dac nu se cunoa³te o alt informaµie suplimentar despre µ, atunci intervalul de încredere pentrumedia teoretic µ când σ este necunoscut este:

(µ, µ) =

(x− t1−α

2;n−1

s√n, x+ t1−α

2;n−1

s√n

). (5.4)

(2) Dac pentru media teoretic nu se precizeaz o limit superioar , atunci intervalul de încredere este:

(µ, ∞) =

(x− t1−α;n−1

s√n, ∞

).

(3) Dac pentru media teoretic nu se precizeaz o limit inferioar , atunci intervalul de încredere este:

(−∞, µ) =

(−∞, x− tα;n−1

s√n

).

Page 50: Statistic ˘ a Aplicat ˘ a

SA 3 [Dr. Iulian Stoleriu] 49

Aici, prin tα;n−1 am notat cuantila de ordin α pentru repartiµia t cu (n− 1) grade de libertate.

Formulele din aceast secµiune sunt practice atunci când selecµia se face dintr-o colectivitate gaussian devolum n mic. Când n este mare, atunci va o diferenµ foarte mic între valorile z1−α

2³i t1−α

2;n−1, de

aceea am putea folosi z1−α2în locul valorii t1−α

2;n−1. Mai mult, pentru un n mare (n ≥ 30), intervalele de

încredere obµinute mai sus r mân acelea³i pentru orice form a repartiµiei caracteristicii X, nu neap ratpentru una gaussian . A³adar, pentru o selecµie de volum mare dintr-o colectivitate oarecare, un intervalde încredere pentru media populaµiei, când dispersia nu este cunoscut , este:

(µ, µ) =

(x− z1−α

2

s√n, x+ z1−α

2

s√n

). (5.5)

Interval de încredere pentru dispersie, când media este cunoscut

Pentru estimarea punctual a lui σ2 când media este cunoscut folosim statistica s2∗ denit prin

s2∗ =

1

n

n∑i=1

[xi − µ]2.

În funcµie de faptul dac avem sau nu informaµii suplimentare despre dispersie (analog ca anterior), g simc intervalul de încredere pentru σ2, dup cum urmeaz :

(1) nu avem informaµii suplimentare despre dispersie:

(σ2, σ2) =

(n s2∗

χ21−α

2;n

,n s2∗

χ2α2

;n

); (5.6)

(2) avem informaµii c dispersia este nem rginit superior:

(σ2, σ2) =

(n s2∗

χ21−α;n

, +∞)

; (5.7)

(3) avem informaµii c dispersia este nem rginit inferior:

(σ2, σ2) =

(0,

n s2∗

χ2α;n

), (5.8)

unde prin χ2α;n am notat cuantila de ordin α pentru repartiµia χ2 cu n grade de libertate.

Interval de încredere pentru dispersie, când media este necunoscut

Pentru estimarea punctual a lui σ2 când media este necunoscut folosim statistica s2 denit prin

s2 =1

n− 1

n∑i=1

[xi − x]2.

În funcµie de faptul dac avem sau nu informaµii suplimentare despre dispersie, g sim c intervalul deîncredere pentru σ2 este:

Page 51: Statistic ˘ a Aplicat ˘ a

SA 3 [Dr. Iulian Stoleriu] 50

(1) nu avem informaµii suplimentare despre dispersie:

(σ2, σ2) =

((n− 1)s2

χ21−α

2;n−1

,(n− 1)s2

χ2α2

;n−1

), (5.9)

unde prin χ2α;n−1 am notat cuantila de ordin α pentru repartiµia χ2 cu (n− 1) grade de libertate.

(2) avem informaµii c dispersia este nem rginit superior:

(σ2, σ2) =

((n− 1)s2

χ21−α;n−1

, +∞)

; (5.10)

(3) avem informaµii c dispersia este nem rginit inferior:

(σ2, σ2) =

(0,

(n− 1)s2

χ2α;n−1

). (5.11)

Intervale de încredere pentru deviaµia standard se obµin prin extragerea r d cinii p trate din capetele dela intervalele de încredere pentru dispersie.

Interval de încredere pentru proporµii într-o populaµie binomial

Pentru o populaµie statistic , prin proporµie a populaµiei vom înµelege procentul din întreaga colectivitatece satisface o anumit proprietate (sau are o anumit caracteristic ) (e.g., proporµia de studenµi integrali³tidintr-o anumit facultate). Pe de alt parte, prin proporµie de selecµie înµelegem procentajul din valorile deselecµie ce satisfac o anumit proprietate (e.g., proporµia de studenµi integrali³ti dintr-o selecµie aleatoarede 40 de studenµi ai unei facult µi). Proporµia unei populaµii este un parametru (pe care îl vom nota cup), iar proporµia de selecµie este o statistic (pe care o not m aici prin p).

Fie X o caracteristic binomial a unei colectivit µi, cu probabilitatea de succes p (e.g., num rul desteme ap rute la aruncarea unei monede ideale, caz în care p = 0.5). Dorim s construim un intervalde încredere pentru proporµia populaµiei, p. Pentru aceasta, avem nevoie de selecµii de volum mare dinaceast colectivitate. Un estimator potrivit pentru p este proporµia de selecµie, adic

p = p =X

n.

Printr-un "volum mare" vom înµelege un n ce satisface: n ≥ 30, n p > 5 ³i n (1 − p) > 5. Mediavariabilei aleatoare X este E(X) = np, iar dispersia este D2(X) = np(1 − p). Putem scrie pe X ca

ind X =n∑i=1

Xi, unde Xi sunt variabile aleatoare Bernoulli B(1, p). Pentru un volum n mare, variabila

aleatoare X satisface (conform teoremei limit central aplicat ³irului Xii):

X − n p√n p (1− p)

=Xn − p√p (1− p)

n

=p − p√p (1− p)

n

∼ N (0, 1).

Pe baza acestui rezultat, putem construi un interval de încredere pentru p, de forma:(p− z1−α

2

√p (1− p)

n, p+ z1−α

2

√p (1− p)

n

). (5.12)

Page 52: Statistic ˘ a Aplicat ˘ a

SA 3 [Dr. Iulian Stoleriu] 51

Deoarece p nu este a priori cunoscut, p a fost înlocuit sub radical cu estimatorul s u. Valoarea

E = z1−α2

√p (1− p)

n(5.13)

se nume³te eroarea standard a proporµiei. E este eroarea care se face prin estimarea lui p prin intervalulde încredere dat de (5.12).

Acest interval de încredere este valabil pentru selecµie dintr-o populaµie innit (sau n N , de regul n < 0.05N) sau pentru selecµia cu repetiµie dintr-o populaµie nit . Dac selecµia se realizeaz f r repetiµie dintr-o populaµie nit (cu N astfel înât n ≥ 0.05N), atunci intervalul de încredere este:(

p− z1−α2

√p (1− p)

n

√N − nN − 1

, p+ z1−α2

√p (1− p)

n

√N − nN − 1

). (5.14)

Observaµia 5.2. [1] Dac se dore³te estimarea volumului selecµiei pentru care se obµine estimareaproporµiei p printr-un interval de încredere cu o eroare maxim E , atunci folosim formula (5.13). Dac am putea ghici proporµia populaµiei, p, atunci g sim urm toarea estimare a volumului selecµiei:

n =

[p(1− p)

(z1−α

2

E

)2], (5.15)

unde [ · ] este partea întreag . Dac p nu poate ghicit, atunci folosim faptul c p(1 − p) este maximpentru p = 0.5 ³i estim m pe n prin

n =

[1

4

(z1−α

2

E

)2].

[2] Exist ³i alte metode de a determina intervale de încredere pentru proporµie. Spre exemplu, intervalulurm tor, obµinut de E. B. Wilson în 1927, este o îmbun t µire a intervalului (5.12), care ofer rezultatefoarte bune chiar ³i pentru un n mic sau pentru valori extreme ale lui p.

1

1 + 1nz

21−α

2

[p+

1

2nz2

1−α2± z1−α

2

√1

np (1− p) +

1

4n2z2

1−α2

](5.16)

Dou populaµii statistice

Interval de încredere pentru diferenµa mediilor

Fie X1 ³i X2 caracteristicile a dou populaµii. Presupunem ca aceste variabile sunt normale, N (µ1, σ1),respectiv, N (µ1, σ1). Intervalul de incredere pentru diferenta mediilor este bazat pe cate o selectie alea-toare pentru ecare variabila. Alegem din prima populaµie o selecµie repetat de volum n1, notat prin(X1k)k=1, n1

, ce urmeaz repartiµia lui X1, iar din a doua populaµie alegem o selecµie repetat de vo-lum n2, notat prin (X2k)k=1, n2

, ce urmeaz repartiµia lui X2. Fix m nivelul de semnicaµie α. Fie(x1k)k=1, n1

si (x2k)k=1, n2realizarile variabilelor corespunzatoare. S not m dispersiile de selecµie pentru

ecare caracteristic prin

s21 =

1

n1 − 1

n1∑i=1

(x1k − x1)2 ³i s22 =

1

n2 − 1

n2∑i=1

(x2k − x2)2.

Page 53: Statistic ˘ a Aplicat ˘ a

SA 3 [Dr. Iulian Stoleriu] 52

Un estimator punctual pentru µ1 − µ2 este x1 − x2.Deviaµia standard a acestui estimator depinde de informaµia ce o avem despre dispersii. Ele pot :cunoscute, necunoscute ³i egale, necunoscute ³i diferite.

Tipic, intervalul de încredere pentru diferenµa mediilor se va scrie sub forma(x1 − x2 − q1−α

2sx1−x2

),

unde q1−α2este cuantila de ordin 1− α

2 specic ec rui caz. Distingem urm toarele trei cazuri:

(1) dispersiile σ21 ³i σ

22 sunt cunoscute a priori. Atunci, un interval de încredere pentru diferenµa mediilor

este: x1 − x2 − z1−α2

√σ2

1

n1+σ2

2

n2, x1 − x2 + z1−α

2

√σ2

1

n1+σ2

2

n2

.

(2) dispersiile σ21 = σ2

2 = σ2 ³i necunoscute. In acest caz, un interval de încredere pentru µ1 − µ2 este:x1 − x2 − t1−α2

; n1+n2−2

√(n1 − 1)s2

1 + (n2 − 1)s22

(n1 + n2 − 2

1n1

+ 1n2

)− 12

,

x1 − x2 + t1−α2

; n1+n2−2

√(n1 − 1)s2

1 + (n2 − 1)s22

(n1 + n2 − 2

1n1

+ 1n2

)− 12

.

(3) dispersiile σ21 6= σ2

2, necunoscute. Atunci, un interval de încredere pentru µ1 − µ2 la nivelul desemnicaµie α este:x1 − x2 − t1−α

2; m

√s2

1

n1+s2

2

n2, x1 − x2 + t1−α

2; m

√s2

1

n1+s2

2

n2

,

unde

m =

(s2

1

n1+s2

2

n2

)2

(s2

1

n1

)21

n1 − 1+

(s2

2

n2

)21

n2 − 1

− 2.

Pentru un volum de selecµie n mare (n ≥ 30), intervalele de încredere obµinute mai sus r mân acelea³ipentru orice form a repartiµiei caracteristicii X, nu neap rat pentru una gaussian .

Interval de încredere pentru raportul dispersiilor

Fie X1 ³i X2 caracteristicile a dou populaµii normale, N (µ1, σ1), respectiv, N (µ2, σ2), pentru care nuse cunosc mediile ³i dispersiile teoretice. Alegem din prima populaµie o selecµie repetat de volum n1 ceurmeaz repartiµia lui X1, iar din a doua populaµie alegem o selecµie repetat de volum n2 ce urmeaz repartiµia lui X2. Fix m nivelul de semnicaµie α. Un interval de încredere pentru raportul dispersiilor,

σ21/σ2

2

Page 54: Statistic ˘ a Aplicat ˘ a

SA 3 [Dr. Iulian Stoleriu] 53

este: (s2

1

s22

fα2, n1−1, n2−1,

s21

s22

f1−α2, n1−1, n2−1

), (5.17)

unde fn,m;α reprezint cuantila de ordin α pentru repartiµia Fisher cu (n, m) grade de libertate.

Interval de încredere pentru diferenµa proporµiilor într-o populaµie binomial

Fie X1 ³i X2 dou caracteristici binomiale independente ale unei populaµii, cu volumele ³i probabilit µilede succes n1, p1 ³i, respectiv, n2, p2. Dorim s a m un interval de încredere pentru diferenµa proporµiilor,p1 − p2. Pentru a reu³i aceasta, avem nevoie de selecµii de volum mare. Condiµiile testului sunt: n1 ≥30, n2 ≥ 30, n1p1 > 5, n2p2 > 5, n1(1− p1) > 5, n2(1− p2) > 5.

Un estimator punctual pentru p1 − p2 este p1 − p2.

Deviaµia standard a acestui estimator este sp1−p2 =√

p1 (1−p1)n1

+ p2 (1−p2)n2

.

La un nivel de semnicaµie α, un interval de încredere pentru p1 − p2 este:(p1 − p2 − z1−α

2sp1−p2 , p1 − p2 + z1−α

2sp1−p2

)(5.18)

Page 55: Statistic ˘ a Aplicat ˘ a

LSA 3 [Dr. Iulian Stoleriu] 54

6 Statistica Aplicata (L3)

Exerciµiu 6.1. Un studiu susµine c între 35% ³i 40% dintre elevii de liceu din µar fumeaz . Cât demare ar trebui s e volumul unei selecµii dintre elevii de liceu pentru a estima procentul real de elevi cefumeaz , cu o eroare de estimare maxim de 0.5%. Se va alege nivelul de semnicaµie α = 0.1.Soluµie: Folosim formula (5.15), pentru p = 0.4 (se alege valoarea 40%, cea mai apropiat de 50%).Cuantila este z0.95 = 1.28. G sim c o estimaµie pentru n este:

n =

[0.4(1− 0.4)

(1.64

0.005

)2]

= 25820. √

Exerciµiu 6.2. O fabric produce batoane de ciocolat cânt rind 100g ecare. Pentru a se estima aba-terea masei de la aceast valoare, s-a f cut o selecµie de 35 de batoane, obµinându-se valorile:

100.12; 99.92; 100.1; 99.89; 100.07; 99.88; 100.11; 99.90; 99.97; 100.2;

99.89; 100.15; 99.9; 99.7; 100.2; 99.7; 100.2; 100.1; 100.04; 99.89;

99.76; 100.1; 99.24; 98.19; 100.15; 100.5; 99.79; 98.95; 100.23; 99.89;

100.12; 98.63; 99.03; 100.3; 98.68.

G siµi un interval de încredere (cu α = 0.05) pentru deviaµia standard masei batoanelor produse de res-pectiva fabric .

Soluµie: Mai întâi, calcul m d2(x). Avem:

d2(x) =1

35

35∑i=1

[Xi − 100]2 = 0.3.

Din tabele, sau utilizând Matlab, g sim cuantilele:

χ20.975; 35 = 53.2033; χ2

0.025; 35 = 20.5694.

În Matlab, cuantilele se calculeaz astfel:

icdf('chi2',0.975, 35); icdf('chi2',0.025, 35)

Intervalul de încredere pentru dispersie este (folosind formula (5.6)):

(σ2, σ2) = (0.20, 0.51).

Pentru variaµia standard, intervalul de încredere este:

(σ, σ) = (√

0.2,√

0.51) = (0.44, 0.71). √

Page 56: Statistic ˘ a Aplicat ˘ a

LSA 3 [Dr. Iulian Stoleriu] 55

Exerciµiu 6.3. G siµi un interval de încredere (cu α = 0.05) pentru deviaµia standard a conµinutului denicotin a unui anumit tip de µig ri, dac o selecµie de 24 de buc µi are deviaµia standard a conµinutuluide nicotin de 1.6mg.

Soluµie: Mai întâi, s = d∗(x) = 1.6. Din tabele, sau utilizând Matlab, g sim:

χ20.975; 24 = 39.3641; χ2

0.025; 24 = 12.4012.

Intervalul de încredere pentru dispersie este (folosind formula (5.9)):

(σ2, σ2) = (1.56, 4.95).

Pentru variaµia standard, intervalul de încredere este:

(√

1.5608,√

4.9544) = (1.25, 2.22). √

Exerciµiu 6.4. O selecµie aleatoare de volum n = 25 cu media se selecµie x = 50 se ia dintr-o populaµiede volum N = 1000, ce are deviaµia standard σ = 2.(a) Dac presupunem c populaµia este normal , g siµi un interval de încredere pentru media populaµiei,cu α = 0.05.(b) G siµi un interval de încredere pentru media populaµiei (α = 0.05) în cazul în care populaµia nu estenormal .

Soluµie: (a) Folosim formula (5.2). G sim intervalul de încredere

(µ, µ) =

(50− z0.975

2√25, 50 + z0.975

2√25

)= (48.4, 51.6).

(b) Deoarece populaµia nu este normal distribuit ³i nici volumul populaµiei nu este mare (n < 30), vomestima intervalul de încredere bazându-ne pe inegalitatea lui Cebâ³ev. Aceasta spune c , dac X este ovariabil aleatoare ce admite medie (µ) ³i dispersie (σ2), atunci are loc inegalitatea

P ((X − µ)2 ≥ a) ≤ σ2

a2, pentru orice a > 0,

Aplic m inegalitatea lui Cebâ³ev pentru variabila X. Luând a = kσ, g sim c probabilitatea ca valorilelui X s e aproximate prin µX = µ cu o eroare de cel mult k deviaµii standard este:

P (|X − µX | < kσX) ≥ 1− 1

k2.

Luând 1− 1

k2= 0.95, g sim k =

√20. Astfel, un interval de încredere pentru media populaµiei va

(µ, µ) =

(x− k σ√

n, x+ k

σ√n

)=

(50−

√20

2√25, 50 +

√20

2√25

)= (46.42, 53.58).

Am folosit faptul c σ2X

= D2(X) =σ2

n. Observ m c acest interval este mai mare decât cel g sit anterior,

de aceea inegalitatea lui Cebî³ev este rar folosit pentru a determina intervale de încredere. Totu³i, în acestcaz nu aveam o alt alternativ de calcul. Dac se dore³te o precizie mai bun , ar indicat ca volumulselecµiei s e de cel puµin 30, caz în care putem folosi aproximarea cu repartiµia normal . √

Page 57: Statistic ˘ a Aplicat ˘ a

LSA 3 [Dr. Iulian Stoleriu] 56

Exerciµii propuse

Exerciµiu 6.5. Într-o ³coal sunt 200 de elevi de clasa a XII-a care au susµinut tez la Matematic .Tabelul urm tor conµine o selecµie aleatoare de 36 de note la aceast tez :

note 4 5 6 7 8 9 10

frecvenµa 5 6 7 8 5 3 2

[1] Estimaµi punctual media, dispersia ³i mediana populaµiei din care provine aceast selecµie, precizândformulele folosite.

[2] Determinati un interval de incredere pentru media populatiei la nivelul α = 0.04.[3] Scrieµi funcµia de repartiµie empiric ³i desenaµi gracul acesteia.[4] Estimaµi printr-un interval de încredere procentul notelor de trecere obµinute de elevii de clasa a

XII-a din acea ³coal (α = 0.04).

Exerciµiu 6.6. Tabelul urm tor conµine preµurile la Benzin 95 pentru o selecµie de 64 de benzin rii dinµar .

preµul (6.10, 6.15] (6.15, 6.20] (6.20, 6.25] (6.25, 6.30] (6.30, 6.35] (6.35, 6.40]

frecvenµa 6 8 16 19 10 5

[1] Estimaµi punctual media, dispersia ³i mediana populaµiei din care provine aceast selecµie, precizândformulele folosite.

[2] Reprezentati datele prin histograme.[3] Determinaµi un interval de încredere pentru preµul mediu al benzinei în µar (α = 0.04).

Exerciµiu 6.7. În urma arunc rii unei monede de 4050 de ori, s-a observat c faµa cu stema a ap rutde 2052 ori. Determinaµi un interval de încredere pentru probabilitatea de apariµie a feµei cu stema laaruncarea respectivei monede. Se va lua nivelul de semnicaµie α = 0.05.

Exerciµiu 6.8. La un control de calitate, dintr-un lot de 150 de piese, 5 au fost g site defecte. Determinaµiun interval de încredere cu α = 0.01 pentru probabilitatea ca o pies luat la întâmplare s e defect .

Exerciµiu 6.9. Cât de mare ar trebui s e volumul selecµiei, pentru a estima proporµia de fum tori dinµar cu o eroare de cel mult 2%, ³i o probabilitate de încredere de 0.95?

Exerciµiu 6.10. Un studiu recent arat c dintre 120 de accidente rutiere ce s-au soldat cu victime, 56era datorate consumului de alcool. G siµi un interval de încredere care s estimeze cu o probabilitate derisc α = 0.05 procentul real al accidentelor rutiere cauzate de consumul de alcool.

Exerciµiu 6.11. Fie selecµia

871 822 729 794 523 972 768 758 583 893 598 743 761 858 948

598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731

S se estimeze varianµa populaµiei din care provine aceast selecµie.

Page 58: Statistic ˘ a Aplicat ˘ a

LSA 3 [Dr. Iulian Stoleriu] 57

Exerciµiu 6.12. Fie X1, X2, . . . , Xn o selecµie repetat de volum n mare, luat dintr-o caracteristic ceare media µ necunoscut ³i dispersia 4. Determinaµi volumul selecµiei pentru care, cu o probabilitate de99% putem estima pe µ cu o eroare de o zecime.

Exerciµiu 6.13. La un control de calitate, dintr-un lot de 150 de piese, 5 s-au g sit a avea defecte.Determinaµi un interval de încredere cu α = 0.01 pentru probabilitatea ca o pies luat la întâmplare s e defect .

Exerciµiu 6.14. Un angajat la Serviciu Forµelor de Munc dore³te s fac un sondaj prin care s determineprocentul de persoane dintr-o regiune a µ rii ce lucreaz la negru. El dore³te s e 98% sigur c rezultatulg sit estimeaz procentul real cu o eroare de cel mult 2%. Dintr-un sondaj recent, la care au participat1500 de persoane angajate, 273 au declarat c nu li s-au f cut carte de munc .(a) Cât de mare ar trebui s e volumul selecµiei pentru a realiza estimarea dorit ?(b) Dac nu ar avea acces la acel sondajul recent, cât de mare ar trebui s e volumul selecµiei pentru arealiza estimarea dorit ?

Page 59: Statistic ˘ a Aplicat ˘ a

CSA 4 [Dr. Iulian Stoleriu] 58

Statistica Aplicata (C4)

7 Testarea ipotezelor statistice (C4)

Punerea problemei

Testarea ipotezelor statistice este o metod prin care se iau decizii statistice, utilizând datele experimentaleculese. Testele prezentate mai jos au la baz noµiuni din teoria probabilit µilor. Aceste teste ne permitca, plecând de la un anumit sau anumite seturi de date culese experimental, s se putem valida anumiteestim ri de parametri ai unei repartiµii sau chiar putem prezice forma legii de repartiµie a caracteristiciiconsiderate.Presupunem c X este variabila de interes a unei populaµii statistice ³i c legea sa de probabilitate estedat de depinde de un parametru θ. In general, o repartitie poate depinde de mai multi parametri, insaaici vom discuta doar cazul unui singur parametru. De asemenea, s presupunem c (xk)k=1, n sunt dateleobservate relativ la caracteristica X.

Numim ipotez statistic o presupunere relativ la valorile parametului θ sau chiar referitoare latipul legii caracteristicii.

O ipotez neparametric este o presupunere relativ la repartitia lui X. De exemplu, o ipotez degenul X ∼ Normal .

Numim ipotez parametric o presupunere f cut asupra valorii parametrilor unei repartiµii. Dac mulµimea la care se presupune c aparµine parametrul necunoscut este format dintr-un singurelement, avem de-a face cu o ipotez parametric simpl . Altfel, avem o ipotez parametric compus .

O ipotez nul este acea ipotez pe care o intuim a cea mai apropiat de realitate ³i o presupunema priori a adev rat . Cu alte cuvinte, ipoteza nul este ceea ce dore³ti s crezi, în cazul în care nuexist suciente evidenµe care s sugereze contrariul. Un exemplu de ipotez nul este urm toarul:"presupus nevinovat, pân se g sesc dovezi care s ateste o vin ". O ipotez alternativ este oricealt ipotez admisibil cu care poate confruntat ipoteza nul .

A testa o ipotez statistic (en., statistical inference) înseamn a lua una dintre deciziile:

− ipoteza nul se respinge (caz in care ipoteza alternativa este admisa)− ipoteza nul se admite (sau, nu sunt motive pentru respingerea ei)

În Statistic , un rezultat se nume³te semnicativ din punct de vedere statistic dac este improbabilca el s se realizat datorit ³ansei. Între dou valori exist o diferenµ semnicativ dac exist suciente dovezi statistice pentru a dovedi diferenµa, ³i nu datorit faptului c diferenµa ar mare.

Numim nivel de semnicaµie probabilitatea de a respinge ipoteza nul când, de fapt, aceasta esteadev rat . În general, nivelul de semnicaµie este o valoare pozitiva apropiata de 0, e.g., una dintrevalorile: α = 0.01, 0.02, 0.05 etc. Intr-o analiza statistica sau soft statistic, valoarea implicitapentru α este 0.05.

În urma unui test statistic pot aparea dou tipuri de erori:

1. eroarea de speµa (I) sau riscul furnizorului (en., false positive) − este eroarea care se poatecomite respingând o ipotez (în realitate) adev rat . Se mai nume³te ³i risc de genul (I).

Page 60: Statistic ˘ a Aplicat ˘ a

CSA 4 [Dr. Iulian Stoleriu] 59

Probabilitatea acestei erori este egala chiar nivelul de semnicaµie α, adic :

α = P (H0 se respinge | H0 este adev rat ).

2. eroarea de speµa a (II)-a sau riscul beneciarului (en., false negative) − este eroarea care sepoate comite acceptând o ipotez (în realitate) fals . Se mai nume³te ³i risc de genul al (II)-lea.Probabilitatea acestei erori este

β = P (H0 se admite | H0 este fals ).

Gravitatea comiterii celor dou erori depinde de problema studiat . De exemplu, riscul de genul (I)este mai grav decât riscul de genul al (II)-lea dac veric m calitatea unui articol de îmbrac minte,iar riscul de genul al (II)-lea este mai grav decât riscul de genul (I) dac veric m concentraµia unuimedicament.

Denumim valoare P sau P−valoare sau nivel de semnicaµie observat (en., P-value) probabilitateade a obµine un rezultat cel puµin la fel de extrem ca cel observat, presupunând c ipoteza nul esteadev rat . Valoarea P este cea mai mic valoare a nivelului de semnicaµie α pentru care ipoteza(H0) ar respins , bazându-ne pe observaµiile culese. Dac Pv ≤ α, atunci respingem ipoteza nul la nivelul de semnicaµie α, iar dac Pv > α, atunci admitem (H0). Cu cât Pv este mai mic , cu atâtmai mari ³anse ca ipoteza nul s e respins . De exemplu, dac valoarea P este Pv = 0.045 atunci,bazându-ne pe observaµiile culese, vom respinge ipoteza (H0) la un nivel de semnicaµie α = 0.05sau α = 0.1, dar nu o putem respinge la un nivel de semnicaµie α = 0.02. Dac ne raport m laP−valoare, decizia într-un test statistic poate f cut astfel: dac aceasta valoare este mai mic decât nivelul de semnicaµie α, atunci ipoteza nul este respins , iar dac P−value este mai maredecât α, atunci ipoteza nul nu poate respins .

Un exemplu simplu de test este testul de sarcin . Acest test este, de fapt, o procedur statistic ce ned dreptul s decidem dac exist sau nu suciente evidenµe s concluzion m c o sarcin este prezent .Ipoteza nul ar lipsa sarcinii. Majoritatea oamenilor în acest caz vor c dea de acord cum c un false

negative este mai grav decât un false positive.

S presupunem c suntem într-o sal de judecat ³i c judec torul trebuie s decid dac un inculpat estesau nu vinovat. Are astfel de testat urm toarele ipoteze:

(H0) inculpatul este nevinovat;

(H1) inculpatul este vinovat.

Posibilele st ri reale (asupra c rora nu avem control) sunt:

[1] inculpatul este nevinovat (H0 este adev rat ³i H1 este fals );

[2] inculpatul este vinovat (H0 este fals ³i H1 este adev rat )

Deciziile posibile (asupra c rora avem control − putem lua o decizie corect sau una fals ) sunt:

[i] H0 se respinge (dovezi suciente pentru a încrimina inculpatul);

[ii] H0 nu se respinge (dovezi insuciente pentru a încrimina inculpatul);

Page 61: Statistic ˘ a Aplicat ˘ a

CSA 4 [Dr. Iulian Stoleriu] 60

Situaµie real Decizii H0 - adev rat H0 - fals

Respinge H0 [1]&[i] [2]&[i]Accept H0 [1]&[ii] [2]&[ii]

Tabela 7.1: Posibilit µi decizionale.

Situaµie real Decizii H0 - adev rat H0 - fals

Respinge H0 închide o persoana nevinovat închide o persoana vinovat Accepta H0 elibereaz o persoana nevinovat elibereaz o persoana vinovat

Tabela 7.2: Decizii posibile.

Situaµie real Decizii H0 - adev rat H0 - fals

Respinge H0 α judecat corect Accepta H0 judecat corect β

Tabela 7.3: Erori decizionale.

În realitate, avem urm toarele posibilit µi, sumarizate în Tabelul 7.1:

Interpret rile datelor din Tabelul 7.1 se g sesc în Tabelul 7.2.

Erorile posibile ce pot aparea sunt cele din Tabelul 7.3.

Tipuri de teste statistice

Tipul unui test statistic este determinat de ipoteza alternativ (H1). Avem astfel:

test unilateral stânga, atunci când ipoteza alternativ este θ < θ0 (vezi Figura 7.1 (a));

test unilateral dreapta, atunci când ipoteza alternativ este θ > θ0 (vezi Figura 7.1 (b));

test bilateral, atunci când ipoteza alternativ este θ 6= θ0 (vezi Figura 7.2);

A³adar, pentru a construi un test statistic vom avea nevoie de o regiune critic . Pentru a construi aceast regiune critic vom utiliza metoda intervalelor de încredere. Dac valoarea observat se a în regiuneacritic (adic în afara intervalului de încredere), atunci respingem ipoteza nul .

Page 62: Statistic ˘ a Aplicat ˘ a

CSA 4 [Dr. Iulian Stoleriu] 61

Figura 7.1: Regiune critic pentru test (a) unilateral stânga, (b) unilateral dreapta.

Figura 7.2: Regiune critic pentru test bilateral.

Etapele unei test ri parametrice

Consider m o selecµie întâmpl toare x1, x2, . . . , xn de observaµii asupra caracteristicii de interes.De multe ori, aceast selecµie provine dintr-o repartiµie normal . În caz contrar, va trebui ca volumulselecµiei s e mare, de regula n ≥ 30. Fie X1, X2, . . . , Xn variabile aleatoare de selecµie;

Alegem o statistic (criteriu) S(X1, X2, . . . , Xn) care, dup acceptarea ipotezei (H0), aceast areo repartiµie cunoscut , independent de parametrul testat;

Alegem un nivel de semnicaµie α apropiat de 0. De regul , α = 0.01, 0.02, 0.05.

G sim regiunea critic U ;

Calcul m valoarea s0 a statisticii S(X1, X2, . . . , Xn) pentru selecµia considerat ;

Lu m decizia:

Dac s0 ∈ U , atunci ipoteza nul , (H0), se respinge;

Dac s0 6∈ U , atunci ipoteza nul , (H0), se admite (mai bine zis, nu avem motive s o respingem³i o admitem pân la efectuarea eventual a unui test mai puternic).

Page 63: Statistic ˘ a Aplicat ˘ a

CSA 4 [Dr. Iulian Stoleriu] 62

Teste parametrice

Testul t pentru medie

Testul t pentru medie se folose³te pentru selecµii normale de volum mic, de regul n < 30, când dispersiapopulaµiei este necunoscut a priori.Fie caracteristica X ce urmeaz legea normal N (µ, σ) cu µ necunoscut ³i σ > 0 necunoscut.

Vrem s veric m ipoteza nul (H0) : µ = µ0

versus ipoteza alternativ (H1) : µ 6= µ0,

cu probabilitatea de risc α.

Metoda I: Etapele testului sunt urmatoarele:

Obtinem o multime de masuratori asupra variabilei X: x1, x2, . . . , xn.

Pe baza acestor masuratori putem calcula media si deviatia standard:

x =1

n

n∑i=1

xi si s =

√√√√ 1

n− 1

n∑i=1

(xi − x)2.

Calculam statisticat0 =

x− µ0s√n

. (7.1)

Decizia se ia astfel:

dac |t0| < t1−α2

; n−1, atunci admitem (H0).

dac |t0| ≥ t1−α2

; n−1, atunci respingem (H0).

Observaµia 7.1. Regiunea critic este complementara intervalului de încredere. Decizia se ia astfel:

dac t0 =x− µ0

s√n

∈(−t1−α

2; n−1, t1−α

2; n−1

)(echivalent, t0 6∈ U), atunci admitem (H0).

dac t0 =x− µ0

s√n

6∈(−t1−α

2; n−1, t1−α

2; n−1

)(echivalent, t0 ∈ U), atunci respingem (H0).

Metoda a II-a: O alt modalitate de testare a unei ipoteze statistice parametrice este prin intermediulP−valorii, Pv. Reamintim, P−valoarea este probabilitatea de a obµine un rezultat cel puµin la fel deextrem ca cel observat, presupunând c ipoteza nul este adev rat . Aceasta valoare este asata de oricesoft statistic folosit in testarea ipotezelor. Daca S este statistica test, atunci

Pv = P (|S| > |s0|) = P (S > |s0|) + P (S < −|s0|), (7.2)

Page 64: Statistic ˘ a Aplicat ˘ a

CSA 4 [Dr. Iulian Stoleriu] 63

unde S este statistica folosit în testare ³i s0 este valoarea acestei statistici pentru selecµia dat (respectiv,selecµiile date, în cazul test rii cu dou selecµii).

Pentru testul unilateral stânga, P−valoarea se poate calcula dup formula:

Pv = P (S < s0), (7.3)

iar pentru testul unilateral dreapta, P−valoarea este dat de:

Pv = P (S > s0), (7.4)

Utilizând P−valoarea, testarea se face astfel:Ipoteza nul va respins dac Pv < α ³i va admis dac Pv ≥ α. A³adar, cu cât Pv este mai mic, cuatât mai multe dovezi de respingere a ipotezei nule.

Test pentru dispersie

Pentru variabila X ca mai sus dorim sa testam ipoteza:

(H0) : σ2 = σ20 vs. ipoteza alternativ (H1) : σ2 6= σ2

0,

cu probabilitatea de risc α. Etapele testului sunt urmatoarele:

Obtinem o multime de masuratori asupra variabilei X: x1, x2, . . . , xn.

Pe baza acestor masuratori putem calcula media si deviatia standard:

x =1

n

n∑i=1

xi si s =

√√√√ 1

n− 1

n∑i=1

(xi − x)2.

Calculam statisticaχ2

0 =n− 1

σ2s2, (7.5)

Luarea deciziei se face astfel:

dac χ20 ∈

(χ2α2

;n−1, χ21−α

2;n−1

), atunci admitem (H0) (i.e., σ2 = σ2

0);

dac χ20 6∈

(χ2α2

;n−1, χ21−α

2;n−1

), atunci respingem (H0) (i.e., σ2 6= σ2

0).

Observaµia 7.2. Decizia testului putea luat ³i pe baza P−valorii. Valoarea ei pentru testul unilateralstânga (resp., dreapta) este

Pv = P (χ2 < χ20) (resp., Pv = P (χ2 > χ2

0)).

Pentru testul bilateral este dublul celei mai mic valori dintre cele dou de mai sus.

Page 65: Statistic ˘ a Aplicat ˘ a

CSA 4 [Dr. Iulian Stoleriu] 64

Test pentru proporµie într-o populaµie binomial

Fie X o caracteristic binomial a unei colectivit µi, cu probabilitatea de succes p. Pe baza unor selecµiiale populaµiei, dorim s test m urm toarea ipotez asupra lui p:

(H0) : p = p0 vs. (H1) : p 6= p0.

De asemenea, putem considera ³i ipoteze alternative unilaterale:

(H1)s : p < p0 sau (H1)d : p > p0.

Pentru a putea testa acest ipotez , ne vom folosi de rezultatele din cursul precedent. S presupunemc volumul populaµiei (N) este mult mai mare posibil innit) decât volumul n al selecµiilor considerate.Fix m un nivel de semnicaµie α. Vom construi testul pentru proporµia populaµiei pe baza intervaluluide încredere (5.12).

Etapele testului sunt:

Pe baza selecµiei, calcul m proporµia de selecµie p, care este o estimare a proporµiei populaµiei, p;

Calcul m valoarea

P0 =p − p0√p0 (1− p0)

n

;

Calcul m cuantila z1−α2 ;

Dac P0 ∈

(−z1−α2 , z1−α2

),

atunci admitem ipoteza nul la acest nivel de semnicaµie. Altfel, o respingem. Regiunea critic estecomplementara intervalului de încredere.

Page 66: Statistic ˘ a Aplicat ˘ a

LSA 4 [Dr. Iulian Stoleriu] 65

8 Statistica Aplicata (L4)

Teste statistice

Exerciµiu 8.1.

Pentru a determina media notelor la teza de Matematica aelevilor dintr-un anumit oras, s-a facut un sondaj aleatorde volum n = 90 printre elevii din oras. Notele observatein urma sondajului sunt grupate in Tabelul 8.1. Dorim s test m, la nivelul de semnicaµie α = 0.05, dac mediatuturor notelor la teza de Matematic a elevilor din oraseste µ = 6.5.

nota 2 3 4 5 6 7 8 9 10

frecv. 2 4 8 15 18 17 15 7 4

Tabela 8.1: Tabel cu notele la teza

Soluµie: A³adar, avem de testat

(H0) µ = 6.5 vs. (H1) µ 6= 6.5.

Media si deviatia standard a notelor din tabel sunt:

x = 6.3667, s = 1.8570.

Valoarea statisticii t0 si pragul teoretic de referinta (cuantila) sunt:

t0 =x− µ0s√n

= −0.6812, t1−α2

; n−1 = t0.975; 89 = 1.9870.

Deoarece |t0| < t0.975; 89, luam decizia ca ipoteza (H0) este admisa la acest nivel de semnicatie. √

Metoda a II-a: Decizia testului putea luat ³i pe baza P−valorii. Aceasta poate calculata de un softstatistic, valoarea ei ind Pv = P (|T | > |t0|) = 0.4975, care este mai mare decat valoarea lui α. Astfel,ipoteza nula este admisa in acest caz.

Testul t pentru o selecµie în Matlab

Testul t poate simulat în Matlab utilizând comanda general

[h, p, ci, stats] = ttest(X,m0,alpha,tail)

unde:

h este rezultatul testului. Dac h = 1, atunci ipoteza nul se respinge, dac h = 0, atunci ipoteza nul nupoate respins pe baza observaµiilor facute (adic , se admite, pân la un test mai puternic);

p este valoarea P (P− value);

ci este un interval de încredere pentru µ, la nivelul de semnicaµie α;

m0 = µ0, valoarea testat ;

alpha este nivelul de semnicaµie;

tail poate unul dintre urm toarele ³iruri de caractere:

Page 67: Statistic ˘ a Aplicat ˘ a

LSA 4 [Dr. Iulian Stoleriu] 66

'both', pentru un test bilateral (poate s nu e specicat , se subînµelege implicit);

'left', pentru un test unilateral stânga (µ < µ0);

'right', pentru un test unilateral dreapta (µ > µ0);

variabila stats înmagazineaz urm toarele date:

tstat - este valoarea statisticii T pentru observaµia considerat ;

df - num rul gradelor de libertate ale testului;

sd - deviaµia standard de selecµie;

Pentru exercitiul 8.1, codul Matlab este:

n = 90; alpha = 0.05; m0 = 6.5;

x=2:10; f=[2 4 8 15 18 17 15 7 4];

xbar = x*f'/n; s = sqrt(sum(f.*(x-xbar).^2)/(n-1));

t0 = (xbar-m0)/(s/sqrt(n)); t = tinv(1-alpha/2,n-1);

if (abs(t0)< t);

disp('(H0)')

else

disp('(H1)')

end

Sau, folosind functia ttest:

n = 90; alpha = 0.05; m0 = 6.5;

X = [2*ones(1,2), 3*ones(1,4), 4*ones(1,8), 5*ones(1,15), 6*ones(1,18), ...

7*ones(1,17), 8*ones(1,15), 9*ones(1,7), 10*ones(1,4)];

[h, p, ci, stats] = ttest(X,m0,alpha,'both')"

aseaza:

h = p = ci = stats =

0 0.4975 5.9777 6.7556 tstat: -0.6812

df: 89

sd: 1.8570

Exerciµiu 8.2. Se cerceteaz caracteristica X, ce reprezint diametrul pieselor (în mm) produse de unstrung. Presupunem ca valorile observate urmeaza o repartitie normala. Pentru o selecµie de piese devolum n = 11 ³i obµinem distribuµia empiric :(

10.50 10.55 10.60 10.652 3 5 1

).

Page 68: Statistic ˘ a Aplicat ˘ a

LSA 4 [Dr. Iulian Stoleriu] 67

S se testeze (cu α = 0.1) ipoteza nul

(H0) : σ2 = 0.003,

versus ipoteza alternativ (H1) : σ2 6= 0.003.

Soluµie: Calculam mai intai s2 si apoi valoarea statisticii test. Obtinem s2 = 0.0022 si, astfel,χ2

0 = 100.003 · 0.0022 = 7.2727. Cuantilele sunt:

χ2α2

;n−1 = 3.9403; χ21−α

2;n−1 = 18.3070.

Astfel, intervalul teoretic de referinta este

χ20 ∈

(χ2α2

;n−1, χ21−α

2;n−1

)= (3.9403, 18.3070).

Cum valoarea χ20 = 7.2727 se aa in acest interval, tragem concluzia ca ipoteza nula nu poate respinsa.

(o acceptam). √

Metoda a II-a: Decizia testului putea luat ³i pe baza P−valorii. Deoarece P (χ2 < 7.2727) = 0.3005³i P (χ2 > 7.2727) = 0.6995, valoarea ei pentru testul bilateral este

Pv = 2P (χ2 < χ20) = 2 ∗ chi2cdf(7.2727,10) = 0.6011,

care este mai mare decat valoarea lui α. Astfel, ipoteza nula este admisa in acest caz.

Test pentru dispersie în Matlab

Testul pentru dispersie (varianµ ) poate simulat în Matlab utilizând comanda

[h, p, ci, stats] = vartest(X,var,alpha,tail)

unde:

h, p, ci, m0, alpha, stats, tail sunt la fel ca în funcµia ttest;

var este valoarea testat a dispersiei;

Pentru exercitiul 8.2, codul Matlab este

alpha = 0.1; n = 11; sig0 = 0.003;

x = [10.50 10.55 10.60 10.65];

f = [2 3 5 1];

xbar = x*f'/n; s2 = sum(f.*(x-xbar).^2)/(n-1);

c0 = (n-1)*s2/sig0;

c1 = chi2inv(alpha/2,n-1); c2 = chi2inv(1-alpha/2,n-1);

if (c1 < c0 & c0 < c2);

disp('(H0)')

else

disp('(H1)')

end

Page 69: Statistic ˘ a Aplicat ˘ a

LSA 4 [Dr. Iulian Stoleriu] 68

Sau, folosind functia vartest:

n = 11; alpha = 0.1; sig0 = 0.003;

X = [10.5*ones(1,2), 10.55*ones(1,3), 10.6*ones(1,5), 10.65];

[h, p, ci, stats] = vartest(X,sig0,alpha,'both')

aseaza:

h = p = ci = stats =

0 0.6011 0.0012 0.0055 tstat: 7.2727

df: 10

Page 70: Statistic ˘ a Aplicat ˘ a

LSA 4 [Dr. Iulian Stoleriu] 69

Exerciµii propuse

Exerciµiu 8.3.

În clasa a-IX-a a unui liceu sunt 160 de elevi. Reprezentarea stem&leaf demai jos conµine punctajele a 40 dintre ace³tia, obµinute la testul iniµial deMatematic (punctajul maxim este 100 de puncte).

(1) Calculaµi media, dispersia ³i modul pentru selecµia dat .(2) Estimaµi printr-un interval de încredere punctajul mediu la Matematic pentru elevii din acea ³coal (α = 0.06).(3) Estimaµi printr-un interval de încredere procentul elevilor din ³coal care au obµinut mai puµin de 50 de puncte la testul iniµial la Matematic (α = 0.06).(4) Testaµi ipoteza c 18% dintre elevii din acea ³coal au punctaje sub 50(α = 0.06).

stem leaf10 0 09 2 5 68 0 0 1 3 5 67 3 4 5 5 5 7 7 7 96 1 2 2 4 5 5 8 85 0 3 5 8 94 1 4 83 4 92 51 9

Exerciµiu 8.4.Tabelul al turat conµine repartiµia pe grupe de vârst ³i gen a unei selecµiialeatoare de 385 de ³omeri dintr-o anumit regiune a µ rii.[1] Calculaµi vârsta medie si deviaµia standard pentru selecµia dat .[2] Estimaµi printr-un interval de încredere vârsta medie a ³omerilor din acearegiune (α = 0.04).[3] Testaµi ipoteza c vârsta medie a ³omerilor este 42 de ani (α = 0.04).[4] Testaµi ipoteza c vârsta ³omerilor este o variabil aleatoare normal (α = 0.04).

vârsta frecvenµa[18, 25) 34[25, 35) 76[35, 45) 124[45, 55) 87[55, 65) 64

Exerciµiu 8.5. Caracteristica X reprezint cheltuielile lunare pentru convorbirile telefonice ale uneifamilii. În urma unui sondaj la care au participat 100 de familii, am obµinut datele (repartiµia de frecvenµe):(

[50, 75) [75, 100) [100, 125) [125, 150) [150, 175) [175, 200) [200, 250) [250, 300)6 11 13 18 20 14 11 7

).

(a) S se verice, cu nivelul de semnicaµie α = 0.02, ipoteza c media acestor cheltuieli lunare pentru osingur familie este de 140RON , ³tiind c abaterea standard este 35RON .(b) S se verice aceea³i ipotez , în cazul în care abaterea standard nu este cunoscut a priori.

Exerciµiu 8.6. La un examen naµional, se contabilizeaz nota x obµinut de ecare examinat în parte.Pentru o analiza statistic , se aleg la întâmplare 200 de candidaµi. S-a g sit c suma notelor alese este200∑i=1

xi = 1345.37 ³i suma p tratelor acestor note este200∑i=1

x2i = 10128.65. Se cer:

(a) G siµi un interval de încredere pentru media µ a tuturor notelor participanµilor la examen, la nivelulde semnicaµie α = 0.05.(b) Testaµi ipoteza nul (H0) : µ = 6.75, vs. ipoteza alternativ (H1) : µ 6= 6.75, la nivelul α = 0.05.Argumentaµi statistica folosit în testare.

Exerciµiu 8.7. Un patron susµine c rma sa nu face discriminare sexual la angajare (i.e., atât b rbaµii,cât ³i femeile au aceea³i ³ans de a se angaja în respectiva rm ). Se aleg 500 de angajaµi ³i se g sesc 267de b rbaµi. Testaµi la nivelul de semnicaµie 0.05 dac patronul rmei spune adev rul sau nu.

Page 71: Statistic ˘ a Aplicat ˘ a

LSA 4 [Dr. Iulian Stoleriu] 70

Exerciµiu 8.8. Dintre toate înregistr rile vitezelor vehiculelor ce trec prin dreptul radarului x a³ezat înfaµa universit µii, se aleg 10 date la întâmplare. Acestea sunt (în km/h):

48 44 55 45 47 41 39 49 55 52

Presupunem c selecµia face parte dintr-o populaµie normal .(a) G siµi un interval de încredere cu încrederea de 98% pentru viteza medie a vehiculelor ce trec prindreptul radarului.(b) Testaµi dac viteza medie cu care se circul prin faµa acestui radar este de 45km/h sau nu, considerându-se un nivel de semnicaµie α = 0.02 ;(c) Estimaµi probabilitatea ca viteza legal de 50km/h s fost dep ³it , folosind datele selecµiei consi-derate.

Exerciµiu 8.9. Informaµiile din tabelul de mai jos sunt date despre dou selecµii independente ce au fostextrase din dou populaµii statistice.

Selecµia Volumul selecµiei media de selecµie deviaµia standard de selecµie1 50 9.75 1.52 75 9.5 0.95

Se cer:(a) Estimaµi punctual ³i printr-un interval de încredere (α = 0.01) valoarea µ1 − µ2;(b) Testaµi (α = 0.01) ipoteza

(H0) : µ1 = µ2 vs. (H1) : µ1 6= µ2

Exerciµiu 8.10. O selecµie de 700 de salarii pe or din România arat c media salariului pe or estex = 11.42RON ³i s = 9.3. Putem decide, pe baza acestui sondaj, c media salariului pe or este, de fapt,µ > 9.78RON, valoare stabilit de guvernul român? Se va folosi α = 0.05.

Page 72: Statistic ˘ a Aplicat ˘ a

CSA 5 [Dr. Iulian Stoleriu] 71

Statistica Aplicata (C5)

9 Teste parametrice (continuare) (C5)

Teste parametrice pentru dou populaµii

Vom discuta mai jost 3 teste statistice: testul t pentru diferenta mediilor, testul pentru egalitatea a dou varianµe si testul pentru egalitatea a dou proporµii.

Fie X1 ³i X2 caracteristicile (independente) a dou populaµii normale, N (µ1, σ1), respectiv, N (µ2, σ2),pentru care nu se cunosc mediile teoretice. Alegem din prima populaµie o selecµie repetat de volum n1,x1 = x1 1, x1 2, . . . , x1n1, ce urmeaz repartiµia lui X1, iar din a dou populaµie alegem o selecµie repe-tat de volum n2, x2 = x2 1, x2 2, . . . , x2n2, ce urmeaz repartiµia lui X2. Fie (X1i)i=1, n1

³i (X2j)j=1, n2

aleatoare de selecµie corespunz toare ec rei selecµii. Fix m pragul de semnicaµie α.

Testul t pentru diferenµa mediilor a dou selecµii

Testul t pentru diferenµa mediilor se folose³te pentru selecµii normale independente de volum mic (n < 30),atunci când dispersiile populaµiilor considerate sunt necunoscute a priori. Dorim s test m ipoteza nul c mediile sunt egale

(H0) : µ1 = µ2

vs. ipoteza alternativ (H1) : µ1 6= µ2.

Pentru testul t pentru diferenµa mediilor distingem doua cazuri: (1) σ1 6= σ2 sunt necunoscute; (2)σ1 = σ2 ³i sunt necunoscute.

Etapele testul t pentru diferenµa mediilor

(1) Se dau: x1 1, x1 2, . . . , x1n1, x2 1, x2 2, . . . , x2n2

(date normale), µ0, α;

(2) Calculam x1, x2, s1 si s2 dupa formulele uzuale;

(3) Determin m valoarea t1−α2 ; m (unde m = N , dac σ1 6= σ2 sau m = n1 + n2 − 2, dac σ1 = σ2)astfel încât funcµia de repartiµie pentru repartiµia Student t(m),

Fm(t1−α2 ; m

)= 1− α

2. Aici, N =

(s21n1

+s22n2

)2

(s21n1

)21

n1 − 1+

(s22n2

)21

n2 − 1

− 2.

(4) Calculez valoarea

t0 =

x1 − x2√s21n1

+s22n2

, dac σ1 6= σ2

x1 − x2√(n1 − 1)s21 + (n2 − 1)s22

√n1 + n2 − 2

1n1

+ 1n2

, dac σ1 = σ2

Page 73: Statistic ˘ a Aplicat ˘ a

CSA 5 [Dr. Iulian Stoleriu] 72

(5) Dac :(i) |t0| < t1−α2 ; m, atunci µ1 = µ2;(ii) |t0| ≥ t1−α2 ; m, atunci µ1 6= µ2.

Observaµia 9.1. (1) În practic , nu putem ³ti a priori dac dispersiile teoretice a celor dou populaµiice urmeaz a testate sunt egale sau nu. De aceea, pentru a ³ti ce test s folosim, va trebui s test mmai întâi ipoteza c cele dou dispersii sunt egale, vs. ipoteza ca ele difer . Pentru aceasta, va trebuis utiliz m un test pentru raportul dispersiilor. Dup ce acest prim test a fost realizat, putem decide cevarianta folosim în testarea egalit µii mediilor.(2) Testul t pentru dou selecµii, bilateral sau unilateral, poate aplicat cu succes ³i pentru populaµiinon-normale, dac volumele selecµiilor observate sunt n1 ≥ 30, n2 ≥ 30.(3) Pentru testul t, P−valoarea se poate calcula dup urm toarele formule:

Pv = P (|T | > |t0|) = 1− Fm(|t0|) + Fm(−|t0|) (pentru testul T bilateral); (9.1)

Pv = P (T < t0) = Fm(t0) (pentru testul T unilateral stânga); (9.2)

Pv = P (T > t0) = 1− Fm(t0) (pentru testul T unilateral dreapta). (9.3)

unde m = N sau m = n1 + n2 − 2, dup caz.

Testul F pentru raportul a dou dispersii

Dorim s test m ipoteza nul c dispersiile teoretice σ1 si σ2 sunt egale

(H0) : σ21 = σ2

2

vs. ipoteza alternativ (H1) : σ2

1 6= σ22.

Calculam statistica:

f0 =σ2

2

σ21

s21

s22

. (9.4)

Calculam cuantilele pentru repartitia Fisher cu (n1 − 1, n2 − 1) grade de libertate:

fα2

; n1−1, n2−1 si f1−α2

; n1−1, n2−1.

Regula de decizie este:

dac f0 ∈(fα

2; n1−1, n2−1, f1−α

2; n1−1, n2−1

), atunci admitem (H0) (i.e., σ1 = σ2);

dac f0 6∈(fα

2; n1−1, n2−1, f1−α

2; n1−1, n2−1

), atunci respingem (H0) (i.e., σ1 6= σ2).

Testul pentru egalitatea a dou proporµii

Fie X1 ³i X2 dou caracteristici binomiale independente ale unei populaµii, cu volumele ³i probabilit µilede succes n1, p1 ³i, respectiv, n2, p2. Pe baza unor selecµii, dorim s test m ipotezele:

(H0) : p1 = p2 vs. (H1) : p1 6= p2.

Page 74: Statistic ˘ a Aplicat ˘ a

CSA 5 [Dr. Iulian Stoleriu] 73

De asemenea, putem considera ³i ipoteze alternative unilaterale:

(H1)s : p1 < p2 sau (H1)d : p1 > p2.

Pentru a putea testa acest ipotez , ne vom folosi de rezultatele din cursul precedent. S presupunem c volumul populaµiei (N) este mult mai mare (posibil innit) decât volumele selecµiilor considerate. Fix mun nivel de semnicaµie α. Dac ipoteza nul este admis , atunci p1 = p2 = p. Un estimator pentru peste frecvenµa relativ a num rului de succese cumulate în cele dou selecµii, i.e.,

p∗ =n1p1 + n2p2

n1 + n2.

Etapele testului sunt:

Calcul m proporµiile de selecµie p1 ³i p2, care sunt estim ri pentru p1, respectiv, p2;

Calcul m valoarea

P0 =p1 − p2√

p∗(1− p∗)(

1n1

+ 1n2

) ;

Calcul m cuantila z1−α2;

Dac P0 ∈

(−z1−α

2, z1−α

2

),

atunci admitem ipoteza nul la acest nivel de semnicaµie. Altfel, o respingem. Regiunea critic este complementara intervalului de încredere.

Teste de concordanµ

În general, testele de concordanµ (en., goodness-of-t tests) realizeaz concordanµa între repartiµia empi-ric (repartiµia datelor observate) ³i o repartiµie teoretic sau testeaz dac dou seturi de date observateprovin dintr-o aceea³i repartiµie. Dou dintre cele mai des utilizate teste de concordanµ sunt:

testul χ2 de concordanµ (pentru a testa concordanµa între repartiµia datelor obsevate ³i o repartiµieteoretic dat )

³i testul Kolmogorov-Smirnov (pentru a testa a testa concordanµa între repartiµia datelor obsevate³i o repartiµie teoretic dat (one-sample test) sau pentru a testa dac dou seturi de date observateprovin dintr-o aceea³i repartiµie (two-sample test).

Testul χ2 de concordanµ

Acest test de concordanµ poate utilizat ca un criteriu de vericare a ipotezei potrivit c reia un an-samblu de observaµii urmeaz o repartiµie dat . Se aplic la vericarea normalit µii, a exponenµialit µii,a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit ³i testul χ2 al lui Pearson sautestul χ2 al celei mai bune potriviri (en., goodness of t test). Acest test poate aplicat pentru orice tip

Page 75: Statistic ˘ a Aplicat ˘ a

CSA 5 [Dr. Iulian Stoleriu] 74

de date pentru care funcµia de repartiµie empiric poate calculat .

Cazul neparametric

S consider m o caracteristic X a unei populaµii statistice Ω. Repartiµia variabilei aleatoare X estenecunoscut a priori, îns intuim (sau avem anumite informaµii) cum c aceasta ar dat de legeade probabilitate complet specicat f(x, θ) (e.g., f(x) = e−2 2x

x! , x ∈ N (X ∼ P(2) ) sau f(x) =

13√

2πe

(x−5)2

18 (X ∼ N (5, 3) )).Deoarece legea de probabilitate ipotetic este complet specicat , θ este cunoscut ³i vom omite s maipunem în evidenµ dependenµa lui f de acesta în decursul aceste secµiuni.Pentru a verica ipoteza f cut asupra repartiµiei lui X, consider m un set de observaµii asupra lui X ³itest m concordanµa dintre repartiµia empiric a datelor observate cu legea teoretic dat de f(x). Fiex1, x2, . . . , xn setul de date observate. S not m cu F (x) funcµia de repartiµie teoretic , i.e., F ′ = f . Încele ce urmeaz , urm rim s aplic m testul χ2 de concordanµ , ale c rui etape sunt:

Descompunem în clase mulµimea observaµiilor f cute asupra lui X, astfel încât ecare element almulµimii aparµine unei singure clase. Scriem a³adar,

x1, x2, . . . , xn =k⋃i=1

Oi, Oi⋂Oj = ∅, ∀i 6= j.

Determin m frecvenµele empirice absolute, i.e., numerele ni de observaµii ce aparµin ec rei clase

Oi. În mod evident, va trebui s avem c k∑i=1

ni = n.

În general, se dore³te ca n ≥ 30 ³i ni ≥ 5, pentru ca testul s e concludent. În cazul în carenum rul de apariµii într-o anumit clas nu dep ³e³te valoarea 5, atunci se vor cumula dou saumai multe clase, astfel încât în noua clas s e respectat condiµia. De³i, dac avem cel puµin 5clase, atunci sunt suciente cel puµin 3 valori în ecare clas . În ambele cazuri, trebuie µinut contde modicarea num rului de clase, iar num rul k trebuie modicat corespunz tor (îl înlocuim cunoul num r, notat aici tot cu k).

Pentru ecare i ∈ 1, 2, . . . , k, determin m probabilitatea teoretic pi ca un element al populaµieis se ae în clasaOi. Aceast probabilitate este obµinut cu ajutorul funcµiei f(x). Astfel, frecvenµeleteoretice absolute sunt n pi, i ∈ 1, 2, . . . , k. Altfel spus, n pi este num rul estimat de valori alerepartiµiei cercetate ce ar c dea în clasa Oi.

Formul m ipoteza nul ,

(H0) : Funcµia de repartiµie a lui X este F (x).

Aceasta este echivalent cu

(H0) : probabilitatea unei observaµii de a aparµine clasei Oi este pi. (i = 1, 2, . . . , k).

Ipoteza alternativ este negaµia ipotezei nule.

Deviaµia între cele dou situaµii (empiric ³i teoretic ) este m surat de statistica

χ2 =

k∑i=1

(ni − n pi)2

n pi. (9.5)

Page 76: Statistic ˘ a Aplicat ˘ a

CSA 5 [Dr. Iulian Stoleriu] 75

(Fiecare dintre termenii(ni − n pi)2

n pipoate privit ca ind o eroare relativ de aproximare a valorilor

a³teptate ale repartiµiei cu valorile observate.)Statistica χ2 urmeaz repartiµia χ2(k − 1). Uneori, statistica χ =

√χ2 se nume³te discrepanµ .

Alegem nivelul de semnicaµie α, de regul , foarte apropiat de zero.

Alegem regiunea critic , ca ind regiunea pentru care valoarea χ20 a acestei statistici pentru obser-

vaµiile date satisfaceχ2

0 > χ21−α; k−1,

unde χ21−α; k−1 este cuantila de ordin 1− α pentru repartiµia χ2(k − 1).

Dac ne a m în regiunea critic , atunci datele observate sunt semnicativ diferite de datele a³tep-tate (calculate teoretic). În consecinµ , ipoteza nul (H0) se respinge la nivelul de semnicaµie α.Altfel, nu sunt dovezi statistice suciente s se resping .

Cazul parametric

Când probabilit µile teoretice pi nu sunt a priori cunoscute, atunci ele vor trebui estimate. Acest caz apareatunci când legea de probabilitate f(x, θ) nu este complet specicat , ci doar specicat (³tim forma luif , dar nu ³tim unul sau, eventual, mai mulµi parametri ai s i). Folosind datele observate, va trebui s estim m parametrii necunoscuµi ai repartiµiei ipotetice. Fiecare estimare ne va costa un grad de libertate.Cu alte cuvinte, dac avem de estimat un singur parametru, atunci pierdem un grad de libertate, pentrudoi parametri, pierdem dou grade etc.S presupunem c legea de probabilitate a lui X de mai sus este f(x, θ), unde θ = (θ1, θ2, . . . ,θp) ∈ Θ ⊂ Rp sunt parametri necunoscuµi. Pentru a aproxima ace³ti parametri, folosim observaµiileculese asupra lui X. O metod la îndemân pentru estim ri parametrice este metoda verosimilit µii ma-xime.Dup ce am estimat parametrii repartiµiei teoretice ipotetice, determin m probabilit µile estimate. Sta-bilim apoi ipoteza nul :

(H0) : pi = pi, (i = 1, 2, . . . , k),

unde pi este probabilitatea unei observaµii de a aparµine clasei i ³i pi sunt valorile estimate.Din acest moment, etapele testului χ2− cazul parametric sunt asem n toare cu cele din cazul neparame-tric, cu deosebirea c statistica χ2 dat prin (9.5) urmeaz repartiµia χ2 cu (k− p− 1) grade de libertate.Aceasta este urmare a faptului c se pierd p grade de libertate din cauza folosirii observaµiilor date pentruestimarea celor p parametri necunoscuµi.

Etapele aplic rii testului χ2 de concordanµ (neparametric sau parametric)

Se dau: α, x1, x2, . . . , xn. Intuim F (x; θ1, θ2, . . . , θp);

Formul m ipotezele statistice:

(H0) funcµia de repartiµie teoretic a variabilei aleatoare X este F (x; θ1, θ2, . . . , θp)(H1) ipoteza nul nu este adev rat .

Dac θ1, θ2, . . . , θk (k ≤ p) nu sunt parametri cunoscuµi, atunci determin m estim rile de verosimilitatemaxim θ1, θ2, . . . , θk pentru ace³tia (doar în cazul parametric; altfel s rim peste acest pas);

Page 77: Statistic ˘ a Aplicat ˘ a

CSA 5 [Dr. Iulian Stoleriu] 76

Scriem distribuµia empiric de selecµie (tabloul de frecvenµe),(clasa Oini

)i=1, n

,

n∑i=1

ni = n, ni ≥ 5;

Se calculeaz probabilitatea pi, ca un element luat la întâmplare s se ae în clasa Oi. Dac Oi = [ai−1, ai),atunci

pi = F (ai; θ)− F (ai−1; θ), în cazul neparametric;pi = F (ai; θ)− F (ai−1; θ), în cazul parametric.

Se calculeaz χ20 =

k∑i=1

(ni − n pi)2n pi

;

Determin m valoarea χ∗, care este

χ∗ =

χ21−α; k−1 , în cazul neparametric,

χ21−α; k−p−1 , în cazul parametric,

unde χ2α; n este cuantila de ordin α pentru repartiµia χ2(n);

Dac χ20 < χ∗, atunci accept m (H0), altfel o respingem.

Testul de concordanµ Kolmogorov-Smirnov

Testul de concordanµ Kolmogorov-Smirnov poate utilizat în compararea unor observaµii date cu orepartiµie cunoscut (testul K-S cu o selecµie) sau în compararea a dou selecµii (testul K-S pentru dou selecµii). Spre deosebire de criteriul χ2 al lui Pearson, care folose³te densitatea de repartiµie, criteriulKolmogorov-Smirnov utilizeaz funcµia de repartiµie empiric , F ∗n(x). În cazul unei singure selecµii, estecalculat distanµa dintre funcµia de repartiµie empiric a selecµiei ³i funcµia de repartiµie teoretica pentrurepartiµia testat , iar pentru dou selecµii este m surat distanµa între dou funcµii empirice de repartiµie.În ecare caz, repartiµiile considerate în ipoteza nul sunt repartiµii de tip continuu. Testul Kolmogorov-Smirnov este bazat pe rezultatul teoremei urmatoare:

Teorema 9.2. (Kolmogorov) Fie caracteristica X de tip continuu, care are funcµia de repartiµie teoretic F ³i e funcµia de repartiµie de selecµie F ∗n . Atunci, distanta dn = sup

x∈R|F ∗n(x)− F (x)| satisface relatia:

limn→∞

P (√n · dn < x) = K(x) =

∞∑k=−∞

(−1)ke−2 k2 x2 , x > 0. (9.6)

Testul K-S pentru o selecµie

În cazul în care ipotezele testului sunt satisf cute, acest test este mai puternic decât testul χ2.Avem un set de date statistice independente, pe care le ordon m crescator, x1 < x2 < · · · < xn. Acesteobservaµii independente provin din aceea³i populaµie caracterizat de variabila aleatoare X, pentru careurm rim s îi stabilim repartiµia. Mai întâi, caut m s stabilim ipoteza nul . De exemplu, dac intuimc funcµia de repartiµie teoretic a lui X ar F (x), atunci stabilim:

(H0) : funcµia de repartiµie teoretic a variabilei aleatoare X este F (x).

Page 78: Statistic ˘ a Aplicat ˘ a

CSA 5 [Dr. Iulian Stoleriu] 77

Ipoteza alternativ (H1) este, de regul , ipoteza ce arm c (H0) nu este adev rat . Alegem un nivel desemnicaµie α 1.În criteriul K-S pentru o singur selecµie, se compar funcµia F (x) intuit a priori cu funcµia de repartiµieempiric , F ∗n(x). Reamintim,

F ∗n(x) =cardi; xi ≤ x

n.

Studiind funcµia empiric de repartiµie a acestui set de date, Kolmogorov a g sit c distanµa dn =supx∈R|F ∗n(x)− F (x)| satisface relaµia (9.6), unde K(λ), λ > 0, este funcµia lui Kolmogorov (tabelat ). În

testul K-S, m sura dn caracterizeaz concordanµa dintre F (x) ³i F ∗n(x). Dac ipoteza (H0) este adev rat ,atunci diferenµele dn nu vor dep ³i anumite valori.

Etapele aplic rii testului Kolmogorov-Smirnov pentru o selecµie:

Se dau α ³i x1 < x2 < · · · < xn. Consider m cunoscut (intuim) F (x);

Ipotezele statistice sunt:

(H0) funcµia de repartiµie teoretic a variabilei aleatoare X este F (x)(H1) ipoteza nul nu este adev rat .

Calcul m λ1−α, cuantila de ordin 1 − α pentru funcµia lui Kolmogorov. Aceasta cuuantila verica relatiaK(λ1−α) = 1− α.

Se calculeaz dn = maxx|F ∗n(x)− F (x)|;

Dac dn satisface inegalitatea√ndn < λ1−α, atunci admitem ipoteza (H0), altfel o respingem.

Testul K-S pentru dou selecµii

În cazul în care avem de comparat dou repartiµii, proced m astfel. S presupunem c F ∗m(x) este funcµiade repartiµie empiric pentru o selecµie de volum m dintr-o populaµie ce are funcµia teoretic de repartiµieF (x) ³i c G∗n(x) este funcµia de repartiµie empiric pentru o selecµie de volum n dintr-o populaµie ce arefuncµia teoretic de repartiµie G(x). Dorim s test m

(H0) : F = G versus (H1) : F 6= G.

(eventual, în (H1) putem considera F > G sau F < G.) Consider m statistica

dm,n = supx|F ∗m(x)−G∗n(x)|,

ce reprezint diferenµa maxim între cele dou funcµii. Etapele testului urmeaz îndeaproape pe cele dintestul K-S cu o singur selecµie. Decizia se face pe baza criteriului√

mn

m+ ndm,n < qα.

Testul Kolmogorov-Smirnov pentru dou selecµii este unul dintre cele mai utile teste de contingenµ pentrucompararea a dou selecµii. Acest test nu poate specica natura celor dou repartiµii.

Page 79: Statistic ˘ a Aplicat ˘ a

CSA 5 [Dr. Iulian Stoleriu] 78

Etapele aplic rii testului Kolmogorov-Smirnov pentru dou selecµii:

Se dau α, x1 < x2 < · · · < xm ³i y1 < y2 < · · · < yn. Consider m cunoscute (intuim) F (x) ³i G(x);

Ipotezele statistice sunt:

(H0) F = G vs. (H1) F 6= G.

Determinam pragul teoretic qα corespunzator valorii α din tabelul urmator:

α 0.10 0.05 0.025 0.01 0.005 0.001qα 1.22 1.36 1.48 1.63 1.73 1.95

Se calculeaz dm,n = supx|F ∗m(x)−G∗n(x)|.

Dac dm,n satisface inegalitatea√

mnm+n dm,n < qα, atunci admitem ipoteza (H0), altfel ipoteza nul este

respins la acest prag de semnicaµie.

Observaµia 9.3. Pentru ipoteza alternativ F > G (sau F < G), se va considera statistica dm,n =supx

[F ∗m(x)−G∗n(x)] (respectiv, dm,n = supx

[G∗n(x)− F ∗m(x)]).

Page 80: Statistic ˘ a Aplicat ˘ a

LSA 5 [Dr. Iulian Stoleriu] 79

10 Statistica Aplicata (L5)

Testarea tipului de date experimentale

Pentru a putea efectua un test statistic în mod corect, este necesar s ³tim care este tipul (tipurile) dedate pe care le avem la dispoziµie. Pentru anumite teste statistice (e.g., testul Z sau testul t, dateletestate trebuie s e normal distribuite ³i independente. De multe ori, chiar ³i ipoteza ca datele s enormal repartizate trebuie vericat . De aceea, se pune problema realiz rii unei leg turi între funcµiade repartiµia empiric ³i cea teoretic (teste de concordanµ ). Vom discuta mai pe larg aceste teste deconcordanµ într-o secµiune urm toare.ÎnMatlab sunt deja implementate unele funcµii ce testeaz dac datele sunt normal repartizate. Funcµianormplot(X) reprezint grac datele din vectorul X versus o repartiµie normal . Scopul acestei funcµiieste de a determina grac dac datele din observate sunt normal distribuite. Dac aceste date sunt selec-tate dintr-o repartiµie normal , atunci acest grac va liniar, dac nu, atunci va un grac curbat. Deexemplu, s reprezent m cu normplot vectorii X ³i Y de mai jos. Gracele sunt cele din Figura 10.1.

X = normrnd(100,2,200,1);

subplot(1,2,1); normplot(X)

Y = exprnd(5,200,1);

subplot(1,2,2); normplot(Y)

Figura 10.1: Reprezentarea normal a datelor.

Observ m c primul grac este aproape liniar, pe când al doilea nu este. Putem astfel s concluzion mc datele date de X sunt normal repartizate (fapt conrmat ³i de modul cum le-am generat), iar dateledin Y nu sunt normal repartizate.

Funcµia chi2gof determin , în urma unui test χ2, dac datele observate sunt normal repartizate, la unnivel de semnicaµie α = 0.05. Astfel, comanda

h = chi2gof(x)

Page 81: Statistic ˘ a Aplicat ˘ a

LSA 5 [Dr. Iulian Stoleriu] 80

ne va furniza rezultatul h = 1, dac datele nu sunt normal repartizate (i.e., ipoteza alternativ (H1) esteadmis ), sau h = 0, dac nu putem respinge ipoteza c datele observate sunt normal distribuite (i.e.,ipoteza nul (H0) este admis ). Aplicând testul pentru X ³i Y de mai sus, obµinem h = 0, respectiv,h = 1.

De asemenea, putem verica dac datele statistice ar putea proveni ³i din alte repartiµii decât cea normal .De exemplu, funcµia

probplot(distribution,Y)

creaz un grac ce compar repartiµia datelor din vectorul Y cu repartiµia dat de distribution. Prin-tre repartiµiile ce pot comparate folosind aceast comand menµion m: 'normal', 'exponential','weibull' ³i 'lognormal'. Trebuie avut grij ca valorile vectorului Y s e pozitive pentru comparareacu oricare dintre ultimele trei repartiµii. Comanda simplicat este probplot(Y), care presupune în modimplicit c distribution = 'normal'. O alt comand util este

wblplot(Y)

care este echivalent cu comanda probplot(weibull,Y).În continuare, prezent m un exemplu de utilizare a acestor comenzi. Figura 10.2, veric m dac ecaredintre cele dou selecµii generate, una exponenµial ³i cealalt normal , ar putea proveni dintr-o repartiµieexponenµial .

x = exprnd(0.5, 250,1); % selectie exponentiala

y = normrnd(3, 1, 250,1); % selectie normala

probplot('exponential',[x y])

legend('Selectie exponentiala','Selectie normala','Location','SE')

Figura 10.2: Reprezentarea exponenµial a datelor.

Page 82: Statistic ˘ a Aplicat ˘ a

LSA 5 [Dr. Iulian Stoleriu] 81

Urm toarea funcµie Matlab compar un set de date cu o repartiµie precizat . Funcµia

histfit(X, n, 'tip_repartitie')

reprezint datele din vectorulX printr-o histogram ce are num rul de bare egal cu n. Dac opµiunea 'tip_repartitie'apare (valabil doar pentru lucrul cu Statistics Toolbox!), atunci peste histogram se va desena densitatea de re-partiµie a repartiµiei precizate (e.g., exponential, gamma, lognormal etc). În caz în care opµiunea nu apare, seconsider implicit c repartiµia cu care se compar datele este cea normal . Exemplul de mai jos produce graculdin Figura 10.3.

X = binornd(1e3, 0.1, 1e4, 1); histfit(X, 100)

Figura 10.3: Compararea prin histograme.

Exerciµii rezolvate

Exerciµiu 10.1.

Se arunc un zar de 60 de ori ³i se obµin rezultatele din Tabelul10.1. S se decid , la nivelul de semnicaµie α = 0.02, dac zaruleste corect sau fals.

Faµa (clasa Oi) Frecvenµa absolut (ni)1 152 73 44 115 66 17

Tabela 10.1: Tabel cu num rul de puncteobµinute la aruncarea zarului.

Soluµie: (aplic m testul χ2 de concordanµ , cazul neparametric)Zarul este corect doar dac ecare faµ a sa are aceea³i ³ans de a aparea, adic probabilit µile ca ecare faµ înparte s apar sunt:

(H0) : pi =1

6, (i = 1, 2, . . . , 6).

Page 83: Statistic ˘ a Aplicat ˘ a

LSA 5 [Dr. Iulian Stoleriu] 82

Altfel, not m cu X variabila aleatoare ce are valori num rul punctelor ce apar la aruncarea zarului. Un zar corectar însemna c X urmeaz repartiµia uniform discret U(6).Toate cele 60 de rezultate obµinute în urma arunc rii zarului pot împ rµite în ³ase clase. Aceste clase sunt:Oi = i, i ∈ 1, 2, . . . , 6. Ipoteza nul este (H0) sau, echivalent,

(H0) : Funcµia de repartiµie a lui X este U(6).

Ipoteza alternativ este "(H0) nu are loc", adic :

(H1) : Exist un j, cu pj 6=1

6, (j ∈ 1, 2, . . . , 6).

Calculez valoarea statisticii χ2 pentru observaµiile date:

χ20 =

(15− 10)2

10+

(7− 10)2

10+

(4− 10)2

10+

(11− 10)2

10+

(6− 10)2

10+

(17− 10)2

10= 13.6.

Repartiµia statisticii χ2 este χ2 cu k − 1 = 5 grade de libertate. Regiunea critic este:

U = (χ20.98; 5; +∞) = (13.3882, +∞).

Deoarece χ20 se a în regiunea critic , ipoteza nul se respinge la nivelul α = 0.02, a³adar zarul este m sluit.

Codul Matlab:

n = 60; k=6; alpha = 0.02; x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6);

chi2 = sum((f-n*p).^2)./(n*p)); % valoarea χ20

val = chi2inv(1-alpha,k-1); % cuantila χ20.99; 5

H = (chi2 > val) % afiseaza 0 daca zarul e corect si 1 daca nu √

Observaµia 10.1. Dac nivelul de semnicaµie este ales α = 0.01, atunci χ20.99; 5 = 15.0863, ceea ce determin

acceptarea ipotezei nule (adic zarul este corect) la acest nivel.

Teste de concordanµ în Matlab

(1) Funcµia chi2gof(x) testeaz (folosind testul χ2 al lui Pearson) dac vectorul x provine dintr-o repartiµienormal , cu media ³i dispersia estimate folosind x. În cazul în care datele sunt negrupate, atunci rezultatul testuluide normalitate se obµine din

[h,p,stats] = chi2gof(X)

În cazul în care datele sunt grupate, deci au anumite perticularit µi observate, va trebui s µinem cont de acesteparticularit µi. Aceasta se poate face apelând la forma general a funcµiei Matlab este:

[h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)

unde:− h, p sunt la fel ca în exemplele anterioare;− perechile namei/valuei sunt opµionale. Variabilele namei pot : num rul de clase, 'nbins', un vector devalori centrale ale intervalelor ce denesc clasele, 'ctrs', sau un vector cu capetele claselor, 'edges'.Alte variabile ce pot utilizate: 'cdf', 'expected', 'nparams', 'emin', 'frequency', 'alpha'.− variabila de memorie stats a³eaz : chi2stat - statistica χ2, df - gradele de libertate, edges - un vectorcu capetele intervalelor claselor dup triere, O - num rul de valori observate în ecare clas , E - num rul de valoria³teptate în ecare clas .

Page 84: Statistic ˘ a Aplicat ˘ a

LSA 5 [Dr. Iulian Stoleriu] 83

Exerciµiu 10.2. Spre exemplicare, revenim la Exerciµiul 10.1, dar cu valoarea nivelului de încredere din Obser-vaµia 10.1. Codul Matlab ce folose³te funcµia de mai sus este:

x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); e = N*p; alpha = 0.01;

[h, p, stats] = chi2gof(x,'ctrs', x,'frequency', f,'expected',e, 'alpha',alpha)

Acest cod returneaz :

h = p = stats =

0 0.0184 chi2stat: 13.6000

df: 5

edges: [0.5000 1.5000 2.5000 3.5000 4.5000 5.5000 6.5000]

O: [15 7 4 11 6 17]

E: [10 10 10 10 10 10]

Acest rezultat conrm c ipoteza nul (zarul este corect) este acceptat la nivelul α = 0.01. √

Exemplu 10.2. La campionatul mondial de fotbal din 2006 au fost jucate în total 64 de meciuri, iar repartiµianum rului de goluri înscrise într-un meci are tabelul de distribuµie ca în Tabelul 10.2. Determinaµi (la nivelul desemnicaµie α = 0.05) dac num rul de goluri pe meci urmeaz o distribuµie Poisson.

Nr. de goluri pe meci Nr. de meciuri0 81 132 183 114 105 26 2

Tabela 10.2: Tabel cu num rul de goluri pe meci la FIFA WC 2006.

Soluµie: (aplic m testul de concordanµ χ2 parametric) Fie X variabila aleatoare ce reprezint num rul degoluri înscrise într-un meci. Teoretic, X poate lua orice valoare din mulµimea N. Mulµimea observaµiilor f cuteasupra lui X este 1, 2, 3, 4, 5, 6, cu frecvenµele respective din tabel. În total, au fost inscrise 144 de goluri.Estim m num rul de goluri pe meci prin media lor, adic λ = x = 144

64 = 2.25. Pe baza datelor observate, dorim s test m dac X urmeaz o repartiµie Poisson. Avem astfel de testat ipoteza nul :

(H0) : X urmeaz o lege Poisson P(λ).

vs. ipoteza alternativ (H1) : X nu urmeaz o lege Poisson P(λ).

Dac admitem ipoteza (H0) (adic X ∼ P(2.25), atunci pi = pi(λ) ³i distribuµia valorilor variabilei este dat deTabelul 10.3. Valoarea pi este P (X = i), adic probabilitatea ca variabila aleatoare X ∼ P(2.25) s ia valoareai (i = 0, 1, 2, 3, 4). Am putea forma 7 clase. Deoarece pentru ultimele dou clase din Tabelul 10.3, anumeX = 5 ³i X ≥ 6, numerele ni nu dep ³e³c valoarea 3, le ³tergem din tabel ³i le unim într-o singur clas , încare X ≥ 5, cu ni = 4 > 3. Vom nota prin p≥5 probabilitatea

p≥5 = P (X ≥ 5) = 1− P (X < 5) = 1− P (X ≤ 4) = 1−4∑i=0

P (X = i).

Page 85: Statistic ˘ a Aplicat ˘ a

LSA 5 [Dr. Iulian Stoleriu] 84

Clasa ni pi n pi(ni − n pi)2

n pi0 8 0.1054 6.7456 0.23331 13 0.2371 15.1775 0.31242 18 0.2668 17.0747 0.05013 11 0.2001 12.8060 0.25474 10 0.1126 7.2034 1.08575 2 0.0506 3.2415 −≥ 6 2 0.0274 1.7514 −≥ 5 4 0.0780 4.9926 0.1973

Tabela 10.3: Tablou de distribuµie pentru P(2.25).

R mânem a³adar cu 6 clase. Ipoteza nul (H0) se poate rescrie astfel:

(H0) : p0 = 0.1054, p1 = 0.2371, p2 = 0.2668, p3 = 0.2001, p4 = 0.1126, p≥5 = 0.0780.

Ipoteza alternativ este(H1) : ipoteza (H0) nu este adev rat .

Calcul m acum valoarea statisticii χ2 pentru observaµiile date:

χ20 =

(8− 6.7456)2

6.7456+

(13− 15.1775)2

15.1775+

(18− 17.0747)2

17.0747+

(11− 12.8060)2

12.8060+ . . .

+(10− 7.2034)2

7.2034+

(4− 4.9926)2

4.9926= 2.1337.

Deoarece avem 6 clase ³i am estimat parametrul λ, deducem c num rul gradelor de libertate este 6−1−1 = 4. Cu-antila de referinµ (valoarea critic ) este χ2

0.95; 4 = 9.4877. Regiunea critic pentru χ2 este intervalul (χ20.95; 4, +∞).

Deoarece χ20 < χ2

0.95; 4, urmeaz c ipoteza nul (H0) nu poate respins la nivelul de semnicaµie α. A³adar,este rezonabil s arm m c num rul de goluri marcate urmeaz o repartiµie Poisson. Prezent m mai jos un codMatlab ce rezolv aceast problem .

X = [0*ones(8,1);1*ones(13,1);2*ones(18,1);3*ones(11,1);4*ones(10,1);...

5*ones(2,1);6*ones(2,1)];

f = [8 13 18 11 10 4]; % vectorul de frecvente absolute

n = 64; alpha = 0.05; lambda = mean(X);

for i=1:5 % probabilitatile P(X=i), i=0,1,2,3,4

p(i) = poisspdf(i-1,lambda);

end

p(6)= 1 - poisscdf(4,lambda); % probabilitatea P(X≥5)H2 = sum((f-n*p).^2./(n*p)); Hstar = chi2inv(1-alpha,4);

if (H2 < Hstar)

disp('X urmeaza repartitia Poisson');

else

disp('X nu urmeaza repartitia Poisson');

end √

Eventual, putem folosi funcµia chi2gof.

y = [0 1 2 3 4 5];

[h, p, stats] = chi2gof(y,'ctrs', y,'frequency', f,'expected',e, 'alpha',alpha)

Observaµia 10.3. Dac ipoteza nul este respins , atunci motivul poate acela c unele valori observateau deviat prea mult de la valorile a³teptate. În acest caz, este interesant de observat care valori sunt

Page 86: Statistic ˘ a Aplicat ˘ a

LSA 5 [Dr. Iulian Stoleriu] 85

extreme, cauzând respingerea ipotezei nule. Putem deni astfel reziduurile standardizate:

ri =Oi − n pi√n pi (1− pi)

=Oi − Ei√Ei (1− pi)

,

unde prin Oi am notat valorile observate ³i prin Ei valorile a³teptate. Dac ipoteza nul ar adev rat ,atunci ri ∼ N (0, 1). În general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere observateextreme.

Exemplu 10.4. Într-o anumit zi de lucru, urm rim timpii de a³teptare într-o staµie de tramvai, pân laîncheierea zilei de lucru (adic , pân trece ultimul tramvai). Fie T caracteristica ce reprezint num rul deminute a³teptate în staµie, pân sose³te tramvaiul. Rezultatele observaµiilor sunt sumarizate în Tabelul10.4. Se cere s se cerceteze (α = 0.05) dac timpii de a³teptare sunt repartizaµi exponenµial.

Durata 0− 5 5− 10 10− 15 15− 20 20− 25ni 39 35 14 7 5

Tabela 10.4: Timpi de a³teptare în staµia de tramvai.

Soluµie: (folosim testul χ2 de concordanµ , parametric) Avem de testat ipoteza nul

(H0) F (x) ∼= F0(x) = 1− e−λx, x > 0

vs. ipoteza alternativ (H1) ipoteza (H0) este fals .

Deoarece parametrul λ este necunoscut, va trebui estimat pe baza selecµiei date. Pentru aceasta, folosimmetoda verosimilit µii maxime. Funcµia de verosimilitate pentru exp(λ) este

L(t1, t2, . . . , tn; λ) =

n∏k=1

λe−λ ti = λne−λn t.

Mai sus, am notat prin t1, t2, . . . , tn valorile de selecµie pentru variabila aleatoare T .Punctele critice pentru L(λ) sunt date de ecuaµia

∂ lnL

∂λ= 0 =⇒ ∂

∂λ

(n lnλ− λn t

)=⇒ λ =

1

t.

Se observ cu u³urinµ c ∂2 lnL

∂λ2|λ=λ = −n t2 < 0,

de unde concluzion m c λ este punct de maxim pentru funcµia de verosimilitate.Tabelul de distribuµie pentru caracteristica T este:(

2.5 7.5 12.5 17.5 22.539 35 14 7 5

).

Calcul m media de selecµie, t = 1100(2.5 ·39+7.5 ·35+12.5 ·14+17.5 ·7+22.4 ·5) = 7.7, adic λ = 0.1299.

Dac variabila T ar urma repartiµia exponenµial exp(λ), atunci probabilit µile ca T s ia valori în ecareclas sunt, în mod corespunz tor:

pi = pi(λ) = P (X ∈ (ai, ai+1] | F = F0) = F0(ai+1; λ)− F0(ai; λ), i = 1, 2, 3, 4, 5.

unde a6 = +∞.În Tabelul 10.5 am înregistrat urm toarele date:

Page 87: Statistic ˘ a Aplicat ˘ a

LSA 5 [Dr. Iulian Stoleriu] 86

clasele (de notat c ultima clas este (20, +∞), deoarece se dore³te o concordanµ a datelor observatecu date repartizate exponenµial, iar mulµimea valorilor pentru repartiµia exponenµial este R+),

extremit µile din stânga ale claselor (ai),

frecvenµele absolute ni (sau valorile observate în ecare clas ),

probabilit µile pi, valorile a³teptate în ecare clas (n pi),

erorile relative de aproximare ale datelor a³teptate cu cele observate.

Num rul gradelor de libertate este k − p − 1 = 3. Calcul m valoarea critic χ20.95; 3 = 7.8147 ³i, de

asemenea, valoarea

H0 =k∑i=1

(ni − n pi)2

n pi= 6.5365.

Deoarece χ20 < χ2

0.95; 3, ipoteza (H0) nu poate respins la acest nivel de semnicaµie.

Clasa ai ni pi n pi(ni − n pi)2

n pi(0, 5] 0 39 0.4776 47.7615 1.6072(5, 10] 5 35 0.2495 24.9499 4.0483(10, 15] 10 14 0.1303 13.0334 0.0717(15, 20] 15 7 0.0681 6.8085 0.0054

(20, +∞) 20 5 0.0745 7.4467 0.8039

(0, +∞) − 100 1 100 6.5365

Tabela 10.5: Tabel de distribuµie pentru timpii de a³teptare.

Codul Matlab este urm torul:

T = [2.5*ones(39,1);7.5*ones(35,1);12.5*ones(14,1);17.5*ones(7,1);22.5*ones(5,1)];

% sau

% T = [5*rand(39,1);5+5*rand(35,1);10+5*rand(14,1);15+5*ones(7,1);20+5*ones(5,1)];

n = 100; alpha = 0.05; m = mean(T); lambda = 1/m;

a = [0, 5, 10, 15, 20, Inf]; f = [39, 35, 14, 7, 5];

for i =1:5

p(i) = expcdf(a(i+1),m)-expcdf(a(i),m);

end

H2 = sum((f-n*p).^2./(n*p)); cuant = chi2inv(0.95,3);

if (H2 < cuant)

disp('Timpii de asteptare sunt exponential repartizati');

else

disp('ipoteza (H0) se respinge');

end √

Exerciµiu 10.3. (test de vericare a normalit µii)

Consider m selecµia −2; −0.5; 0; 1; 1; 2; 2; 3, extras dintr-o anumit colectivitate. La nivelul de sem-nicaµie α = 0.1, s se decid dac populaµia din care provine selecµia este normal de medie 1 ³i dispersie2 (i.e., X ∼ N (1,

√2)).

Page 88: Statistic ˘ a Aplicat ˘ a

LSA 5 [Dr. Iulian Stoleriu] 87

Soluµie: (folosim testul Kolmogorov-Smirnov) Mai întâi, calcul m funcµia de repartiµie empiric .Avem:

F ∗n(x) = P (X ≤ x) =

0, dac x < −2;18 , dac x ∈ [−2, −0.5);28 , dac x ∈ [−0.5, 0);38 , dac x ∈ [0, 1);58 , dac x ∈ [1, 2);78 , dac x ∈ [2, 3);

1, dac x ≥ 3.

Pentru α = 0.1 ³i n = 8, c ut m în tabelul pentru inversa funcµiei lui Kolmogorov acel x1−α; 8 = x0.9; 8

astfel încât K(x1−α; 8) = 1− α. G sim c x0.9; 8 = 0.411.Pe de alt parte, F (x) = Θ(x−1√

2), unde Θ(x) este funcµia de repartiµie pentru legea normal N (0, 1).

Ipoteza c X urmeaz repartiµia normal N (1,√

2) este acceptat dac √ndn < x1−α. Calculele pentru

determinarea valorii dn sunt date de Tabelul 10.6. În Figura 10.4, putem observa reprezent rile acestordou funcµii pentru setul de date observate.

xi −∞ −2 −0.5 0 1 2 3 ∞F (xi) 0 0.0169 0.1444 0.2398 0.5 0.7602 0.9214 1

F ∗n(xi − 0) 0 0 0.125 0.25 0.375 0.625 0.875 1F ∗n(xi) 0 0.125 0.25 0.375 0.625 0.875 1 1

|F ∗n(xi − 0)− F (xi)| 0 0.0169 0.0194 0.0102 0.125 0.1352 0.0464 0

|F ∗n(xi)− F (xi)| 0 0.1081 0.1056 0.1352 0.125 0.1148 0.0786 0

Tabela 10.6: Tabel de valori pentru testul Kolmogorov-Smirnov.

Figura 10.4: F ∗n(x) ³i F (x) din Tabelul 10.6.

Pentru a calcula dn, not m faptul c cea mai mare diferenµ între F (x) ³i F ∗n(x) poate realizat ori

Page 89: Statistic ˘ a Aplicat ˘ a

LSA 5 [Dr. Iulian Stoleriu] 88

înainte de salturile funcµiei F ∗n , ori dup acestea, i.e.,

supx∈R|F (x)− F ∗n(x)| = max

i

|F (xi)− F ∗n(xi − 0)|, înainte de saltul i;

|F (xi)− F ∗n(xi)|, dup saltul i.

Din tabel, observ m c dn = 0.1352. Deoarece√n · dn =

√8 · 0.1352 = 0.3824 < 0.411, concluzion m

c putem accepta ipoteza (H0) la pragul de semnicaµie α = 0.1. √

Testul Kolmogorov in Matlab (o singura selectie)

Pentru testul Kolmogorov-Smirnov pentru o selecµie, funcµia Matlab este:

[h, p, ksstat] = kstest(x, F, alpha, type)

În plus, faµ de funcµiile anterioare, avem opµiunea 'type'. Aceasta se refer la cum se compar cele dou funcµii de repartiµie, ³i poate una dintre urm toarele: 'unequal', 'larger', 'smaller'.

Codul Matlab ce rezolv problema este:

X = [-2; -0.5; 0; 1; 1; 2; 2; 3]; F = normcdf(X, 1, sqrt(2));

[h, p, ksstat] = kstest(X, [X,F], 0.1, 'unequal')

unde, X este vectorul de date observate ³i F este vectorul ce conµine valorile funµiei de repartiµie F (x)pentru componentele lui X.Rulând acest cod, obµinem:

h = p = ksstat =

0 0.9968 0.1352

Observ m c valoarea ksstat este chiar dn g sit anterior. √

Page 90: Statistic ˘ a Aplicat ˘ a

LSA 5 [Dr. Iulian Stoleriu] 89

Probleme propuse

Exerciµiu 10.4. Urm rim s compar m preµurile aceluia³i tip de pâine de 500g, alegând la întâmplarediverse magazine din dou ora³e. Scopul investigaµiei este de a decide dac preµul mediu al acestui produsdifer de la un ora³ la altul. Not m cu X1 preµul acestui produs în primul ora³ ³i cu X2 preµul din aldoilea ora³. Valorile pentru ecare caracteristic ³i frecvenµele absolute sunt sumarizate în urm toareledou matrice:

X1 :

(2.0 2.1 2.2 2.3 2.4 2.57 9 19 14 10 5

)³i X2 :

(2.0 2.1 2.2 2.3 2.46 10 17 14 4

)(a) Determinaµi un interval de încredere pentru diferenµa mediilor celor dou caracteristici (α = 0.04).(b) Se poate admite ipoteza c dispersiile celor dou caracteristici sunt egale (α = 0.04)?(c) inând cont de rezultatul de la (b), se poate admite ipoteza c preµul mediu al acestui tip de pâinenu difer între cele dou ora³e (α = 0.04)?

Exerciµiu 10.5. Testaµi normalitatea datelor din Tabelul 3.5 la nivelul de semnicaµie α = 0.1.

Exerciµiu 10.6. Se prezice c repartiµia literelor care apar cel mai des în limba englez ar urm toarea:

Litera O R N T EFrecvenµa 16 17 17 21 29

Aceasta semnic urm toarea: de ecare dat când cele 5 litere apar într-un text, în 16% dintre cazuriapare litera O, în 21% dintre cazuri apare litera T etc. S presupunem c un criptologist analizeaz untext ³i num r apariµiile celor 5 litere. Acesta a g sit urm toarea distribuµie:

Litera O R N T EFrecvenµa 18 14 18 19 31

Folosind testul χ2 de concordanµ , s se verice dac aceste apariµii sunt în not discordant cu predicµiainiµial .

Exerciµiu 10.7. Tabelul urm tor conµine num rul de na³teri pe zi ce au avut loc într-o anumit mater-nitate, observate în decursul a 100 de zile alese la întâmplare.

na³teri pe zi 0 1 2 3 4 5 6

frecvenµa 21 27 33 10 7 1 1

(a) Estimaµi num rul na³teri pe zi ce au loc în mod regulat în acea maternitate.(b) Testaµi ipoteza c num rul de na³teri pe zi este o variabil aleatoare repartizat Poisson.(c) Folosind rezultatul de la punctul (b), estimaµi probabilitatea ca, într-o zi aleas la întâmplare, s aib loc cel puµin 2 na³teri în acea maternitate.

Exerciµiu 10.8. Se dore³te determinarea ³anselor de avea un b iat sau o fat pentru mamele cu patrucopii. Avem la îndemân o selecµie de 564 de mame a câte 4 copii. Rezultatele sunt cele din tabelul demai jos.

Page 91: Statistic ˘ a Aplicat ˘ a

LSA 5 [Dr. Iulian Stoleriu] 90

Num r de copii Frecvenµa4 fete 38

3 fete ³i un b iat 1382 fete ³i 2 baieµi 213o fat ³i 3 baieµi 141

4 baieµi 34

(i) Reprezentaµi grac datele pe un pe disc (pie chart).(ii) La nivelul de semnicaµie α = 0.05, testaµi ipoteza c , pentru mamele cu patru copii, probabilitateade avea un baiat este egal cu probabilitatea de avea o fat .

Indicaµie: Se testeaz concordanµa cu repartiµia B(4, 0.5).

Exerciµiu 10.9. Se arunc o moned de 250 de ori, obµinându-se 138 de apariµii ale stemei. La un nivelde semnicaµie α = 0.05, s se decid dac avem suciente dovezi de a arma c acest moned este fals .

Exerciµiu 10.10. Datele din tabelul de mai jos reprezint repartizarea pe vârste pentru un e³antion de385 de ³omeri dintr-o anumit regiune a µ rii.

Vârsta [18, 25) [25, 35) [35, 45) [45, 55) [55, 65)

Frecvenµa 34 76 124 87 64

(a) Reprezentaµi datele prin bare.(b) Folosind testul χ2, testaµi dac datele din tabel sunt observaµii f cute asupra unei caracteristicinormale (se va alege α = 0.05).

Exerciµiu 10.11. Se consider caracteristica X ce reprezint în lµimea b rbaµilor (în centimetri) dintr-oanumit regiune a unei µ ri. S-a f cut o selecµie de volum n = 200, iar datele de selecµie au fost grupateîn tabelul urm tor:

Clasa ≤ 165 (165, 170] (170, 175] (175, 180] (180, 185] (185, 190] (190, 195] ≥ 195

ni 12 25 34 47 36 27 17 2

(a) Reprezentaµi datele printr-o histogram .(b) Precizaµi estimatori nedeplasaµi pentru media ³i dispersia în lµimii b rbaµilor din acea regiune. Folo-sind datele din tabel, determinaµi valorile acestor estimatori.(c) Testaµi dac datele din tabel sunt observaµii f cute asupra unei caracteristici normale (α = 0.05).(d) Care este probabilitatea ca un b rbat ales la întâmplare din acest µinut s e mai înalt de 182 cm?

Exerciµiu 10.12. Dou strunguri produc piese de acela³i tip. Not m cu X1 diametrul pieselor pro-duse de primul strung, ³i cu X2 diametrul pieselor produse de al doilea strung. Presupunem c ambelecaracteristicile, X1 ³i X2, urmeaz legea normal .

X1 :

(4.90 4.95 5.00 5.0511 16 19 14

)³i X2 :

(4.90 4.95 5.00 5.10

6 8 14 7

)(a) Determinaµi un interval de încredere pentru diferenµa mediilor celor dou caracteristici (α = 0.03).(b) Se poate admite ipoteza c dispersiile celor dou caracteristici sunt egale (α = 0.03)?(b) inând cont de rezultatul de la (b), se poate admite ipoteza c mediile diametrelor pieselor produsede cele dou strunguri sunt egale, cu alterntiva c E(X1) > E(X2)? (α = 0.03)

Page 92: Statistic ˘ a Aplicat ˘ a

CSA 6 [Dr. Iulian Stoleriu] 91

Statistica Aplicata (C6)

11 Test de independenµ folosind tabele de contingenµ (C6)

Pân acum am discutat cum pot grupate observaµiile unei singure caracteristici, e discret sau continu .Îns , în multe cazuri avem de studiat o anumit populaµie prin prisma a mai mult de dou caracteristici.În aceast secµiune, vom prezenta un test de independenµ între dou caracteristici dup care se faceîmp rµirea datelor observate. S presupunem c avem un set de observaµii ce sunt împ rµite în categoriideterminate de dou criterii diferite.

Spre exemplu, în vederea introducerii de cursuri opµionale pentru elevii de liceu ai unei ³coli, s-a realizatun sondaj de opinie la care au participat 350 de elevii, în care ace³tia au avut de precizat cursul de limbistr ine preferat ³i nivelul de studiu ce consider c li s-ar potrivi. Rezultatele în stare negrupat pot ar taastfel:

Nr. crt. Limba straina Nivel de studiu

1 engleza mediu

2 franceza avansat

3 germana avansat

4 engleza incepator

5 spaniola mediu

6 ...

Aceste observaµii pot sumarizate sub forma unui tabel (vezi tabelul 11.1). Aici, populaµia de elevi dinrespectiva ³coal este descris de valorile a dou caracteristici, ³i anume: limba str in ³i nivelul de studiu.Un astfel de tabel va util în luarea de decizii, dup cum vom vedea mai târziu. De exemplu, putems test m dac alegerea limbii str ine este independent de nivelul de studii (i.e., cele dou caracteristicisunt independente)

Identic m aici dou caracteristici (atribute): X este limba str in (e.g., Englez , Francez , German ,Italian , Spaniol ³i Rus ) ³i Y reprezint nivelul de studiu (e.g., încep tor, mediu ³i avansat). Num rulde elevi ce intr în ecare categorie este a³at în Tabelul 11.1.

Nivel@@Limba Englez Francez German Italian Spaniol Rus Total

încep tor 33 19 11 12 11 6 92mediu 65 37 10 14 24 7 157avansat 43 15 7 17 12 7 101

Total 141 71 28 43 47 20 350

Tabela 11.1: Tabel cu repartizarea elevilor la cursurile de limbi str ine.

În general, dac datele observate sunt clasicate în categorii ce depind de dou atribute diferite, atunciputem forma un tabel de genul Tabelului 11.2, numit tabel de contingenµ . Aici X ³i Y sunt atributele ³iXi, i = 1, r, Yj , j = 1, s, sunt diverse categorii în care ecare atribut în parte poate împ rµit.

În Tabelul 11.2 am folosit urm toarele notaµii: nij pentru num rul (frecvenµa absolut ) de observaµii ceau valoarea Xi pentru atributul X ³i valoarea Yj pentru atributul Y (i = 1, r, j = 1, s), iar n∗j , ni∗ ³i n

Page 93: Statistic ˘ a Aplicat ˘ a

CSA 6 [Dr. Iulian Stoleriu] 92

X @@Y Y1 Y2 . . . Yj . . . Ys Suma pe linie

X1 n11 n12 . . . n1j . . . n1s n1∗X2 n21 n22 . . . n2j . . . n2s n2∗...

...... · ... · ... · ... · ...

...Xi ni1 ni2 . . . nij . . . nis ni∗...

...... · ... · ... · ... · ...

...Xr nr1 nr2 . . . nrj . . . nrs nr∗

Suma pe coloan n∗1 n∗2 . . . n∗j . . . n∗s n (suma total )

Tabela 11.2: Tabel de contingenµ .

sunt

n∗j =

r∑i=1

nij , ni∗ =s∑j=1

nij , n =r∑i=1

s∑j=1

nij .

Fiecare individ din selecµia aleas aparµine unei singure categorii caracterizat de atributul X ³i unei sin-gure categorii caracterizat de atributul Y . În concluzie, ecare individ poate aparµine doar uneia dintrecele r × s celule.

Dorim acum s test m dac atributele X ³i Y sunt independente (în exemplul de mai sus, aceasta arînsemna determinarea faptului dac alegerea cursului de limba str in este independent de nivelul destudiu).S not m prin pij probabilitatea ca o dat observat s cad în categoria (Xi, Yj), ³i prin pi∗ ³i p∗jprobabilit µile marginale,

pi∗ =s∑j=1

pij , p∗j =r∑i=1

pij .

Avem c r∑i=1

s∑j=1

pij =

r∑i=1

pi∗ =

s∑j=1

p∗j = 1.

În general, valorile reale pentru pij , pi∗ ³i p∗j nu sunt cunoscute (specicate) a priori ³i se vor estimafolosind datele din tabelul de contingenµ . Vom nota prin pij , pi∗ ³i, respectiv, p∗j estimatorii lor. Pentrua estima probabilit µile marginale, folosim metoda verosimilit µii maxime. Funcµia de verosimilitate este

L =s∏i=1

pni∗i∗

s∏j=1

pn∗j∗j

Condiµiile de extrem (cu leg tura∑r

i=1

∑sj=1 pij = 1) pentru

lnL =r∑i=1

ni∗ ln pi∗ +s∑j=1

n∗j ln p∗j + λ(r∑i=1

s∑j=1

pij − 1)

sunt:∂ lnL

∂pi∗= 0, i = 1, n ³i

∂ lnL

∂p∗j= 0

Page 94: Statistic ˘ a Aplicat ˘ a

CSA 6 [Dr. Iulian Stoleriu] 93

Valorile probabilit µilor marginale le estim m prin valorile maxime ale lui L, ³i anume:

pi∗ =ni∗n

(i = 1, r) ³i p∗j =n∗jn

(j = 1, s). (11.1)

Ipoteza nul este:

(H0) : pij = pi∗p∗j , i = 1, r, j = 1, s (i.e., nu exist nicio asociere între atributele X ³i Y ).

(H1) : (H0) nu este adev rat .

Astfel, pentru i ³i j xaµi, dac ipoteza nul ar adev rat , atunci valoarea a³teptat în celula (i, j) este

Eij = n pij = n pi∗ · p∗j =ni∗n∗jn

, i = 1, r, j = 1, s. (11.2)

Calcul m valoarea statisticii

H2 =∑i, j

(nij −

ni∗n∗jn

)2

ni∗n∗jn

=∑i, j

(Oij − Eij)2

Eij

, (11.3)

unde, în parantez , Oij = nij este num rul de valori observate în celula (i, j) iar Eij num rul de valoria³teptate (en., expected) în celula (i, j).Dac în ecare celul num rul de valori ce îi apaµin este de cel puµin 5, atunci statistica H2 urmeaz repartiµia χ2 cu (r − 1)(s− 1) grade de libertate.

Etapele testului de independenµ sunt urm toarele:

Se dau nij , i = 1, r, j = 1, s ³i pragul de semnicaµie α;

Pe baza observaµiilor nij , calcul m estimaµiile (11.1);

Calcul m H2 cu formula (11.3);

Dac Eij ≥ 5, ∀i, j ³i H2 ≤ χ21−α; (r−1)(s−1), atunci se admite (H0) la pragul de semnicaµie α.

Altfel, respingem (H0) la acest prag de semnicaµie.

Revenim la datele din Tabelul 11.1. Pentru a stabili dac , la un nivel de semnicaµie α = 0.05, alegereacursului de limba str in este independent de nivelul de studiu, calcul m mai întâi estimaµiile Eij .Acestea sunt scrise în paranteze în Tabelul 11.3.

Calcul m H2:

H2 =3∑i=1

6∑j=1

(nij − Eij)2

Eij=

(33− 37.06)2

37.06+ · · ·+ (7− 5.77)2

5.77

= 10.1228 < 18.3070 = χ20.95, 10

deci admitem ipoteza nul conform c reia tipul cursului ³i nivelul s u sunt atribute independente.Pentru calculul acestor valori în Matlab, putem proceda astfel:

Page 95: Statistic ˘ a Aplicat ˘ a

CSA 6 [Dr. Iulian Stoleriu] 94

n = 350; r = 3; s = 6; alpha = 0.05;

O = [33 19 11 12 11 6; 65 37 10 14 24 7; 43 15 7 17 12 7];

E = sum(O')'*sum(O)/n;

H2 = sum(sum((O-E).^2./E)); Hcrit = chi2inv(1-alpha,(r-1)*(s-1));

if (H2<Hcrit)

disp('variabilele sunt independente')

else

disp('variabilele sunt dependente')

end

Cazul tabelelor de contingenµ 2× 2. Testul exact al lui Fisher

În cazul particular în care r = s = 2, tabelul de contingenµ este de forma:

unde a, b, c, d sunt valorile observate pentru ecare celul în parte. Valorile a³teptate Eij (vezi formula(11.2)) sunt:

E11 =(a+ b)(a+ c)

n, E12 =

(a+ b)(b+ d)

n, E21 =

(c+ d)(a+ c)

n, E22 =

(c+ d)(b+ d)

n,

unde n = a+ b+ c+ d. Statistica H2 dat de relaµia (11.3) devine:

H2 =

(ad− bcn

)2( 1

E11+

1

E12+

1

E21+

1

E22

),

³i urmeaz repartiµia χ2(1). Din faptul c H2 ∼ χ2(1), rezult c statistica H =√H2 ∼ N (0, 1), ³i se

poate utiliza H pentru testul statistic de independenµ .

De³i acest test poate realizat, în cazul tabelelor de contingenµ 2 × 2 se utilizeaz testul exact al lui

Fisher. Acest test poate utilizat chiar ³i în cazul în care valorile observaµiilor sunt mai mici decât 5. S alegem un prag de semnicaµie α.Test m ipoteza nul

(H0) : nu exist nicio asociere între atributele X ³i Y.

Nivel@@Limba Englez Francez German Italian Spaniol Rus Total

încep tor33

(37.06)19

(18.66)11

(7.36)12

(11.30)11

(12.35)6

(5.26)92

mediu65

(63.25)37

(31.85)10

(12.56)14

(19.29)24

(21.08)7

(8.97)157

avansat43

(40.69)15

(20.49)7

(8.08)17

(12.41)12

(13.56)7

(5.77)101

Total 141 71 28 43 47 20 350

Tabela 11.3: Tabel cu repartizarea ³i estimaµia elevilor la cursurile de limbi str ine.

Page 96: Statistic ˘ a Aplicat ˘ a

CSA 6 [Dr. Iulian Stoleriu] 95

X @@Y Y1 Y2 Suma pe linie

X1 a b a+ bX2 c d c+ d

Suma pe coloan a+ c b+ d a+ b+ c+ d

Tabela 11.4: Tabel de contingenµ 2× 2.

versus ipoteza alternativ

(H1) : (H0) nu este adev rat . (test bilateral)

Rezultatele obµinute le putem scrie sub forma unei matrice, pe care o vom numi matricea conguraµiei.Aceasta este:

M =

(a bc d

).

S presupunem acum c , pentru o matrice 2 × 2, sumele valorilor pe linii ³i pe coloane sunt xate a

priori. Atunci, putem alege elementele matricei ce satisface aceste condiµii în mai multe moduri (estegreu de precizat în câte moduri, în cazul cel mai general). În cazul problemei de faµ , s presupunem c a+ b, c+d, a+ c ³i b+d sunt xate. Atunci, dac ipoteza nul este adev rat , probabilitatea de a obµineexact valorile din Tabelul 11.4 este:

P =Caa+bC

cc+d

Ca+cn

. (11.4)

Aceast probabilitate se obµine prin utilizarea schemei hipergeometrice.Exist îns mai multe matrice de tip 2 × 2 care au o conguraµie xat a sumelor pe ecare linie ³ipe ecare coloan (i.e., a + b, c + d, a + c ³i b + d sunt xate). Pentru ecare matrice de acest tip,putem calcula o probabilitate (condiµionat de realizarea ipotezei nule) de genul celei de mai sus. În cazultestului bilateral, P−valoarea testului (notat prin Pv) este suma tuturor probabilit µilor condiµionateastfel calculate, care sunt mai mici sau egale cu probabilitatea obµinut pentru conguraµia dat (inclusivprobabilitatea conguraµiei date).Dac P−valoarea este mai mare decât α, atunci ipoteza nul este admis la acest prag de semnicaµie.Dac Pv ≤ α, atunci respingem (H0).În cazul în care ipoteza alternativ este una specic (e.g., unul dintre atribute este preferat celuilalt),atunci P−valoarea este doar jum tate din suma anterioar . Spunem în acest caz c avem un test unilateral.

Exemplu 11.1. Se testeaz efectele unui anumit tip de medicamente pe un grup de voluntari ce prezint simptome de r ceal . Ace³tia sunt în num r de 14 ³i au fost împ rµiµi în dou grupuri de 7 persoane.Pacienµilor din primul grup, G1, li s-au administrat medicamentul iar pacienµilor din grupul G2 nu li s-auadministrat nimic. Dup o s pt mân , s-a testat starea s n t µii celor 14 pacienµi, rezultatele ind celedin Tabelul 11.5. S se determine dac administrarea medicamentului are vreun efect asupra st rii de

X @@Y s n tos bolnav Suma pe linie

G1 6 1 7G2 4 3 7

Suma pe coloan 10 4 14

Tabela 11.5: Tabel de contingenµ pentru testarea unui medicament.

Page 97: Statistic ˘ a Aplicat ˘ a

CSA 6 [Dr. Iulian Stoleriu] 96

s n tate a voluntarilor. Se va folosi nivelul de semnicaµie α = 0.05.

- Ipoteza nul este:

(H0) : Starea de s n tate a voluntarilor este independent de administrarea medicamentului.

Ipoteza alternativ (bilateral ) este:

(H1) : Ipoteza (H0) este fals .

Matricea conguraµiei este

M1 =

(6 14 3

)Folosind relaµia (11.4), probabilitatea apariµiei acestei conguraµii, ³tiind c sumele pe linii ³i pe coloanesunt xate, este

P1 =C6

7 C47

C1014

= 0.2448.

Alte conguraµii cu suma 7 pe ecare linie ³i sumele 10 pe prima coloan ³i 4 pe a doua coloan sunt:

M2 =

(4 36 1

), M3 =

(5 25 2

), M4 =

(3 47 0

), M5 =

(7 03 4

).

Probabilit µile condiµionate corespunz toare acestora sunt:

P2 = 0.2448; P3 = 0.4404, P4 = 0.0350, P5 = 0.0350.

P−valoarea este suma tuturor probabilit µilor mai mici sau egale cu P1:

Pv = P1 + P2 + P4 + P5 = 0.2448 + 0.2448 + 0.0350 + 0.0350 = 0.5596 > 0.05 = α.

A³adar, la acest prag de semnicaµie admitem ipoteza nul . √

Observaµia 11.2. (1) A se observa c suma P1 + P2 + P3 + P4 + P5 = 1, ceea ce era de a³teptat.(2) Dac rezultatul experimentului ar matriceaM5 ³i ipoteza alternativ este

(H1) : exist evidenµe c medicamentul are efecte benece,

atunci avem un test unilateral. În acest caz, P−valoarea este Pv = P5/2 = 0.0152 < α, ceea ce conducela respingerea ipotezei nule ³i, deci, exist evidenµe c medicamentul are efecte benece.

Page 98: Statistic ˘ a Aplicat ˘ a

LSA 6 [Dr. Iulian Stoleriu] 97

12 Statistica Aplicata (L6)

Probleme propuse

Exerciµiu 12.1. Se prezice c repartiµia literelor care apar cel mai des în limba englez ar urm toarea:

Litera O R N T EFrecvenµa 16 17 17 21 29

Aceasta semnic urm toarea: de ecare dat când cele 5 litere apar într-un text, în 16% dintre cazuriapare litera O, în 21% dintre cazuri apare litera T etc. Un criptologist analizeaz un text ³i num r apariµiile celor 5 litere. Acesta a g sit urm toarea distribuµie:

Litera O R N T EFrecvenµa 18 14 18 19 31

Folosind testul χ2 de concordanµ , s se verice dac aceste apariµii sunt în not discordant cu predicµiainiµial .

Exerciµiu 12.2. Un patron susµine c rma sa nu face discriminare sexual la angajare (i.e., atât b rbaµii,cât ³i femeile au aceea³i ³ans de a se angaja în respectiva rm ). Se aleg 500 de angajaµi ³i se g sesc 267de b rbaµi. Testaµi la nivelul de semnicaµie 0.05 dac patronul rmei spune adev rul sau nu.

Exerciµiu 12.3. Într-un sondaj de opinie, 5 b rbaµi ³i 5 femei au fost întrebate dac urm resc meciuri defotbal la TV în mod regulat. Toµi b rbaµii ³i doar dou femei au r spuns armativ, ceilalµi spunând c nu.Folosind testul Fisher, s se testeze la nivelul de semnicaµie α = 0.05 dac diferenµa este semnicativ din punct de vedere statistic (i.e., dac femeile se uit la fotbal la TV cot la cot cu b rbaµii).

Exerciµiu 12.4. Se arunc o moned de 250 de ori, obµinându-se 138 de apariµii ale stemei. La un nivelde semnicaµie α = 0.05, s se decid dac avem suciente dovezi de a arma c acest moned este fals .

Exerciµiu 12.5. Tabelul de mai jos reprezint o selecµie de rezultate din diferite sporturi, grupate peechipa câ³tig toare ³i sport.

Fotbal Baschet Handbal Volei Rugby

Gazdele câ³tig 53 112 45 21 31

Oaspeµii câ³tig 40 92 48 29 24

La nivelul de semnicaµie α = 0.05, s se decid dac victoria gazdelor/oaspeµilor este independent desport.

Exerciµiu 12.6. Se doreste a se testa daca testul poligraf poate detecta daca o persoana minte sau nu.Tabelul de mai jos reprezint o selecµie de rezultate.

Realitatea → Subiectul testat a minµit în realitate↓ Rezultatul poligrafului ↓ NU | DA

Poligraful indic faptul c subiectul minte 15 | 42

Poligraful indic faptul c subiectul nu minte 32 | 9

Page 99: Statistic ˘ a Aplicat ˘ a

LSA 6 [Dr. Iulian Stoleriu] 98

La nivelul de semnicaµie α = 0.05, s se decid dac testul poligraf este ecient în a detecta minciuna.

Exerciµiu 12.7. Se doreste a se testa daca sentinta pe care o va primi un acuzat este independenta decum pledeaza. Tabelul de mai jos reprezint o selecµie de rezultate.

Cum pledeaz → Acuzatul pledeaz ↓ Decizia judec torului ↓ "vinovat" | "nevinovat"

trimis la închisoare 390 | 62

r mâne liber 558 | 20

La nivelul de semnicaµie α = 0.05, s se decid dac sentinµa este independent de cum pledeaz acuzatul.Dac aµi avocatul ap r rii, aµi încuraja acuzatul s pledeze vinovat?

Page 100: Statistic ˘ a Aplicat ˘ a

CSA 7 [Dr. Iulian Stoleriu] 99

Statistica Aplicata (C7)

13 Teste neparametrice (C7)

Multe dintre testele discutate anterior au ca cerinµ ca datele selectate s urmeze o repartiµie normal (dac selecµia este mic ). Se pune problema urm toare: Ce se întâmpl dac aceast cerinµ (posibil ³ialtele) nu este vericat ³i nu ³tim nimic despre repartiµia datelor sau despre parametrii variabilei? Testeleneparametrice sunt cele în cadrul c rora nu se fac presupuneri asupra formei repartiµiei. Aceste teste nuestimeaz parametrii tradiµionali necunoscuµi, de aceea mai sunt cunoscute ³i sub titulatura de metode

f r parametri (en., parameter-free methods) sau metode f r repartiµie (en., distribution-free methods).Aceste teste pot utilizate atunci când aveµi dubii asupra normalit µii datelor statistice.

Se pot construi teste neparametrice corespunz toare ec rui test parametric studiat mai sus, îns acesteteste neparametrice sunt, în general, grupate în urm toarele categorii:

teste pentru diferenµa dintre grupuri (pentru selecµii independente). Este cazul compar rii mediilora dou selecµii ce provin din populaµii independente. De regul , se utilizeaz testul t dac ipotezeleacestuia sunt îndeplinite. Variante neparametrice ale acestui test sunt: testul Wald-Wolfowitz, testulMann-Whitney sau testul Kolmogorov-Smirnov pentru dou selecµii;

teste pentru diferenµa dintre variabile (pentru selecµii dependente). Utilizat la compararea a dou variabile ce caracterizeaz populaµia din care s-a luat selecµia. Teste neparametrice utilizate: testulsemnelor, testul Wilcoxon.

teste pentru relaµii între variabile. Pentru a g si corelaµia între variabile, se utilizeaz coecientul decorelaµie. Exist variante neparametrice ale coecientului de corelaµie standard, e.g., coecientul R(Spearman), coecientul τ (Kendall) sau coecientul Gamma. Exist , de asemenea, ³i teste privindcoecientul de corelaµie: χ2 sau testul Fisher exact.

Testul semnelor

Testul semnelor se mai numeste si testul medianei si este un test neparametric bazat pe semnele anumitorvalori ³i nu pe valorile în sine. Este unul dintre cele mai simple teste statistice neparametrice. Ipotezade baz a testului este c datele statistice observate sunt alese aleator din populaµia considerat . Acesttest face referire la o valoare centrala a setului de date observate si nu impune nicio ipoteza referitoare larepartiµia acestor valori observate. Daca testul t clasic testeaza valoarea medie a valorilor observate (inconditiile normalitatii datelor sau pentru un volum sucient de mare de date), testul semnelor testeazavaloarea mediana a observatiilor. Daca setul de date este simetric, atunci valoarea median este egal cumedia datelor. In acest caz, testul semnelor poate da informatii despre media datelor observate, desi esteun test mai putin precis decat testul t.

Presupunem c x1, x2, . . . , xn sunt observaµii aleatoare asupra unei caracteristici X dintr-o populaµie.Pentru o valoare reala data Me∗, testul semnelor testeaza ipoteza nula:

(H0) : Me = Me∗,

la nivelul de semnicaµie α. In funcµie de ipoteza alternativ , putem avea un test unitaleral sau un testbilateral.

Page 101: Statistic ˘ a Aplicat ˘ a

CSA 7 [Dr. Iulian Stoleriu] 100

Teste unilaterale:

(H0) : Me = Me∗

(H1)s : Me < Me∗

[sau (H1)d : Me > Me∗]

Statistica test S∗ = S< =n∑i=1

1xi<Me∗

unde S< = nr. datelor mai mici decât Me∗

[sau S∗ = S> =n∑i=1

1xi>Me∗

unde S> = nr. datelor mai mari decât Me∗]

Test bilateral:

(H0) : Me = Me∗

(H1) : Me 6= Me∗.

Statistica test S∗ = S 6= = maxS<, S>

Observaµiile care au o valoare egal cu Me∗ sunt eliminate din analiz ³i n este ajustat corespunz tor.Dac mediana esteMe∗, atunci S∗ este o variabil binomial S∗ ∼ B(n, 0.5). Pe baza acestor statistici secalculeaz valoarea critic Pv, care reprezint probabilitatea ca ipoteza nul s e respins . Aceste valoricritice sunt:

cazul unilateral: Pv = P (S ≥ S∗); cazul bilateral: Pv = 2P (S ≥ S∗);

unde S ∼ B(n, 0.5). Dac valoarea Pv este mai mare decât α, atunci accept m ipoteza nul (nu avemmotive s o respingem). Altfel, accept m ipoteza alternativ .

Observaµia 13.1. Dac volumul observaµiilor este mare (e.g., n ≥ 30) ³i S∗ ∼ B(n, 0.5), atunci statisticaS este aproximativ S∗ ∼ N (n/2,

√n/2). În acest caz, testul pentru median se poate face pe baza

statisticii

z0 =(S∗ − 0.5)− n/2√

n/2,

unde S este statistica corespunz toare de mai sus. Valoarea "−0.5" este corecµia de aproximare a uneivariabile discrete cu una continu . Decizia nal se ia astfel: accept m ipoteza nul dac

z0 > −z1−α (pentru (H1)s), z0 < z1−α (pentru (H1)d), |z0| < z1−α2

(pentru (H1)).

Exemplu 13.2. Dorim s test m preferinµele clienµilor dintr-o anumit pizzerie pentru pizza cu blatsubµire sau gros. S spunem c aceste preferinµe sunt reprezentate în Tabelul 13.1. În acest tabel, ec rei

marime subµire gros gros gros subµire gros gros subµire gros grossemn − + + + − + + − + +

Tabela 13.1: Tabel cu preferinµe pentru blatul de pizza.

preferinµe i se atribuie un semn, + pentru "blat gros" ³i − pentru "blat subµire". Dintr-o privire în tabel,se pare c marea parte (70%) a clienµilor prefer blatul gros. Dorim s test m semnicaµia acestor date.Cu alte cuvinte, care este ³ansa obµinerii acestor rezultate dac , de fapt, nu exist vreo diferenµ întrepreferinµe? Sau, dac am presupune c preferinµele pentru cele dou tipuri sunt împ rµite în mod egal,care sunt ³ansele de a obµine un rezultat de genul prezentat în tabelul de mai sus?

Page 102: Statistic ˘ a Aplicat ˘ a

CSA 7 [Dr. Iulian Stoleriu] 101

Soluµie: Stabilim ipoteza nul

(H0) : preferinµele pentru cele dou blaturi sunt 50%− 50%;

versus ipoteza alternativ bilateral

(H1) : exist diferenµe semnicative în preferinµele pentru cele dou blaturi;

Pot considerate ³i teste unilaterale (stânga sau dreapta). Alegem pragul de semnicaµie α = 0.05.Ca de obicei, presupunem c ipoteza nul este adev rat ³i, atunci, ³ansa ca cineva s aleag un blat sub-µire este p = 0.5. Dac not m cu X variabila aleatoare ce reprezint alegerea blatului, f cut de clienµiicare au comandat pizza, atunci X ∼ B(10, 0.5) (aici avem o selecµie de n = 10). Calcul m P−valoarea,adic valoarea maxim pentru pragul de semnicaµie pentru care ipoteza nul nu poate respins . Aici,S< = 3, S> = 7 ³i S 6= = 7. Probabilitatea critic este Pv = 2P (X ≥ 7) = 0.3438. Deoarece α < Pv,concluzion m c ipoteza nul nu poate respins la acest nivel de semnicaµie. √

Testul semnelor pentru date perechi

De multe ori, este nevoie de a compara caracteristicile a doua seturi de date statistice. Vom spune caaceste date sunt date perechi daca aceste date reprezinta observatii asupra aceleiasi caracteristici colectatela diverse momente in timp. Aceste seturi de valori provin din caracteristici care nu sunt independenteintre ele. Spre exemplu, un set de date reprezinta masele corporale ale unor persoane inainte de o anumitadieta si celalalt set de date reprezinta masele corporale ale acelorasi persoane, dar dupa dieta. Scopulanalizei statistice este studierea efectului dietei asupra masei corporale. Alt exemplu: pentru testareaprogresului facut de elevi intr-un semestru, se compara notele elevilor la testarea initiala la Matematicasi notele acelorasi elevi la teza de Matematica.

Presupunem ca X si Y sunt doua variabile dependente intre ele observate asupra aceleeasi populatii (e.g.,X este nota la testul initial si Y este nota la teza). Daca se doreste compararea mediilor celor doua seturiobservatii, nu se poate aplica testul t pentru diferenta mediilor, acolo unde cerinta de independenta dintreX si Y este una de baza. Vom vedea mai tarziu (testul t pentru date perechi) cum putem testa dacamediile sunt egale. Deocamdata, sa ne indreptam atentia spre medianele datelor.

Presupunem ca (x1, y1), (x2, y2), . . ., (xn, yn) sunt datele perechi observate. In multe aplicatii se dorestea se determina cum este X fata de Y . Pentru aceasta, se considera diferentele di = xi − yi. Se presupuneca d1, d2, . . . , dn provin dintr-o populatie continua de mediana unica,Me. Se poate utiliza testul anteriorpentru a testa daca valoarea mediana este 0:

(H0) : Me = 0

(H1)s : Me < 0 [sau (H1)d : Me > 0]

(H0) : Me = 0

(H1) : Me 6= 0.

Atenµie, acest test nu veric daca medianele celor doua selectii, MeX si MeY , sunt egale!

Testul seriilor pentru caracterul aleator

Testul seriilor (en., runs test) este un test neparametric ce veric ipoteza c un ³ir de date bivariateeste aleator generat (i.e., datele statistice constituie o selectie aleatoare dintr-un sir innit de valori). In

Page 103: Statistic ˘ a Aplicat ˘ a

CSA 7 [Dr. Iulian Stoleriu] 102

general, ipoteza vericata este

(H0) : valorile observate provin dintr-un sir aleator,

vs.(H1) : valorile observate nu provin dintr-un sir aleator.

Dac o anumit valoare a unui anumit ³ir de caractere este inuenµat de poziµia sa sau de valorile ce opreced, atunci selecµia generat nu poate aleatoare.

Denim noµiunea de serie sau faz (en., run) ca ind o succesiune a unuia sau mai multe simboluri deacela³i tip, care sunt precedate ³i urmate de simboluri de alt tip sau niciun simbol. De exemplu:

001111010010 sau MFFFFFMMMF sau ++-+---++++--+--++-

Num rul de faze ³i lungimea lor pot folosite în determinarea gradului de stochasticitate a unui ³ir desimboluri. Prea puµine sau prea multe faze, sau de lungimi excesiv de mari sunt rare în serii cu adev rataleatoare, de aceea ele pot servi drept criterii statistice pentru testarea stochasticit µii. Aceste criteriisunt adiacente: prea puµine faze implic faptul c unele faze sunt prea lungi (se observa o persistenta),prea multe faze implic faptul c unele faze sunt prea scurte (se observa o secventa in zigzag). A³adar,ne vom preocupa doar de num rul total de faze.

Fie n1 ³i n2 num rul de semne +, respectiv, − din ³ir, ³i e n = n1 + n2. Fie r1 ³i r2 num rul de faze cecorespund semnului +, respectiv, − din ³ir. Num rul total de faze este r = r1 + r2. Vom nota cu literemari, R1, R2 sau R, variabilele aleatoare ale caror realizari sunt r1, r2, respectiv, r.

Sa exemplicam aceste numere pentru sirurile considerate mai sus. Primul sir de n = 12 cifre esteconstituit din r = 7 faze: r1 = 4 faze de "0" si r2 = 3 faze de "1"; n1 = n2 = 6. Al doilea sir este formatdin r = 4 faze, r1 = 2 de "M" si r2 = 2 de "F", iar ultimul sir de n = 19 este constituit din r = 10 faze,cate r1 = r2 = 5 din ecare "+" sau "-".

Alegem ipoteza nul :

(H0) : ³irul este aleator (ecare aranjament de + ³i − este echiprobabil).

vs. ipoteza alternativ (H1) : ³irul nu este aleator.

Se pot considera si ipoteze alternative:

(H1)s : datele au o tendinta de se aduna ciorchine.

sau(H1)d : datele au o tendinta de se r sra.

Putem g si repartiµiile vectorilor aleatori (R1, R2), R1, R2 sau R. Spre exemplu, pentru R avem functiade probabilitate:

f(r) =

Cr/2−1n1−1 C

r/2−1n2−1

Cn1n

, dac r = par;

[C

(r−1)/2n1−1 C

(r−3)/2n2−1 + C

(r−3)/2n1−1 C

(r−1)/2n2−1

]Cn1n

, dac r = impar.

Page 104: Statistic ˘ a Aplicat ˘ a

CSA 7 [Dr. Iulian Stoleriu] 103

Cazul I: Când n1 ³i n2 sunt mari (i.e., n1 > 12, n2 > 12). In acest caz, variabila aleatoare corespunza-toare lui r are o repartitie aproape normala, R ∼ N (µ, σ), unde

µ = 2n1 n2

n+ 1, σ =

√2n1 n2 (2n1 n2 − n)

n2(n− 1)=

√(µ− 1)(µ− 2)

n− 1.

A³adar,R− µσ∼ N (0, 1).

Aceast statistic poate utilizat în testarea ipotezei nule (H0). Pentru testul bilateral, vom admiteipoteza nula daca ∣∣∣∣r − µσ

∣∣∣∣ ≤ z1−α2.

Altfel, se respinge ipoteza nula. Pentru testul unilateral, conditia de respingere a ipotezei nule este

r − µσ≤ −z1−α

pentru test unilateral stanga

r − µσ≥ z1−α

pentru test unilateral dreapta

Cazul II: Când n1 ³i n2 sunt mici (n1 ≤ 12, n2 ≤ 12). In acest caz, valorile critice pentru r se gasescintr-un tabel (vezi Tabelul 29.4). Astfel, pentru testul bilateral, regiunea care asigura acceptarea ipotezeinule este rα2, L < r < rα2,U.Pentru testul unilateral stanga, ipoteza nula va respinsa daca r < rα1, L.Pentru testul unilateral dreapta, ipoteza nula va respinsa daca r > rα1,U.

Testul seriilor poate folosit in:

testarea caracterului aleator a unei selectii de date, prin marcarea cu "+" a valorilor ce sunt maimari decat mediana si cu "−" ale celor ce sunt mai mici decat mediana. Valorile egale cu medianasunt omise si n este ajustat in consecinta.

testarea potrivirii unei functii cu un set de date, prin marcarea cu "+" a valorilor ce sunt mai maridecat valoarea functiei si cu "−" ale celor ce sunt mai mici decat valoarea functiei. Valorile egale cuvaloarea funµiei sunt omise si n este ajustat in consecinta. Acest test nu tine cont de distante dintredate si functie, ci doar de semne, spre deosebire de un test χ2.

Exerciµiu 13.1. Ratele de schimb valutare EUR/RON sunt inregistrate pentru 20 zile consecutive din lunaOctombrie 2014 si sunt comparate cu ratele de schimb medii istorice inregistrate in ultimii 5 ani. Senoteaza cu "+" daca valoarea din 2014 este peste valoarea medie istorica si cu "−" daca este sub valoareamedie istorica. Obtinem sirul binar:

+ +−+−−−+ + + +−−+−−+ +−+

La nivelul de semnicatie α = 0.05, testati ipoteza ca deviatia ratei din Octombrie 2014 de la rata medieistorica este aleatoare sau nu.

- Presupunem ca simbolurile + constituie elementele de tip 1. Sunt n = 20 elemente, cu n1 = 11si n2 = 9, r = 11 serii, cu r1 = 6 si r2 = 5. Din Tabelul 29.4, observam ca valorile critice sunt rα2, L = 8si rα2,U = 17. Cum 8 < r = 11 < 17, concluzionam ca ipoteza nula nu poate respinsa la acest nivel desemnicatie. √

Page 105: Statistic ˘ a Aplicat ˘ a

LSA 7 [Dr. Iulian Stoleriu] 104

14 Statistica Aplicata (L7)

Teste neparametrice (probleme)

Testul semnelor în Matlab

În Matlab, testul semnelor poate realizat cu ajutorul funcµiei

[p, h] = signtest(x, m)

unde:

m este un num r real;

x este un ³ir de caractere sau vector, asupra c ruia facem testul semnelor;

variabila de memorie h este rezultatul testului. Dac rezultatul a³at este h = 0, atunci ipotezanul , (H0): setul de date x provine dintr-o distribuµie continu de median egal cu m, este admis la acest nivel de semnicaµie. Dac rezultatul a³at este h = 1, atunci ipoteza nul este respins .Se va admite astfel ipoteza alternativ (H1): setul de date x provine dintr-o distribuµie continu

care nu are median egal cu m. Dac m nu apare, atunci se subînµelege c m = 0.

variabila de memorie p este P- valoarea, adic valoarea maxim pentru pragul de semnicaµie αpentru care ipoteza nul este admis . Deoarece aici α = 0.05 este subînµeles, pentru un p > 0.05 sea³eaz h = 0. Altfel, se a³eaz h = 1.

O variant îmbun t µit a comenzii anterioare este urm toarea:

[p, h, stats] = signtest(x, y,'alpha',alpha,'method',method)

Aici, în plus faµ de preciz rile de mai sus, mai ad ug m c :

Ipoteza nul este (H0): setul de date x− y provine dintr-o distribuµie continu de median egal cu

0, cu ipoteza alternativ c mediana lui x− y nu este 0;

variabila stats înmagazineaz urm toarele date:

zval - este valoarea statisticii Z pentru observaµia considerat (apare doar pentru selecµii devolum mare, n ≥ 30);

sign - este valoarea statisticii test;

alpha este nivelul de semnicaµie;

method este metoda folosit în testare. Putem avea o metod exact , când method este 'exact',sau aproximativ pentru 'approximate';

Exemplu 14.1. Pentru problema cu pizza, de mai sus, codul Matlab ce genereaz testul semnelor este:

Page 106: Statistic ˘ a Aplicat ˘ a

LSA 7 [Dr. Iulian Stoleriu] 105

x = [-1 1 1 1 -1 1 1 -1 1 1];

[p, h, stats] = signtest(x, 0)

Rezultatul testului este:

p = h = stats =

0.3438 0 sign: 3

Observaµia 14.2. Revenim la Exerciµiul 10.1 ³i urm rim testarea ipotezei nule folosind funcµia signtest.

Soluµie: Codul Matlab este simplu:

x = [ones(59,1); zeros(41,1)];

[p, h, stats] = signtest(x,.5)

Obµinem rezultatele:

p = h = stats =

0.0891 0 zval: 1.7000

sign: 41

ceea ce conrm c ipoteza nul este admis la nivelul de semnicaµie α = 0.05. √

Testul seriilor în Matlab

Funcµia Matlab ce simuleaz testul de vericare a stochasticit µii unui ³ir de caractere este

[h, p, stats] = runstest(x)

Acesta este un test ce veric dac valorile ce compun ³irul de caractere x apar în ordine aleatoare.Variabilele h, p ³i x sunt ca în testul signtest. Aici, variabila stats a³eaz urm toarele: num rul defaze, lungimile ec rei faze ³i valoarea statisticii pentru selecµia considerat .În urma rul rii comenzii, se va a³a valoarea h = 0 dac ipoteza c valorile apar în ordine aleatoare nupoate respins (este acceptat la nivelul de semnicaµie α = 0.05) ³i h = 1 în caz contrar. De exemplu,rularea codului

x = '011010100010001001010101110010101001010101010010111';

[h, p, stats] = runstest(x)

Page 107: Statistic ˘ a Aplicat ˘ a

LSA 7 [Dr. Iulian Stoleriu] 106

a³eaz

h = p = stats =

1 0.0014 nruns: 38

n1: 24

n0: 27

z: 3.2899

Acest rezultat se traduce astfel: ipoteza c ³irul considerat este aleator generat este respins la nivelulde semnicaµie α = 0.05 (subînµeles), P−valoarea este Pv = 0.0014 (asta însemnând c doar pentru unnivel de semnicaµie mai mic de Pv ³irul poate considerat aleator). Variabila de memorie stats a³eaz datele folosite în aplicarea testului.

Comanda urm toare

[h, p, stats] = runstest(x, v, alpha, tail)

a³eaz

decizia testului, ori h = 0 ori h = 1, cu semnicaµia de mai sus;

v este valoarea de referinµ a ³irului de caractere. Sunt num rate valorile ce sunt mai mici sau maimari decât v, cele care sunt exact egale cu v nu sunt contabilizate;

alpha este nivelul de semnicaµie;

tail poate una dintre urm toarele ipoteze alternative:

'both', ³irul nu este aleator (test bilateral). Aceasta opµiune poate s nu e specicat ,deoarece se subînµelege implicit.

'left', dac valorile tind s se adune în ciorchine (test unilateral stânga);

'right', dac valorile tind s se separe (test unilateral dreapta);

De exemplu, s consider m urm toarele comenzi:

y = 0:10; [h, p] = runstest(y,median(y),0.02,'left')

y = 0:10; [h, p] = runstest(y,median(y),0.02,'right')

y = 0:10; [h, p] = runstest(y,median(y),0.02,'both')

Rezultatele rul rii lor sunt (în ordine):

h = 1 p = 0.0043

h = 0 p = 1

h = 1 p = 0.0087

Page 108: Statistic ˘ a Aplicat ˘ a

LSA 7 [Dr. Iulian Stoleriu] 107

Exerciµiu 14.1. Urmatoarele date reprezinta cotele apelor Dunarii (in cm) inregistrate in Sulina inultimele 60 de zile:

81 77 72 71 72 74 79 79 80 80 86 88 86 85 80 82 84 86 55 71 78 90 88 57 82 54 58 90 95 89 85

90 92 95 88 82 79 80 80 79 75 71 70 68 72 69 66 69 88 100 110 102 88 75 70 68 66 65 64 64

La nivelul de semnicatie α = 0.05, testati ipoteza ca aceste valori sunt generate de un proces aleator, cualternativa ca exista un trend in aceste valori.

- Metoda I: Formulam ipoteza nula:

(H0) : datele sunt generate aleator,

vs. ipoteza alternativa(H1) : datele sunt nu generate aleator.

Folosind functia runstest din Matlab,

[h, p, stats] = runstest(X, median(X), 0.05, 'both')

obtinem:

h = p = stats =

nruns: 14

1 1.0135e-005 n1: 30

n0: 30

z: -4.2969

Se observa ca ipoteza alternativa este admisa, insemnand prezenta unui trend.

In fapt, daca in loc de optiunea 'both' alegem 'left', se va observa ca ipoteza alternativa este admisacu probabilitatea critica Pv = 5.0674 e−6, indicand tendinta datelor spre grupare (clustering).

Metoda a-II-a: Putem ajunge la acelasi rezultat si pe baza statisticii test. Aceasta este

z =r − µσ

,

unde

r = 14, µ = 2n1 n2

n+ 1 = 31, σ =

√2n1 n2 (2n1 n2 − n)

n2(n− 1)= 3.84.

Gasim ca z = −4.2969 < −z1−α = −z0.95 = −1.6449, deci acceptam ipoteza alternativa ca datele au otendinta spre grupare in clustere. √

Exerciµiu 14.2. Testati la nivelul de semnicatie α = 0.04 ipoteza c valoarea median a cotelor apelorDun rii din Exerciµiul 14.1 este de 80 cm sau o alt valoare.

Page 109: Statistic ˘ a Aplicat ˘ a

LSA 7 [Dr. Iulian Stoleriu] 108

- Metoda I: Formulam ipoteza nula:

(H0) : Me = 80,

vs. ipoteza alternativa(H1) : Me 6= 80.

Folosind functia signtest din Matlab:

x = [ 81 77 72 71 72 74 79 79 80 80 86 88 86 85 80 82 84 86 55 71 78 ...

90 88 57 82 54 58 90 95 89 85 90 92 95 88 82 79 80 80 79 75 71 ...

70 68 72 69 66 69 88 100 110 102 88 75 70 68 66 65 64 64];

[p,h,stats] = signtest(x, 80, 'alpha', 0.04)

Rezultatul este:

h = p = stats =

0 0.5901 sign: 25

Metoda a-II-a: Altfel, daca Me = 80, atunci numaram cate observatii avem sub mediana si pestemediana. Valorile egale cu mediana sunt eliminate din analiza. Obtinem:

n = 55, S< = 30, S> = 25, S∗ = S 6= = maxS<, S> = 30.

Daca S ∼ B(60, 0.5), atunci

Pv = 2P (S > S∗) = 2[1− P (S ≤ 29)] = 2*(1-binocdf(29,55,0.5)) = 0.5901.

Cum α = 0.04 < 0.5901 = Pv, acceptam ipoteza nula. √

Exerciµiu 14.3. Intr-un studiu de piata, sunt comparate doua tipuri de oferte O1 si O2 pentru un anumitprodus. Pentru a alua o decizie, au fost intrebate 50 de persoane care dintre cele doua oferte le prefera.Astfel 30 de persoane au declarat ca prefera O1, 16 au preferat oferta O2 si restul nu s-au putut decide.La nivelul de semnicatie α = 0.05, sa se decida daca este o diferenta semnicativa intre cele doua oferte.

- Formulam ipoteza nula:

(H0) : Ofertele O1 si O2 sunt egal preferate,

vs. ipoteza alternativa(H1) : Oferta O1 este preferat ofertei O2.

Utilizam testul semnelor pentru date perechi. Consideram diferentele intre cele doua oferte pentru grupultest. Vom avea 30 de valori "+" si 16 valori "−". Opiniile celor 4 persoane indecise sunt ignorate. Vomavea:

n = 46, S< = 16, S> = 30.

Daca S ∼ B(46, 0.5), atunci

Pv = P (S > S>) = P (S > 30) = 1− P (S ≤ 29) = 1-binocdf(29,46,0.5) = 0.0270.

Page 110: Statistic ˘ a Aplicat ˘ a

LSA 7 [Dr. Iulian Stoleriu] 109

Cum α = 0.05 > 0.0270 = Pv, respingem ipoteza nula. Asadar, concluzionam ca oferta O1 este preferata(semnicativ) ofertei O2, la nivelul de semnicatie α = 0.05.

În Matlab, folosim comanda signtest:

x=[ones(1,30),-1*ones(1,16)]

[p,h] = signtest(x); Pv = p/2;

if (Pv > 0.05)

disp('Ofertele O1 si O2 sunt egal preferate')

else

disp('oferta O1 este preferata (semnificativ) ofertei O2')

end

Page 111: Statistic ˘ a Aplicat ˘ a

LSA 7 [Dr. Iulian Stoleriu] 110

Probleme propuse

Exerciµiu 14.4. Tabelul de mai jos conµine calicativele obµinute de un elev de clasa I la o selectie de 9teste din clasa I, care au fost reluate la inceputul clasei a doua a-II-a.

Discipline A B C D E F G H Iclasa I S FB FB B B FB S B FB

clasa a II-a B I B FB FB B B S B

La nivelul de semnicaµie α = 0.05, testaµi ipoteza c rezultatele elevului s-au îmbun t µit în clasa a II-a.

Exerciµiu 14.5. Testaµi dac funcµiile Matlab rand ³i randn genereaz numere (pseudo-)aleatoare.

Exerciµiu 14.6. Testaµi dac ³irul de numere din progresia geometric

2 4 8 16 32 64 128 256 512 1024 ...

sunt numere aleator generate.

Exerciµiu 14.7. Un ocial al serviciului de ambulanµ arm c timpul mediu de r spuns la un apel 112este de 20 de minute. Dintre toate apelurile primite în 2008, se alege o selecµie întâmpl toare de 300 deapeluri la 112, dintre care, pentru 178 dintre acestea timpul de r spuns a dep ³it 20 de minute, restulind sub aceast valoare. Plecând de la aceast selecµie, putem arma sau inrma declaraµia ocialului?(α = 0.05)

Exerciµiu 14.8. O anumit rm dore³te s angajeze personal masculin ³i feminin respectând criteriulegalit µii în drepturi pentru ambele sexe. tiind c sexele ultimelor 50 de persoane angajate sunt dup cum urmeaz

MFFMMFMFMFMFMMFFFMMMFMFMFMFMFMMMFFMFMFFFMFMFMFMMMFMF

s se determine dac angaj rile în acest rm au caracter preferenµial pentru o anumit categorie de sexe(adic , s se verice dac apariµia de M sau de F în ³irul de mai sus este aleatorie). Se va lua α = 0.05.

Page 112: Statistic ˘ a Aplicat ˘ a

CSA 8 [Dr. Iulian Stoleriu] 111

Statistica Aplicata (C8)

15 Teste neparametrice (continuare) (C8)

Testul Wald-Wolfowitz (Wald4-Wolfowitz5 two-sample runs test)

Acest test este o alternativa neparametrica a testului t pentru selectii independente. Este utilizat intestarea ipotezei ca doua selectii sunt observatii ale unor caracteristici independente ce au o aceeasirepartitie. Reamintim, testul t pentru doua selectii decide daca doua selectii independente provin dindoua caracteristici ce au aceeasi medie. Testul Wald-Wolfowitz poate depista chiar mai multe diferentedintre cele doua repartitii decat testul t pentru doua selectii. Spre exemplu, testul W-W poate depistadiferentele dintre mediile sau dintre formele caracteristicilor din care provin cele doua seturi de observatii.Este ecient pentru un volum al selectiei cel putin moderat, e.g. cel putin egal cu 10.

Presupunerea principala este ca datele observate sunt observatii ale unor caracteristici continue indepen-dente. Presupunem ca avem doua seturi de date, xii=1,m si yjj=1,n. La nivelul de semnicatie α sedoreste a se testa ipoteza nula

(H0) : Cele doua seturi de date provin din doua caracteristici ce au o aceeasi repartitie,

vs.(H1) : Cele doua seturi de date provin din doua caracteristici ce au repartitii diferite.

Pentru a testa ipoteza nula, datele observate se vor scrie împreun , in ordine crescatoare, ecare observatieind codata cu 1 sau 2, dupa cum provine din setul 1 sau 2 de date. Testul Wald-Wolfowitz are la bazaipoteza nula ca ecare valoare observata din sirul combinat este extrasa independent dintr-o aceeasirepartitie data. Statistica test este r = numarul de faze (runs) observate in sirul obtinut prin alipire.Daca aceasta statistica ar avea o valoare numerica mica, atunci acest fapt indica un anumit trend indatele alipite (datele ce provin din acelasi set tind sa se adune in clustere), adica putin improbabil caaceste date sa provenit din aceeasi repartitie. Pe de alta parte, un numar mare pentru r este un indiciuca datele sunt observatii aleatoare ale unei repartitii, fapt care va duce la acceptarea ipotezei nule.

In cazul in care valori ale sirului x coincid cu valori ale sirului y, la codarea lor in sirul alipit se va cautacontinuarea fazei deja incepute.

Decizia se va lua pe baza unor valori tabelate (vezi Tabelul 29.5), astfel:

Daca r < rc, respingem ipoteza nula ; dac r > rc, acceptam ipoteza nula.

Pentru volume mai mari de 20, se poate folosi statistica R =r − µσ

, unde µ este numarul asteptat de faze

si σ deviatia sa standard:

µ = 1 +2n1n2

n1 + n2si σ =

√2n1n2(2n1n2 − n1 − n2)

(n1 + n2)2(n1 + n2 − 1).

Daca ipoteza nula este admisa, atunci statistica R urmeaza o repartitie normala N (0, 1).Pentru a lua decizia, procedam astfel:

4Abraham Wald (1902− 1950) matematician ungur n scut în Cluj5Jacob Wolfowitz (1910− 1981) matematician polonez-american

Page 113: Statistic ˘ a Aplicat ˘ a

CSA 8 [Dr. Iulian Stoleriu] 112

Daca |R| ≥ z1−α2, atunci respingem ipoteza nula. Altfel, o acceptam.

Exemplu 15.1. Datele de mai jos reprezinta procentajele obtinute de doua grupuri (baieti si fete) la untest de Matematica

Baiat 74 83 91 56 67 50 73 47 75 80Fata 79 80 55 49 88 95 50 77 83 90 88

La nivelul de semnicatie α = 0.05, sa se decida daca cele doua seturi de date provin din aceeasi repartitie(adica, datele sunt omogene).

- Ipoteza nula este omogenitatea datelor, i.e.:

(H0) : Cele doua seturi de date provin din doua caracteristici ce au o aceeasi repartitie,

vs.(H1) : Cele doua seturi de date provin din doua caracteristici ce au repartitii diferite.

Scriem datele in ordine crescatoare si le atasam codurile:

date 47 49 50 50 55 56 67 73 74 75 77 79 80 80 83 83 88 88 90 91 95cod b f f b f b b b b b f f f b b f f f f b f

Se observa ca valoarea 50 apare de doua ori, avand coduri diferite. In atribuirea codurile s-a urmarit caprimul cod corespunzator valorii 50 sa e cel anterior (continuare de faza). Similar s-a procedat pentruvaloarea 83.

Numarul de faze este r = 10. Valoarea critica se citeste din Tabelul 29.5 pentru n1 = 10 si n2 = 11.Astfel, valoarea critica (la nivelul de semnicatie α = 0.05) este rc = 6. Cum r = 10 > 6, admitemipoteza nula. Asadar, admitem ipoteza ca aceste punctaje provin dintr-o aceeasi repartitie, la nivelul desemnicatie α = 0.05. √

Altfel, daca am dori sa utilizam repartitia asimptotica in acest caz (nu este un caz in care n1 > 20 sin2 > 20, insa facem acest lucru pentru exemplicare), atunci gasim ca:

µ = 11.4762, σ = 2.2279, R =10− 11.4762

2.2279= −0.6626, z0.975 = 1.96.

Cum |R| < 1.96, acceptam ipoteza nula la nivelul de semnicatie α = 0.05.

Testul Wilcoxon bazat pe ranguri cu semn (Wilcoxon Signed-Rank Test)

Testeaza valoarea centrala a unui set de date. Este folosit ca o alternativa pentru testul t pentru mediecand ipotezele acestuia nu sunt vericate. Astfel, testul signed rank al lui Wilcoxon este utilizat pentruvericarea daca un set de date provine dintr-o distributie de o anumita mediana, in cazul in care dateleobservate nu sunt neaparat normale. Presupunem ca x1, x2, . . . , xn este o selectie aleatoare de dateobservate asupra unei variabile continue si simetrice X, de mediana Me. Acest test verica daca mediavariabilei X este o valoare data Me∗. Putem avea teste unilaterale sau test bilateral.

teste unilaterale:

(H0) : Me = Me∗

(H1)s : Me < Me∗ [sau (H1)d : Me > Me∗]

test bilateral:

(H0) : Me = Me∗

(H1) : Me 6= Me∗.

Page 114: Statistic ˘ a Aplicat ˘ a

CSA 8 [Dr. Iulian Stoleriu] 113

Pentru a efectua testul, procedam astfel: daca admitem ipoteza nula, atunci Me = Me∗. Ordonamurmatoarele valori in ordine crescatoare:

|x1 −Me∗|, |x2 −Me∗|, . . . , |xn −Me∗|. (15.1)

Determin m rangurile asociate acestor valori. Statistica test va S∗ = suma rangurilor asociate cu valorilepozitive pentru xi −Me∗.

Regiunile care duc la respingerea ipotezei nule sunt, respectiv:

S∗ ≥ c1, pentru testul unilateral dreapta

S∗ ≤ c2 =n(n+ 1)

2− c1,

pentru testul unilateral stanga

S∗ ≤ n(n+ 1)

2− c sau S∗ ≥ c,

pentru testul bilateral

unde c, c1 si c2 sunt date in Tabelul 29.6.

Exemplu 15.2. Un brutar doreste sa verice daca o anumita masina de paine functioneaza corect.Aceasta este potrivita sa produca paini de 500g. Urmatorul set de date reprezinta gramajele a 15 painialese aleator, produse de aceasta masina:

504.4 490.8 497.5 493.2 502.5 495.0 505.9 498.2

501.6 497.3 492.0 504.3 499.2 493.5 505.8

Se presupune ca deviatiile de la mediana au aceeasi probabilitate de a pozitive sau negative si nu putempresupune normalitatea datelor. Totodata, avem prea putine observatii pentru a folosi o distributienormala asimptotica.

Dorim sa utilizam testul rangurilor cu semn al lui Wilcoxon pentru a testa daca masina este calibratacorect. (α = 0.05)

- Ipoteza nula este

(H0) : Me = 500 vs (H1) : Me 6= 500.

Scadem 500 din toate datele si obtinem:

4.4 -9.2 -2.5 -6.8 2.5 -5.0 5.9 -1.8

1.6 -2.7 -8.0 4.3 -0.8 -6.5 5.8

Le ordonam valorile absolute in ordine crescatoare:

valoarea absoluta 0.8 1.6 1.8 2.5 2.5 2.7 4.3 4.4 5 5.8 5.9 6.5 6.8 8 9.2

rangul 1 2 3 4.5 4.5 6 7 8 9 10 11 12 13 14 15

semnul − + − − + − + + − + + − − − −Statistica test este S∗ = 2 + 4.5 + 7 + 8 + 10 + 11 = 42.5. Folosind Tabelul 29.6, observam ca pentrun = 15, daca ipoteza nula este acceptata, atunci:

P (S∗ ≥ 95) = P (S∗ ≤ 25) = 0.024, ³i astfel, P(S∗ ≥ 95

⋃S∗ ≤ 25

)= 0.048 ≈ 0.05.

Asadar testul bilateral va respinge ipoteza nula pentru S∗ ≥ 95 sau pentru S∗ ≤ 25. Cum S∗ = 42.5,acceptam ipoteza nula la acest nivel de semnicatie.

Page 115: Statistic ˘ a Aplicat ˘ a

CSA 8 [Dr. Iulian Stoleriu] 114

Testul t pentru date perechi

Acesta este un test parametric. Il mentionam aici doar pentru a face diferenta intre acest test si alteteste neparametrice ce pot utilizate pentru datele perechi. Testul poate aplicat pentru perechi de datepentru care diferentele intre valorile perechi sunt normale.

In cursurile anterioare am vazut cum putem testa daca mediile a doua variabile independente X si Ysunt egale pe baza observatiilor facute asupra acestor variabile, xii=1,m si yjj=1, n, unde m si n nusunt neaparat egale. Exista insa situatii in care variabilele X si Y nu sunt independente intre ele. Spreexemplu, observatiile facute asupra aceluiasi grup de indivizi inainte si dupa un tratament. In astfel desituatii, testul t pentru diferenta mediilor studiat anterior nu se mai poate aplica.

Presupunem ca X si Y sunt doua variabile (posibil corelate) si ca (x1, y1), (x2, y2), . . ., (xn, yn) suntdatele perechi observate. Notam mediile teoretice ale acestor variabile prin: µX = E(X) si µY = E(Y ).In multe aplicatii se doreste a se determina cum este X fata de Y . Pentru ecare pereche, consideramdi = xi − yi. Presupunem ca variabilele corespunzatoare diferentelor, Dii=1, n, sunt normale, de mediaµD si deviatie standard σD. Evident, avem ca µD = µX − µY , insa σ2

D nu mai este neaparat egal cuσ2X + σ2

Y , egalitatea avand loc doar in cazul independentei dintre variabilele X si Y . Deoarece Di suntconsiderate normale, putem folosi testul t obisnuit pentru medie pentru a testa ipoteza nula

teste unilaterale:

(H0) : µD = µ0

(H1)s : µD < µ0 [sau (H1)d : µD > µ0]

test bilateral:

(H0) : µD = µ0

(H1) : µD 6= µ0.

Pentru setul de date dii=1, n, notam cu d =1

n

n∑i=1

di si sd =

√√√√ 1

n− 1

n∑i=1

[di − d]2.

Statistica test este

t =d− µ0

sD/√n.

Regiunile care duc la respingerea ipotezei nule sunt, respectiv:

t ≤ −tα;n−1 pentru testul unilateral stanga

t ≥ tα;n−1 pentru testul unilateral dreapta|t| ≥ t1−α

2;n−1 pentru testul bilateral

De asemenea, testul poate efectuat pe baza unei valori Pv, care poate calculata in ecare caz.

Testul Wilcoxon pentru date perechi

Este varianta neparametrica a testului anterior. Acest test este utilizat cand ipoteza de normalitate adiferentelor nu este vericata. Ipoteza testului este: repartitia diferentelor di este una continua si simetrica.

In cazul in care observatiile pentru X si Y sunt continue si difera doar prin valorile medii, atunci repartitiadiferentelor va continua si simetrica. Nu este necesar ca repartitiile lui X si Y sa e simetrice.

Acest test verica ipoteza nula ca valoarea mediana MeD = MeX −MeY a diferentelor este una data.

Page 116: Statistic ˘ a Aplicat ˘ a

CSA 8 [Dr. Iulian Stoleriu] 115

teste unilaterale:

(H0) : MeD = Me∗

(H1)s : MeD < Me∗ [sau (H1)d : MeD > Me∗]

test bilateral:

(H0) : MeD = Me∗

(H1) : MeD 6= Me∗.

Pentru a testa aceasta ipoteza pentru mediana MeD, se continu cu etapele testului Wilcoxon Signed-Rank Test discutat anterior.

Testul Wilcoxon bazat pe suma rangurilor(Wilcoxon6 Rank-Sum Test sau Mann-Whitney test)

Acest test este varianta neparametrica a testului t pentru compararea medilor. Este utilizat in cazul incare ipotezele testului t nu sunt satisfacute (lipsa normalitatii a cel putin unui set de date).

Presupunem ca avem doua seturi independente de date continue, xii=1,m si yjj=1,n. Notam cu Me1

si Me2 mediianele teoretice corespunzatoare repartitiilor din care provin aceste date. Se presupune ca Xsi Y au aceeasi forma, singura diferenta posibila ind valorile lor medii. La nivelul de semnicatie α sedoreste a se testa ipoteza nula

teste unilaterale:

(H0) : MeD = Me∗

(H1)s : MeD < Me∗ [sau (H1)d : MeD > Me∗]

test bilateral:

(H0) : MeD = Me∗

(H1) : MeD 6= Me∗.

Pentru a efectua testul, procedam astfel: daca admitem ipoteza nula, atunci MeD = Me∗. Presupunemca m ≤ n (daca nu e adevarat, renotam selectiile). Ordonam urmatoarele valori in ordine crescatoare:

x1 −Me∗, x2 −Me∗, . . . , xm −Me∗, y1 −Me∗, y2 −Me∗, . . . , yn −Me∗. (15.2)

Statistica test va S∗ = suma rangurilor asociate cu valorile (xi −Me∗) din sirul (15.2).

Regiunile care duc la respingerea ipotezei nule sunt, respectiv:

S∗ ≥ c1, pentru testul unilateral dreapta

S∗ ≤ c2,

pentru testul unilateral stanga

S∗ ≥ c sau S∗ ≤ m(m+ n+ 1)− c,pentru testul bilateral

unde c, c1 si c2 sunt date in tabelele 29.8 ³i 29.9.

Exemplu 15.3. Pe baza datelor observate in Exercitiul 15.1, testati ipoteza ca procentajul mediu realobtinut de fete este mai mare decat cel obtinut de baieti, la nivelul de semnicatie α = 0.05.

- Datele sunt urmatoarele:

Baiat 74 83 91 56 67 50 73 47 75 80Fata 79 80 55 49 88 95 50 77 83 90 88

6Frank Wilcoxon (1892− 1965), chimist ³i statistician irlandez

Page 117: Statistic ˘ a Aplicat ˘ a

CSA 8 [Dr. Iulian Stoleriu] 116

Notam cu xi procentajele baietilor si cu yj pe ale fetelor. Avem ca m = 10, n = 11. Ipoteza nula este:

(H0) : Me1 −Me2 = 0,

vs.(H1) : Me1 −Me2 < 0.

Scriem datele in ordine crescatoare si le atasam codurile si rangurile:

date 47 49 50 50 55 56 67 73 74 75 77 79 80 80 83 83 88 88 90 91 95cod b f f b f b b b b b f f f b b f f f f b frang 1 2 3.5 3.5 5 6 7 8 9 10 11 12 13.5 13.5 15.5 15.5 17 18 19 20 21

Statistica test este S∗ = 1 + 3.5 + 6 + 7 + 8 + 9 + 10 + 13.5 + 15.5 + 20 = 93.5. Pentru m = 10 sin = 11 gasim ca valoarea critica c2 (tabelul 29.9, n = 10, m = 11, la nivelul de semnicatie α = 0.05)este c2 = 86. Cum S∗ = 93.5 > 86, admitem ipoteza nula. Asadar, nu este o diferenta semnicativa intrepunctajele mediane reale, la nivelul de semnicatie α = 0.05. √

Page 118: Statistic ˘ a Aplicat ˘ a

LSA 8 [Dr. Iulian Stoleriu] 117

16 Statistica Aplicata (L8)

Testele Wilcoxon in Matlab

Functia Matlab pentru testul Wilcoxon bazat pe rangurile cu semn este signrank. Modurile de apelaresunt:

[p,h,stats] = signrank(x,m,'alpha', alpha, 'method', metoda, 'tail', tail)

sau

[p,h,stats] = signrank(x,y,'alpha', alpha, 'method', metoda, 'tail', tail),

unde x este vectorul format cu observatii, m este valoarea testata (pentru prima varianta) si x, y corespundvectorului de date perechi (pentru a doua varianta). Optiunea metoda poate una dintre 'exact'

(implicit) si 'approximate'. Metoda exacta calculeaza regiunea critica pe baza tabelelor speciale, iarmetoda aproximativa se va folosi pentru selectii de volum mare. Optiunea tail poate una dintre'both' (implicit), 'left' sau 'right'.

Spre exemplu, pentru Exercitiul 15.2, apelam functia astfel: unde x este vectorul format cu observatii, meste valoarea testata, metoda poate una dintre 'exact' si 'approximate'. Metoda exacta calculeazaregiunea critica pe baza tabelelor speciale, iar metoda aproximativa se va folosi pentru selectii de volummare. Spre exemplu, pentru Exercitiul 15.2, apelam functia astfel:

g = [504.4 490.8 497.5 493.2 502.5 495.0 505.9 498.2 ...

501.6 497.3 492.0 504.3 499.2 493.5 505.8];

[p,h,stats] = signrank(g,500,'alpha', 0.05, 'method', 'exact')

% sau, simplu, [p,h,stats] = signrank(g,500)

Obtinem rezultatul:

p = h = stats =

0.3373 0 signedrank: 42.5000

Pe baza acestui rezultat, concluzionam ca ipoteza nula nu poate respinsa la nivelul de semnicatieα = 0.05.

Functia Matlab pentru testul Wilcoxon bazat pe suma rangurilor este ranksum. Se poate folosi astfel:

[p,h,stats] = ranksum(x,y,'alpha', alpha, 'method', metoda)

Spre exemplu, pentru Exercitiul 15.3, apelam functia astfel:

Page 119: Statistic ˘ a Aplicat ˘ a

LSA 8 [Dr. Iulian Stoleriu] 118

b = [74 83 91 56 67 50 73 47 75 80]; f = [79 80 55 49 88 95 50 77 83 90 88];

[p,h,stats] = ranksum(b,f, 'method', 'exact')

obtinandu-se:

p = h = stats =

0.2580 0 ranksum: 93.5000

Page 120: Statistic ˘ a Aplicat ˘ a

LSA 8 [Dr. Iulian Stoleriu] 119

Probleme propuse

Exerciµiu 16.1. Conducerea unui liceu investigheaza daca situatia scolara a elevilor transferati in acestliceu s-a imbunatatit in urma tranferului. Tabelul de mai jos contine mediile generale ale unui grup de15 elevi in anul dinainte de transfer si in primul an de dupa transfer. Vericati daca transferul a fostbenec pentru elevi, folosind trei teste: testul t pentru date perechi, testul semnelor si testul Wilcoxon(signed-rank test) (α = 0.05).

Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15inainte 8.10 9.20 9.50 8.40 8.85 7.63 7.35 8.83 6.90 9.12 7.86 8.32 8.45 6.87 8.15dupa 8.40 7.90 8.80 9.05 9.15 7.87 8.25 8.70 7.14 8.78 7.95 8.55 7.75 7.05 8.15

Exerciµiu 16.2. Tabelul de mai jos conµine calicativele obµinute de un elev de clasa I la o selectie de 9teste din clasa I, care au fost reluate la inceputul clasei a doua a-II-a.

Discipline A B C D E F G H Iclasa I B FB FB B B FB S B FB

clasa a II-a S I B FB FB B B S B

La nivelul de semnicatie α = 0.05, testati ipoteza ca rezultatele elevului s-au imbunatatit in clasa a II-a.

Exerciµiu 16.3.

Tabelul al turat conµine mediile obµinutede un elev de clasa a V-a la 10 disciplinedin cele dou semestre ³colare.

Discipline A B C D E F G H I Jsemestrul I 6 9 7 8 8 9 9 9 7 10

semestrul al II-a 7 9 8 9 8 9 8 10 8 10

Folosind un test potrivit, testaµi ipoteza c rezultatele elevului s-au îmbun t µit în semestrul al doilea(α = 0.04).

Exerciµiu 16.4. Se testeaz ecacitatea unui anumit medicament în reducerea tensiunii arteriale peun grup format din 12 pacienµi. Datele de mai jos reprezit m sur torile observate înainte ³i dup administrarea medicamentului.

Pacientul P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12

inainte 86 89 87 78 98 95 79 95 87 90 89 93dupa 87 85 85 79 92 95 78 92 85 86 87 88

Folosind un test potrivit, testaµi ipoteza nul medicamentul nu are efect versus ipoteza alternativ medicamentul este ecient (α = 0.05) în ecare dintre urm toarele cazuri:

(a) ambele seturi de date sunt considerate a normale;

(b) datele nu sunt neap rat normale.

Exerciµiu 16.5. Elevii unui anumit liceu au efectuat de generaµii excursii organizate. Directorul liceuluidore³te s verice dac p rinµii copiilor înc mai susµin aceast iniµiativ . El a trimis un chestionar la toµip rinµii copiilor din liceu, prin care le cerea s indice opµiunea lor ³i ciclul de studii al copilului lor. Doar150 de p rinµi au r spuns, iar rezultatele au fost grupate în tabelul de mai jos.

Page 121: Statistic ˘ a Aplicat ˘ a

LSA 8 [Dr. Iulian Stoleriu] 120

Ciclul \ Opinia De acord Nu sunt de acord Nicio p rere

Gimnaziu 42 30 6

Liceu 40 25 7

(a) Testaµi dac alegerea p rinµilor este independent de ciclul de studii. (α = 0.05)(b) Pe baza r spunsurilor primite, decideµi dac proporµia de p rinµi ce sunt de acord cu excursiile estesemnicativ diferit de proporµia celor ce au alte opinii (α = 0.05).

Page 122: Statistic ˘ a Aplicat ˘ a

CSA 9 [Dr. Iulian Stoleriu] 121

Statistica Aplicata (C9)

17 Teste de ree³antionare (C9)

Testele de reesantionare sunt metode statistice de estimare a unor parametri sau pentru realizarea unorteste statistice, bazate pe generarea de subselectii de date pe computer. In general, aceste metode pot utilizate doar cu ajutorul unui computer. Marele lor avantaj este ca pot utilizate atunci cand testeleclasice (Z, t, F etc.) nu pot aplicate.

Testele clasice sunt uneori prea restritive. Una dintre cerintele importante pentru testele clasice estenormalitatea datelor. Daca aceasta conditie nu este indeplinita, pentru a putea realiza un test clasic ar necesara considerarea unui volum sucient de mare de date. Daca nici aceasta conditie nu este indeplinita,atunci folosirea metodelor clasice in estimarea parametrilor sau in vericara ipotezelor statistice esteinoportuna. In plus, exista multi parametri ai populatiei pentru care nu exista statistici potrivite, cepot folosite in estimarea unor parametri sau pentru validarea ipotezelor statistice. Exemple de astfelde parametri sunt: cuantilele, cotele, unii coecienti de corelatie etc. Testele neparametrice sau cele dereesantionare pot metodele alternative care pot scoate un statistician din impas.

Dintre metodele de reesantionare amintim: testele de permutari, bootstrapping, metoda jackknife saumetodele Monte Carlo. Testele de permutari (sau metode de randomizare) sunt metode de reesantionareefectuate fara repetitie folosite in a testa anumite ipoteze statistice. In general, sunt utilizate pentru a testaipoteze de tipul "lipsa de efect". Metoda de bootstrap (sau bootstrapping) este o metoda de reesantionareefectuate cu repetitie, in special utilizate pentru a determina intervale de incredere pentru parametriiunei populatii. Metodele Monte Carlo folosesc esantioane repetate din populatii cu parametri cunoscutipentru a determina senzitivitate metodelor statistice. Metoda jackknife (sau jackkning) este o metodasimilara cu bootstrapping, folosita in estimarea variantei sau a deplasarii unui estimator. Este bazata peeliminarea sistematica a unei date observate din setul de date si obtinerea de estimari pe baza datelorramase.

Avantaje ale metodelor de reesantionare::

ipoteze mai putin restrictive. De exemplu, nu este necesara ipoteza de normalitate sau ca volumulselectiei sa e mare.

acuratete mai mare. Testele de permutari si anumite metode bootstrap au acuratete mai mare decata testelor clasice.

grad larg de aplicabilitate. Pot utilizate pentru testarea multor ipoteze statistice si nu necesitautilizarea unor statistici speciale.

usurinta in utilizare

In continuare, vom discuta doar doua dintre aceste metode, si anume testele de permutari si metodabootstrapping.

Teste de permutari (en., permutation or randomization tests)

Sunt teste de reesantionare bazate pe reesantionarea fara repetitie, folosite pentru testarea unor ipotezestatistice. De exemplu, pot folosite pentru a testa egalitatea mediilor, pentru egalitatea variantelor,

Page 123: Statistic ˘ a Aplicat ˘ a

CSA 9 [Dr. Iulian Stoleriu] 122

pentru egalitatea proportiilor a doua populatii, sau pentru compararea datelor perechi. De asemenea, pot utilizate in compararea corelatilor dintre doua variabile cantitative. Aceste teste sunt utilizate atuncicand testele clasice corespunzatoare nu pot aplicate (ori datele nu sunt normale, ori avem prea putinedate). Etapele unui test de permutari sunt:

Se alege o statistica ce masoara efectul studiat;

Construim repartitia de selectie a acestei statistici pentru cazul in care ipoteza nula este valida (i.e.,nu exista niciun efect observat).

Localizam valoarea observata a statisticii in aceasta repartitie si calculam valoarea Pv (probabilitateade a observa un rezultat cel putin la fel de extrem ca si cel observat, sau probabilitatea de a respingeipoteza nula in cazul in care ea este adevarata).

Ipoteza nula pentru acest test este:

(H0) : Efectul studiat nu este prezent pentru populatia (populatiile) observata (e).

Ipoteza alternativa este orice ipoteza care se opune ipotezei nule.

Se pun in comun toate valorile observate si apoi se va face o reesantionare (o rearanjare fara repetitie)a datelor, care sa e in concordanta cu ipoteza nula. Pentru ecare conguratie a datelor se va cal-cula statistica de interes S (cea care masoara efectul studiat). In cazul testarii egalitatii a doua medii,aceasta statistica este diferenta mediilor de selectie. S not m cu S∗ valoarea statisticii de interes pentruconguraµia observat .

Pentru un test bilateral, valoarea critica a testului, Pv, este egala cu raportul dintre numarul de diferenteabsolute cel putin egale cu |S∗| si numarul total de diferente. Pentru un test unilateral dreapta, valoareacritica a testului, Pv, este egala cu raportul dintre numarul de diferente cel putin egale cu S∗ si numarultotal de diferente. Pentru un test unilateral stanga, valoarea critica a testului, Pv, este egala cu raportuldintre numarul de diferente cel mult egale cu S∗ si numarul total de diferente.

Decizia nala se va lua astfel: daca α ≥ Pv, atunci respingem ipoteza nula. In caz contrar, ipoteza nulava acceptata.

Pentru exemplicare, consideram urmatorul exercitiu demonstrativ.

Exemplu 17.1. Datele urmatoare reprezinta punctajele a 5 elevi (baieti si fete) la un anumit test deMatematica: 53, 75, 80, 67, 78, unde primele 3 valori sunt punctajele baietilor si ultimele doua suntpunctajele fetelor. Se doreste ca, pe baza acestor valori, sa se testeze daca exista diferente semnicativeintre valorile medii ale punctajele baietilor si ale fetelor (la un nivel de semnicatie α = 0.05). Desigur,acest exemplu este unul demonstrativ; in practica pot mai multe valori de ecare parte.

Ipoteza nula este urmatoarea:

(H0) : Nu este nicio diferenta intre punctajele medii pentru baieti si fete.

Altfel spus, avem de testat ipoteza:

(H0) : µb = µf vs. (H1) : µb 6= µf ,

unde µb si µf sunt mediile procentajelor la baieti (variabila o notam cu b) si, respectiv, la fete (variabilaeste notata aici cu f).

Daca ipoteza nula ar adevarata, atunci acest set de date sunt observatii aleatoare asupra unei aceleasirepartitii. In acest caz, oricum am alege 3 valori (din cele 5) care sa corespunda baietilor si, respectiv, 2

Page 124: Statistic ˘ a Aplicat ˘ a

CSA 9 [Dr. Iulian Stoleriu] 123

valori pentru fete, mediile µb si µf nu se vor modica. In consecinta, ne vom uita la toate combinatiileposibile pentru ecare grup. Pentru ecare combinatie in parte, calculam diferenta valorilor, obtinandastfel un set de C3

5 = 10 diferente.

In general, daca avem doua seturi de date, unul de volum m si celalalt de volum n, atunci putem formaCmm+n combinatii, deci vom determina un set de Cmm+n diferente.

Statistica de interes, S, care va determina diferenta dintre cele doua medii, este diferenta mediilor deselectie. Pentru exemplul nostru, aceasta este S = b−f . Localizam acum valoarea lui S pentru conguratiadata, notata aici prin S∗. Valoarea critica Pv este egala cu raportul dintre numarul de diferente cel putinegale cu S∗ si numarul total de diferente.

Dupa cum se poate observa din Tabelul 17.1, statistica observata este S∗ = 3.17. In ultima coloana dintabel exista 9 valori cel putin egale cu S∗ (inclusiv valoarea absoluta observata), de unde gasim ca

Pv =card|S| ≥ |S∗|

Cmm+n

=9

10= 0.9.

La nivelul de semnicatie α = 0.05 < 0.9 = Pv, nu avem motive sa respingem ipoteza nula.

baieti b fete f S = b− f |S| = |b− f |53, 75, 80 69.33 67, 78 72.50 -3.17 3.1753, 75, 67 65 80, 78 79 -14 1453, 75, 78 68.67 67, 80 73.50 -4.83 4.8353, 67, 80 66.67 75, 78 76.50 -9.83 9.8353, 78, 80 70.33 67, 75 71 -0.67 0.6753, 67, 78 66 75, 80 77.50 -11.50 11.5080, 75, 67 74 53, 78 65.50 8.50 8.5080, 75, 78 77.67 53, 67 60 17.67 17.6780, 67, 78 75 53, 75 64 11 1175, 67, 78 73.33 53, 80 66.50 6.83 6.83

Tabela 17.1: Tabel cu toate combinatiile posibile.

Un test de permutari este un test exact. In cazul in care numarul Cmm+n este foarte mare, atunci estepractic de a considera doar o selectie aleatoare (cu repetitie) dintre toate valorile.

In cazul in care m si n (volumele celor doua seturi de date) sunt sucient de mari, atunci ar oportunafolosirea testului t, care este un test mai puternic (in sensul ca va avea o eroare de speta a doua, β, maimica pentru un α xat). Testul de permutari poate folosit cu succes atunci cand ipotezele testului t nusunt satisfacute, oferind valori bune pentru Pv chiar daca datele observate sunt asimetrice.

Bootstrapping

Aceasta metoda foloseste datele de selectie pentru a estima parametrii relevanti ai unei populatii statistice.Metoda foloseste reesantionarea cu repetitie a datelor observate. Poate folosita cu succes in estimareaerorii unui estimator, σ

θ, in cazul in care intervalele de incredere clasice nu sunt aplicabile. De asemenea,

exista diversi parametri pentru care nu exista metode clasice de a-i estima, e prin estimatori punctualisau cu intervale de incredere. Exemplu de astfel de parametri: cuantile, coecienti de corelatie, deviatiietc. Aceasta metoda poate da rezultate foarte bune si in cazul unor statistici test neliniare complicate,care nu pot estimate prin alte metode traditionale. In practica, aceasta metoda poate functiona doarcu ajutorul unui computer, din cauza ca poate aparea un volum foarte mare de date.

Page 125: Statistic ˘ a Aplicat ˘ a

CSA 9 [Dr. Iulian Stoleriu] 124

Avem un set de date observate, x1, x2, . . . , xn, pe baza carora dorim sa estimam un parametru θ alpopulatiei din care provin aceste date. In metoda de bootstrap, aceste date vor privite ca ind opopulatie statistica, din care vom extrage diverse esantioane de volum n. Pe baza acestor esantioane vomdetermina intervale de incredere pentru θ. Etapele metodei bootstrapping sunt:

Reesalonam cu repetitie valorile observate, obtinand un set de date reesalonate de volum n:x∗1, x∗2, . . . , x∗n.

Repetam pasul anterior de un numar r de ori, unde r ≤ nn. Vom obtine selectiile de bootstrap:

x∗b1, x∗b2, . . . , x∗bn, b = 1, 2, . . . , r.

Aici, numarul B = nn este numarul maxim de reesalonari cu repetitie de volum n pe care le putemobtine. In cazul in care B nu este un numar foarte mare (astfel incat computerul sa poata facereesalonarile in timp util), atunci putem lua r = B.

Pentru ecare b = 1, 2, . . . , r, calculam

θ∗b =1

n

n∑i=1

x∗bi, θ∗

=1

r

r∑i=1

θ∗b (media selectiei de bootstrap)

si un estimator pentru eroarea standard a selectiei de bootstrap,

=

√√√√ 1

r − 1

r∑i=1

(θ∗b − θ

∗)2

.

Daca θ = x, atunci un interval de incredere pentru medie la nivelul de condenta α este[x− z1−α

2sx∗ , x+ z1−α

2sx∗].

In cazul in care r = B, atunci x∗n = x si estimatorul pentru eroarea standard devine:

sx∗ =

√√√√ 1

B

B∑i=1

(x∗b − x

)2.

Consideram urmatorul exemplu demonstrativ.

Exemplu 17.2. Urmatoarele date reprezinta salariile (in mii de RON) pentru 4 perechi sot-sotie dintr-unanumit oras:

(2.4, 1.9), (1.7, 1.8), (3.2, 3.6), (4.0, 3.4).La nivelul de semnicatie α = 0.05, dorim sa determinam un interval de incredere pentru diferentasalariilor intre sot si sotie. Notam cu H si W variabilele salariu pentru sot, respectiv, sotie.

Pentru datele observate nu avem garantia ca ele ar observatii asupra unor repartitii normale si nicinu sunt sucient de multe. Asadar, ipotezele de lucru pentru determinarea unui interval de increderepentru medie clasic (folosind statisticile Z sau t) nu sunt satisfacute. Totusi, pentru a putea face ulterioro comparatie, vom scrie un interval de incredere folosind statistica Student t(n). Intervalul obtinut nuva unul legitim (care sa poata folosit in estimarea diferentei).

Page 126: Statistic ˘ a Aplicat ˘ a

CSA 9 [Dr. Iulian Stoleriu] 125

Nr. crt. H W di = hi − wi1. 2.4 1.9 0.52. 1.7 1.8 -0.13. 3.2 3.6 -0.44. 4.0 3.4 0.6

Tabela 17.2: Tabel cu salarii pentru perechi sot-sotie.

Pentru setul de date dii=1,4 = 0.5, −0.1, −0.4, 0.6, calculam media si deviatia standard:

d = 0.15 si sd = 0.4796.

Daca ipotezele de normalitate are valide, atunci un interval de incredere pentru diferenta medilor ar :[d− t1−α

2;n−1

sd√4, d+ t1−α

2;n−1

sd√4

]= [−0.6131, 0.9131].

Insa acest interval nu poate considerat in practica. Vom determina un interval de incredere bazandu-nepe metoda bootstrapping. Tabelul 17.3 contine r = 7 selectii de bootstrap pentru populatia 0.5, −0.1, −0.4, 0.6.

b d∗b1, d∗b2, d

∗b3, d

∗b4 d

∗b

1. 0.5, 0.5, −0.1, −0.1 0.22. 0.5, −0.1, −0.1, −0.4 -0.0253. 0.5, −0.1, −0.1, 0.6 0.2254. 0.5, −0.1, −0.4, 0.6 0.155. −0.1, −0.1, −0.1, −0.1 -0.16. −0.4, −0.4, −0.4, 0.6 -0.157. −0.4, −0.4, 0.6, 0.6 0.1

Tabela 17.3: Tabel cu 7 reesantionari pentru metoda bootstrapping.

In acest caz, B = 44 = 256, d = 0.15 si

d∗

=1

7

7∑i=1

d∗b = 0.1 (media selectiei de bootstrap)

si

sd∗ =

√√√√1

6

7∑i=1

(d∗b − d

∗)2= 0.1199.

Un interval de incredere la nivelul de semnicatie α = 0.05 este[d− z1−α

2sd∗ , d+ z1−α

2sd∗]

= [−0.1350, 0.3350].

Acesta poate considerat ca ind un interval de incredere legitim pentru diferenta salariilor. In acest caz,acest interval este chiar de lungime mai mica decat intervalul obtinut anterior.

x = [0.5 -0.1 -0.4 0.6]; % data

r = 200; n = 4;

[b1, b2] = bootstrp(r, 'mean', x);

xb = mean(x); xs = mean(b1); % means

Page 127: Statistic ˘ a Aplicat ˘ a

CSA 9 [Dr. Iulian Stoleriu] 126

s = std(x); ss = std(b1); % standard deviations

t = tinv(0.975,3); z = norminv(0.975); % quantiles

[xb- t* s/ sqrt(n), xb+ t* s/ sqrt(n)] % C.I. using t-test

[xs- t* ss, xs+ t* ss] % C.I. using bootstrap

Metoda Monte Carlo

Metoda Monte Carlo este o metod de simulare statistic , ce produce soluµii aproximative pentru o marevarietate de probleme matematice prin efectuarea de experimente statistic pe un computer. Se poateaplica atât problemelor cu deterministe, cât ³i celor probabilistice ³i este folositoare în obµinerea de soluµiinumerice pentru probleme care sunt prea dicile în a rezolvate analitic. Este o metod folosit de secole,dar a c p tat statutul de metod numeric din anii 1940. În 1946, S. Ulam7 a devenit primul matema-tician care a dat un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatulMonaco, unde se practic foarte mult jocurile de noroc, în special datorit jocului de rulet (ruleta = ungenerator simplu de numere aleatoare). De asemenea, Nicholas Metropolis8 a adus contribuµii importantemetodei.Are la baz generarea de numere aleatoare convenabile ³i observarea faptului c o parte dintre acesteaveric o proprietate sau anumite propriet µi. În general, orice metod care are la baz generarea de nu-mere aleatoare în vederea determin rii rezultatului unui calcul este numit o metod Monte Carlo. Oriceeveniment zic care poate v zut ca un proces stochastic este un candidat în a modelat prin metoda MC.

Integrarea folosind metoda Monte Carlo

Dorim s folosim metode Monte Carlo pentru evaluarea integralei

I =

∫ b

af(x) dx. (17.1)

În general, pentru a evalua numeric integral , metoda Monte Carlo nu este prima alegere, însa este foarteutil în cazul în care integral este dicil (sau imposibil) de evaluat. Aceast metoda devine mai ecient decât alte metode de aproximare când dimensiunea spaµiului e mare.

Dac dorim aplicarea metodei MC, atunci avem de ales una din urm toarele variante:

Varianta 1 (poate aplicat doar pentru f ≥ 0. Dac f ³i valori negative, dar este m rginit inferior,atunci putem utiliza o translaµie, astfel încât s avem de integrat o funcµie nenegativ ) Încadr m graculfuncµiei f într-un dreptunghi

D = [a, b]× [0, d],

unde d > sup[a, b]

f . Evalu m integrala folosindu-ne de calculul probabilit µii evenimentului A, c un punct

ales la întâmplare în interiorul dreptunghiului D s se ae sub gracul funcµiei f(x). Facem urm toareaexperienµ aleatoare: alegem în mod uniform (comanda rand ne ofer aceast posibilitate în Matlab)un punct din interiorul dreptunghiului ³i test m dac acest punct se a sub gracul lui f(x). Repet mexperienµa de un num r N (mare) de ori ³i contabiliz m num rul de apariµii f(N) ale punctului sub grac.Pentru un num r mare de experienµe, probabilitatea ca un punct generat aleator în interiorul dreptun-ghiului s se ae sub gracul funcµiei va aproximat de frecvenµa relativ a realiz rii evenimentului,

7Stanislaw Marcin Ulam (1909− 1984), matematician de origine polonez , n scut în Lvov, Ucraina8Nicholas Constantine Metropolis (1915− 1999), zician grec

Page 128: Statistic ˘ a Aplicat ˘ a

CSA 9 [Dr. Iulian Stoleriu] 127

adic

P ' f(N)

N.

Pe de alt parte, probabilitatea teoretic este

P =I

aria dreptunghi,

de unde aproximarea

I ' aria dreptunghi · f(N)

N. (17.2)

Totu³i, aceast metod nu e foarte ecient , deoarece N trebuie s e foarte mare pentru a avea o preciziebun .

Exemplu 17.3. Utilizând metoda Monte Carlo, s se evalueze integrala

I =

5∫−2

e−x2dx.

Soluµie: Gener m 106 puncte aleatoare în interiorul p tratului [−2, 5] × [0, 1] ³i veric m care dintreacestea se a sub gracul funcµiei f(x) = e−x

2, x ∈ [0, 1]. Urm toarea funcµie Matlab calculeaz inte-

grala dorit :

function I = integrala(N) % functia integrala.m

x = 7*rand(N,1)-2; y = rand(N,1); % genereaza N numere aleatoare in [−2, 5]× [0, 1]

f = find(y < exp(-x.^2)); % numar punctele aflate sub graficul functiei e−x2

I = 7* length(f)/N; % formula (17.2)

O rulare a funcµiei, integrala(1e6), ne furnizeaz rezultatul I = 1.7675.

Varianta 2 Putem rescrie integrala în forma

I = (b− a)

∫ b

af(x)h(x) dx, (17.3)

unde

h(x) =

1

b− a , dac x ∈ [a, b],

0 , altfel.

Funcµia h(x) denit mai sus este densitatea de repartiµie a unei v.a. X ∼ U [a, b], iar relaµia (17.1) serescrie

I = (b− a)E(f(X)). (17.4)

Folosind legea slab a numerelor mari, putem aproxima I prin:

I ' b− aN

N∑k=1

f(Xk), (17.5)

unde Xk sunt numere aleatoare ce urmeaz repartiµia U [a, b].

Page 129: Statistic ˘ a Aplicat ˘ a

CSA 9 [Dr. Iulian Stoleriu] 128

Putem generaliza aceast metod pentru calculul integralelor de tipul∫Vf(x) dx, unde V ⊂ Rn.

Exemplu 17.4. S se evalueze integrala din Exemplul (17.3) folosind formula (17.5).

Soluµie: Codul Matlab este urm torul:

x = 7*rand(1e6,1)-2; % genereaza 106 numere aleatoare U(−2, 5)

g = exp(-x.^2); % g(x) = e−x2

I = 7*mean(g) % 7*media lui g(x)

sau, restrâns, putem apela urm toarea comand :

estimate = 7*mean(exp(-((7*rand(10^6,1)-2).^2))) % I ≈ 1.7671

Exemplu 17.5. Evaluând integrala

I =

1∫0

ex dx

printr-o metod Monte Carlo s se estimeze valoarea num rului transcendent e. (e = I + 1).

Soluµie: estimate = mean(exp(rand(10^6,1))) + 1 % e ≈ 2.7183

Page 130: Statistic ˘ a Aplicat ˘ a

LSA 9 [Dr. Iulian Stoleriu] 129

18 Statistica Aplicata (L9)

Exemplu 18.1. (aproximarea lui π folosind jocul de darts)În ce const jocul? S presupunem c suntem la nivelul încep tor. Avem de aruncat o s geat ascuµit ,ce poate penetra cu u³urinµ lemnul, spre o tabl p trat din lemn, în interiorul c ruia se a desenatun cerc circumscris p tratului. Dac s geata se înnge în interiorul discului atunci aµi câ³tigat un punct,dac nu - nu câ³tigaµi nimic. Repet m jocul de un num r N de ori ³i contabiliz m la sfâr³it num rul depuncte acumulate, s zicem c acest num r este νN .

S presupunem c sunteµi un juc tor slab de darts (asta implic faptul c orice punct de pe tabl areaceea³i ³ans de a µintit), dar nu a³a de slab încât s nu nimeriµi tabla. Cu alte cuvinte, presupunemc de ecare dat când aruncaµi s geata, ea se înnge în tabl .

Se cere s se aproximeze valoarea lui π pe baza jocului de mai sus ³i s se scrie un program în Matlabcare s simuleze experimentul.

Soluµie: S not m cu A evenimentul ca s geata s se înng chiar în interiorul discului. În cazul în carenum rul de arunc ri N e foarte mare, atunci probabilitatea evenimentului A, P (A), este bine aproximat

de limit ³irului frecvenµelor relative, adic limn→∞

νNN

.

Pe de alt parte, P (A) = aria discaria perete

= π4 . A³adar, putem aproxima π prin

π ' 4νNN

(pentru N 1). (18.1)

Funcµia Matlab care aproximeaz pe π este prezentat mai jos. Metoda care a stat la baza aproxim riilui π este o metoda Monte Carlo.

function Pi = darts(N) % numar de aruncari

theta = linspace(0,2*pi,N); % genereaza vectorul theta

x = rand(N,1); y = rand(N,1); % (x,y) - intepaturi

X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta); % cerc in polar

plot(x,y,'b+',X,Y,'r-'); % deseneaza cercul si punctele

S = sum((x-.5).^2 + (y-.5).^2 <= 1/4); % numarul de succese

Prob = S/N; % frecventa relativa

approxpi = 4*Prob; % aproximarea lui pi

axis([0 1 0 1]); % deseneaza axele

title([int2str(N),' aruncari, \pi \approx ', num2str(approxpi)]);

O simpl rulare a funcµiei, darts(2000), ne genereaz Figura 18.1. √

Page 131: Statistic ˘ a Aplicat ˘ a

LSA 9 [Dr. Iulian Stoleriu] 130

Figura 18.1: Simularea jocului de darts.

Exerciµiu 18.1. Într-o clas sunt 30 de elevi. Calculaµi probabilitatea ca m car doi dintre ei s ser-beze ziua de na³tere în aceaa³i zi a anului. Folosiµi o metod Monte Carlo pentru a aproxima aceast probabilitate.

- [1] Metoda teoretica: Notam cu A evenimentul ca macar doi elevi din clasa sa serbeze ziua denastere in aceeasi zi a anului. Atunci, A este evenimentul ca sa nu exista elevi din clasa care sa serbezeziua de nastere in aceeasi zi a anului. Avem ca: P (A) = 1 − P (A). Calculam mai intai probabilitateaevenimentului contrar, A. Spatiul selectiilor, Ω, este

Ω = E = (e1, e2, . . . , e30), ek ∈ 1, 365, |Ω| = 36530

A = E ∈ Ω, ei 6= ej, |A| = A30365

Obtinem ca:

P (A) = 1− P (A) = 1− A30365

36530= 0.7063.

In Matlab, scriem:

p = 1 - factorial(30)*nchoosek(365,30)/(365)^(30)

[2] Metoda Monte Carlo: Generam un numar sucient de mare (N = 106) de vectori formati din 30 devalori (ecare vector reprezita o variabila uniform discreta U(365), cu comanda unidrnd(365,30,1e6))din multimea zilelor anului, 1, 2, . . . , 365. Obtinem o matrice M cu 30 de linii si 106 coloane. Fiecarecoloana reprezinta o posibila clasa de 30 de elevi. Dorim sa observam in cate astfel de clase exista macardoi elevi care serbeaza ziua de nastere in aceeasi zi a anului. Pentru aceasta, va trebui sa vericam pecate coloane avem dubluri de valori. Daca notam cu νN numarul de dubluri, atunci putem aproximaprobabilitatea cautata prin P (A)

∼= νN

N .

Page 132: Statistic ˘ a Aplicat ˘ a

LSA 9 [Dr. Iulian Stoleriu] 131

Totusi, este mai usor sa numaram cate coloane nu contin dubluri, ceea ce va conduce la calculareaprobabilitatii evenimentului contrar. Pentru aceasta, procedam astfel: ordonam crescator valorile pecoloane (comanda sort), apoi facem diferentele componentelor consecutive ale elementelor de pe ecarecoloana a matricei M . Daca ar exista macar o dublura pe o coloana, atunci ar aparea macar un 0 invectorul diferentelor. Comanda all verica daca exista macar o componenta zero pe ecare coloana,atribuind valoarea 1 in caz ca nu exista si 0 in cazul in care exista. Insumam aceste valori, obtinand astfelnumarul cazurilor in care nu exista dubluri ale zilelor de nastere, i.e., numarul de clase in care nu am gasitdoi copii ce serbeaza aceeasi zi de nastere. Pe scurt, scriem povestea de mai sus astfel:

p = 1 - sum(all(diff(sort(unidrnd(365,30,1e6)))))/1e6

obtinand aproximarea p = 0.7065. √

Exerciµiu 18.2. Utilizaµi metoda Monte Carlo pentru a g si aproxim ri pentru urm toarele integrale:

(a)

∫ 1

0

√x+ 3√x dx, (b)

∫ 3

−2

4

1 + x2dx, (c)

∫ π

0sin(√x) dx,

Folosind metoda MC:

x = rand(1e6,1); f = sqrt(x+x.^(1/3)); I_a = mean(f) % I_a = 1.0930

y = 5*rand(1e6,1)-2; f = 4/(1+y.^2); I_b = mean(f) % I_b = 9.4217

z = pi*rand(1e6,1); f = sin(sqrt(z)); I_c = pi*mean(f) % I_c = 2.6693

ori, folosind functia quadl din Matlab:

I_a = quadl(@(x)sqrt(x+x.^(1/3)),0,1) % I_a = 1.0931

I_b = quadl(@(y)4./(1+y.^2)),-2,3) % I_b = 9.4248

I_c = quadl(@(z)sin(sqrt(z)),0,pi) % I_c = 2.6695

(d)

∫ 1

0

∫ 1

−1

√4− x2 − y2 dy dx.

Folosind metoda MC:

x = rand(1e6,1); y = 2*rand(1e6,1)-1; f = sqrt(4-x.^2-y.^2); I_c = 2*mean(f)

% I_c = 3.6439

ori, folosind functia dblquad din Matlab:

I_c = dblquad(@(x,y)sqrt(4-x.^2-y.^2),0,1,-1,1)

% I_c = 3.6439

Page 133: Statistic ˘ a Aplicat ˘ a

LSA 9 [Dr. Iulian Stoleriu] 132

Probleme propuse

Exerciµiu 18.3. (paradoxul de la St. Petersburg)S presupunem c într-un cazino se desf ³oar urm torul joc cu un singur juc tor, pe care-l numim J . Omoned ideal este aruncat iar, dac apare faµa cu stema (S), atunci J prime³te £2 din partea casei,iar jocul continu . Dac la a doua aruncare apare tot stema, atunci J prime³te £4 ³i jocul continu maideparte, pan când la o aruncare apare cealalt faµ , caz în care jocul se opre³te. La ecare nou apariµiea feµei S, suma pe care J o avea se dubleaz . Dac not m cu X variabila aleatoare ce reprezint sumacâ³tigat de J , atunci tabloul s u de distribuµie este:

X =

(2 22 23 . . . 2n . . .12

122

123

. . . 12n . . .

)S se simuleze în Matlab acest joc, precizând la nal suma câ³tigat de J . Care este suma mediecâ³tigat de J la acest joc?

Exerciµiu 18.4. Folosind generarea de numere aleatoare în Matlab, calculaµi aria regiunii din planpentru care −1 ≤ x ≤ 1 ³i 0 ≤ y ≤ x3.

Exerciµiu 18.5. Timpul mediu de functionare al unui bec este o variabila aleatoare N (2000h, 50h).Alegem la intamplare un bec de acest tip. Care este probabilitatea ca el sa functioneze mai mult de2500h? Folositi o metoda Monte Carlo de aproximare a probabilitatii.

Exerciµiu 18.6.Tabelul al turat conµine mediile generale obµinutede 7 elevi de liceu care au fost transferaµi de la unliceu la altul, in anul inainte de transfer si in anulde dupa transfer.

Elevi A B C D E F Ginainte 6.73 9.65 7.58 8.84 8.73 7.45 9.80dupa 7.12 9.22 8.33 9.05 8.42 8.56 9.25

Consideraµi variabila ce reprezint diferenµa mediilor.(a) Determinaµi media de selecµie ³i deviaµia standard.(b) Folosind bootstrapping, determinaµi un interval de încredere pentru diferenµa mediilor.(c) Folosind un test de permut ri, testaµi ipoteza c nu este nicio diferenµ între medii.

Exerciµiu 18.7.Un anumit medicament pentru tratarea hipertensiunii arteriale este tes-tat pe 3 voluntari. Rezultatele inainte si dupa administrarea medica-mentului sunt:

pacientul P1 P2 P3

inainte 137 158 162dupa 112 145 140

Folosind un test de permut ri, testaµi ipoteza c administrarea medicamentului este benec . Care ar rezultatul dac am presupune normalitatea datelor?

Page 134: Statistic ˘ a Aplicat ˘ a

CSA 10 [Dr. Iulian Stoleriu] 133

Statistica Aplicata (C10)

19 Corelaµie (C10)

Introducere

În acest capitol vom discuta m suri ³i tehnici de determinare a leg turii între dou sau mai multe variabilealeatoare. Pentru lecturi suplimentare, se pot consulta materialele [12], [13], [14].Primele metode utilizate în studiul relaµiilor dintre dou sau mai multe variabile au ap rut de la începutulsecolului al XIX-lea, în lucr rile lui Legendre9 ³i Gauss10, în ce prive³te metoda celor mai mici p tratepentru aproximarea orbitelor astrelor în jurul Soarelui. Un alt mare om de ³tiinµ al timpului, FrancisGalton11, a studiat gradul de asem nare între copii ³i p rinµi, atât la oameni, cât ³i la plante, observând c în lµimea medie a descendenµilor este legat liniar de în lµimea ascendenµilor. Este primul care a utilizatconceptele de corelaµie ³i regresie ( (lat.) regressio - întoarcere). Astfel, a descoperit c din p rinµi ac ror în lµime este mai mic decât media colectivit µii provin copii cu o în lµime superioar lor ³i vice-versa. Astfel, a concluzionat c în lµimea copiilor ce provin din p rinµi înalµi tinde s "regreseze" spreîn lµimea medie a populaµiei. Din lucr rile lui Galton s-a inspirat un student de-al s u, Karl Pearson, carea continuat ideile lui Galton ³i a introdus coecientul (empiric) de corelaµie ce îi poart numele. Acestcoecient a fost prima m sur important introdus ce cuantica t ria leg turii dintre dou variabile aleunei populaµii statistice.

Un ingredient fundamental în studiul acestor dou concepte este diagrama prin puncte, numita diagrama

scatter plot. În probleme de regresie în care apare o singur variabila r spuns ³i o singur variabil observat , diagrama scatter plot (r spuns vs. predictor) este punctul de plecare pentru studiul regresiei.O diagram scatter plot ar trebui reprezentat pentru orice problem de analiz regresional , deoareceaceasta ne va da o prim idee despre ce tip de regresie vom folosi. Un exemplu de astfel de diagram este reprezentat în Figura 19.1, în care am reprezentat coecientul de inteligenµ (IQ) a 200 de perechisoµ-soµie. Fiecare cruciuliµ din diagram reprezint IQ-ul pentru o pereche soµ-soµie.

Corelaµie teoretic

Corelaµie ³i coecient de corelaµie

Corelaµia este un termen statistic folosit pentru a deni interdependenµa sau leg tura între dou saumai multe variabile aleatoare. Totodat , corelaµia este ³i o metod statistic de descriere ³i analiz aleg turilor de tip statistic între dou sau mai multe variabile.

Dac X, Y sunt dou variabile aleatoare ce admit medie, atunci corelaµia sau covarianµa (teoretic ) dintreX ³i Y se dene³te prin:

cov(X, Y ) = E [(X − E(X)) · (Y − E(Y ))] = E(X · Y )− E(X) · E(Y ).

Observaµia 19.1. (i) Din punct de vedere teoretic, dac X ³i Y sunt variabile aleatoare independente,atunci cov(X, Y ) = 0.

9Adrien-Marie Legendre (1752− 1833), matematician francez10Johann Carl Friedrich Gauss (1777− 1855), matematician ³i zician german11Sir Francis Galton (1822− 1911), om de ³tiinµ britanic

Page 135: Statistic ˘ a Aplicat ˘ a

CSA 10 [Dr. Iulian Stoleriu] 134

Figura 19.1: Scatter plot pentru IQ în familie.

Reciproca nu este, în general, adev rat . De exemplu, dac X ∼ U(−1, 1) ³i Y = X2, atunci cov(X, Y ) =0, îns X ³i Y sunt dependente. (se poate verica, de asemenea, c E(X · Y ) = E(X) · E(Y )).(ii) În cazul în care X ³i Y sunt, în plus, variabile aleatoare normal repartizate, atunci independenµavariabilelor aleatoare X ³i Y este echivalent cu cov(X, Y ) = 0.

O relaµie liniar între dou variabile este acea relaµie ce poate reprezentat cel mai bine printr-o linie.Corelaµia detecteaz doar dependenµe liniare între dou variabile aleatoare. Putem avea o corelaµie pozi-

tiv , însemnând c X ³i Y cresc sau descresc împreun , sau o corelaµie negativ , însemnând c X ³i Y semodic în direcµii opuse.

O m sur a corelaµiei dintre dou variabile este coecientul de corelaµie. Acesta este foarte utilizat în³tiinµe ca ind o m sur a dependenµei liniare între dou variabile. Din punct de vedere teoretic, denimcoecientul de corelaµie a dou variabile aleatoare X ³i Y prin:

ρX,Y =cov(X, Y )

σX · σY= cov(X, Y ),

unde X ³i Y sunt variabilele aleatoare standardizate iar σX =(E(X −X)2

)1/2³i σY =

(E(Y − Y )2

)1/2sunt deviaµiile standard corespunz toare variabilelor aleatoare X, respectiv Y . Propriet µile coecientuluide corelaµie au fost prezentate anterior.

În practic , pentru a stabili dac exist sau nu vreo leg tura între dou variabile aleatoare, se fac observaµiiasupra acestora, urmând apoi a cuantica relaµia dintre observaµii.

Fie (xk, yk), k ∈ 1, 2, . . . , n un set de date bidimensionale, ce reprezint observaµii asupra vectoruluialeator (X, Y ). O m sur a leg turii dintre xkk ³i ykk este coecientul de corelaµie empiric introdus

Page 136: Statistic ˘ a Aplicat ˘ a

CSA 10 [Dr. Iulian Stoleriu] 135

de K. Pearson (în literatura de specialitate mai este cunoscut ³i sub denumirea de coecientul r):

r =

n∑k=1

(xk − x)(yk − y)√√√√ n∑k=1

(xk − x)2

√√√√ n∑k=1

(yk − y)2

(19.1)

=cove(x, y)

sx · sy, (19.2)

unde

cove(x, y) =1

n− 1

n∑k=1

(xk − x)(yk − y), sx =

√√√√ 1

n− 1

n∑k=1

(xk − x)2, sy =

√√√√ 1

n− 1

n∑k=1

(yk − y)2

sunt covarianµa (corelaµia) empiric ³i deviaµiile standard empirice pentru X ³i Y .Spre exemplu, pentru selecµiile

x = [0.49 -0.45 0.39 0.05 -0.49 0.24 0.72 0.15 0.13 -1.01];

y = [1.31 1.20 -2.58 -2.09 0.39 -0.86 -1.23 2.64 -0.90 -1.22];

coecientul r al lui Pearson ester = −0.0905.

Asemeni coecientului de corelaµie teoretic, ρX,Y, coecientul r al lui Pearson ia valori doar în intervalul [−1, 1].Cazurile limit pentru r sunt r = 1 sau r = −1, cazuri în care putem trage concluzia c variabilele X ³i Y suntpozitiv, respectiv, negativ) perfect corelate (vezi Figura 19.2). Pentru valori ale lui r între −1 ³i 1, nu putem vorbide gradul de corelare între X ³i Y f r a efectua un test statistic asupra valorii coecientulul teoretic de corelaµie,ρ. De multe ori îns , putem arma ca avem o corelaµie pozitiv dac r este apropiat de valoarea 1 (e.g., r = 0.85,caz în care norul de date are panta ascendent ) ³i avem o corelaµie negativ dac r este apropiat de valoarea −1(e.g., r = −0.98, caz în care norul de date are panta descendent ).Rezultatul r = −0.0905 de mai sus ar putea sugera faptul c cele dou selecµii au fost obµinute independent unafaµ de cealalt (i.e., ρ = 0), fapt ce va trebui conrmat folosind un test statistic în care test m ipoteza nul ρ = 0,cu ipoteza alternativ ρ 6= 0.

Figura 19.2: Scatter plots ³i coecienµi de corelaµie.

Test statistic pentru coecientul de corelaµie Pearson

Page 137: Statistic ˘ a Aplicat ˘ a

CSA 10 [Dr. Iulian Stoleriu] 136

Presupunem c avem un set de date bidimensionale (xk, yk), k ∈ 1, 2, . . . , n asupra variabilelor aleatoare X, Y ,³i am calculat r, obµinând o valoare r0 apropiat de 0. Plecând doar de la acest informaµie, nu putem extrapola ³idecide gradul de corelare între X ³i Y . Pentru aceasta, vom construi un test statistic, care va decide dac valoareareal a lui ρ (coecientul teoretic de corelaµie) este 0 sau semnicativ diferit de 0.

Consider m ipoteza nul

(H0) ρX,Y = 0 (variabilele aleatoare nu sunt corelate)

vs. ipoteza alternativ

(H1) ρX,Y 6= 0 (variabilele aleatoare sunt corelate)

Alegem un nivel de semnicaµie α << 1 (e.g., α = 0.05) ³i consider m statistica

T = r

√n− 2

1− r2 ∼ t(n− 2).

Calculez valoarea statisticii T pentru r = r0 (o not m cu T0) ³i, de asemenea, calcul m cuantila t1−α2 ;n−2, de ordin1− α

2 a repartiµiei t cu (n− 2) grade de libertate.Decizia nal este urm toarea:

|T0| < t1−α2 ;n−2 , atunci ipoteza (H0) este acceptat ;|T0| ≥ t1−α2 ;n−2 , atunci ipoteza (H0) este respins .

Observaµia 19.2. (i) Coecientul lui Pearson, r, este un num r adimensional ce stabile³te doar dac exist oleg tura liniar între dou seturi de date statistice. Totodat , în denirea acestui coecient se presupune c datelestatistice urmeaz o repartiµie normal . De multe ori, în practic , doar coecientul r sigur nu poate edicatorasupra t riei leg turii între dou seturi de date statistice, ba chiar poate genera informaµii false în cazul în carecele dou seturi date nu depind liniar unul de cel lalt. De aceea, ³i alµi coecienµi pentru determinarea corelaµieisunt luaµi în consideraµie, cum ar :

r2, coecientul de determinare (notat în Statistic prin R2), care stabile³te care este procentul din variaµiauneia dintre datele statistice ce determina (sau explic ) pe celelalte date. De exemplu, un coecient dedeterminare R2 = 0.42 semnic faptul c variabila independent explic doar 42% din variaµia variabileidependente. În Statistic , acest coecient este denit în mai multe moduri, unele nu tocmai într-un modechivalent;

coecientul lui Spearman12, coecientul lui Kendall13 etc. (acestea nu presupun c datele statistice suntnormale)

(ii) Se poate testa, de asemenea, ipoteza nul

(H0) : ρX, Y = ρ0, cu ρ0 6= 0,

îns aceasta nu este foarte des întâlnit în practic .În acest sens, se poate utiliza statistica

Z =1

2ln

(1 + r

1− r

)∼ N

(1

2ln

(1 + ρ01− ρ0

),

1√n− 3

).

(iii) Corelaµia a dou variabile aleatoare nu implic o cauzare. Cu alte cuvinte, exist o corelaµie între vârst ³iîn lµime la copii, îns niciuna dintre aceastea nu o cauzeaz pe cealalt . Corelaµia poate luat în evidenµ pentruo posibil relaµie cauzal , îns nu este determinant ³i nu poate preciza relaµia cauzal , dac aceast exist .(iv) Volumul selecµiei este un factor foarte important în testarea ipotezei c dou variabile aleatoare sunt necorelate.Spre exemplu, o relaµie poate puternic (având un r nu foarte aproape de 0), îns nu semnicativ , dac valoarealui n nu este sucient de mare. Invers, o relaµie poate slab (un r aproape de 0), dar semnicativ . Exemplul(19.3) poate edicator.

12Charles Edward Spearman (1863− 1945), psiholog britanic13Sir Maurice George Kendall (1907− 1983), statistician britanic

Page 138: Statistic ˘ a Aplicat ˘ a

CSA 10 [Dr. Iulian Stoleriu] 137

Exemplu 19.3. S presupunem c dorim s stabilim dac exist vreo leg tura între vârst unei persoane ³i coe-cientul s u de inteligenµ . Culegem astfel dou seturi de datele asupra acestor caracteristici, de volum n = 10, ³is presupunem c am g sit un coecient de corelaµie empiric r = 0.62. Se cere:(a) Este aceast leg tur puternic ?(b) Este aceast leg tur semnicativ ?

Soluµie: (a) Calcul m coecientul de determinare, R2, ³i g sim R2 = 0.3844. Asta semnic faptul c doar38.44% din variaµia coecientului de inteligenµ este explicat de vârst .(b) Aplic m testul pentru coecientul de corelaµie la un nivel de semnicaµie α = 0.05. Statistica considerat va

avea 8 grade de libertate, T0 = 0.62√

80.3844 = 2.2351 < 2.3060 = t0.975; 8, de unde concluzion m c ipoteza nul

ρ = 0 este admis (i.e., nu sunt dovezi suciente pentru ca ipoteza s poate respins la acest nivel de semnicaµie).. √

(v) Se poate testa ³i ipoteza c doi coecienµi de corelaµie ce corespund a dou selecµii diferite difer semnicativunul de cel lalt. Presupunem c avem de testat ipoteza

(H0) : ρ1 = ρ2,

vs. ipoteza alternativ (H1) : ρ1 6= ρ2.

Presupunem c volumele selecµiilor folosite în testare sunt n1 ³i n2 ³i c r1, r2 sunt coecienµii de corelaµie empiricicalculaµi. Pentru a testa ipoteza de mai sus, consider m statistica

Z =Z1 − Z2 − (µZ1

− µZ2)√

1n1−3 + 1

n2−3

∼ N (0, 1) ,

unde

Zi =1

2ln

(1 + ri1− ri

), µZi =

1

2ln

(1 + ρi1− ρi

), i = 1, 2.

Coecientul de corelaµie Spearman

În cazul datelor calitative, unde nu se pot asocia valori numerice pentru caracteristica de interes, coecientulde corelaµie Pearson nu mai poate calculat. Pentru aceste date, este util de calculat coecientul de corelaµieSpearman, sau coecientul de corelaµie a rangurilor. Acest coecient poate calculat atât pentru date calitative,cât ³i pentru date cantitative. Pentru a calcula acest coecient, ec rui atribut sau ec rei valori a caracteristiciii se desemneaz un rang. Coecientul de corelaµie Spearman este coecientul de corelaµie Pearson pentru acesteranguri.În general, dac (xi, yi)i=1, n este un set de date bidimensionale, reprezentând rangurile corespunz toare variabilelorcercetate, ³i not m cu rS coecientul de corelaµie Spearman, atunci

rS =

n∑k=1

(xk − x)(yk − y)√√√√ n∑k=1

(xk − x)2

√√√√ n∑k=1

(yk − y)2

. (19.3)

La fel ca ³i coecientul lui Pearson, coecientul Spearman ia valori reale în intervalul [−1, 1]; valoarea 1 însemnândcorelaµie pozitiv perfect a rangurilor, iar valoarea −1 însemnând corelaµie negativ perfect a rangurilor.În cazul în care avem n perechi de observaµii ³i nu exist valori egale pentru rangurile aceleia³i variabile, atunciformula alternativ pentru calcului lui rS este:

rS = 1−6

n∑i=1

d2i

n(n2 − 1), (19.4)

Page 139: Statistic ˘ a Aplicat ˘ a

CSA 10 [Dr. Iulian Stoleriu] 138

unde di = xi − yi, i.e., diferenµa dintre rangurile corespunz toare pentru poziµia i. Vezi exemplele (20.1) ³i (20.2).Se poate, de asemenea, testa semnicatia valorii obtinute, rS . Testul este acelasi ca in cazul semnicatiei coecien-tului Pearson, cu deosebirea ca r este inlocuit cu rS .

Page 140: Statistic ˘ a Aplicat ˘ a

LSA 10 [Dr. Iulian Stoleriu] 139

20 Statistica Aplicata (L10)

Exemplu 20.1. Doi degust tori de vinuri (denumiµi D1 ³i D2) au fost rugaµi s testeze 9 soiuri de vin ³i s leclaseze în ordinea preferinµelor. S not m mostrele testate cu A, B, C, D, E, F ³i G. Preferinµele acestora suntcele din Tabelul 20.1, în ordinea descresc toare a preferinµelor. Tabelul 20.2 conµine rangurile preferinµelor celordoi degust tori, iar Figura 20.1 reprezint grac rangurile (diagrama scatter plot).

Mostra A B C D E F G H ID1 E B A G C H F D ID2 B E C G A H D I F

Tabela 20.1: Preferinµele degust torilor de vin.

Mostra rang D1 rang D2

A 3 5B 2 1C 5 3D 8 7E 1 2F 7 9G 4 4H 6 6I 9 8

Tabela 20.2: Tabel cu rangurile preferinµelor.

Din diagrama scatter plot se observ o corelaµie pozitiv între ranguri, ceea ce implic o oarecare concordanµ între preferinµele celor doi degust tori. Coecientul de corelaµie Spearman va atribui o valoare numeric acesteiconcordanµe, aceasta ind rS = 0.8667.

Tem ! Utilizaµi testul semnelor pentru a testa ipoteza c preferinµele celor doi degust tori nu sunt semnicativdiferite (α = 0.05).

Figura 20.1: Scatter plot pentru ranguri.

Exist cazuri (în special pentru date cantitative) când valorile caracteristicii se repet , a³a încât pentru valoriegale desemn m acela³i rang. În aceste cazuri nu mai putem utiliza formula (19.4) pentru calculul coecientuluiSpearman, ci va trebui s utiliz m formula (19.3) (vezi exemplul urm tor).

Exemplu 20.2. Datele din Tabelul 20.3 reprezint num rul de accidente rutiere (A) ³i num rul de decese (D)înregistrate într-un anumit ora³, în primele 6 luni ale anului. Rangurile corespunz toare valorilor sunt prezentateîn Tabelul 20.4. Datele au fost introduse în tabel în ordinea invers a num rului de accidente. De notat c , deoarecenum rul de decese înregistrate în luna Mai este egal cu num rul de decese din Aprilie, rangul pentru ecare dintrecele dou luni este media celor dou poziµii în care s-ar aa. Folosind formula (19.3), calcul m coecientul decorelaµie Spearman. Acesta este rS = 0.8117.

Page 141: Statistic ˘ a Aplicat ˘ a

LSA 10 [Dr. Iulian Stoleriu] 140

Luna Ian. Feb. Mar. Apr. Mai Iun.A 27 24 15 11 17 12D 8 6 5 3 3 2

Tabela 20.3: Evenimente rutiere în primele 6 luni.

Luna A rang A D rang D

Ian. 27 6 8 6Feb. 24 5 6 5Mai 17 4 3 2+3

2 = 2.5Mar. 15 3 5 4Iun. 12 2 2 1Apr. 11 1 3 2+3

2 = 2.5

Tabela 20.4: Tabel cu rangurile pentru accidente.

Probleme propuse

Exerciµiu 20.1. Tabelul de mai jos conµine calicativele obµinute de un elev de clasa I la o selectie de 9 teste dinclasa I, care au fost reluate la inceputul clasei a doua a-II-a.

Discipline A B C D E F G H Iclasa I S FB FB B B FB S B FB

clasa a II-a B I B FB FB B B S B

(a) Calculaµi coecientul de corelaµie Spearman ³i semnicaµia lui pentru calicativele obµinute în clasa I ³i celedin clasa a II-a.(b) La nivelul de semnicaµie α = 0.05, testaµi ipoteza c rezultatele elevului s-au îmbun t µit în clasa a II-a

Exerciµiu 20.2. Se m soar viteza unei ma³ini în primele 10 secunde dup ce a început s accelereze. Datele suntînregistrate în tabelul de mai jos.

t 0 1 2 3 4 5 6 7 8 9 10v 0 3.1 6.9 9.9 12.7 16.1 19.8 21.2 22.8 24.3 25.9

Folosind un test statistic, vericaµi dac t (timp) ³i v (vitez ) sunt liniar corelate (α = 0.04).

Exerciµiu 20.3. S-a realizat un studiu pentru a aa dac exist vreo relaµie între masa corporal (M) ³i presiuneasanguin (P) la oameni. Urm torul set de date a fost obµinut dintr-un studiu clinic, alegând 10 persoane laîntâmplare.

M 78 86 72 82 80 86 84 89 68 71P 140 160 134 144 180 176 174 178 128 132

(a) Calculaµi indicele de corelaµie Pearson ³i determinaµi semnicaµia acestuia (α = 0.05).(b) Calculaµi indicele de corelaµie Spearman dintre W ³i P.

Exerciµiu 20.4.Tabelul de mai jos conµine mediile obµinute de un elev de clasa a V-a la toate disciplinele ³colare, pentru ecaredintre cele dou semestre.

Discipline A B C D E F G H I Jsemestrul I 6 9 7 8 8 9 9 9 7 10

semestrul al II-a 7 9 8 9 8 9 8 10 8 10

(a) Calculaµi coecientul de corelaµie Pearson ³i testaµi semnicaµia valorii obµinute. (α = 0.04)(b) Calculaµi coecientul de corelaµie Spearman.(c) Folosind un test potrivit, testaµi ipoteza c rezultatele elevului s-au îmbun t µit în semestrul al doilea. (α =0.04)

Page 142: Statistic ˘ a Aplicat ˘ a

CSA 11 [Dr. Iulian Stoleriu] 141

Statistica Aplicata (C11)

21 Regresie C(11)

Punerea problemei

Regresia este o metod statistic utilizat pentru descrierea naturii relaµiei între variabile. De fapt, regresiastabile³te modul prin care o variabil depinde de alt variabil , sau de alte variabile. Analiza regresional cuprindetehnici de modelare ³i analiz a relaµiei dintre o variabil dependent (variabila r spuns) ³i una sau mai multevariabile independente. De asemenea, r spunde la întreb ri legate de predicµia valorilor viitoare ale variabileir spuns pornind de la o variabil dat sau mai multe. În unele cazuri se poate preciza care dintre variabilele deplecare sunt importante în prezicerea variabilei r spuns. Se nume³te variabil independent o variabil ce poate manipulat (numit ³i variabil predictor, stimul sau comandat ), iar o variabil dependent (sau variabila prezis )este variabila care dorim s o prezicem, adic o variabil c rei rezultat depinde de observaµiile f cute asupravariabilelor independente. S lu m exemplul unei cutii negre (black box) (vezi Figura 21.1). În aceasta cutie intr (sunt înregistrate) informaµiile x1, x2, . . . , xm, care sunt prelucrate (în timpul prelucr rii apar anumiµi parametri,β1, β2, . . . , βk), iar rezultatul nal este înregistrat într-o singur variabila r spuns, y. De exemplu, se dore³te a sestabili o relaµie între valoarea pensiei (y) în funcµie de num rul de ani lucraµi (x1) ³i salariul avut de-alungul carierei(x2). Variabilele independente sunt m surate exact, f r erori. În timpul prelucr rii datelor sau dup aceasta potap ra distorsiuni în sistem, de care putem µine cont dac introducem un parametru ce s cuantice eroarea cepoate ap rea la observarea variabilei y. Se stabile³te astfel o leg tur între o variabil dependent , y, ³i una saumai multe variabile independente, x1, x2, . . . , xm, care, în cele mai multe cazuri, are forma matematic general

y = f(x1, x2, . . . , xm; β1, β2, . . . , βk) + ε, (21.1)

unde β1, β2, . . . , βk sunt parametri reali necunoscuµi a priori (denumiµi parametri de regresie) ³i ε este o perturbaµiealeatoare. În cele mai multe aplicaµii, ε este o eroare de m sur , considerat modelat printr-o variabil aleatoarenormal de medie zero. Funcµia f se nume³te funcµie de regresie. Dac aceasta nu este cunoscut a priori, atuncipoate greu de determinat iar utilizatorul analizei regresionale va trebui s o intuiasc sau s o aproximezeutilizând metode de tip trial and error (prin încerc ri). Dac avem doar o variabila independent (un singur x),atunci spunem c avem o regresie simpl . Regresia multipl face referire la situaµia în care avem multe variabileindependente.

Figura 21.1: Black box.

Dac observarea variabilei dependente s-ar face f r vreo eroare, atunci relaµia (21.1) ar deveni (cazul ideal):

y = f(x1, x2, . . . .., xm; β1, β2, . . . , βk). (21.2)

Forma vectorial a dependenµei (21.1) este:y = f(x; β) + ε. (21.3)

Pentru a o analiz complet a regresiei (21.1), va trebui sa intuim forma funcµiei f ³i apoi s determin m (aproxi-m m) valorile parametrilor de regresie. În acest scop, un experimentalist va face un num r sucient de observaµii

Page 143: Statistic ˘ a Aplicat ˘ a

CSA 11 [Dr. Iulian Stoleriu] 142

(experimente statistice), în urma c rora va aproxima aceste valori. Dac not m cu n num rul de experimenteefectuate, atunci le putem contabiliza pe acestea în urm torul sistem stochastic de ecuaµii:

yi = f(x, β) + εi, i = 1, 2, . . . , n. (21.4)

În ipoteze uzuale, erorile εi sunt variabile aleatoare identic repartizate N (0, σ), independente stochastic dou câtedou (σ > 0). Astfel, sistemul (21.4) cu n ecuaµii stochastice algebrice are necunoscutele βjj ³i σ.În cazul în care num rul de experimente este mai mic decât num rul parametrilor ce trebuie aproximaµi (n < k),atunci nu avem suciente informaµii pentru a determina aproxim rile. Dac n = k, atunci problema se reducela a rezolva n ecuaµii cu n necunoscute. În cel de-al treilea caz posibil, n > k, atunci avem un sistem cu valorinedeterminate.

În funcµie de forma funcµiei de regresie f , putem avea:

regresie liniar simpl , în cazul în care avem doar o variabil independent ³i

f(x; β) = β0 + β1x.

regresie liniar multipl , dac

f(x; β) = β0 + β1x1 + β2x2 + · · ·+ βmxm.

regresie p tratic multipl (cu dou variabile), dac

f(x; β) = β0 + β1x1 + β2x2 + β11x21 + β12x1x2 + β22x

22.

regresie polinomial , dac

f(x; β) = β0 + β1x+ β2x2 + β3x

3 + · · ·+ βkxk.

Vom avea regresie p tratic pentru k = 2, regresie cubic pentru k = 3 etc.

regresie exponenµial , cândf(x; β) = β0 e

β1 x.

regresie logaritmic , dac f(x; β) = β0 · logβ1

x.

³i altele.

De remarcat faptul c primele patru modele sunt liniare în parametri, pe când ultimele dou nu sunt liniare înparametri. Modelele determinate de aceste funcµii se vor numi modele de regresie (curbe, suprafeµe etc).

În cadrul analizei regresionale, se cunosc datele de intrare, xii, ³i c ut m s estim m parametrii de regresie βjj³i deviaµia standard a erorilor, σ. Dac funcµia de regresie f este cunoscut (intuit ), atunci metode statisticefolosite pentru estimarea necunoscutelor sunt: metoda verosimilit µii maxime, metoda celor mai mici p trate ³imetoda lui Bayes. Dac f este necunoscut , metode ce duc la estimarea necunoscutelor sunt: metoda celor maimici p trate sau metoda minimax.

Regresie liniar simpl

Este cel mai simplu tip de regresie, în care avem o singur variabil independent , x, ³i variabila dependent y.S presupunem c ni se d familia de date bidimensionale (xi, yi)i=1, n. Reprezent m grac aceste date într-unsistem x0y (de exemplu, vezi Figura 21.2 (a)) ³i observ m o dependenµ aproape liniar a lui y de x. Dac valoareacoecientului de corelaµie liniar , r, este aproape de 1 sau −1 (indicând o corelaµie liniar strâns ), atunci se puneproblema stabilirii unei relaµii numerice exacte între x ³i y de forma

y = β0 + β1x. (21.5)

O astfel de dreapt o vom numi dreapta de regresie a lui y în raport cu x. Pentru un set de date bidimensionale camai sus, putem reprezenta aceast dreapt ca în Figura 21.2 (b).

Page 144: Statistic ˘ a Aplicat ˘ a

CSA 11 [Dr. Iulian Stoleriu] 143

Figura 21.2: Aproximarea unui nor de date prin dreapta de regresie.

Exemplu 21.1. Te hot r ³ti s cumperi ma³ina favorit , ce se vinde acum la preµul de 12500 EUR. La semnareacontractului de vânzare-cump rare, pl te³ti suma iniµial de 15000 RON ³i apoi rate lunare de 650 RON, timp de 5ani. Dac not m cu X num rul lunilor pân la ultima rat ³i cu Y suma total pl tit pe ma³in , atunci între X³i Y exist relaµia:

Y = 15000 + 650X.

În acest exemplu, relaµia între X ³i Y este una perfect liniar . O relaµie perfect liniar între datele bidimensionale(xi, yi)i=1, n reprezentate în Figura 21.2 ar însemna c toate acestea s-ar aa pe dreapta de regresie, ceea ce nuse întâmpl . De cele mai multe ori, datele reale nu urmeaz o astfel de relaµie perfect (spre exemplu, rata lunar poate una variabil , în funcµie de rata de schimb EUR-RON), caz în care parametrii din dependenµa liniar trebuiea estimaµi.

A³adar, va trebui s µinem cont ³i de eventualele perturbaµii din sistem. Putem presupune astfel c dependenµa luiy de x este de forma

y = β0 + β1x+ ε, (21.6)

cu ε o variabil aleatoare repartizat N (0, σ).Plecând de la xi, yii, µelul nostru este s g sim o dreapt ce se apropie cel mai mult (într-un sens bine precizat)de aceste date statistice. Cu alte cuvinte, va trebui s estim m valorile parametrilor de regresie β0 ³i β1. Proced mdup cum urmeaz .Înlocuind datele bidimensionale în (21.6), avem urm torul sistem:

yi = β0 + β1xi + εi, i = 1, n, (21.7)

undeεi ∼ N (0, σ), ∀i ³i εi sunt independente stochastic.

Deoareceεi = yi − (β0 + β1xi), i = 1, n,

putem interpreta εi ca ind erorile de aproximare a valorilor observate (yi) cu cele prezise de dreapta de regresie(adic de valorile β0 + β1xi).inând cont c εi ∼ N (0, σ) ³i β0, β1 sunt valori deterministe, din (21.7) rezult c :

yi ∼ N (β0 + β1xi, σ), pentru ecare i,

Page 145: Statistic ˘ a Aplicat ˘ a

CSA 11 [Dr. Iulian Stoleriu] 144

de unde, probabilitatea ca într-o singur m sur toare a xi s obµinem r spunsul yi este

Pi =1

σ√

2πexp

(− (yi − β0 − β1xi)2

2σ2

).

Deoarece εii sunt independente stochastic, probabilitatea ca în cele n observaµii independente s obµinem vectorulde valori (y1, y2, , . . . , yn) este (funcµia de verosimilitate):

L(β0, β1, σ) =

n∏i=1

Pi =1

σn(2π)n/2exp

(−

n∑i=1

(yi − β0 − β1xi)22σ2

).

Avem de estimat urm toarele cantit µi: β0, β1 ³i σ. Pentru aceasta, vom folosi metoda verosimilit µii maxime.Urm rim s g sim acele valori ale parametrilor β0, β1 ³i σ care maximizeaz funcµia de verosimilitate. A³adar,problema de maximizare este urm toarea:

maxβ0, β1, σ

L(β0, β1, σ).

Condiµiile de extrem (impuse pentru lnL) sunt:

∂ lnL

∂β0=

1

2σ2

n∑i=1

(yi − β0 − β1xi) = 0;

∂ lnL

∂β1=

1

2σ2

n∑i=1

xi(yi − β0 − β1xi) = 0;

∂ lnL

∂σ= −n

σ+

1

σ2

n∑i=1

(yi − β0 − β1xi)2 = 0.

Rezolvând primele dou ecuaµii în raport cu β0 ³i β1, obµinem estimaµiile:

β1 =sxysxx

³i β0 = y − β1 x, (21.8)

unde,

x =1

n

n∑i=1

xi, y =1

n

n∑i=1

yi, sxx =

n∑i=1

(xi − x)2, sxy =

n∑i=1

(xi − x)(yi − y).

Astfel, g sim c dreapta de regresie a lui y în raport cu x este aproximat de dreapta:

y = y − β1 x+sxysxx

x, (21.9)

sau, altfel scris ,y = y +

sxysxx

(x− x). (21.10)

Din ultima condiµie de extrem, g sim c o estimaµie pentru dispersia σ2 este:

σ2 =1

n

n∑i=1

(yi − β0 − β1xi)2. (21.11)

Îns , estimaµia pentru σ2 dat prin formula (21.11) este una deplasat . În practic , în locul acestei estimaµii seutilizeaz urm toarea estimaµie nedeplasat :

σ2 =1

n− 2

n∑i=1

(yi − β0 − β1xi)2. (21.12)

Observaµia 21.2. [1] Terminologie:

dreapta de regresie, y = β0 + β1 x, este dreapta ce determin dependenµa liniar a lui y de valorile lui x,pentru întreaga populaµie de date (dac acasta exist );

Page 146: Statistic ˘ a Aplicat ˘ a

CSA 11 [Dr. Iulian Stoleriu] 145

Figura 21.3: Estimarea dreptei de regresie.

aproximarea dreptei de regresie (en., tting line), y = β0 + β1 x, este dreapta care se apropie cel mai mult(în sensul metodei celor mai mici p trate) de datele experimentale (de selecµie) xi, yii. Aceast dreapt este o aproximare a dreptei de regresie;

Valorile yi se numesc valori observate, iar valorile yi = β0 + β1 xi, i = 1, n se numesc valori prezise(i = 1, n);

valorile εi = yi − yi = yi − β0 − β1xi se numesc reziduuri. Un reziduu m soar deviaµia unui punct observatde la valoarea prezis de estimarea dreptei de regresie (dreapta de tare);

suma p tratelor erorilor,n∑i=1

ε2i =

n∑i=1

(yi− β0− β1xi)2, se noteaz de obicei prin SSE (sum of squared errors);

eroarea medie p tratic sau rezidual este MSE =SSE

n− 2(mean squared error). Dupa cum se poate observa

din relatia (21.12), MSE = σ2 este un estimator pentru dispersia erorilor, σ2.

r d cina p trat a MSE este σ si se nume³te eroarea standard a regresiei;

se poate demonstra c SSE

σ2= (n− 2)

σ2

σ2∼ χ2(n− 2).

cu autorul acestei relaµii se pot g si intervale de încredere pentru valoarea real a lui σ2.În formula (21.12), (n− 2) reprezint num rul gradelor de libertate ale variabilei SSE.

[2] Estimaµia dispersiei este o m sur a gradului de împr ³tiere a punctelor (x, y) în jurul dreptei de regresie. Maisubliniem faptul c valorile din formulele (21.8) ³i (21.12) sunt doar estimaµii ale parametrilor necunoscuµi, ³i nuvalorile lor exacte. Formula pentru β1 mai poate scris sub forma:

β1 = rxysysx,

unde

sx =

√√√√ 1

n− 1

n∑i=1

(xi − x)2, sy =

√√√√ 1

n− 1

n∑i=1

(yi − y)2, rxy =cove(x, y)

sxsy.

Page 147: Statistic ˘ a Aplicat ˘ a

CSA 11 [Dr. Iulian Stoleriu] 146

[3] Dac deviaµia standard σ ar cunoscut a priori, atunci putem estima parametrii β0 ³i β1 în urm torul mod.Estim m ace³ti doi parametri prin acele valori ce realizeaz minimumul sumei p tratelor erorilor SSE. Vom aveaastfel problema de minimizare (metoda celor mai mici p trate):

minβ0, β1

n∑i=1

(yi − β0 − β1xi)2.

Notând cu F (β0, β1) =

n∑i=1

(yi − β0 − β1xi)2, condiµiile de extrem sunt:

∂F

∂β0= −2

n∑i=1

(yi − β0 − β1xi) = 0;

∂F

∂β1= −2

n∑i=1

xi(yi − β0 − β1xi) = 0.

Rezolvând acest sistem de ecuaµii algebrice în raport cu β0 ³i β1, g sim soluµiile β0 ³i, respectiv, β1 de mai sus.Aceasta dovede³te c , în cazul în care erorile sunt identic normal repartizate ³i independente stochastic, metodaverosimilit µii maxime este, în fapt, totuna cu metoda celor mai mici p trate.

Intervale de încredere pentru parametrii de regresie

Estimaµiile pentru parametrii de regresie β0 ³i β1 depind de observaµiile folosite. Pentru a decide dac valorilecalculate pe baza datelor experimentale xi, yii pot considerate valorile potrivite pentru întreaga populaµie, sevor utiliza test ri statistice. Mai jos, vom prezenta teste statistice cu privire la testarea valorilor ambilor parametri,β0 ³i β1, îns cel mai uzual test este testul pentru vericarea valorii pantei dreptei de regresie, β1.

Se poate dovedi (vezi [15]) c β0 ³i β1 sunt estimatori nedeplasaµi pentru β0 ³i, respectiv, β1. Adic :

E(β1) = β1 si E(β0) = β0.

Variaµele acestor estimatori sunt:

D2(β1

)=

σ2

sxx³i D2

(β0

)= σ2

(1

n+

x2

sxx

). (21.13)

Mai mult, estimatorii β0 si β1 sunt repartizati normal:

β1 ∼ N(β1,

σ√sxx

)si β0 ∼ N

β0, σ√

1

n+

x2

sxx

.

inând cont c estimatorii β0 ³i β1 sunt nedeplasaµi, de relaµiile (21.13), ³i de estimatorul σ2 pentru σ2, se poatedemonstra c :

β1 − β1√σ2

sxx

∼ t(n− 2) siβ0 − β0

σ√

1n + x2

sxx

∼ t(n− 2). (21.14)

Aici, am notat prin σ cantitatea:

σ =

√√√√ 1

n− 2

n∑i=1

(yi − β0 − β1xi

)2.

Putem folosi aceste statistici pentru a determina intervale de încredere pentru β1 ³i β0. Un interval de încrederepentru β1 la nivelul de semnicaµie α este:β1 − t1−α2 ;n−2

√σ2

sxx, β1 + t1−α2 ;n−2

√σ2

sxx

. (21.15)

Page 148: Statistic ˘ a Aplicat ˘ a

CSA 11 [Dr. Iulian Stoleriu] 147

Un interval de încredere pentru β0 la nivelul de semnicaµie α este:β0 − t1−α2 ;n−2 σ

√1

n+

x2

sxx, β0 + t1−α2 ;n−2 σ

√1

n+

x2

sxx

. (21.16)

Observaµia 21.3. În general, dispersia σ2 a erorilor de regresie nu este cunoscut a priori. În cazul în care aceastaeste cunoscut , atunci în loc de (21.14) am avea:

β1 − β1√σ2

sxx

∼ N (0, 1), ³iβ0 − β0

σ√

1n + x2

sxx

∼ N (0, 1). (21.17)

În acest caz, intervalele de încredere pentru β0 ³i β1 vor similare cu cele din relaµiile (21.16) ³i (21.15), cu diferenµac t1−α2 ;n−2 este înlocuit prin z1−α2 . Oricum, pentru n sucient de mare, valorile t1−α2 ;n−2 ³i z1−α2 sunt foarteapropiate.

Test statistic pentru β1 (panta dreptei de regresie)

Prezent m aici testul ce veric dac β1 ia o valoare dat β10 sau nu, la un nivel de semnicaµie α. Acest test estemai des folosit decat testul pentru β0. Dispersia erorilor de regresie este necunoscut .Test m

(H0) : β1 = β10 versus (H1) : β1 6= β10.

Consider m statistica

T =β1 − β1√

σ2

sxx

,

care urmeaz repartiµia t(n− 2). Etapele testului sunt urm toarele:

Calcul m valoarea critic

T0 =β1 − β10√

σ2

sxx

.

Calcul m cuantila de ordin 1− α2 pentru repartiµia t cu (n− 2) grade de libertate, t1−α2 ;n−2;

Dac |T0| < t1−α2 ;n−2, atunci accept m ipoteza (H0);

Dac |T0| ≥ t1−α2 ;n−2, atunci accept m ipoteza (H1);

Observaµia 21.4. (1) O ipotez alternativ poate considerat ³i una dintre urm toarele:

(H1)s : β1 < β10, (H1)d : β1 > β10.

(2) Testul cel mai popular pentru β1 este pentru ipoteza nula (H0) : β1 = 0 (i.e., β10 = 0). Ipoteza alternativ β1 6= 0 reprezinta faptul c între x ³i y exist o dependenµ liniar . Cu alte cuvinte, testul

(H0) : β1 = 0 vs. (H1) : β1 6= 0

veric semnicaµia pantei dreptei de regresie. Dac ipoteza nul este respins , atunci panta dreptei este semni-cativ (i.e., semnicativ diferit de zero).

Page 149: Statistic ˘ a Aplicat ˘ a

CSA 11 [Dr. Iulian Stoleriu] 148

Test statistic pentru β0

Mai jos prezent m testul ce veric dac β0 ia o valoare dat β∗0 sau nu, la un nivel de semnicaµie α. Dispersiaerorilor de regresie este necunoscut .Test m

(H0) : β0 = β∗0 versus (H1) : β0 6= β∗0 .

Consider m statistica

T =β0 − β0

σ√

1n + x2

sxx

∼ t(n− 2),

care urmeaz repartiµia t(n− 2). Etapele testului sunt urm toarele:

Calcul m valoarea critic

T0 =β0 − β∗0

σ√

1n + x2

sxx

∼ t(n− 2).

Calcul m cuantila de ordin 1− α2 pentru repartiµia t cu (n− 2) grade de libertate, t1−α2 ;n−2;

Dac |T0| < t1−α2 ;n−2, atunci accept m ipoteza (H0);

Dac |T0| ≥ t1−α2 ;n−2, atunci accept m ipoteza (H1);

Observaµia 21.5. De asemenea, teste unilaterale pot considerate ³i în cazul test rii valorii lui β0.În cazul în care σ2 este cunoscut a priori atunci, graµie relaµiilor (21.17), putem utiliza testul Z pentru testareaipotezelor de mai sus, atât pentru β0, cât ³i pentru β1.

Predicµie prin regresie

. [Pe scurt, predicµia prin regresie este precum ai conduce ma³ina legat la ochi,

. ghidat de un copilot care prive³te doar în lunet ]

În anumite cazuri, putem folosi regresia în predicµia unor valori ale variabilei dependente. De exemplu, putemprezice temperatura într-un anumit ora³ plecând de la observaµiile temperaturilor din ora³ele învecinate. Regresiapoate utilizat pentru predicµie dup cum urmeaz . S presupunem ca datele pe care le deµinem, (xi, yi)i=1, n,pot modelate de o dreapt de regresie de forma (21.5). Dat ind o valoarea xp ce nu se a printre valorile xi, dareste o valoare cuprins între valorile extreme ale variabilei independente, xmin ³i xmax, dorim s prezicem valoarear spuns,

yp = β0 + β1 xp + εp.

Dac β0 ³i β1 sunt estimaµiile pentru parametrii de regresie β0, respectiv, β1, atunci valoarea prezis pentru yppentru un xp observat va o valoare yp de pe dreapta de regresie, dat de formula:

yp = β0 + β1 xp. (21.18)

Se poate demonstra ca statistica Yp asociata acestei valori urmeaza o repartitie normala,

Yp ∼ N

β0 + β1 xp, σ

√1 +

1

n+

(xp − x)2

sxx

.

O predicµie pentru intervalul de încredere corespunz tor lui y pentru un xp dat, la nivelul de semnicaµie α(xp ∈ [xmin, xmax]) este:yp − t1−α2 ;n−2 σ

√1 +

1

n+

(xp − x)2

sxx, yp + t1−α2 ;n−2 σ

√1 +

1

n+

(xp − x)2

sxx

. (21.19)

Page 150: Statistic ˘ a Aplicat ˘ a

CSA 11 [Dr. Iulian Stoleriu] 149

Observaµia 21.6. (1) De notat faptul c este foarte important ca xp s e o valoare cuprins între xmin ³i xmax.Dac se folose³te formula (21.18) ³i pentru valori ale lui x în afara range-ului valorilor predictor pentru x, atuncierorile de de aproximarea a lui y cu yp pot foarte mari. De exemplu, dac în Figura 21.4 (a) am folosi doar primele9 pentru a construi un model de regresie, atunci acesta poate utilizat doar pentru predicµia valorilor variabileiy pentru orice x în acest range, i.e. x ∈ [0, 10]. Dac , folosind dreapta de regresie g sit anterior, am încercao predicµie pentru x = 19, atunci am g si c y(19) ≈ 10, pe când valoarea observat este y(19) ≈ 6.5, ceea cedetermin o eroare foarte mare de aproximare. Mai mult, dac µinem cont ³i de urm toarele valori observate (veziFigura 21.4(b)), atunci curba de regresie pare s nu e o dreapt . Pentru estimarea de valori viitoare ale variabilei

Figura 21.4: Predicµie prin extrapolare.

dependente folosind valori ale variabilelor independente ce ies din range se utilizeaz termenul de prognoz (en.,forecasting). Aceasta este folosit des în analiza seriilor de timp.(2) Valoarea prezis yp nu este una stabilit cu exactitate, ci este doar o medie a³teptat a valorilor lui y pentruun xp dat. În cazul în care R2 = 1 (coecientul de determinare), atunci valoarea pentru y va prezis f r eroare,deoarece toate punctele se a pe dreapta de regresie. În general, punctele bidimensionale (x, y) se a împr ³tiateîn jurul dreptei de regresie.(3) Valoarea yp este determinat doar pe baza selecµiei date, de aceea, pentru a verica dac aceast valoare poate extrapolat la întreaga populaµie este nevoie de inferenµ statistic (test statistic). Prezent m, în continuare, untest ce compar valoarea yp cu o constant dat .Test m

(H0) yp = y0 versus (H1) yp 6= y0.

Etapele testului sunt urm toarele:

Estim m yp utilizând formula (21.18).

Consider m statistica

T =yp − y

σ

√1 +

1

n+

(xp − x)2

sxx

∼ t(n− 2);

Calculez valoarea T0 =yp − y0

σ

√1 +

1

n+

(xp − x)2

sxx

;

Dac |T0| < t1−α2 ;n−2, atunci accept m ipoteza (H0);

Page 151: Statistic ˘ a Aplicat ˘ a

CSA 11 [Dr. Iulian Stoleriu] 150

Dac |T0| ≥ t1−α2 ;n−2, atunci accept m ipoteza (H1);

(4) În concluzie, regresia este o unealt dibace pentru predicµie. Unii economi³ti au utilizat-o cu succes si au prezis

chiar 10(!) dintre ultimele... 2 recesiuni!

Observaµia 21.7. Pân acum am v zut cum putem estima valoarea lui y folosind pe x. În unele cazuri, puteminversa rolurile lui x ³i y, ³i putem vorbi astfel de regresie a lui x în raport cu y. De exemplu, în Exerciµiul 22.1am putea estima notele la Probabilit µi în funcµie de notele la Statistic . Formulele obµinute pentru dreapta deregresie a lui x în raport cu y sunt cele g site anterior pentru dreapta de regresie a lui y în raport cu x, în carerolurile lui x ³i y sunt inversate.

Page 152: Statistic ˘ a Aplicat ˘ a

LSA 11 [Dr. Iulian Stoleriu] 151

22 Statistic Aplicat (L11)

Regresie (exerciµii rezolvate)

Fie X ³i Y doi vectori de acela³i tip. Urm toarele funcµii din Matlab sunt utile pentru analiza corelaµiei ³iregresiei:

scatter(X,Y) reprezint grac valorile lui Y vs. valorile lui X;

R = corrcoef(X,Y) calculeaz coecientul de corelaµie între X ³i Y. Rezultatul este a³at sub forma:>> ans =

1.0000 ρρ 1.0000

unde 1.0000 este coecientul de corelaµie dintre X ³i X, respectiv Y ³i Y, iar ρ este coecientul c utat.

cov(X,Y) pentru matricea de covarianµ empiric dintre X ³i Y (formula (3.2));Funcµia cov(X,Y,1) este tot matrice de covarianµ , îns în acest caz formula folosit este (??).

b = regress(Y,X) a³eaz estimarea coecienµilor pentru care Y = bX. Aici, X este o matrice n × k ³i Yun vector coloana n× 1. Coloanele vectorului X corespund observaµiilor (i.e., variabilelor independente).Dac X este un vector coloan de aceea³i dimensiune cu Y, atunci b este doar un scalar.Dac X este matrice, atunci putem folosi aceast comand pentru a estima coecienµii de regresie liniar multipl . Spre exemplu, s presupunem c se dore³te estimarea coecienµilor de regresie liniar simpl , i.e.,β0 ³i β1 pentru care y = β0 + β1 x, unde pentru ecare dintre x ³i y avem n observaµii. În acest caz, k = 2.Fie X, respectiv, Y vectorii ce conµin aceste observaµii. Comanda Matlab care estimeaz cei doi coecienµieste

B = regress(Y', [ones(n,1)'; X]')

Comanda furnizeaz aproxim ri pentru parametrii β0 ³i β1 ce fac urm toarea aproximare cât mai bun :y1y2...yn

≈ β0

11...1

+ β1

x1x2...xn

.

p = polyfit(X,Y,n) g se³te coecienµii unui polinom p(x) de grad n ale c rui valori p(xi) se apropie celmai mult de datele observate yi, în sensul celor mai mici p trate. Matlab va a³a în acest caz un vectorlinie de lungime n+1, conµinând coecienµii polinomiali în ordinea descresc toare a puterilor. Spre exemplu,dac

p(x) = βnxn + βn−1x

n−1 + . . . + β2x2 + β1x+ β0,

atunci Matlab va a³aβn, βn−1, . . . , β2, β1, β0.

Y = polyval(p,X) a³eaz valorile unui polinom p(x) pentru valorile din vectorul X. Polinomul p(x) estedat prin coecienµii s i, ordonaµi în ordine descresc toare a puterilor. De exemplu, dac p(x) = 3x2 + 2x+ 4³i dorim s evalu m acest polinom pentru trei valori, −3, 1 ³i 5, atunci scriem în Matlab:

p = [3 2 4]; polyval(p,[-3 1 5])

obµinând rezultatul:ans = 37 5 69

Page 153: Statistic ˘ a Aplicat ˘ a

LSA 11 [Dr. Iulian Stoleriu] 152

Exerciµiu 22.1. Dorim s determin m dac exist vreo corelaµie între notele la examenul de Probabilit µi ³i celede la Statistic obµinute de studenµii unui an de studiu. În acest sens, au fost observate notele obµinute de 10studenµi la aceste dou discipline ³i au fost trecute în Tabelul 22.1 de mai jos. Se cere:(a) Stabiliµi dac exist o leg tur puternic între aceste note (r ³i r2);(b) Determinaµi dreapta de regresie a notelor de la Statistic în raport cu notele la Probabilit µi ³i desenaµi-o înacela³i sistem de axe ca ³i notele obµinute (scatter plot).(c) Testaµi dac exist sau nu vreo corelaµie între notele de la Statistic ³i Probabilit µi.

Student A B C D E F G H I JProbabilit µi 82 36 72 58 70 48 44 94 60 40Statistic 84 42 50 64 68 54 46 80 60 32

Tabela 22.1: Notele la Statistic ³i Probabilit µi.

Soluµie: (a) Calcul m r cu formula (19.1). Funcµia Matlab pentru coecientul Pearson este corrcoef. În codulMatlab de mai jos l-am calculat pe r folosind aceast funcµie, dar ³i în dou alte modalit µi, folosind formula(19.2) sau scriind desf ³urat expresia lui r.

(b) Coecienµii de regresie se pot obµine în 3 moduri, e folosind funcµia Matlab polyfit, care realizeaz tareadatelor cu un polinom, în cazul liniar ind un polinom de forma S(P ) = β0 + β1 P . O alt variant de calcula coecienµilor β0 ³i β1 este simpla implementare în Matlab a formulelor pentru ace³tia. A treia variant estefolosirea funcµiei regress din Matlab.Reprezentarea grac a datelor poate realizat folosind ori funcµia plot, ori funcµia "scatter", ambele funcµiipredenite din Matlab. Gracul este cel din Figura 22.1.

P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32];

mp = mean(P); ms = mean(S);

%%%~~~~~~~~~~~~~~ Calculez coeficientul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~~~~~~~

CC = corrcoef(P,S); r = CC(1,2)

%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru r ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

% C = cov(P,S)/(std(P)*std(S)); r = C(1,2);

% r = sum((P-mp).*(S-ms))/sqrt(sum((P-mp).^2)*sum((S-ms).^2));

%%%~~~~~~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~

B = polyfit(P,S,1)

%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

% b1 = sum((P-mp).*(S-ms))/sum((P-mp).^2); b0 = ms - b1*mp;

% B = regress(S',[P;ones(10,1)']');

%%%~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

x=0:100; plot(P,S,'*',x,B(2) + B(1)*x,'r-')

% scatter(P,S) % varianta pentru scatter plot

%%%~~~~~~~~~~~~~~~~~~~~~~~ Testul pentru ρ = 0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

alpha = 0.05; n = 10; T0 = r*sqrt((n-2)/(1-r^2)); quant = tinv(1-alpha/2,n-2);

if (abs(T0) < quant)

disp('P si S nu sunt corelate')

else

disp('P si S sunt corelate')

end

Rulând codul de mai sus, obµinem:

r = B = P si S sunt corelate

0.8247 0.7553 10.3816 √

Page 154: Statistic ˘ a Aplicat ˘ a

LSA 11 [Dr. Iulian Stoleriu] 153

Figura 22.1: Notele ³i dreapta de regresie.

Exerciµiu 22.2. Prognoza spune c temperatura într-o anumit zon muntoas descre³te cu cca. 6C la ecare1km câ³tigat în în lµime. Pentru o vericare, au fost m surate simultan temperaturile în 10 localit µi diferite dinacea zon , acestea ind înregistrate în Tabelul 22.2. Dac temperatura se presupune a o funcµie liniar (regresie

hi 500 1000 1500 2000 2500 3000 3500 4000 4500 5000Ti 15 14 11 6 −1 2 0 −4 −8 −14

Tabela 22.2: Tabel cu temperaturi (Ti) la diverse altitudini (hi).

liniar ) de altitudine, se cere:(i) S se estimeze parametrii β0 ³i β1;(ii) S se testeze (α = 0.05) dac prognoza din enunµ este adevarat (i.e., β1 = −0.006);(iii) S se g seasc un interval de încredere pentru panta dreptei de regresie, β1;(iv) Cât de bun este aproximarea temperaturii cu o funcµie liniar de altitudine?(v) Estimaµi temperatura la altitudinea h = 2544. G siµi, de asemenea, un interval de încredere pentru aceastatemperatur .

Soluµie: (i) Estim m parametrii necunoscuµi folosind formulele (21.8) sau folosind funcµiaMatlab polyfit (vezicodul de mai jos).(ii) Pentru testarea ipotezei nule (H0) : β1 = −0.006 utiliz m testul din Secµiunea 21.(iii) Un interval de încredere pentru β1 se poate calcula folosind formula (21.15).(iv) Pentru a decide cât de bun este aproximarea, calcul m coecientul de determinare, R2. Acesta este R2 =94.83, ceea ce înseamn c temperatura real este foarte aproape de cea prognozat .(v) Utiliz m formulele (21.18) ³i (21.19), pentru xp = 2544. (vezi rezultatele generate de codul de mai jos)Codul Matlab este urm torul:

h = [500 1000 1500 2000 2500 3000 3500 4000 4500 5000];

T = [15 14 11 6 -1 2 0 -4 -8 -14]; mh = mean(h); mT = mean(T);

%%%~~~~~~ Calculez coeficientul de corelatie empiric si coeficientul de determinare ~~~

CC = corrcoef(h,T); r = CC(1,2)

R2 = r^2

%%%~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

B = polyfit(h,T,1)

%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Page 155: Statistic ˘ a Aplicat ˘ a

LSA 11 [Dr. Iulian Stoleriu] 154

% B = regress(T',[h;ones(10,1)']');

% b1 = sum((h-mh).*(T-mT))/sum((h-mh).^2); b0 = mT - b1*mh;

%%%~~~~~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~

x=0:5600; plot(h,T,'*',x,B(2) + B(1)*x,'r-')

%%%~~~~~~ Testul pentru panta dreptei de regresie, (H0) : β1 = −0.006 ~~~~~~~~~~~~~~~~

alpha = 0.05; n = 10;

sigmahat = sqrt(sum((T-B(2) - B(1)*h).^2)/(n-2)); sxx = sum((h-mean(h)).^2);

T0 = (B(1)+0.006)*sxx/sigmahat; quant = tinv(1-alpha/2,n-2);

if (abs(T0) < quant)

disp('ipoteza (H0) se accepta')

else

disp('ipoteza (H0) se respinge')

end

%%%~~~~~~~~~~~~~~~ Interval de incredere pentru β1 ~~~~~~~~~~~~~~~~~~~~~~~

CI = [B(1) - quant*sigmahat/sqrt(sxx), B(1) + quant*sigmahat/sqrt(sxx)]

hp = 2544; Tp = B(2) + B(1)*hp

CI_T = [Tp - quant*sigmahat*sqrt(1 + 1/n + (hp-mh)^2/sxx), ...

Tp + quant*sigmahat*sqrt(1 + 1/n + (hp-mh)^2/sxx)]

Rulând codul de mai sus, obµinem:

r = R2 = B = CI =

-0.9738 94.83 [-0.0061, 18.9333] [-0.0073, -0.005]

Tp = CI_T =

3.3610 [-2.1922, 8.9142]

ipoteza nula se accepta √

Figura 22.2: Diagrama de temperaturi în funcµie de altitudine, ³i dreapta de regresie.

Page 156: Statistic ˘ a Aplicat ˘ a

LSA 11 [Dr. Iulian Stoleriu] 155

Exerciµiu 22.3. Fie ³irul de date:

x = 0.3 0.8 1.2 1.6 2.1 2.4 2.7

y = 3.52 4.53 5.58 6.62 8.27 10.18 11.80

S se studieze existenµa unei dependenµe între x ³i y de forma y = a eb x.

Soluµie: Calcul m ln y. Obµinem:

ln y = 1.2585 1.5107 1.7192 1.8901 2.1126 2.3204 2.4681

Se observ c r = 0.9988 ≈ 1 (coecientul de corelaµie între x ³i ln y), de unde b nuim c e posibil s avemo regresie liniar între variabilele x ³i ln y. Estim m coecienµii de regresie ai lui ln y faµ de x ³i g sim:β0 = 1.1074, β1 = 0.4980. Aceasta poate realizat în Matlab prin comanda

regress(log(y)',[x',ones(7,1)])

A³adar, ln y = 0.4980x+ 1.1074, de unde y = e1.1074 e0.4980 x ≈ 3 ex/2. În Figura 22.3 am reprezentat grac dateleobservate ³i aproxim rile lor. √

Figura 22.3: Aproximarea datelor din Exerciµiul 22.3

Page 157: Statistic ˘ a Aplicat ˘ a

LSA 11 [Dr. Iulian Stoleriu] 156

Probleme propuse

Exerciµiu 22.1. Se dau urm toarele date:

x −3 −2 −1 0 1 2

y 9 4 1 0 1 4

(a) Testaµi dac ρ = 0 (coecientul de corelaµie teoretic).(b) Este faptul c x ³i y sunt legate prin relaµia y = x2 în contradicµie cu rezultatul de la punctul (a) (datele suntperfect necorelate)?(c) Calculaµi coecientul de corelaµie Spearman.

Exerciµiu 22.2. Suntem interesaµi în determinarea unei leg turi între în lµime ³i m rimea la pantof. Datele dintabelul de mai jos reprezint observaµii asupra în lµimilor (H) ³i a m rimilor la pantof (M) pentru 10 b rbaµi, ale³ila întâmplare.

H 1.75 1.70 1.80 1.65 1.83 1.73 1.86 1.65 1.68 1.82M 43 41.5 44 40.5 44.5 41 44.5 39.5 40 43.5

(a) Calculaµi coecientul de corelaµie Pearson dintre în lµime ³i m rimea la pantof. Ce procent din valorile lui Msunt determinate de valorile lui H(b) Determinaµi o aproximare pentru dreapta de regresie a lui M faµ de H.(c) Obµineµi o predicµie a m rimii la pantof pentru un b rbat cu în lµimea 1.78.

(d) La nivelul de semnicaµie α = 0.05, testaµi ipoteza c panta dreptei de regresie este3

4.

Exerciµiu 22.3. Fie ³irul de date:

u = 1.0 1.5 2.0 2.5 3.0 3.5 4.0

v = 1.5 4.5 7.5 12.5 17.5 24.5 32.5

S se studieze existenµa unei dependenµe între u ³i v de forma v = a u2 + b.

Exerciµiu 22.4. În tabelul urm tor, se dau câte 5 valori pentru dou variabile x ³i y, unde y este variabilaindependent . Determinaµi o dreapta de regresie potrivit pentru a calcula(i) valoarea lui x când y = 2.5;(ii) valoarea lui y când x = 50;(iii) Putem prezice valoarea lui y pentru x = 75?

x 46 55 41 58 53

y 1.7 2.1 1.5 2.9 1.9

Exerciµiu 22.5. Se m soar viteza unei ma³ini, v, în primele 10 secunde dup aceasta a început s accelereze.Aceste date sunt înregistrate în Tabelul 22.3. Se cere:(a) Desenaµi diagrama scatter plot;(b) Determinaµi dreapta de regresie a lui v faµ de t;(c) Calculaµi coecientul de corelaµie empiric ³i comentaµi asupra validit µii aproxim rii datelor cu dreapta deregresie.

Page 158: Statistic ˘ a Aplicat ˘ a

LSA 11 [Dr. Iulian Stoleriu] 157

t 0 1 2 3 4 5 6 7 8 9 10v 0 3.1 6.9 9.9 12.7 16.1 19.8 21.2 22.8 24.3 25.9

Tabela 22.3: Viteza unei ma³ini în primele 10 secunde dup plecarea de pe loc

Exerciµiu 22.6. Opinia general este c rata maxim (R) a b t ilor inimii unei persoane se poate determina dup formula R = β0 + β1 V , unde V este vârsta persoanei, calculat în ani. Cercet torii cardiologi arma c ace³ticoecienµi ar : β0 = 220 ³i β1 = −1. Pentru o vericare empiric a acestei armaµii, sunt alese la întâmplare 15persoane de diverse vârste, care sunt supuse unui test pentru determinarea ratei maxime ale bat ilor inimii. Acesterezultate sunt contabilizate în Tabelul 22.4.(a) Calculaµi coecientul de corelaµie Pearson dintre vârst ³i rata maxim a bat ilor inimii. Care este semnicaµiaacestei valori?(b) Determinaµi dreapta de regresie a lui R faµ de V ³i desenaµi-o în acela³i sistem de axe cu datele din tabel.(c) Testaµi ipoteza (H0) : β1 = −1, vs. ipoteza alternativ (H1) : β1 6= −1, la nivelul de semnicaµie α = 0.05.

Vârsta 15 23 25 35 17 34 54 50 45 42 19 42 20 39 37Rata max 207 186 187 180 200 175 169 183 156 183 199 174 198 183 178

Tabela 22.4: Tabel cu rata maxim a bat ilor inimii în funcµie de vârst .

Exerciµiu 22.7. Dreapta de regresie a variabilei y faµ de variabila x este y = 2x − 6. Determinaµi condiµiile încare dreapta de regresie a lui x faµ de y este x = 0.5 y + 3.

A 3 1 4 12 11 3 5 2 9 6 4 6 7 6 14N 9.00 9.50 8.75 4.75 5.50 8.50 6.75 8.25 5.50 6.75 8.00 7.75 6.00 7.00 3.50

Tabela 22.5: Tabel cu absenµe ³i note la Statistic .

Exerciµiu 22.8. Tabelul 22.5 conµine num rul de absenµe (A) la Statistic ³i notele corespunz toare (N) a 15studenµi.(a) Calculaµi coecientul de corelaµie Pearson. Care este semnicaµia acestei valori referitor la relaµia dintre absenµe³i note?(b) Determinaµi dreapta de regresie a lui N faµ de A ³i desenaµi-o în acela³i sistem de axe cu datele din tabel.(c) Testaµi, la un nivel de semnicaµie α = 0.05, dac exist dovezi suciente pentru a arma c între num rul deabsenµe ³i notele obµinute exist o corelaµie.

Exerciµiu 22.9. În Tabelul 22.6 datele reprezint în lµimile (H) ³i masele corporale (M) a 10 fete dintr-o clas aunui liceu. Suntem interesaµi în prezicerea masei corporale, ³tiind înalµimea unei eleve.

H 179.6 166.8 163.1 180.0 158.4 166.5 165.8 168.1 175.9 160.7M 61.2 48.2 46 64.4 46.3 54.7 51.4 55.3 65.3 47.9

Tabela 22.6: Înalµimea ³i masa corporal a 10 eleve dintr-o clas .

(a) Desenaµi diagrama scatter plot a lui H versus M . Bazându-v pe aceast diagram , consideraµi c metodaregresiei liniare este potrivit în acest caz?(b) Calculaµi estimaµii ale parametrilor (β0 ³i β1) de regresie liniar ³i reprezentaµi grac dreapta de regresie liniar .(c) Obµineµi o estimare nedeplasat pentru σ2.(d) Testaµi ipoteza nul (H0) : β1 = 0.9.

Page 159: Statistic ˘ a Aplicat ˘ a

LSA 11 [Dr. Iulian Stoleriu] 158

Exerciµiu 22.10. Un student ia cu împrumut o carte de la bibliotec ³i observ c pagina de interes este rupt pe alocuri. Totu³i, poate citi textul din Figura 22.4. Se cere s se reconstruiasc pasajul de text (i.e., determinaµiy ³i dreapta de regresie a lui x faµ de y). De asemenea, calculaµi coecientul empiric de corelaµie r ³i comentaµiasupra aproxim rii datelor de seleµie prin dreptele de selecµie.

Figura 22.4: Fragment incomplet dintr-un text

Exerciµiu 22.11. Dorim s determin m o relaµie între în lµimea H (în metri) ³i diametrul trunchiului D (în metri)corespunz toare castanilor dintr-o anumit specie asiatic . Pentru a obµine aceast relaµie, determin m mai întâio regresie liniar între logaritmii variabilelor, adic între Y = ln(H) ³i X = ln(D), bazându-ne pe urm toareleobservaµii:

X −1.61 −1.20 −0.97 −0.51 −0.42Y 2.22 2.27 2.38 2.60 2.65

(a) Ce procent dintre valorile lui Y pot explicate de valorile lui X?(b) Determinaµi o aproximare pentru dreapta de regresie liniar a lui Y versus X.(c) Care este repartiµia erorilor de aproximare a datelor observate prin dreapta de regresie?(d) Folosind un interval de încredere, estimaµi în lµimea unui copac ce are diametrul trunchiului de 0.7m

Page 160: Statistic ˘ a Aplicat ˘ a

CSA 12 [Dr. Iulian Stoleriu] 159

Statistica Aplicata (C12)

23 Regresie liniara simpla (continuare) (C12)

Presupunem ca X si Y sunt doua variabile de interes, pentru care se doreste a determina o relatie liniara de forma

Y = β0 + β1X.

Pentru a determina oportunitatea unei astfel de legaturi, se culeg date relativ la aceste variabile. Fie acesteobservatii (xi, yi)i=1, n. Pe baza acestor date se poate aproxima dreapta de regresie liniara (daca exista) astfel:

Y = β0 + β1X, unde: β1 =sxysxx

³i β0 = y − β1x,

x =1

n

n∑i=1

xi, y =1

n

n∑i=1

yi, sxx =

n∑i=1

(xi − x)2, sxy =

n∑i=1

(xi − x)(yi − y).

Validitatea modelului de regresie liniara simpla

Pentru a verica daca modelul de regresie liniara este unul valid, se pot folosi mai multe metode, printre careamintim cele mai uzuale:

coecientul de determinare R2. Acest coecient se calculeaz folosind urm toarea formul :

R2 = 1− SSE

SST, (23.1)

unde

SSE =

n∑i=1

(yi − β0 − β1xi)2, SST =

n∑i=1

(yi − y)2.

Aici, SST reprezint suma total a p tratelor the total sum of squares. În analiza regresional , coecientulR2 este o statistica folosit în a determina cât de bine pot estimate valorile lui y pe baza modelului deregresie. Valorile lui R2 sunt între 0 si 1 ³i, pentru a avea un model destul de bun, ar necesar un coecientde determinare aproape de 1. Totu³i, este posibil ca R2 s aib valori mai mari ca 1 în cazul în care modelulde regresie nu este unul liniar.

grace:

yi vs. xi: Din aceasta gura ne putem da seama de oportunitatea modelarii datelor observate folosindun model de regresie liniara simpla. Pentru a putea utiliza un model de regresie liniara simpla, valorilereprezentate ar trebui sa e apropiate de o anumita dreapta (e.g., vezi Figura 22.1).

grac ce indica normalitatea reziduurilor εi : Acesta poate realizat inMatlab cu ajutorul comenziinormplot. Acest grac reprezinta probabilitatile de normalitate ale erorilor versus cuantilele de laN (0, 1). Daca modelul este valid, atunci valorile reprezentate in gura vor cat mai apropiate deprima bisectoare (e.g., vezi al doilea grac din Figura 24.1).

yi vs. yi: Daca modelul este valid, atunci valorile reprezentate in gura vor cat mai apropiate deprima bisectoare (e.g., vezi primul grac din Figura 24.1).

εi vs. xi: Daca modelul este valid, atunci valorile reprezentate in gura nu ar avea nicio tendintaclara (e.g., vezi ultimul grac din Figura 24.1).

εi vs. yi: Daca modelul este valid, atunci valorile reprezentate in gura nu ar avea nicio tendintaclara (e.g., vezi ultimul grac din Figura 24.1).

Page 161: Statistic ˘ a Aplicat ˘ a

CSA 12 [Dr. Iulian Stoleriu] 160

In gracele anterioare, in loc de reziduurile εi, pot realizate grace pentru reziduurile standardizate,

εi∗ =

εisεi

=εi

σ

√1 +

1

n+

(xp − x)2

sxx

.

test de utilitate a modelului: Se testeaza ipoteza (H0) : β1 = 0 vs. ipoteza (H1) : β1 6= 0. Dupa cum amvazut mai sus, acceptarea ipotezei alternative indica faptul ca modelul liniar simplu este valid.

In unele programe software specice Statisticii, (e.g., in SPSS) rezultatul testului este reprezentat de o valoaresig pe care softul o aseaza. Aceasta valoare este, in fapt, valoarea critica Pv (probabilitatea de a respingeipoteza nula cand aceasta este adevarata). La un nivel de semnicatie α dorit de utilizator, ipoteza nula va respinsa daca sig < α. Daca ipoteza nula este respinsa, atunci valoarea testata (β10) este semnicativa sipoate utilizata in calculele ulterioare. Daca sig > α, atunci valoarea β10 este nesemnicativa si acceptamipoteza ca, in realitate, β1 = 0, ceea ce indica faptul ca modelul de regresie liniara simpla nu este potrivitpentru datele observate.

Ce este de facut daca modelul de regresie liniara simpla nu este unul valid?

Este posibil ca Y sa nu depinda liniar de X. Acest fapt poate observat de la inceput, din diagrama scatterplot ce reprezinta yi vs. xi. Pentru modele neliniare, se poate incerca o transformare a variabilelor X si Yastfel incat modelul liniar pentru variabilele transformate sa e unul aplicabil (nu merge intotdeauna). Spreexemplu, vezi Exercitiul 22.3, in care am determinat o regresie liniara intre variabilele ln(Y ) si X.

Se poate intampla ca reziduurie εi sa prezinte o dependinta clara de xi (fapt ce poate observat dintr-oreprezentare εi vs. xi), asadar aplicabilitatea modelului de regresie liniara este inoportuna. Faptul ca εi nuau toate o aceeasi dispersie σ2 se numeste heteroscedasticitate (proprietate opusa homoscedasticitatii).

Daca reziduurile nu sunt normale (se observa din diagrama normplot(εi), eventual, se poate apela la un testde normalitate), modelul liniar de regresie nu este oportun.

Exista posibilitatea ca datele observate (xi, yi)i=1, n sa contina valori aberante (outliers). Este importantde a intelege aceste valori si, in caz ca nu sunt semnicative, pot sterse din setul de date care este supusanalizei de regresie.

In multe cazuri, o singura variabila predictor (X) nu poate explica de una singura variabila Y , cazuri in carese apeleaza la o regresie multipla (se iau in considerare si alte variabile predictor).

Regresie liniara multipla

Regresia multipla ia in considerare cel putin doi predictori pentru a determina valorile unei variabile de interes Y .In continuare, vom considera cazul unui numar de k predictori independenti, notati X1, X2, . . ., Xk.

Pentru o variabila de interes Y se doreste a determina o relatie liniara (un plan) de forma

Y = β0 + β1X1 + β2X2 + . . .+ βkXk + ε, (23.2)

unde βj (j = 1, n) sunt niste constante reale, ε ∼ N (0, σ) (eroarea). Pentru un j xat, coecientul βj reprezintavariatia in variabila Y rezultata in urma variatiei predictorului Xj cu o unitate, in timp ce ceilalti predictori suntmentinuti la valori xate.

Pentru a determina oportunitatea unei astfel de legaturi, se culeg date relativ la aceste variabile. Fie acesteobservatii (x1i, x2i, . . . , xki, yi)i=1, n, unde xji denota observatia de rang i pentru variabila Xj , pentru ecare

Page 162: Statistic ˘ a Aplicat ˘ a

CSA 12 [Dr. Iulian Stoleriu] 161

j = 1, k si i = 1, n. Pe baza acestor date se poate aproxima suprafata de regresie liniara (daca exista, prin metodacelor mai mici patrate sau prin metoda verosimilitatii maxime) astfel:

Y = β0 + β1X1 + β2X2 + . . .+ βkXk, (23.3)

unde βj (j = 1, n) sunt estimatori pentru parametrii reali βj .

Similar cu cazul regresiei liniare simple, vom avea:

Suprafatay = β0 + β1x1 + β2x2 + . . .+ βkxk

este aproximarea suprafetei de regresie, en., tting surface), este suprafata care se apropie cel mai mult(în sensul metodei celor mai mici p trate) de datele experimentale. Aceast suprafata este o aproximare asuprafetei de regresie;

valorile yi se numesc valori observate, iar valorile yi = β0 + β1x1i + β2x2i + . . .+ βkxki, i = 1, n, se numescvalori prezise (i = 1, n);

valorile εi = yi− yi se numesc reziduuri. Un reziduu m soar deviaµia unui punct observat de la valoarea pre-zis de estimarea dreptei de regresie (dreapta de tare). Se presupune ca aceste reziduuri sunt independenteintre ele si sunt repartizate N (0, σ);

suma p tratelor erorilor,

n∑i=1

ε2i =

n∑i=1

(yi − β0 − β1x1i − β2x2i − . . .− βkxki)2,

se noteaz de obicei prin SSE (sum of squared errors);

eroarea medie p tratic sau rezidual este MSE =SSE

n− k − 1(mean squared error).

statistica MSE = σ2 este un estimator pentru dispersia erorilor, σ2.

r d cina p trat a MSE este σ si se nume³te eroarea standard a regresiei;

se poate demonstra c SSE

σ2= (n− k − 1)

σ2

σ2∼ χ2(n− k − 1).

cu autorul acestei relaµii se pot g si intervale de încredere pentru valoarea real a lui σ2.În formula (21.12), (n− k − 1) reprezint num rul gradelor de libertate ale variabilei SSE.

In Figura 23.1 sunt asate rezultatele unui model de regresie multipla prin care se doreste a se explica nota unuistudent la examenul de Algebra pe baza rezultatelor la trei teste anterioare examenului. Asadar, aici predictorii suntrezultatele la teste, T1, T2, si T3 si variabila prezisa este nota la examen. Tabelul aseaza estimarile parametrilor β0,β1, β2 si β3, deviatiile standard corespunzatoare acestor estimatori, statisticile test pentru semnicatiile valorilorobtinute si valorile critice Pv = sig pentru ecare parametru. Inspectand valorile pentru sig, observam ca, lanivelul de semnicatie α = 0.05, valoarea asata pentru β0 (constanta) nu este semnicativa, pe cand celelalte treivalori sunt semnicative.

Page 163: Statistic ˘ a Aplicat ˘ a

CSA 12 [Dr. Iulian Stoleriu] 162

Figura 23.1: Rezultate obtinute cu Minitab pentru un model de regresie multipla cu 3 predictori.

Validitatea modelului de regresie liniara multipla

Pentru a verica daca modelul de regresie liniara multipla este unul valid, se pot folosi mai multe metode, printrecare amintim cele mai uzuale:

coecientul de determinare R2. Acest coecient se calculeaz folosind urm toarea formul :

R2 = 1− SSE

SST, (23.4)

unde

SSE =

n∑i=1

(yi − β0 − β1x1i − β2x2i − . . .− βkxki)2, SST =

n∑i=1

(yi − y)2.

Aici, SST reprezint suma total a p tratelor the total sum of squares. Valorile lui R2 sunt între 0 si 1 ³i,pentru a avea un model destul de bun, ar necesar un coecient de determinare aproape de 1.

coecientul ajustat de determinare, adjR2. În cazul în care valorile prezise yi sunt obµinute prin metodacelor mai mici p trate, statisticaR2 este o funcµie cresc toare de num rul de variabile independente din model.Astfel, exist posibilitatea de a cre³te ilegitim valoarea lui R2 prin ad ugarea de noi variabile independenteîn analiza de regresie, fapt care nu duce neap rat la un model mai bun. Din acest motiv, au fost introdu³icoecienµi suplimentari. Unul dintre ace³tia este coecientul adjR2, care penalizeaz introducerea de noivariabile independente în model.

Acesta are formulaadj R2 = 1− (1−R2)

n− 1

n− p− 1= R2 − (1−R2)

p

n− p− 1,

unde n este volumul datelor ³i p este num rul de variabile independente în modelul liniar (f r a consideraconstanta). Valoarea lui adjR2 este cel mult egal cu valoarea lui R2, atingând un maxim în cazul în carenum rul de variabile explicative (independente) este optim. Interpretarea coecientului adjR2 este diferit decea a lui R2. Coecientul ajustat este o m sur a gradului de potrivire a num rului de variabile independentepentru model.

grac ce indica normalitatea reziduurilor εi : Acesta poate realizat in Matlab cu ajutorul comenziinormplot. Acest grac reprezinta probabilitatile de normalitate ale erorilor versus cuantilele de la N (0, 1).Daca modelul este valid, atunci valorile reprezentate in gura vor cat mai apropiate de prima bisectoare(e.g., vezi al doilea grac din Figura 24.1).

yi vs. yi: Daca modelul este valid, atunci valorile reprezentate in gura vor cat mai apropiate de primabisectoare (e.g., vezi primul grac din Figura 24.1).

Page 164: Statistic ˘ a Aplicat ˘ a

CSA 12 [Dr. Iulian Stoleriu] 163

εi vs. yi: Daca modelul este valid, atunci valorile reprezentate in gura nu ar avea nicio tendinta clara(e.g., vezi ultimul grac din Figura 24.1).

test de utilitate a modelului: Se testeaza ipoteza

(H0) : β1 = β2 = . . . = βk = 0 vs. ipoteza (H1) : macar un coecient βj 6= 0.

Acceptarea ipotezei alternative indica faptul ca modelul liniar multiplu este valid. Statistica test ests:

F =R2/k

(1−R2)/(n− k − 1)=

MSR

MSE,

undeMRS =

SSR

k, SSR = SST− SSE.

Pentru o valoare observata F0 ≥ f1−α2 ;k,n−k−1, respingem ipoteza nula.

Alte tipuri de regresie

Regresie polinomiala

O regresie polinomiala simpla de ordin k este de forma:

Y = β0 + β1X + β2X2 + . . .+ βkX

k + ε. (23.5)

Folosind urmatoarele notatii, putem reduce regresia polinomiala la una simpla multipla

X1 = X, X2 = X2, . . . , Xk = Xk.

Interpretarile coecientilor βj in cazul unei regresii polinomiale nu se mai potrivesc cu cele ale coecientilordin cazul regresiei multiple, ind greu de determinat.

Regresie multiple cu interactiuni

O regresie multiple cu interactiuni de ordin 2 este de forma:

Y = β0 + β1X1 + β2X2 + β3X1X2 + β4X21 + β5X

22 + ε. (23.6)

Folosind urmatoarele notatii, putem reduce regresia anterioara la una simpla multipla

X1X2 = X3, X21 = X4, X2

2 = X5.

Regresie logistica

Fie Y o variabila de tip Bernoulli, adica Y poate lua doar doua valori, sa zicem ca acestea sunt 0 si 1, cuP (Y = 1) = p si P (Y = 0) = q = 1− p.Spre exemplu, variabila Y reprezinta decizia ca o anumita masina sa aiba nevoie de revizie. Valoarea Y = 0reprezinta NU si Y = 1 reprezinta DA. Astfel, p reprezinta probabilitatea ca masina sa necesite revizie. Ingeneral, aceasta probabilitate depinde de mai multi factori, spre exemplu: X1 = numarul de km parcursi,X2 = vechimea masinii, X3 = timpul scurs de la ultima revizie. Pentru simplitate, sa ne limitam doar laacesti trei factori. Insa, este clar, probabilitatea p nu poate depinde liniar de acesti factori, si nici alta formade regresie studiata pana acum nu poate aplicata. Motivul este simplu: daca am presupune ca

p = β0 + β1X1 + β2X2 + β3X3 + ε,

atunci exista posibilitatea ca membrul din dreapta sa nu apartina intervalului [0, 1]. In consecinta, estenevoie de o noua dependenta a probabilitatii p de acesti predictori. Un exemplu potrivit este cel dat defunctia logit, i.e., p(X) = ea+bX

1+ea+bX. Vom considera urmatorul model de regresie:

p =eβ0+β1X1+β2X2+β3X3

1 + eβ0+β1X1+β2X2+β3X3, (23.7)

Page 165: Statistic ˘ a Aplicat ˘ a

CSA 12 [Dr. Iulian Stoleriu] 164

numit regresie logistica. Din relatia (23.7), obtinem:

p

1− p = eβ0+β1X1+β2X2+β3X3 .

Expresiap

1− p se numeste cota de realizare a evenimentului. De exemplu, daca p = 0.25, atunci cota este

de 1 : 3 ca masina sa aiba nevoie de reparatii (i.e., o sansa din patru in favoarea reparatiilor).

Prin logaritmare, gasim ca

ln

(p

1− p

)= β0 + β1X1 + β2X2 + β3X3. (23.8)

Astfel, modelul poate privit ca un model de regresie liniara multipla. Pe baza observatiilor se determinaestimatori pentru parametri, iar pe baza acestor estimatori se estimeaza probabilitatea p.

Page 166: Statistic ˘ a Aplicat ˘ a

LSA 12 [Dr. Iulian Stoleriu] 165

24 Statistic Aplicat (L12)

Regresie liniara multipla (exerciµii rezolvate)

Exerciµiu 24.1. Dorim sa determinam daca exista vreo legatura liniara (multipla) intre nota obtinuta la tezade Matematica la Bacalaureat B si predictorii M = valoarea medie a mediilor la disciplina Matematica obtinutein anii de liceu si T = media testelor de vericare sustinute ("simulari") inainte de Bacalaureat. In acest sens,consideram o selectie aleatoare de 7 elevi dintr-un anumit oras care au sustinut Bacalaureatul la Matematica.Valorile corespunzatoare pentru M, T, B sunt:

E1 E2 E3 E4 E5 E6 E7

M 10 9.12 8.25 7.85 6.13 6.73 7.88T 9.75 9.00 8.50 6.95 7.15 6.00 7.75B 9.90 8.63 8.31 7.19 6.83 6.40 7.67

Cerinte:(1) Determinati o estimare a suprafetei (planului) de regresie liniara multipla, B = β0 + β1M + β2T .(2) Reprezentati in acelasi sistem de coordonate valorile observate si planul obtinut anterior.(3) Reprezentati grac (a) valorile prezise vs. valorile observate, (b) probabilitatile de normalitate a rezuduurilorsi (c) reziduurile vs. valorile prezise la Bac. Comentati gracele obtinute.(4) Testati daca parametrii β1 si β2 sunt semnicativi la nivelul de semnicatie α = 0.05.(5) Comentati utilitatea modelului de regresie liniara multipla, calculand R2, adjR2 sau folosind un test de utilitate.(6) Estimati nota la teza de Matematica la Bacalaureat pentru un elev ce are Mp = 8.50 si Tp = 7.65.

- Soluµie: (1) Pentru a estima coecientii de regresie vom folosi comanda regress din Matlab. Maiintai, punem predictorii M si T intr-o matrice X, care mai contine si o coloana cu elementul 1 (coecientul deregresii pentru aceasta coloana va β0).

n = 7; k = 2; alpha = 0.05;

B = [9.90 8.63 8.31 7.19 6.83 6.40 7.67]; T = [9.75 9.00 8.50 6.95 7.15 6.00 7.75];

M = [10 9.12 8.25 7.85 6.13 6.73 7.88]; X = [ones(1,7); M; T]';

b = regress(B',X); % coeficientii de regresie

Obtinem estimarea suprafetei (planului) de regresie:

B = 0.4323 + 0.3371M + 0.5996T.

(2) Folosind comanda plot3, reprezentam datele observate. Comanda mesh este folosita pentru a reprezentaplanul de regresie pentru un grid creat de comanda meshgrid.

figure(1); plot3(M',T',B','r*'); hold on % reprezinta datele observate

x1= linspace(6,10,50); x2 = linspace(6,10,50);

[m,t] = meshgrid(x1,x2); % creaza un grid

bac = b(1)+b(2)*m+b(3)*t; mesh(m',t',bac') % valorile lui B pentru grid

Bpred = b(1)+b(2)*M+b(3)*T; grid on % valorile prezise pt. B in Mi si Ti

xlabel('M'); ylabel('T'); zlabel('B');

Page 167: Statistic ˘ a Aplicat ˘ a

LSA 12 [Dr. Iulian Stoleriu] 166

(3) Reziduurile sunt εi = Bi − Bi.

figure(2); z = 5:.1:10;

plot(B,Bpred,'*r', z,z,'-b') % valori prezise vs. valori observate

figure(3); rez = B-Bpred;

normplot(rez) % normalitatea reziduurilor

figure(4);

plot(Bpred,rez,'*') % reziduuri vs. yi

Se observa ca valorile reprezentate in Figura (a) urmeaza prima bisectoare, deci valorile prezise sunt apropiatede cele observate la Bac. In Figura (b), reziduurile vor normale daca punctele ce le reprezinta sunt apropiatede prima bisectoare. In Figura (c) se observa ca nu exista nicio tendinta in norul de date reprezentat, fapt caresugereaza ca reziduurile sunt valori aleatoare.

(4) Codul de mai jos testeaza, pe rand, semnicatia coecientului β1 si a coecientului β2. In testare, se folosestestatistica T . Se obtine ca ambii coecienti sunt semnicativi la nivelul de semnicatie α = 0.05.

% ~~~~~~~~~~~~~~~~~~ Test for b1 ~~~~~~~~~~~~~~~~~~~~

SSE = sum((B-Bpred).^2); sig = sqrt(SSE/(n-k-1)); smm = sum((M-mean(M)).^2);

T10 = b(2)/(sig/smm); Tc = tinv(1-alpha/2,n-k-1);

if (abs(T10) < Tc);

disp('b(2) nesemnificativ')

else

disp('b(2) semnificativ')

end

% ~~~~~~~~~~~~~~~~~~ Test for b2 ~~~~~~~~~~~~~~~~~~~~

stt = sum((T-mean(T)).^2); T20 = b(3)/(sig/stt);

if (abs(T20) < Tc);

disp('b(3) nesemnificativ')

else

disp('b(3) semnificativ')

end

(5) Coecientul R2 ne va sugera cat de bun este modelul iar coecientul adjR2 ne va da o idee despre numaruloptim de variabile predictor. Obtinem: R2 = 0.9818 si adjR2 = 0.9727, adica un model destul de bun, cu un numaroptim de variabile predictor.

SST = sum((B-mean(B)).^2);

R2 = 1 - SSE/SST; adjR2 = 1- SSE*(n-1)/(SST*(n-k-1));

% ~~~~~~~~~~ Test de utilitate a modelului ~~~~~~~~~~

F0 = (R2/k)/((1-R2)/(n-k-1)); Fc = finv(1-alpha/2, k, n-k-1);

if (F0 < Fc);

disp('modelul nu este util')

else

Page 168: Statistic ˘ a Aplicat ˘ a

LSA 12 [Dr. Iulian Stoleriu] 167

disp('model util')

end

Testul de utilitate aseaza model util, in sensul ca macar unul dinte coecientii β1 si β2 este nenul. (6) Predictiadorita este Bp = 7.8848, obtinuta in urma comenzilor de mai jos:

Mp = 8.50; Tp = 7.65;

Bp = b(1)+b(2)*Mp+b(3)*Tp;

Figura 24.1: Grace pentru validarea modelului de regresie liniara multipla.

. √

Exerciµiu 24.2. Tabelul de mai jos conµine calicativele obµinute de doi elevi de clasa I la cele 9 discipline ³colare.

Discipline A B C D E F G H Ielev I B FB FB B B FB S I FBelev II S I B FB FB B B S B

(FB = "foarte bine", B = "bine", S = "sucient", I = "insucient".)Dorim s stabilim o posibil leg tur între cele dou seturi de calicative. Calculaµi un coecient de corelaµiepotrivit. Comentaµi rezultatul obµinut.

- Soluµie: Variabilele pentru care avem valorile din tabel sunt de tip calitativ. Pentru a determina coe-cientul de corelatie Spearman, determinam mai intai rangurile observatiilor in ecare set. Acestea sunt (ordonamcrescator incepand cu I si terminand cu FB. Pentru valori egale, rangul atribuit este media rangurilor valoriloregale):

Discipline A B C D E F G H Ielev I 4.5 7.5 7.5 4 4 7.5 2 1 7.5elev II 2.5 1 5.5 8.5 8.5 5.5 5.5 2.5 5.5

Page 169: Statistic ˘ a Aplicat ˘ a

LSA 12 [Dr. Iulian Stoleriu] 168

n = 9; alpha = 0.05;

rang1 = [4.5 7.5 7.5 4 4 7.5 2 1 7.5];

rang2 = [2.5 1 5.5 8.5 8.5 5.5 5.5 2.5 5.5];

R = corrcoef(rang1,rang2); rS = R(1,2); % rS este coef. Spearman

T0 = rS*sqrt((n-2)/(1-rS^2)); Tc = tinv(1-alpha/2,n-2);

if (abs(T0) < Tc)

disp('coeficientul de corelatie nu este semnificativ') % rhoS = 0

else

disp('coeficientul de corelatie este semnificativ') % rhoS <> 0

end

Rezultatele sunt:

rS = coeficientul de corelatie nu este semnificativ

-0.0659

Probleme propuse

Exerciµiu 24.3. Rezultatele din tabelul anterior reprezint : Heste num rul de ore pe s pt mân petrecute în faµatelevizorului, A este vârsta persoanei ³i E este num rul de ani petrecuµi în ³coal , pentru un mu r de 12 persoanealese aleator.

E 12 14 11 16 16 18 12 20 10 8 10 8A 41 31 27 30 25 23 58 28 44 60 50 68H 10 9 15 8 5 4 20 4 16 25 20 26

(a) Folosind un model de regresie liniar simpl , aproximaµi dreapta de regresie a lui H în funµie de E.(b) Testaµi ipoteza c panta dreptei de regresie de mai sus este −2. (α = 0.04)(c) Folosind un model de regresie multipl , aproximaµi suprafaµa de regresie a lui H în funcµie de E ³i A.

Exerciµiu 24.4. Suntem interesaµi de a determina în ce m sur tensiunea arterial (T) este inuenµat de indicelede mas corporal (I) ³i de num rul de ore de tness pe s pt mân (N). Pentru a stabili aceast leg tur , au fostselectaµi aleator 10 b rbaµi de 50 de ani. Datele colectate sunt cele din tabelul de mai jos:

T 180 160 165 150 115 140 135 120 110 120I 34.7 33.0 32.9 30.4 28.9 26.5 25.9 22.4 20.1 18.4N 0 2 2 1 5 3 3 2 10 4

(a) Determinaµi o formul de calcul pentru tensiune folosind un model de regresie liniar multipl .(b) Calculaµi coecientul de corelaµie Pearson dintre variabilele I ³i N ³i testaµi semnicaµia acestuia.(c) Construiµi un model de regresie multipl de forma T = β0 +β1 I+β2 N+β3 I ·N, comentând utilitatea acestuia.(d) Pe baza valorilor R2 ³i adjR2, decideµi care dintre cele dou modele explic cel mai bine tensiunea T. Estimaµipentru ecare model tensiunea arterial a unui b rbat de 50 de ani ce are indicele de mas corporal 27 ³i facedou ore de tness pe s pt mân .

Page 170: Statistic ˘ a Aplicat ˘ a

CSA 13 [Dr. Iulian Stoleriu] 169

Statistica Aplicata (C13)

25 ANOVA (C13)

Prin ANOVA (en. ANalysis Of VAriance) se intelege o colectie de proceduri statistice construite pentru analizasimultana a parametrilor a cel putin doua populatii statistice, analiza care are la baza selectii independenteextrase din populatiile studiate. De regula, se testeaza ipoteza ca mediile teoretice ale acestor populatiisunt egale, cu alternativa ca macar o pereche de medii difera semnicativ. In ANOVA, caracteristicile(variabilele) studiate se numesc factori iar populatiile sunt nivelurile factorilor. Analiza variatiilor poate facuta:

pentru un singur factor, caz in care vorbim de one-way ANOVA,

pentru doi factori, caz in care vorbim de two-way ANOVA,

pentru n ≥ 3 factori, caz in care vorbim de n-way ANOVA.

Exemple de experimente care pot studiate cu ANOVA:

un experiment care testeaza daca rezultatele la Bacalaureat sunt semnicativ diferite pentru diversetipuri de licee din tara. Aici avem un singur factor, si anume numarul de promovati, si mai multenivele: licee cu prol Mate-Info, licee cu prol economic, licee pedagogice, licee industriale etc. Seva aplica one-way ANOVA pentru a verica daca rezultatele medii la Bacalaureat sunt comparabile.In caz ca nu sunt, se pot identica diferentele semnicative.

un experiment care studiaza daca gradul de satisfactie personala a populatiei unei tari depinde devarsta sau de gen. Aici putem aplica two-way ANOVA. Avem doi factori: varsta si genul, primul factoravand diverse nivele, e.g. tineri, varsta medie, batrani, iar al doilea factor are doua nivele: barbati sifemei. Un test two-way ANOVA va determina daca gradul de satisfactie depinde de varsta sau de gen.Mai mult, se poate determina daca exista vreo pereche de niveluri varsta-gen care, in combinatie,sa dea rezultate semnicativ diferite de alte combinatii varsta-gen. In acest caz, vom spune ca ceidoi factori interactioneaza intre ei.

un experiment care sa determine efectele a 7 tipuri de combustibil asupra ecientei unui motor. Untest one-way ANOVA poate aplicat pentru a verica daca cele 7 tipuri de combustibil dau acelasirezultat in ce priveste ecienta motorului. In caz negativ, se poate depista care tipuri de combustibildau rezultate semnicativ diferite.

One-way ANOVA

Acest pachet de programe compara mediile a doua sau mai multe populatii de interes. Notam cu mnumarul populatiilor considerate in experiment. Nivelele factorilor (i.e., populatiile) se mai numesc sitratamente.

Spre exemplu, se doreste a se testa egalitatea valorilor medii pentru notele obtinute de elevi la disci-plinele "Limba Romana", 'Istorie" si "Matematica". Aici, factorul este nota obtinuta la o disciplina laBacalaureat, nivelele (tratamentele) sunt cele 3 discipline.

Page 171: Statistic ˘ a Aplicat ˘ a

CSA 13 [Dr. Iulian Stoleriu] 170

Notam cu µi media teoretica a populatiei i (i = 1, m), adica media reala atunci cand tratamentul i esteaplicat. Ipoteza nula este ca toate tratamentele au aceeasi medie teoretica, i.e.:

(H0) : µ1 = µ2 = . . . = µm

vs. ipoteza alternativa(H1) : cel putin doua valori difera.

In continuare, vom utiliza urmatoarele notatii:

ni, numarul de observatii pentru tratamentul de rang i, i = 1, m. Fie N = n1 + n2 + . . .+ nm;

xij , observatia de rang j pentru tratamentul i, i = 1, m, j = 1, ni;

Xij , variabila aleatoare corespunzatoare valorii xij , i = 1, m, j = 1, ni;

xi· =1

ni

ni∑j=1

xij mediile; Xi· =1

ni

ni∑j=1

Xij , i = 1, m, mediile de selectie, pentru ecare tratament;

s2i =

1

ni − 1

ni∑j=1

[xij−xi·]2 dispersiile; S2i =

1

ni − 1

ni∑j=1

[Xij−Xi·]2, i = 1, m, dispersiile de selectie,

pentru ecare tratament;

X =1

m

m∑i=1

1

ni

ni∑j=1

Xij

=1

m

m∑j=1

Xi· , media generala de selectie (en.; grand mean)

x este media generala (en.; grand mean value).

De obicei, datele statistice care urmeaza a procesate cu ANOVA sunt prezentate sub forma unui tabel(vezi Tabelul 25.1).

Treatment Data (xij) Sample mean (xi·) Sample std. (si)

1 8.24; 8.46; 7.69; 7.83; 9.84; 7.15; 6.86; 8.70 8.0962 0.94252 8.44; 7.82; 8.12; 9.40; 9.10; 7.85; 5.28; 5.75 7.7200 1.47683 6.76; 6.17; 6.49; 5.79; 7.19; 6.38; 5.82; 8.05 6.5813 0.7543

Tabela 25.1: Date statistice pentru one-way ANOVA

Ipoteze de lucru:

selectiile pentru ecare tratament sunt aleatoare. De obicei, se obtin selectii aleatoare simple pentruecare tratament in parte.

datele observate sunt aproximativ normal distribuite. Aceasta ipoteza poate vericata usor folosindo reprezentare graca (e.g., normplot inMatlab), in urmatorul mod. Dintre toate datele observatepentru tratametul Xi scadem media valorilor observate pentru acest tratament, xi·, pentru ecarei = 1, m. Valorile obtinute (numite si reziduuri) le concatenam si le reprezentam grac vs. cuantilelede la repartitia normala standard (folosind normplot). Daca valorile reprezentate sunt apropiate deprima bisectoare, atunci putem admite ipoteza de normalitate (vezi Figura 25.1).

Dupa cum se observa, nu testam normalitatea ecarei selectii in parte, deoarece volumele selectiilorconsiderate pentru ANOVA sunt tipic mici si nu ar relevante. Concatenand reziduurile pentru toatetratamentele, obtinem un volum acceptabil.

Page 172: Statistic ˘ a Aplicat ˘ a

CSA 13 [Dr. Iulian Stoleriu] 171

erorile de aproximare satisfac ipoteza de homoscedasticitate, i.e. deviatiile lor sunt toate egale. Sereprezenta grac (cu functia scatter) valorile observate pentru perechi de variabile. In Figura 25.2avem doua astfel de reprezentari: una care prezinta proprietatea de homoscedasticitate, cealalta nu.Practic, putem admite aceasta ipoteza daca cea mai mare deviatie standard de selectie nu este dedoua ori mai mare decat cea mai mica deviatie standard de selectie. Spre exemplu, in Tabelul 25.1,cea mai mare deviatie standard este 1.4768 care este mai mica decat de doua ori valoarea minima,0.7543, deci putem admite ipoteza de homoscedasticitate. Alternativ, exista teste statistice speciceacestui test.

Figura 25.1: normplot pentru vericarea normalitatii reziduurilor.

Figura 25.2: Grace pentru vericarea homoscedasticitatii.

In analiza ANOVA se considera urmatoarele sume de patrate:

SSTr =m∑i=1

ni∑j=1

(Xi· −X

)2− suma patratelor pentru tratamente; are df = m−1 grade de libertate.

SSE =m∑i=1

ni∑j=1

(Xij −Xi·

)2=

m∑i=1

(ni − 1)S2i − suma patratelor erorilor; df = N −m.

Page 173: Statistic ˘ a Aplicat ˘ a

CSA 13 [Dr. Iulian Stoleriu] 172

SST =m∑i=1

ni∑j=1

(Xij −X

)2− suma totala a patratelor; df = N − 1.

MSTr =SSTr

m− 1, MSE =

SSE

N −m, MST =SST

N − 1.

Se pot arata urmatoarele:SSE

σ2∼ χ2(N −m); E

(SSE

σ2

)= N −m;

SSTr

σ2∼ χ2(m− 1); E

(SSTr

σ2

)= m− 1;

SSE

σ2si

SSTr

σ2sunt independente.

SST = SSTr + SSE.

Din ultimele relatii, putem deduce ca

E(

SSTr

m− 1

)= E

(SSE

N −m

)= σ2 =⇒ E (MSTr) = E (MSE) = σ2.

Astfel, daca ipoteza nula este adevarata, atunci exista doi estimatori nedeplasati pentru σ2, si anume:MSE si MSTr. Consideram statistica test

F =MSTr

MSE.

Daca ipoteza nula ar adevarata, atunci aceasta statistica ar avea o valoare apropiata de 1. Altfel,statistica ia valori departate de 1, mai mari ca 1. Sa notam cu F0 valoara acestei statistici pentru dateleobservate, cu ν1 = m−1, ν2 = N −m si cu fα; ν1ν2 cuantila de ordin α pentru repartitia Fisher cu (ν1, ν2)grade de libertate. Pentru a testa ipoteza nula (H0) procedam astfel:

Daca F0 < f1−α; ν1, ν2 atunci admitem ipoteza nula (H0);

F0 > f1−α; ν1, ν2 atunci respingem ipoteza nula (H0).

De regula, orice soft statistic ce are implementat ANOVA va da rezultatul nal sub forma unui tabel, ingeneral de forma Tabelului 25.2 (care apare in Matlab).

Sourse of variation df SS MS F Prob>F

Columns m− 1 SSTr MSTr = SSTr

m−1

MSTr

MSEPv

Error N −m SSE MSE = SSE

N−m − −Total N − 1 SST − − −

Tabela 25.2: Tabel cu rezultate pentru one-way ANOVA

In acest tabel, valoarea Pv este probabilitatea de a respinge ipoteza nula cand ea este adevarata. Altfelspus, este probabilitatea ca, la o noua experienta, sa obtinem un rezultat cel putin la fel de extrem ca sicel deja observat. Aceasta explica si notatia Prob>F, transpusa matematic prin

Pv = P (S > F), unde S ∼ F(ν1, ν2) si F =MSTr

MSE.

Dac Pv < α, atunci ipoteza nul (H0) va respins . Altfel, o accept m.

Page 174: Statistic ˘ a Aplicat ˘ a

CSA 13 [Dr. Iulian Stoleriu] 173

Observaµia 25.1. In cazul particular in care toate selectiile considerate au acelasi volum, i.e., ni =n, ∀i = 1, m, atunci N = mn si N −m = m(n− 1) etc.

In cazul in care ipoteza nula (H0) este respinsa, se poate realiza un test de vericare, care sa testeze caredintre cele C2

m perechi de medii sunt diferite. Un test care realizeaza aceasta este testul Tukey. Aceste testdetemina intervale de incredere pentru diferentele mediilor teoretice µi − µj , pentru orice i < j. Acesteasunt: [

xi· − xj· −Q1−α;m,n−m

√MSE

m, xi· − xj· +Q1−α;m,n−m

√MSE

m

],

unde Qα;m,n−m sunt cuantilele repartitiei range standardizat,

Q =

maxk=1, n

Zk − mink=1, n

Zk√Wν

, unde Zkk=1, n ∼ N (0, 1) independente, W ∼ χ2(ν).

Daca valoara 0 nu apartine intervalului de incredere pentru µi − µj , atunci decidem ca µi si µj diferasemnicativ. Daca 0 se aa in intervalul de incredere, atunci admitem ca µi = µj la nivelul de incredere α.

Observaµia 25.2. Ipoteza nula din testul one-way ANOVA mai poate scrisa dupa cum urmeaza. Fiecarevariabila Xij este, de fapt, valoarea medie a tratamentului de rang i, la care se adauga o eroare normalade medie zero. Pentru ecare tratament in parte, erorile sunt considerate a independente. Scriem:

Xij = µi + εij , ∀i = 1, m, j = 1, ni, cu εij ∼ N (0, σ), independente.

Vectorul εi = (εi1, εi2, . . . , εini) se numeste zgomot alb (en., white noise).

µ =1

m

m∑i=1

µi, αi = µi − µ (i = 1, m).

Vom numi αi deplasarea de la media reala µ datorata tratamentului de rang i. Atunci, putem scrie:

Xij = µ+ αi + εij , i = 1, m, , j = 1, ni.

Ipoteza nula poate scrisa astfel:

(H0) : α1 = α2 = . . . = αm = 0

vs. ipoteza alternativa(H1) : macar un αi este nenul.

Two-way ANOVA

Two-way ANOVA este o colectie de proceduri statistice ce testeaza valorile unei variabile raspuns ce depindede doi factori (populatii). Prezentarea de mai jos urmeaza ideile din [6].

Un exemplu este urmatorul: se doreste testarea gradului de fericire a adultilor in functie de varsta si gen.Un numar de adulti de ambele genuri si de diferite varste sunt rugati sa completeze cate un chestionar,

Page 175: Statistic ˘ a Aplicat ˘ a

CSA 13 [Dr. Iulian Stoleriu] 174

care sa determine gradul de satisfactie personala (fericire) al ecaruia. Aici, variabila raspuns este gradulde fericire, care este evaluata in functie de doi factori. Primul factor este varsta, care poate impartita inmai multe categorii (nivele), e.g., tineri, varsta medie, batrani. Al doilea factor este genul, care are douaniveluri: barbati si femei.

In continuare, vom considera ca A si B sunt cei doi factori, iar pentru ecare factor in parte avem m,respectiv n niveluri. Pentru ecare pereche de niveluri corespunzatoare celor doi factori putem avea unnumar Kij ≥ 1 de observatii. In exemplul de mai sus, Kij reprezinta numarul de subiecti de nivelul devarsta i si de nivelul gen j care au raspuns la chestionare.

Cazul Kij = 1, ∀(i, j)

Notam prin Xij variabila raspuns cand factorul A este tinut la nivelul i si factorul B la nivelul j, pentruorice i = 1, m, , j = 1, n. Vom nota cu xij o posibila valoare a acestei variabile. In cazul Kij = 1, valorileobservate le putem prezenta ca in tabelul de mai jos:

X 1 2 3 . . . n1 x11 x12 x13 . . . x1n2 x21 x22 x23 . . . x2n... · · · · · · · · ·

... · · ·m xm1 xm2 xm3 . . . xmn

In total, com avemmn valori, corespunzatoare celormn celule (i, j). In continuare, vom folosi urmatoarelenotatii:

m este numarul de observatii pentru factorul A si n este numarul de observatii pentru factorul B;

Xi· =1

n

n∑j=1

Xij , i = 1, m, mediile de selectie pentru ecare nivel al factorului A;

X ·j =1

m

m∑j=1

Xij , j = 1, n, mediile de selectie pentru ecare nivel al factorului B;

X =1

mn

m∑i=1

n∑j=1

Xij =1

m

m∑j=1

Xi· =1

n

n∑j=1

X·j , media generala de selectie (en. grand mean);

De asemenea, vom nota prin xi· =1

n

n∑j=1

xij , x·j =1

m

m∑j=1

xij si x valorile corespunzatoare statis-

ticilor de mai sus pentru datele observate.

Ipoteze de lucru:

selectiile pentru ecare factor sunt aleatoare;

datele observate sunt aproximativ normal distribuite.

Modelul statistic de lucru este

Xij = µij + εij , ∀i = 1, m, j = 1, n, cu εij ∼ N (0, σ), independente.

Page 176: Statistic ˘ a Aplicat ˘ a

CSA 13 [Dr. Iulian Stoleriu] 175

Se doreste ca acest model sa determine constantele necunoscute (parametrii). Insa, se observa ca avemmn+ 1 parametri (µij si σ) si doar mn ecuatii. Pentru a putea rezolvata problema, va trebui sa reducemdin necunoscute. O idee ar sa folosim un model aditiv, scriind:

µij = αi + βj , ∀i = 1, m, j = 1, n.

Pentru m ≥ 3 si n ≥ 2, avem suciente ecuatii pentru a determina parametrii. Exista o problema in cepriveste unicitatea solutiei, deoarece αi + c si βj − c (c ∈ R) sunt, de asemenea, solutii.

Modelul de mai sus poate simplicat si mai mult, considerand in schimb urmatorul model:

Xij = µ+ αi + βj + εij , undem∑i=1

αi = 0,

n∑i=1

βj = 0.

Mai sus, µ reprezinta media reala generala in cazul in care variabila raspuns nu ar depinde de niciunuldintre cei doi factori, αi reprezinta efectul factorului A la nivelul i si βj reprezinta efectul factorului B lanivelul j.

Se poate demonstra ca urmatorii estimatori sunt estimatori nedeplasati pentru parametrii pe care iiestimeaza:

µ = X; αi = Xi· −X; βj = X ·j −X.In cazul two-way ANOVA cu Kij = 1, ∀(i, j), vom avea doua ipoteze nule: una referitoare la factorul A,cealalta se refera la factorul B. Ipoteza nula ce face referire la factorul A spune ca diferitele niveluriale lui A nu au niciun efect asupra variabilei raspuns. Similar pentru ipoteza nula ce face referire la B.Matematic, le scriem astfel:Ipoteze pentru factorul A:

(H0A) : α1 = α2 = . . . = αm = 0 vs. (H1A) : macar un αi este nenul.

Ipoteze pentru factorul B:

(H0B) : β1 = β2 = . . . = βn = 0 vs. (H1B) : macar un βj este nenul.

Pentru a testa aceste ipoteze, vom folosi urmatoarele statistici:

SST =m∑i=1

n∑j=1

(Xij −X

)2− suma totala a patratelor; are df = mn− 1 grade de libertate.

SSA =m∑i=1

n∑j=1

(Xi· −X

)2− suma totala a patratelor coresp. lui A; are df = m−1 grade de libertate.

SSB =

m∑i=1

n∑j=1

(X ·j −X

)2− suma totala a patratelor coresp. lui B; are df = n−1 grade de libertate.

SSE =m∑i=1

n∑j=1

(Xij −Xi· −X ·j +X

)2− suma patratelor erorilor; df = (m− 1)(n− 1).

MST =SST

mn− 1, MSA =

SSA

m− 1, MSB =

SSB

n− 1, MSE =

SSE

(m− 1)(n− 1).

Se pot arata urmatoarele:

SSA

σ2∼ χ2(m− 1); E(MSA) = σ2 +

n

m− 1

m∑i=1

α2i ;

Page 177: Statistic ˘ a Aplicat ˘ a

CSA 13 [Dr. Iulian Stoleriu] 176

SSB

σ2∼ χ2(n− 1); E(MSB) = σ2 +

m

n− 1

n∑j=1

β2j ;

SST = SSA + SSB + SSE.

Daca ipoteza nula (H0A) este adevarata, atunci exista doi estimatori nedeplasati pentru σ2, si anume:MSE si MSA. Consideram statistica test

FA =MSA

MSE.

Daca ipoteza nula ar adevarata, atunci aceasta statistica ar avea o valoare apropiata de 1. Altfel,statistica ia valori departate de 1, mai mari ca 1. Sa notam cu F0A valoarea acestei statistici pentrudatele observate, cu ν1 = m− 1, ν2 = (m− 1)(n− 1) si cu fα; ν1,ν2 cuantila de ordin α pentru repartitiaFisher cu (ν1, ν2) grade de libertate. Pentru a testa ipoteza nula (H0A) procedam astfel:

Daca F0A < f1−α; ν1, ν2 atunci admitem ipoteza nula (H0A);

F0A > f1−α; ν1, ν2 atunci respingem ipoteza nula (H0A).

Se procedeaza similar pentru testarea ipotezei (H0B), considerand statistica

FB =MSB

MSE.

Valoarea critica in acest caz este fα; ν1,ν2 , unde ν1 = n− 1, ν2 = (m− 1)(n− 1).

De regula, orice soft statistic ce are implementat two-way ANOVA va da rezultatul nal sub forma unuitabel, in general de forma Tabelului 25.3 (care apare in Matlab).

Source of variation df SS MS F Prob>F

A m− 1 SSA MSA = SSA

m−1 FA = MSA

MSEPvA

B n− 1 SSB MSB = SSB

n−1 FB = MSB

MSEPvB

Error (m− 1)(n− 1) SSE MSE = SSE

(m−1)(n−1) − −Total mn− 1 SST − − −

Tabela 25.3: Tabel cu rezultate pentru two-way ANOVA

In acest tabel, valoarea PvA este probabilitatea de a respinge ipoteza nula (H0A) cand ea este adevarata.Altfel spus, este probabilitatea ca, la o noua experienta, sa obtinem un rezultat cel putin la fel de extremca si cel deja observat. Aceasta explica si notatia Prob>F, transpusa matematic prin

PvA = P (S > FA), unde S ∼ F(ν1, ν2) si FA =MSA

MSE.

Dac PvA < α, atunci ipoteza nul (H0A) va respins . Altfel, o accept m.

Similar se procedeaza pentru factorul B. Dac PvB < α, atunci ipoteza nul (H0B) va respins . Altfel,o accept m.

Cazul Kij > 1 pentru macar o pereche (i, j)

Asadar, in ecare celula (i, j) putem avea mai mult de o singura valoare. Vom considera ca mediilevalorilor observate in ecare celula (i, j) sunt:

µij = µ+ αi + βj + γij , ∀i = 1, m, j = 1, n.

Page 178: Statistic ˘ a Aplicat ˘ a

CSA 13 [Dr. Iulian Stoleriu] 177

Aici, αi este efectul factorului A la nivelul i asupra variabilei raspuns; βj este efectul factorului B lanivelul j; γij este efectul interactiunii factorului A la nivelul i cu factorul B la nivelul j. Fie

µ =1

mn

m∑i=1

n∑j=1

µij ; µi· =1

n

n∑j=1

µij ; µ·j =1

m

m∑i=1

µij

αi = µi· − µ; βj = µ·j − µ; γij = µij − (µ+ αi + βj).

Facem urmatoarele notatii specice:

Presupunem ca pentru ecare celula (i, j) avem Kij ≥ 1 observatii, cu indicele de sumare k.

Fie κ =

m∑i=1

n∑j=1

Kij numarul total de observatii;

Xijk este valoarea de rang k observata in celula (i, j);

Xij· =1

Kij

Kij∑k=1

Xijk este valoarea medie a datelor observate in ecare celula (i, j);

Xi·· =1

n

n∑j=1

Xij· este valoarea medie a datelor observate pentru nivelul i al factorului A;

X ·j· =1

m

m∑i=1

Xij· este valoarea medie a datelor observate pentru nivelul j al factorului B;

X =1

m

m∑i=1

Xi·· =1

n

n∑j=1

X ·j· este valoarea medie a tuturor datelor observate (en., grand mean);

se va nota cu xijk, xij·, xi··, x·j·, x valori posibile ale statisticilor de mai sus.

Vom considera urmatorul model statistic relativ la Xijk, variabila de rang k pentru celula (i, j):

Xijk = µ+ αi + βj + γij + εijk, ∀i = 1, m, j = 1, n, k = 1, Kij .

In cazul two-way ANOVA cu m car un Kij > 1, vom avea trei ipoteze nule: una referitoare la factorul A,cealalta se refera la factorul B si una referitoare la interactiunea dintre cei doi factori. De regula, primaipoteza testata este cea referitoare la interactiune.

Ipoteza nula corespunzatoare interactiunii spune ca nu exista nicio interactiune intre acesti factori relativla variabila raspuns. Daca ipoteza nula este admisa, atunci se trece si la vericarea celorlalte doua ipoteze.Altfel, aceste vericari suplimentare nu isi mai au rostul.

Ipoteza nula ce face referire la factorul A spune ca diferitele niveluri ale lui A nu au niciun efect asupravariabilei raspuns. Similar pentru ipoteza nula ce face referire la B.

Matematic, scriem cele trei ipoteze astfel:Ipoteze pentru interactiune:

(H0AB) : γij = 0, ∀(i, j) vs. (H1AB) : macar un γij este nenul.

Page 179: Statistic ˘ a Aplicat ˘ a

CSA 13 [Dr. Iulian Stoleriu] 178

Ipoteze pentru factorul A:

(H0A) : α1 = α2 = . . . = αm = 0 vs. (H1A) : macar un αi este nenul.

Ipoteze pentru factorul B:

(H0B) : β1 = β2 = . . . = βn = 0 vs. (H1B) : macar un βj este nenul.

Pentru a testa aceste ipoteze, vom folosi urmatoarele statistici:

SST =

m∑i=1

n∑j=1

Kij∑k=1

(Xijk −X

)2

− suma totala a patratelor; are df = mnκ− 1 grade de libertate.

SSE =

m∑i=1

n∑j=1

Kij∑k=1

(Xijk −Xij·

)2 − suma patratelor erorilor; df = mn(κ− 1).

SSA =

m∑i=1

n∑j=1

Kij∑k=1

(Xi·· −X

)2

− suma totala a patratelor coresp. lui A; are df = m−1 grade de libertate.

SSB =

m∑i=1

n∑j=1

Kij∑k=1

(X ·j· −X

)2

− suma totala a patratelor coresp. lui B; are df = n−1 grade de libertate.

SSAB =m∑i=1

n∑j=1

Kij∑k=1

(Xij· −Xi·· −X ·j· +X

)2

− suma patratelor erorilor; df = (m− 1)(n− 1).

MST =SST

mnκ− 1, MSE =

SSE

mn(κ− 1), MSA =

SSA

m− 1, MSB =

SSB

n− 1, MSAB =

SSAB

(m− 1)(n− 1).

Se poate demonstra urmatoarea egalitate:

SST = SSE + SSA + SSB + SSAB.

Statisticile test si pragurile critice sunt:

FAB =MSAB

MSEpentru ipoteza nula (H0AB); fAB = f1−α; (m−1)(n−1),mn(κ−1);

FA =MSA

MSEpentru ipoteza nula (H0A); fA = f1−α;m−1,mn(κ−1);

FB =MSB

MSEpentru ipoteza nula (H0B); fB = f1−α;n−1,mn(κ−1).

Decizia, pentru ecare ipoteza in parte, se ia astfel:

Daca F∗ ≥ f∗, respingem ipoteza nula (H0∗) la nivelul de semnicatie α. Altfel, admitem ipoteza nula(H0∗).

Tabel cu rezultate:

Sourse of variation df SS MS F Prob>F

A m− 1 SSA MSA = SSA

m−1 FA = MSA

MSEPvA

B n− 1 SSB MSB = SSB

n−1 FB = MSB

MSEPvB

AB (m− 1)(n− 1) SSAB MSAB = SSAB

n−1 FAB = MSAB

MSEPvAB

Error mn(κ− 1) SSE MSE = SSE

mn(κ−1) − −Total mnκ− 1 SST − − −

Tabela 25.4: Tabel cu rezultate pentru two-way ANOVA in cazul Kij > 1, pentru macar un (i, j)

Page 180: Statistic ˘ a Aplicat ˘ a

CSA 13 [Dr. Iulian Stoleriu] 179

Bazandu-ne pe o valoare Pv∗, putem lua astfel decizia referitor la ipoteza nula (H0∗):

Daca α < Pv∗, atunci admitem ipoteza nula (H0∗) la nivelul de semnicatie α. Altfel, o respingem. Aici,Pv∗ mai poate calculat si astfel:

Pv∗ = P (S > F∗), unde S ∼ F(ν1, ν2) si F∗ =MS*

MSE.

Dupa cum am precizat mai sus, prima ipoteza testata este cea referitor la interactiuni, (H0AB). Dacaaceasta este respinsa, atunci nu mai are sens testarea celorlalte doua ipoteze ramase.

Page 181: Statistic ˘ a Aplicat ˘ a

LSA 13 [Dr. Iulian Stoleriu] 180

26 Statistic Aplicat (L13)

Aplicatie pentru one-way ANOVA

Functia Matlab anova1 efectueaza testul pentru egalitatea mediilor. Formatul functiei este:

[p,tabel,stats] = anova1(X)

unde X reprezinta matricea de date. Coloanele din matricea X reprezinta factorii; pentru ecare factorse specica m valori, unde m este numarul de linii din matrice. Valorile asate sunt: p = valoarea Pv atestului, tabel si stats sunt, in ordine, un tabel cu detaliile analizei variatiilor si diverse alte statistici.

In cazul in care ipoteza nula (vericata de anova1) este invalidata, atunci putem face testul Tukey pentrua determina care perechi de medii difera. In Matlab, acest test se realizeaza cu comanda multcompare.Aceasta aseaza intervalele de incredere pentru diferentele mediilor oricaror doua perechi de coloane sio reprezentare graca a acestora. Forma functiei cea mai simplicata este: c = multcompare(stats),unde stats este rezultatul de la anova1.

Exerciµiu 26.1. Tabelul de mai jos contine notele la Bacalaureat pentru o selectie aleatoare de 8 elevidintr-un anumit oras care au sustinut Bacalaureatul la disciplinele "Limba Romana", 'Istorie" si "Mate-matica".

Disciplina E1 E2 E3 E4 E5 E6 E7 E8

Rom 8.24 8.46 7.69 7.83 9.84 7.15 6.86 8.70Ist 8.44 7.82 8.12 9.40 9.10 7.85 5.28 5.75Mat 6.76 6.17 6.49 5.79 7.19 6.38 5.82 8.05

Cerinte:(1) Folosind o reprezentare graca, vericati normalitatea datelor.(2) La nivelul de semnicatie α = 0.05, testati ipoteza ca mediile teoretice la cele trei discipline sunttoate egale, in doua moduri:. (a) folosind comanda anova1 din Matlab; (b) folosind formulele si testul de la curs.(3) In cazul in care mediile nu sunt toate egale, determinati perechile de medii care difera semnicativ.

- Soluµie: Matricea de date N este una de tip 8× 3, unde pe ecare coloana am introdus notelepentru ecare disciplina in parte. In plus, D reprezinta etichetele pentru datele din matrice.

N = [8.24 8.46 7.69 7.83 9.84 7.15 6.86 8.70; 8.44 7.82 8.12 9.40 ...

9.10 7.85 5.28 5.75; 6.76 6.17 6.49 5.79 7.19 6.38 5.82 8.05]';

D = 'Rom','Rom','Rom','Rom','Rom','Rom','Rom','Rom',...

'Ist','Ist','Ist','Ist','Ist','Ist','Ist','Ist',...

'Mat','Mat','Mat','Mat','Mat','Mat','Mat','Mat';

% (1) ~~~~~~~~~~~~~~ normplot(reziduuri) ~~~~~~~~~~~~~~~~~~~~~~~~~~~

Xp = mean(N); % mediile pe fiecare coloana

Page 182: Statistic ˘ a Aplicat ˘ a

LSA 13 [Dr. Iulian Stoleriu] 181

rez = N - [Xp;Xp;Xp;Xp;Xp;Xp;Xp;Xp]; % din fiecare nota scadem media disciplinei

R = N(:); % valorile matricei intr-o singura coloana

figure(3); normplot(R) % verifica normalitatea reziduurilor

% (2a) ~~~~~~~~~~~~~~~~~~~~ anova ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Pv = anova1(N,D) % tabelul si graficul sunt atasate mai jos

% (3) ~~~~~~~~~~~~~~~~~~~ Tukey test ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

c = multcompare(stats) % graficul rezultat este atasat mai jos

[nms(c(:,1)), nms(c(:,2)), num2cell(c(:,3:5))]

Figura 26.1: Rezultatele produse de anova1 in Matlab.

Ipoteza nula este(H0) : µR = µI = µM

Din ANOVA Table extragem informatia despre valoarea critica pentru probabilitate, Pv = ′′Prob > F ′′.Deoarece Pv = 0.0313 < 0.05 = α, respingem ipoteza nula. Asadar, macar doua medii sunt semnicativdiferite.

Al doilea grac din Figura 26.1 reprezinta boxplots pentru notele la ecare disciplina in parte. Se observaca nu apar valori aberante (outliers).

Figura urm toare reprezinta intervalele de incredere (la nivelul de semnicatie considerat) pentru mediileteoretile la ecare disciplina. Se observa ca intervalele de incredere pentru mediile la Romana si laMatematica nu se intersecteaza, asadar cele doua medii sunt semnicativ diferite. Celelelate doua perechide medii sunt egale la nivelul de semnicatie 0.05.

Page 183: Statistic ˘ a Aplicat ˘ a

LSA 13 [Dr. Iulian Stoleriu] 182

Figura 26.2: Compararea perechilor de medii in Matlab.

% (2b) ~~~~~~~~~~~~~~~~~~~~ anova ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

n = 8; k = 3; alpha = 0.05;

Xp = mean(Note); Xpp = mean(mean(Note));

SSTr = n*sum((Xp - Xpp).^2);

Si2 = var(Note); SSE = (n-1)*sum(Si2); SST = SSTr + SSE;

MSTr = SSTr/(k-1); MSE = SSE/(k*(n-1));

F = MSTr/MSE; Fcrit = finv(1-alpha,k-1,k*(n-1));

if (F<Fcrit)

disp('medii egale')

else

disp('medii inegale')

end

Pv = 1 - fcdf(F,k-1,k*(n-1))

%%% ~~~~~~~~~~~~~~~~~~~~~~~~~~ rezultate ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%%

% p = %

% 0.0313 %

% table =

% 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F'

% 'Groups' [ 9.9561] [ 2] [4.9781] [4.1048] [0.0313]

% 'Error' [25.4677] [21] [1.2127] [] []

% 'Total' [35.4238] [23] [] [] []

Page 184: Statistic ˘ a Aplicat ˘ a

LSA 13 [Dr. Iulian Stoleriu] 183

% F = Fcrit = %

% 4.1048 3.4668 %

% medii inegale %

% Pv = %

% 0.0313 %

% ans = %

% 'Rom' 'Ist' [-1.0116] [0.3762] [1.7641] %

% 'Rom' 'Mat' [ 0.1271] [1.5150] [2.9029] %

% 'Ist' 'Mat' [-0.2491] [1.1387] [2.5266] %

%%% ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%%

Aplicatie pentru two-way ANOVA

Exerciµiu 26.2. O companie producatoare de automobile are doua fabrici, ecare fabrica producand 3tipuri de masini la clasa de 1.4cm3. In vederea testarii consumului de carburant, se face cate o selectiede 3 masini de la ecare fabrica si din ecare tip de masina. Consumul de carburant per 100km pentrumasinile selectate este reprezentat mai jos. Am notat cu F fabricile si cu T tipurile de masina.

7.5 7.45 7.857.3 7.4 7.97.1 7.3 7.67.6 7.35 7.657.3 7.25 7.55

︸︷︷︸T1

7.35 ︸︷︷︸T2

7.5 ︸︷︷︸T3

7.75

F1F2

Se cere:(a) Decideti daca exista dovezi statistice care sa ateste o dependenta a consumului de carburant defabrica unde este produsa masina;(b) Decideti daca exista dovezi statistice care sa ateste o dependenta a consumului de carburant de tipulde masina produs.

- Soluµie: Dupa cum se observa din matricea de date, avem doi factori: A = T−tipul si B =F−fabrica. Pentru analiza cei doi factori au fost alese cate 3 masini din ecare tip, de la ecare fabrica,adica avem cate 3 valori pentru ecare pereche (T, F ). Aceasta inseamna ca Kij = K = 3, pentru oricei = 1, 2, j = 1, 3. Vom utiliza functia anova2 din Matlab.

clear all;

m = 2; n = 3; k = 3;

X = [7.50 7.45 7.85;

7.30 7.40 7.90;

7.10 7.30 7.60;

Page 185: Statistic ˘ a Aplicat ˘ a

LSA 13 [Dr. Iulian Stoleriu] 184

7.60 7.35 7.65;

7.30 7.25 7.55;

7.35 7.50 7.75];

[p,tbl,stats] = anova2(X,k)

c = multcompare(stats, 'alpha', 0.05) % valoarea implicita este 0.05,

dar poate fi schimbata

Rezultatele sunt urmatoarele:

p =

0.0014 0.8722 0.3516

tbl =

'Source' 'SS' 'df' 'MS' 'F' 'Prob>F'

'Columns' [ 0.4908] [ 2] [ 0.2454] [11.9392] [0.0014]

'Rows' [5.5556e-004] [ 1] [5.5556e-004] [ 0.0270] [0.8722]

'Interaction' [ 0.0469] [ 2] [ 0.0235] [ 1.1419] [0.3516]

'Error' [ 0.2467] [12] [ 0.0206] [] []

'Total' [ 0.7850] [17] [] [] []

stats =

source: 'anova2'

sigmasq: 0.0206

colmeans: [7.3583 7.3750 7.7167]

coln: 6

rowmeans: [7.4889 7.4778]

rown: 9

inter: 1

pval: 0.3516

df: 12

c =

1.0000 2.0000 -0.2375 -0.0167 0.2042

1.0000 3.0000 -0.5792 -0.3583 -0.1375

2.0000 3.0000 -0.5625 -0.3417 -0.1208

Valorile p reprezinta valorile Pv care determina semnicatia ipotezelor nule (H0A), (H0B) si, respectiv(H0AB).

Spre exemplu, ipoteza nula (H0B) spune ca nu exista diferenta semnicativa intre mediile diverselor niveleale factorului B = F , cu alte cuvinte, nu exista diferente semnicative intre consumul de carburant mediula 11km intre cele doua fabrici.

Pe de alta parte, ipoteza nula (H0AB) spune ca nu exista interactiuni semnicative intre cei doi factori,adica nu exista diferente intre tipurile de masina si fabrici in ce priveste consumul mediu de carburant la100km.

Deoarece p3 = 0.3516 > 0.05 = α, rezulta ca ipoteza (H0AB) este admisa, asadar alegerea tipului demasina nu depinde de fabrica.

Page 186: Statistic ˘ a Aplicat ˘ a

LSA 13 [Dr. Iulian Stoleriu] 185

Se observa ca p2 = 0.8722 > 0.05 = α, deci ipoteza (H0B) este admisa, insemnand faptul ca nu existadiferente semnicative intre consumurile medii de carburant la 100km intre masinile produse de cele douafabrici.

Se observa ca p1 = 0.0014 < 0.05 = α, deci ipoteza (H0A) este respinsa, insemnand faptul ca exista dife-rente semnicative intre consumurile medii de carburant la 100km intre cele trei tipuri de masini. Pentrua determina care dintre mediile pe coloane sunt diferite, folosim comanda multcompare din Matlab.

Figura 26.3: Compararea multipla a perechilor de medii in Matlab.

Din Figura 26.3 observam ca mediile pentru consumul la 100km ale primelor doua tipuri de masina suntegale, a treia medie ind semnicativ diferita de ele.

Matricea c aseaza intervale de incredere si estimatori punctuali pentru diferentele mediilor celor trei pe-rechi de coloane. Dupa cum se observa, primul interval de incredere, (−0.2375, 0.2042) contine valoarea 0,deci putem concluziona ca aceste doua medii sunt egale la acest nivel de semnicatie. Celelalte doua inter-vale de incredere, (−0.5792, −0.1375) si (−0.5625, −0.1208) nu contin pe 0, deci mediile corespunzatoaresunt semnicativ diferite. √

Page 187: Statistic ˘ a Aplicat ˘ a

LSA 13 [Dr. Iulian Stoleriu] 186

Probleme propuse

Exerciµiu 26.3. Andrei a primit prin fax un raport referitor la încas rile obµinute s pt mâna trecut ,obµinute din vânz rile anvelopelor pe care rma sa le are în stoc. Din p cate, faxul s u nu este prea bun³i, din tot raportul, se pot distinge doar rezultate parµiale ale unui test Anova, unele valori ind ³terse.

Source of variation SS df MS F Prob>F

Groups 7124.75 18f9 1j4g7r45 1.31584 104411Error T2.34713Y4145 26 1s7l4i5Total 12454.98 29

(a) Câte tipuri de anvelope are rma sa înstoc? . Formulaµi ipotezele testului.

(b) Completaµi valorile ³terse din tabel.. Care este rezultatul testului?

Exerciµiu 26.4. O rm de computere dore³te s compare viteza de lucru pentru patru compilatoareproduse de aceast rm . Fiecare dintre cele patru compilatoare a rulat aceleasi 5 programe. Dateledin tabelul de mai jos reprezint timpii de compilare (exprimaµi în milisecunde) pentru ecare dintreprograme, rulate pe cele patru compilatoare.

Program

Compilor A B C D E

C1 29.21 26.18 30.91 25.14 26.16C2 28.25 26.02 30.18 25.16 25.14C3 28.20 26.22 30.52 25.20 25.26C4 28.62 25.56 30.09 25.02 25.46

(a) Testaµi la nivelul de semnicaµie de 5% dac exist diferenµe semnicative între performanµele medii ale celor4 compilatoare.(b) Difer semnicativ timpii medii de compilare detipul de program rulat? Justicaµi.(c) Pentru care dintre compilatoare, timpul mediu decompilare difer semnicativ de cel al lui C4?

Exerciµiu 26.5. Patru tratamente pentru o anumit erupµie cutanat au fost administrate la 20 de pa-cienµi ale³i aleator. Datele din tabelul de mai jos reprezint , pentru ecare tratament în parte, num rulde zile scurse de la prima apariµie a erupµiei pân la vindecare.

Tratament Num rul de zileA 5 8 7 7 8B 4 6 6 3 5C 6 4 6 5 4D 7 5 6 6 5

(a) Determinaµi dac exist diferenµe semnicative între rezultatelemedii ale celor 4 tratamente.(b) Precizaµi care dintre cele 4 tratamente difer semnicativ.

Exerciµiu 26.6. Patronul unui anumit call center a cerut informaµii referitoare la timpul petrecut deangajaµii s i în discuµii telefonice cu clienµii. Acest call center este deschis non-stop ³i angajaµii lucreaz în mai multe schimburi. Pentru ecare schimb, a fost ales un e³antion de 10 de angajaµi. Tabelul de maijos a fost primit prin fax ³i reprezint rezultatul unui test ANOVA. Din p cate, unele informaµii nu s-autransmis corect. Variabila dependent este timpul (în secunde) petrecut de angajaµi cu ecare client.

Source of variation SS df MS F Prob>F

Groups 31524.87 18f9 1j4g7r45 1.31584 104411Error T2.34713Y4145 36 1s7l4i5Total 58562.75 39

(a) Câte schimburi exist la call center?. Formulaµi ipotezele testului.(b) Completaµi valorile ³terse din tabel.. Care este rezultatul testului la

încrederea de 95%?

Page 188: Statistic ˘ a Aplicat ˘ a

Anexa 1 [Dr. Iulian Stoleriu] 187

27 Anexa 1

Scurt introducere în Matlab

Matlab este un pachet comercial de programe de înalt performanµ produs de The MathWorks, Inc.,dedicat calculului numeric ³i reprezent rilor grace în domeniul ³tiinµelor ³i ingineriei. Elementul de baz cu care opereaz Matlab-ul este matricea (Matlab este acronim de laMATrix LABoratory). Matlabeste un software standard în mediile universitare, precum ³i în domeniul cercet rii ³i rezolv rii practiceaproblemelor legate de procesarea semnalelor, identicarea sistemelor, calculul statistic, prelucrarea date-lor experimentale, matematici nanciare, matematici aplicate în diverse domenii etc. Cea mai important caracteristic a Matlab-ului este u³urinµa cu care poate extins. La programele deja existente în Ma-tlab, utilizatorul poate ad uga propriile sale coduri, dezvoltând aplicaµii specice domeniului în carelucreaz . Matlab-ul include aplicaµii specice, numite Toolbox-uri. Acestea sunt colecµii extinse defuncµii Matlab (³iere M) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolvaprobleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz , cuinterpretor propriu, în jurul c ruia sunt construite toolbox-urile.

Prezent m mai jos o scurt introducere în Matlab a principalelor funcµii ³i comenzi folosite în aceast lucrare. Pentru o tratare mai detaliat , puteµi consulta un manual de utilizare sau [9]. Mai menµion maici ³i lucrarea [1], unde puteµi g si diverse modalit µi de implementare în Matlab ale unor noµiuni deTeoria Probabilit µilor ³i Statistic matematic .Folosind comanda demo din Matlab, puteµi urm ri o demonstraµie a principalelor facilit µi din Matlab,cât ³i a pachetelor de funcµii (toolbox) de care aµi putea interesaµi. Dintre acestea, amintim Statistics

Toolbox, care este o colecµie de funcµii folosite pentru analiza, modelarea ³i simularea datelor. Conµine:analiza gracelor (GUI), diverse repartiµii probabilistice (beta, binomial , Poisson, χ2), generarea nume-relor aleatoare, analiza regresional , descrieri statistice.

ComenzileMatlab pot scrise în ³iere cu extensia .m, ce urmeaz apoi a compilate. Un ³ier-mconst dintr-o succesiune de instrucµiuni, cu posibilitatea apel rii altor ³iere-M precum ³i a apel riirecursive. De asemenea, Matlab poate folosit ca pe un mediu computaµional interactiv, caz încare ecare linie este prelucrat imediat. Odat introduse expresiile, acestea pot vizualizate sauevaluate imediat. De exemplu, introducând la linia de comand

>> a = sqrt((sqrt(5)+1)/2)

Matlab dene³te o variabil de memorie a, c reia îi atribuie valoareaa =

1.2720

Variabilele sunt denite cu ajutorul operatorului de atribuire, =, ³i pot utilizate f r a declarade ce tip sunt. Valoarea unei variabile poate : o constant , un ³ir de caractere, poate reie³i dincalculul unei expresii sau al unei funcµii.

Pentru a g si informaµii imediate despre vreo funcµie predenit , comanda help va vine în ajutor.De exemplu,

Page 189: Statistic ˘ a Aplicat ˘ a

Anexa 1 [Dr. Iulian Stoleriu] 188

>> help length

a³eaz urm toarele:

LENGTH Length of vector.

LENGTH(X) returns the length of vector X. It is equivalent

to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones.

See also numel.

Comanda help poate utilizat doar dac se cunoa³te exact numele funcµiei. Altfel, folosirea co-menzii lookfor este recomandat . De exemplu, comanda

>> lookfor length

produce:

NAMELENGTHMAX Maximum length of MATLAB function or variable name.

VARARGIN Variable length input argument list.

VARARGOUT Variable length output argument list.

LENGTH Length of vector.

Matlab este un mediu computaµional orientat pe lucru cu vectori ³i matrice. O linie de cod de forma

>> v = [1,3,5,7,9] % sau v = [1 3 5 7 9]

dene³te un vector linie ce are componentele 1, 3, 5, 7, 9. Aceasta poate realizat ³i folosind co-manda v = 1:2:9 adic a³eaz numerele de la 1 la 9, cu pasul 2. Pentru un vector coloan , folosimpunct-virgul între elemente, adic

>> v = [1;3;5;7;9] % vector coloana

O alt variant de a deni un vector este

>> v = linspace(x1,x2,n)

adic v este un vector linie cu n componente, la intervale egale între x1 ³i x2.

Denirea matricelor se poate face prin introducerea explicit a elementelor sale sau prin instrucµiuni³i funcµii. La denirea explicit , trebuie µinut cont de urm toarele: elementele matricei sunt cuprinseîntre paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaµii libere sau virgule, liniilese separ prin semnul punct-virgul . De exemplu, comanda

>> A = [1 2 3; 4, 5, 6]

Page 190: Statistic ˘ a Aplicat ˘ a

Anexa 1 [Dr. Iulian Stoleriu] 189

dene³te matriceaA =

1 2 3

4 5 6

Apelul elementelor unei matrice se poate face prin comenzile A(i,j) sau A(:,j) (elementele decoloan j) sau A(i,:) (elementele de linia i);

FuncµiaMatlab ones(m,n) dene³te o matricem×n, având toate componentele egale cu 1. Funcµiazeros(m,n) dene³te o matrice zero m× n. Funcµia eye(n) dene³te matricea unitate de ordin n.

Dup cum vom vedea mai jos,Matlab permite denirea unor funcµii foarte complicate prin scriereaunui cod. Dac funcµia ce o avem de denit este una simpl , atunci avem varianta utiliz rii comenziiinline. Spre exemplu, denim funcµia f(x, y) = e5x sin 3y:

>> f = inline('exp(5*x).*sin(3*y)')

f =

Inline function:

f(x,y) = exp(5*x).*sin(3*y)

Putem apoi calcula f(7, π) prin

>> f(7,pi)

0.5827

Un program Matlab poate scris sub forma ³ierelor script sau a ³ierelor de tip funcµie. Ambeletipuri de ³iere sunt scrise în format ASCII. Aceste tipuri de ³iere permit crearea unor noi funcµii,care le pot completa pe cele deja existente. Un ³ier script este un ³ier extern care conµine o secvenµ de comenzi Matlab. Prin apelarea numelui ³ierului, se execut secvenµa Matlab conµinut înacesta. Dup execuµia complet a unui ³ier script, variabilele cu care acesta a operat r mân înzona de memorie a aplicaµiei. Fi³ierele script sunt folosite pentru rezolvarea unor probleme care cercomenzi succesive atât de lungi, încât ar putea deveni greoaie pentru lucrul în mod interactiv, adic în modul linie de comand .

Pentru a introduce date în Matlab, putem copia datele direct într-un ³ier Matlab, prin denirea unuivector sau a unei matrice de date. De exemplu, urm toarele date au fost introduse prin "copy-paste" înmatricea data:

>> data = [ % atribuirea valorilor matricei data

21.3 24.1 19.9 21.0 % prima linie a datelor copiate

18.4 20.5 17.5 23.2

22.1 16.6 23.5 19.7 % ultima linie a datelor copiate

]; % inchidem paranteza ce defineste matricea de date

Datele din Matlab pot salvate astfel:

Page 191: Statistic ˘ a Aplicat ˘ a

Anexa 1 [Dr. Iulian Stoleriu] 190

>> cd('c:\fisierul_de_lucru'); % alegem fisierul unde salvam datele

>> save Timpi_de_reactie data; % salveaza in fisierul Timpi_de_reactie.mat

Datele pot reînc rcate folosind comanda

load Timpi_de_reactie % incarca datele din fisier

Timpi_de_reactie % afiseaza datele incarcate

Fi³ierele funcµie

Matlab creaz cadrul propice extinderii funcµiilor sale, prin posibilitatea cre rii de noi ³iere. Astfel,dac prima linie a ³ierului .m conµine cuvântul function, atunci ³ierul respectiv este declarat ca ind³ier funcµie. Variabilele denite ³i manipulate în interiorul ³ierului funcµie sunt localizate la nivelulacesteia. Prin urmare, la terminarea execuµiei unei funcµii, în memoria calculatorului nu r mân decâtvariabilele de ie³ire ale acesteia. Forma general a primei linii a unui ³ier este:

function[param_iesire] = nume_functie(param_intrare)

unde:

function este este cuvântul care declar ³ierul ca ³ier funcµie;

nume_functie este numele funcµiei, care este totuna cu numele sub care se salveaz ³ierul;

param_iesire sunt parametrii de ie³ire;

param_intrare sunt parametrii de intrare.

Comenzile ³i funcµiile care sunt utilizate de nou funcµie sunt înregistrate într-un ³ier cu extensia .m.

Exemplu 27.1. Fisierul medie.m calculeaz media aritmetic a sumei p tratelor componentelor unuivector X (alternativ, aceast lucru poate realizat prin comanda mean(X.^2)):

function m2 = medie(X)

n = length(X); m2 = sum(X.^2)/n;

Matlab-ul include aplicaµii specice, numite Toolbox-uri. Acestea sunt colecµii extinse de funcµiiMatlab(³iere-m) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme dindomenii variate. Statistics Toolbox reprezint o colecµie de funcµii folosite pentru analiza, modelarea ³isimularea datelor ³i conµine: generarea de numere aleatoare; distribuµii, analiza grac interactiv (GUI),analiza regresional , descrieri statistice, teste statistice.

În Tabelul 27.1 am adunat câteva comenzi utile în Matlab.

Page 192: Statistic ˘ a Aplicat ˘ a

Anexa 1 [Dr. Iulian Stoleriu] 191

% % permite adaugarea de comentarii in codhelp rand % help specic pentru funcµia randlookfor normal % cauta intrarile în Matlab pentru normalX=[2 4 6 5 2 7 10] % vector linie cu 7 elementeX=[3; 1; 6.5 ;0 ;77] % vector coloan cu 5 elementeX = -10:2:10 % vector cu numerele intregi de la −10 la 10, din 2 în 2length(X) % lungimea vectorului Xt=0:0.01:3*pi % dene³te o diviziune a [0, 3π] cu diviziunea 0.01X.^2 % ridic toate componentele vectorului X la puterea a douaX.*Y % produsul a doi vectoricumsum(X) % suma cumulat a elementelor vectorului Xcumprod(X) % produsul cumulativ al elementelor vectorului Xmin(X) % realizeaz minimum dintre componentele lui Xmax(X) % realizeaz maximum dintre componentele lu Xsort(X) % ordoneaz componentele lui X în ordine crescatoaresort(X, 'descend') % ordoneaz componentele lui X în ordine descrescatoareerf(X) % funcµia eroareexp(x) % calculeaz exponenµial ex

log(x) % calculeaz logaritmul natural ln(x)sqrt(x) % calculeaz radicalul ordinului doi dintr-un num rnum2str(x) % furnizeaz valoarea numeric a lui xfactorial(n) % n!A = ones(m,n) % A e matrice m× n, cu toate elementele 1B = zeros(m,n) % matrice m× n zeroI = eye(n) % matrice unitate, n× nA = [3/2 1 3 7; 6 5 8 8; 3 6 9 12] % matrice 3× 3size(A) % dimensiunea matricei Adet(A) % determinantul matricei Ainv(A) % inversa matricei AA' % transpusa matricei AA(:,7) % coloana a 7-a a matricei AA(1:20,1) % scoate primele 20 de linii ale lui Anchoosek(n,k) % combin ri de n luate câte k1e5 % numarul 105

exp(1) % numarul ebar(X) sau barh(X) % reprezentarea prin barehist(X) % reprezentarea prin histogramehist3(x,y,z) % reprezentarea prin histograme 3-Dplot(X(1:5),'*m') % deseneaz primele 5 componente ale lui X, cu * magenta

plot(t,X,'-') % deseneaz gracul lui X versus t, cu linie continuaplot3(X,Y,Z) % deseneaz un grac în 3-Dstairs(X) % deseneaz o funcµie scarasubplot(m,n,z) % împarte gracul în m× n zone & deseneaz în zona zsemilogx ³i semilogy % logaritmeaz valorile de pe absci , resp., ordonatahold on % reµine gracul pentru a realiza o nou guraclf % ³terge guraclear all % ³terge toate variabilele denitetitle('Graficul functiei') % adaug titlu guriifind % g se³te indicii elementelor nenule ale unui vectorlegend % ata³eaz o legend la un grac

Tabela 27.1: Funcµii Matlab utile

Page 193: Statistic ˘ a Aplicat ˘ a

Anexa 2 [Dr. Iulian Stoleriu] 192

28 Anexa 2

Exemple de repartiµii discrete

În dreptul ec rei repartiµii, în parantez , apare numele cu care aceasta care poate apelat în Matlab.

(1) Repartiµia uniform discret , U(n) (unid)

Scriem c X ∼ U(n), dac valorile lui X sunt 1, 2, . . . , n, cu probabilit µile

P (X = k) =1

n, k = 1, 2, . . . , n.

Media ³i dispersia sunt: E(X) = n+12 , D2(X) = n2−1

12 .Exemplu: num rul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizat U(6).

(2) Repartiµia Bernoulli14, B(1, p) (bino)

Scriem X ∼ B(1, p). V.a. de tip Bernoulli poate lua doar dou valori, X = 1 (succes) sau X = 0(insucces), cu probabilit µile P (X = 1) = p; P (X = 0) = 1− p.Media ³i dispersia sunt: E(X) = p; D2(X) = p(1− p).Exemplu: aruncarea o singur dat a unei monede ideale poate modelat ca ind o v.a. B(1, 0.5).

(3) Repartiµia binomial , B(n, p): (bino)

Scriem X ∼ B(n, p) (schema bilei revenite sau schema extragerilor cu repetiµie) (n > 0, p ∈ (0, 1)),dac valorile lui X sunt 0, 1, . . . , n, cu probabilit µile

P (X = k) = Cknpk(1− p)n−k, k = 0, 1, . . . , n.

Media ³i dispersia sunt: E(X) = np; D2(X) = np(1− p).

Dac (Xk)k=1,n ∼ B(1, p) ³i (Xk)k independente stochastic, atunci X =n∑k=1

Xk ∼ B(n, p).

Exemplu: aruncarea de 15 ori a unei monede ideale poate modelat ca ind o v.a. binomial B(15, 0.5).

(4) Repartiµia hipergeometric , H(n, a, b) (hyge)

X ∼ H(n, a, b) (schema bilei nerevenite sau schema extragerilor f r repetiµie) (n, a, b > 0) dac

P (X = k) =CkaC

n−kb

Cna+b

, pentru orice k ce satisface max(0, n− b) ≤ k ≤ min(a, n).

Media ³i dispersia sunt: EX =n∑i=0

E(Xi) = np; D2(X) = np(1− p)a+ b− na+ b− 1

.

14Jacob Bernoulli (1654− 1705), matematician elveµian

Page 194: Statistic ˘ a Aplicat ˘ a

Anexa 2 [Dr. Iulian Stoleriu] 193

Observaµia 28.1. (i) Dac (Xk)k=0,n ∼ B(1, n), cu p = aa+b (v.a. dependente stochastic), atunci

X =n∑i=1

Xi ∼ H(n, a, b).

În cazul schemei bilei nerevenite, nu mai putem scrie egalitate între D2(X) ³in∑i=0

D2(Xi), deoarece (Xi)i

nu sunt independente stochastic.(ii) Pentru N = a+ b n, putem face aproximarea a+b−n

a+b−1 ≈ a+b−na+b = 1− n

N , de unde

D2(X) ≈ np(1− p)(

1− n

N

). (28.1)

Observ m c repartiµiile binomial ³i hipergeometric au aceea³i medie, îns dispersiile difer prin terme-nul N−nN−1 . În cazul în care num rul de bile este mult mai mare decât num rul de extrageri (N n), atunciacest termen devine aproximativ

(1− n

N

). În plus, dac N este foarte mare, atunci trecând N → ∞ în

(28.1), g sim c ³i dispersiile celor dou repartiµii coincid. Cu alte cuvinte, când num rul de bile din urn este foarte mare, nu mai conteaz dac extragerea bilelor se face cu repetiµie sau nu. Acest fapt îl vomutiliza în Teoria selecµiei, când extragerile se fac dintr-o colectivitate de volum foarte mare.

(5) Repartiµia Poisson15, P(λ) (poiss)

Valorile sale reprezint num rul evenimentelor spontane (cu intensitatea λ) realizate într-un anumit inter-val de timp. Pentru un λ > 0, spunem c X ∼ P(λ) (legea evenimentelor rare) dac X ia valori naturale,cu probabilit µile

P (X = k) = e−λλk

k!, ∀k ∈ N.

E(X) = λ; D2(x) = λ.

(6) Repartiµia geometric , Geo(p) (geo)

Valorile sale reprezint num rul de insuccese avute pân la obµinerea primului succes,stiind probabilitatea de obµinere a unui succes, p.

Spunem c X ∼ Geo(p), (p ∈ (0, 1)) dac X ia valori în N, cu probabilit µile

P (X = k) = p(1− p)k, pentru orice k ∈ N, unde p ≥ 0.

E(X) =1− pp

; D2(X) =1− pp2

.

Observaµia 28.2. Dac X ∼ Geo(p), atunci variabila aleatoare Y = X + 1 reprezint a³teptarea pân la

primul succes.

(7) Repartiµia binomial cu exponent negativ, BN (m, p) (nbin)

Valorile sale reprezint num rul de insuccese obµinute înainte de a se realiza succesul de rang m.În cazul particular m = 1, obµinem repartiµia geometric .

15Siméon-Denis Poisson (1781− 1840), matematician ³i zician francez, student al lui Laplace

Page 195: Statistic ˘ a Aplicat ˘ a

Anexa 2 [Dr. Iulian Stoleriu] 194

Pentru m ≥ 1, p ∈ (0, 1), spunem c X ∼ BN (m, p) dac X ia valorile m, m + 1, m + 2, . . . , cuprobabilit µile

P (X = k) = Cm−1m+k−1p

m(1− p)k, ∀k ≥ m, p ≥ 0.

Media ³i dispersia sunt: E(X) =m(1− p)

p; D2(X) =

m(1− p)p2

.

Exemple de repartiµii continue

(1) Repartiµia uniform , U(a, b) (unif)

V.a. X ∼ U(a, b) (a < b) dac funcµia sa de densitate este

f(x; a, b) =

1b−a , dac x ∈ (a, b)

0 , altfel.

E(X) =a+ b

2, D2(X) =

(b− a)2

12.

Exemplu: Alegerea la întâmplare a unei valori din intervalul (0, 1), în cazul în care orice valoare areaceea³i ³ans de a aleas , urmeaz o repartiµie U(0, 1). Comanda rand din Matlab realizeaz acestexperiment (vezi capitolul urm tor).

(2) Repartiµia normal , N (µ, σ) (norm)

Spunem c X ∼ N (µ, σ), dac X are densitatea:

f(x; µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R.

E(X) = µ ³i D2(X) = σ2.Se mai nume³te ³i repartiµia gaussian . În cazul µ = 0, σ2 = 1 densitatea de repartiµie devine:

f(x) =1√2πe−

x2

2 , x ∈ R. (28.2)

În acest caz spunem c X urmeaz repartiµia normal standard, N (0, 1).Gracul densit µii de repartiµie pentru repartiµia normal este clopotul lui Gauss (vezi Figura 28.1). Dingrac (pentru σ = 1), se observ c majoritatea valorilor nenule ale repartiµiei normale standard se a în intervalul (µ− 3σ, µ+ 3σ) = (−3, 3).

Page 196: Statistic ˘ a Aplicat ˘ a

Anexa 2 [Dr. Iulian Stoleriu] 195

Dac Z ∼ N (0, 1), atunci X = σZ +µ ∼ N (µ, σ). Înmod similar, dac X ∼ N (µ, σ), atunci Z = X−µ

σ ∼N (0, 1). Pentru o v.a. N (0, 1) funcµia de repartiµieeste tabelat (valorile ei se g sesc în tabele) ³i are onotaµie special , Θ(x). Ea e denit prin:

Θ(x) =1√2π

∫ x

−∞e−

y2

2 dy. (28.3)

Funcµia de repartiµie a lui X ∼ N (µ, σ) este dat prin

F (x) = Θ(x− µσ

), x ∈ R. (28.4)

Figura 28.1: Clopotul lui Gauss pentruX ∼ N (0, σ), (σ = 1, 2, 3)

(3) Repartiµia log-normal , logN (µ, σ) (logn)

Repartiµia log-normal este foarte util în Matematicile Financiare, reprezentând o repartiµie de preµuriviitoare pentru un activ nanciar. Dac X ∼ N (µ, σ), atunci Y = eX este o v.a. nenegativ , avânddensitatea de repartiµie

f(x; µ, σ) =

1

xσ√

2πe−

(ln x−µ)2

2σ2 , dac x > 0

0 , dac x ≤ 0

A³adar, Y ∼ logN (µ, σ) dac lnY ∼ N (µ, σ).Media ³i dispersia sunt date de E(X) = eµ+σ2/2, D2(X) = e2µ+σ2

(eσ2 − 1).

(4) Repartiµia exponenµial , exp(λ) (exp)

Valorile sale sunt timpi realizaµi între dou valori spontane repartizate P(λ).

Spunem c X ∼ exp(λ) (λ > 0) dac are densitatea de repartiµie

f(x; λ) =

λe−λx , dac x > 00 , dac x ≤ 0

Media ³i dispersia sunt: E(X) =1

λ³i D2(X) =

1

λ2.

Repartiµia exponenµial satisface proprietatea a³a-numitei lips de memorie, i.e.,

P (X > x+ y|X > y) = P (X > x), ∀x, y ≥ 0.

Este unica distribuµie continu cu aceast proprietate. Distribuµia geometric satisface o variant discret a acestei propriet µi. [Vericaµi!]

Page 197: Statistic ˘ a Aplicat ˘ a

Anexa 2 [Dr. Iulian Stoleriu] 196

(5) Repartiµia Gamma, Γ(a, λ) (gam)

O v.a. X ∼ Γ(a, λ), a, λ > 0, dac densitatea sa de repartiµie este:

f(x; a, λ) =

λa

Γ(a)xa−1e−λx , dac x > 0,

0 , dac x ≤ 0.

unde Γ este funcµia lui Euler,

Γ : (0, ∞)→ (0, ∞), Γ(a) =

∫ ∞0

xa−1e−xdx.

Media ³i dispersia sunt: E(X) =a

λ, D2(X) =

a

λ2.

Observaµia 28.3. (i) Γ(1, λ) ≡ exp(λ).

(ii) Dac v.a. Xkk=1,n ∼ exp(λ) sunt independente stochastic, atunci suma lorn∑k=1

Xk ∼ Γ(n, λ).

(6) Repartiµia Weibull16, Wbl(k, λ) (wbl)

Aceast repartiµie este asem n toare cu repartiµia exponenµial (aceast obµinându-se în cazul particulark = 1) ³i poate modela repartiµia m rimii particulelor. Când k = 3.4, distribuµia Weibull este asem n -toare cu cea normal . Când k →∞, aceast repartiµie se apropie de funcµia lui Dirac.Vom spune c X ∼Wbl(k, λ) (k > 0, λ > 0) dac are densitatea de repartiµie

f(x; k, λ) =

(xλ

)k−1e−( xλ)

k

, dac x ≥ 00 , dac x < 0.

Media pentru repartiµia X ∼Wbl(k, λ) este E(X) = λΓ

(1 +

1

k

).

(7) Repartiµia χ2, χ2(n) (chi2)

O v.a. X ∼ χ2(n) (se cite³te repartiµia hi-p trat cu n grade de libertate) dac densitatea sa de repartiµieeste:

f(x; n) =

1

Γ(n2

)2n2xn2−1e−

x2 , dac x > 0,

0 , dac x ≤ 0.

unde Γ este funcµia lui Euler. Gracul acestei repartiµii (pentru diverse valori ale lui n) este reprezentatîn Figura 28.2.Media ³i dispersia sunt: E(χ2) = n, V ar(χ2) = 2n.

16Ernst Hjalmar Waloddi Weibull (1887− 1979), matematician ³i inginer suedez

Page 198: Statistic ˘ a Aplicat ˘ a

Anexa 2 [Dr. Iulian Stoleriu] 197

(a) Repartiµia χ2(n) este, de fapt, repartiµia Γ(n2 ,12).

(b) Dac v.a. independente Xk ∼ N (0, 1) pentruk = 1, 2, . . . , n, atunci

X21 +X2

2 + · · ·+X2n ∼ χ2(n).

În particular, dac X ∼ N (0, 1), atunci X2 ∼ χ2(1).

Figura 28.2: Repartiµia χ2(n) pentru pa-tru valori ale lui n.

(8) Repartiµia Student (W. S. Gosset17), t(n) (t)

Spunem c X ∼ t(n) (cu n grade de libertate) dac densitatea de repartiµie este:

f(x; n) =Γ(n+1

2

)√nπ Γ

(n2

) (1 +x2

n

)−n+12

, x ∈ R.

E(X) = 0, D2(X) =n

n− 2.

(9) Repartiµia Fisher18, F(m, n) (f)

Spunem c X ∼ F(m, n) (cu m, n grade de libertate) dac densitatea de repartiµie este:

f(x) =

(mn )m2 Γ(m+n

2 )Γ(m2 )Γ(n2 )

xm2−1(1 + m

n x)−m+n

2 , x > 0;

0 , x ≤ 0.

E(X) =n

n− 2, D2(X) =

2n2(n+m− 2)

m(n− 2)2(n− 4).

(10) Repartiµia Cauchy19, C(λ, µ) (f r corespondent în Matlab)

Spunem c X ∼ C(λ, µ) dac densitatea de repartiµie este:

f(x; λ, µ) =λ

π[(x− µ)2 + λ2], x ∈ R.

NU admite medie, dispersie sau momente!!!

17William Sealy Gosset (1876− 1937), statistician britanic, care a publicat sub pseudonimul Student18Sir Ronald Aylmer Fisher (1890− 1962), statistician, eugenist, biolog ³i genetician britanic19Augustin Louis Cauchy (1789− 1857), matematician francez

Page 199: Statistic ˘ a Aplicat ˘ a

Anexa 1 [Dr. Iulian Stoleriu] 198

29 Anexa 3

Tabele cu cuantile pentru repartitii uzuale

α 0.9 0.95 0.975 0.99 0.995 0.999zα 1.282 1.645 1.960 2.326 2.576 3.090

Tabela 29.1: Cuantile pentru repartitia N (0, 1). Pentru un α, tabelul aseaza cuantila zα pentru careP (Z ≤ zα) = α, unde Z ∼ N (0, 1). De remarcat faptul ca: z1−α = −zα.

n \ α 0.9 0.95 0.975 0.99 0.995 0.999 n \ α 0.9 0.95 0.975 0.99 0.995 0.999

1 3.078 6.314 12.706 31.821 63.657 318.313 21 1.323 1.721 2.080 2.518 2.831 3.5272 1.886 2.920 4.303 6.965 9.925 22.327 22 1.321 1.717 2.074 2.508 2.819 3.5053 1.638 2.353 3.182 4.541 5.841 10.215 23 1.319 1.714 2.069 2.500 2.807 3.4854 1.533 2.132 2.776 3.747 4.604 7.173 24 1.318 1.711 2.064 2.492 2.797 3.4675 1.476 2.015 2.571 3.365 4.032 5.893 25 1.316 1.708 2.060 2.485 2.787 3.4506 1.440 1.943 2.447 3.143 3.707 5.208 26 1.315 1.706 2.056 2.479 2.779 3.4357 1.415 1.895 2.365 2.998 3.499 4.782 27 1.314 1.703 2.052 2.473 2.771 3.4218 1.397 1.860 2.306 2.896 3.355 4.499 28 1.313 1.701 2.048 2.467 2.763 3.4089 1.383 1.833 2.262 2.821 3.250 4.296 29 1.311 1.699 2.045 2.462 2.756 3.39610 1.372 1.812 2.228 2.764 3.169 4.143 30 1.310 1.697 2.042 2.457 2.750 3.38511 1.363 1.796 2.201 2.718 3.106 4.024 32 1.309 1.694 2.037 2.449 2.738 3.36512 1.356 1.782 2.179 2.681 3.055 3.929 34 1.307 1.691 2.032 2.441 2.728 3.34813 1.350 1.771 2.160 2.650 3.012 3.852 36 1.306 1.688 2.028 2.434 2.719 3.33314 1.345 1.761 2.145 2.624 2.977 3.7870 38 1.304 1.686 2.024 2.429 2.712 3.31915 1.341 1.753 2.131 2.602 2.947 3.733 40 1.303 1.684 2.021 2.423 2.704 3.30716 1.337 1.746 2.120 2.583 2.921 3.686 50 1.299 1.676 2.009 2.403 2.678 3.26117 1.333 1.740 2.110 2.567 2.898 3.646 60 1.296 1.671 2.000 2.390 2.660 3.23218 1.330 1.734 2.101 2.552 2.878 3.610 80 1.292 1.664 1.990 2.374 2.639 3.19519 1.328 1.729 2.093 2.539 2.861 3.579 100 1.290 1.660 1.984 2.364 2.626 3.17420 1.325 1.725 2.086 2.528 2.845 3.552 ∞ 1.282 1.645 1.960 2.326 2.576 3.090

Tabela 29.2: Cuantile pentru repartitia Student t(n). Pentru un α si un n, tabelul aseaza cuantila tα, npentru care P (Z ≤ tα, n) = α, unde Z ∼ t(n). Daca n este mai mare de 100, se poate utiliza tabelul dela repartitia normala.

Page 200: Statistic ˘ a Aplicat ˘ a

Anexa 1 [Dr. Iulian Stoleriu] 199

1 Table des quantiles de la v.a. Chi-Carre

Fournit les quantiles xp tels queP(X≤xp)= ppour X ∼ χ2

n

n / p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995n1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,882 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,603 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,844 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,865 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,756 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,557 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,288 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,959 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,5910 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,1911 2,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,7612 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,3013 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,8214 4,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,3215 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,8016 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,2717 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,7218 6,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37,1619 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,5820 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,0021 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41,4022 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,8023 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,1824 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,5625 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,9326 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,2927 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,6428 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,9929 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,3430 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,6740 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,7750 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,4960 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,9570 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104,280 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116,390 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128,3100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2

1

Tabela 29.3: Cuantile pentru repartitia χ2(n). Pentru un α = p si un n, tabelul aseaza cuantila χ2α, n

pentru care P (Z ≤ χ2α, n) = α, unde Z ∼ χ2(n).

Page 201: Statistic ˘ a Aplicat ˘ a

Anexa 1 [Dr. Iulian Stoleriu] 200

Tabela 29.4: Valori critice pentru testul seriilor. Aici, α1 reprezinta nivelul de semnicatie pentru testulunilateral si α2 pentru testul bilateral.

Page 202: Statistic ˘ a Aplicat ˘ a

Anexa 1 [Dr. Iulian Stoleriu] 201

Tabela 29.5: Valori critice pentru testul Wald-Wolfowitz, pentru nivelul de semnicatie α = 0.05.

Page 203: Statistic ˘ a Aplicat ˘ a

Anexa 1 [Dr. Iulian Stoleriu] 202

Tabela 29.6: Valori critice c si c1 pentru testul semnului rangurilor Wilcoxon, pentru nivelul de semni-catie. Aici, P (S∗ ≥ c1) ≈ α si P (S∗ ≥ c) ≈ α

2 cand (H0) este acceptata.

Page 204: Statistic ˘ a Aplicat ˘ a

Anexa 1 [Dr. Iulian Stoleriu] 203

Tabela 29.7: Valori critice c si c1 pentru testul semnului rangurilor Wilcoxon, pentru nivelul de semni-catie. Aici, P (S∗ ≥ c1) ≈ α si P (S∗ ≥ c) ≈ α

2 cand (H0) este acceptata.

Page 205: Statistic ˘ a Aplicat ˘ a

Anexa 1 [Dr. Iulian Stoleriu] 204

Tabela 29.8: Valori critice pentru testul semnului rangurilor Wilcoxon (caz bilateral).

Page 206: Statistic ˘ a Aplicat ˘ a

Bibliografie [Dr. Iulian Stoleriu] 205

Tabela 29.9: Valori critice pentru testul semnului rangurilor Wilcoxon (caz unilateral).

Page 207: Statistic ˘ a Aplicat ˘ a

Bibliografie [Dr. Iulian Stoleriu] 206

Bibliograe

[1] Petru Blaga, Statistic . . . prin Matlab, Presa universitar clujean , Cluj-Napoca, 2002.

[2] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.

[3] David Brink, Statistics exercises, David Brink & Ventus Publishing ApS, 2008.

[4] Gheorghe Ciucu, Virgil Craiu, Teoria estimaµiei ³i vericarea ipotezelor statistice, Editura Didactic ³i Pedagogic , Bucure³ti, 1968.

[5] Steve Dobbs, Jane Miller, Statistics 1, Cambridge University Press, Cambridge 2000.

[6] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with CD-ROM),

Duxbury Press, 2006.

[7] Robert V. Hogg, Allen Craig, Joseph W. McKean, Introduction to Mathematical Statistics, PrenticeHall, 6th edition, 2004.

[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mic enciclopedie de sta-

tistic , Editura ³tiinµic ³i enciclopedic , Bucure³ti, 1985.

[9] http://www.mathworks.com

[10] Gheorghe Mihoc, N. Micu, Teoria probabilit µilor ³i statistica matematic , Bucuresti, 1980.

[11] Octavian Petru³, Probabilit µi ³i Statistica matematic - Computer Applications, Ia³i, 2000.

[12] Sanford Weisberg, Applied Linear Regression, Wiley series in Probability and Statistics, 3rd ed.,2005.

[13] Larry J. Stephens, Theory and problems of Beginning Statistics, Schaum's Outline Series, 2nd ed.,The McGraw-Hill Companies, Inc., 1998.

[14] Dominick Salvatore, Derrick Reagle, Theory and problems of Statistics and Econometrics, Schaum'sOutline Series, 2nd ed., The McGraw-Hill Companies, Inc., 2002.

[15] Iulian Stoleriu, Statistic prin Matlab. MatrixRom, Bucure³ti, 2010.

[16] Gábor Székely, Paradoxes in Probability Theory and Mathematical Statistics, (Mathematics and itsApplications), Springer Verlag, 1987.

[17] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge UniversityPress, 2001.