Statistic ˘ a Aplicat ˘ a

of 207 /207
Iulian Stoleriu Statistic ˘ a Aplicat ˘ a

Embed Size (px)

Transcript of Statistic ˘ a Aplicat ˘ a

  • [Iulian Stoleriu]

    Statistica Aplicata

  • Statistica Aplicata (C1)

    1 Elemente de Statistic teoretic (C1)

    Populaie statistic

    O populaie (colectivitate) statistic este o mulime de elemente ce posed o trasatur comun ce urmeaza studiat. Aceasta poate nit sau innit, real sau imaginar. In acest material vom nota populatiastatistica cu . Din punct de vedere matematics, este o multime nevida. Elementele ce constituie ocolectivitate statistic se vor numi uniti statistice sau indivizi. Vom nota cu o unitate statistic. Dacpopulaia este nit, atunci numrul N al unitilor statistice ce o compun (i.e., ||) l vom numi volumulcolectivitii (sau volumul populaiei).

    Caracteristica (variabila) unei populaii statistice este o anumit proprietate urmrit la indivizii ei nprocesul prelucrrii statistice i care constituie obiectul msurrii. Spre exemplu, inaltimea barbatilordintr-o anumita tara, rata inltrarii apei in solul urban, media la Bacalaureat, altitudinea, culoareafrunzelor, nationalitatea participantilor la un congres international etc. Din punct de vedere matematic,caracteristica este reprezentata printr-o variabila aleatoare denita pe . Spre exemplu, daca populatiastatistica este mulimea tuturor studenilor dintr-o universitate nrolai n anul nti de master, atuncio caracteristica a sa ar media la licen obinut de ecare dintre aceti studeni. Teoretic, mulimeavalorilor acestei caracteristici este intervalul [6, 10], iar aceasta variabila poate lua orice valoare din acestinterval. Caracteristicile pot : cantitative (sau msurabile sau numerice) (e.g., 2, 3, 5.75, 1/3, . . . ) saucalitative (categoriale sau atribute) (e.g., albastru, foarte bine, german etc). La rndul lor, variabilelecantitative pot discrete (numrul de sosiri ale unui tramvai n staie) sau continue (timpul de ateptarentre dou sosiri ale tramvaiului n staie). Caracteristicile pot depinde de unul sau mai multi parametri,parametrii ind astfel caracteristici numerice ale colectivitii.

    Vom numi date (sau date statistice) informaiile obinute n urma observaiei valorilor unei caracteristicia unei populatii statistice. In cazul mentionat mai sus, datele sunt mediile la licen observate. ngeneral, datele pot calitative (se mai numesc i categoriale) sau cantitative, dup cum caracteristica (sauvariabila) observat este calitativ (exprima o calitate sau o categorie) sau, respectiv, cantitativ (are ovaloare numerica). Totodata, aceste date pot date de tip discret, dac sunt obinute n urma observriiunei caracteristici discrete (o variabila aleatoare discret, sau o variabila ale carei posibile valori suntin numar nit sau cel mult numarabil), sau date continue, dac aceast caracteristic este continu (ovariabil aleatoare de tip continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau chiarde pe axa reala). n cazul din exemplul de mai sus, datele vor cantitative i continue. Datele calitativemai pot nominale sau ordinale. Variabilele nominale au nivele distincte, fara a avea o anumita ordine.De exemplu, culoarea parului, sau genul unei persoane. Pe de alta parte, valorile ordinale fac referintala ordinea lor. De exemplu: schimbarea starii unui pacient dupa un anumit tratamen (aceasta poate: imbunatatire semnicativa, imbunatatire moderata, nicio schimbare, inrautatire moderata, inrautatiresemnicativa).

    n Statistic, se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, X, . . ., si valorilelor cu litere mici, x, y, x, . . ..

    In general, volumul colectivitatii poate foarte mare sau chiar innit, astfel ca efectuarea unui recensamant(i.e., observarea caracteristicii de interes pentru toate elementele ce compun colectivitatea) este e foartecostisitoare sau imposibila. Pentru a efectua o analiza a caracteristicii de interes sau chiar a repartitieidatelor observate, este sucienta analiza unei selectii de volum sucient de mare formata din observatii ale

  • SA 1 [Dr. Iulian Stoleriu] 2

    caracteristicii, urmand ca aceasta analiza sa e extrapolata (folosind metode statistice specice) pentruintreaga populatie.

    O selecie (sau eantion) este o colectivitate parial de elemente extrase (la ntmplare sau nu) din colec-tivitatea general, n scopul cercetrii lor din punctul de vedere al unei caracteristici. Dac extragerea seface la ntmplare, atunci spunem c am facut o selecie ntmpltoare. Numrul indivizilor din seleciaaleas se va numi volumul seleciei. Dac se face o enumerare sau o listare a ecrui element component alunei a populaii statistice, atunci spunem c am facut un recensmnt. Selecia ar trebui s e reprezen-tativ pentru populaia din care face parte. Numim o selecie repetat (sau cu repetiie) o selecie n urmacreia individul ales a fost reintrodus din nou n colectivitate. Altfel, avem o selecie nerepetat. Selecianerepetat nu prezint interes dac volumul colectivitii este nit, deoarece n acest caz probabilitateaca un alt individ s e ales ntr-o extragere nu este aceeai pentru toi indivizii colectivitii. Pe de altparte, dac volumul ntregii populaii statistice este mult mai mare dect cel al eantionului extras, atunciputem presupune c selecia efectuat este repetat, chiar dac n mod practic ea este nerepetat.

    Seleciile aleatoare se pot realiza prin diverse metode, n funcie de urmtorii factori: disponibilitateainformaiilor necesare, costul operaiunii, nivelul de precizie al informaiilor etc. Cteva metode de selec-ie: selecie simpl, selecie sistematic, selecie straticat, selecie ciorchine, selecia de tip experien,selecie de convenien, selecie de cot etc.

    Parametrii sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avem acces la intreagapopulatie, parametrii sunt niste constante necunoscute, ce urmeaza a explicate sau estimate pe bazadatelor. Spre exemplu, pentru variabilele cantitative ale populatiei, putem avea: parametri care sa descrietendinta centrala a populatiei (e.g., media, mediana, momente), parametri care sa descrie dispersia datelor(e.g., dispersia, deviatia standard, coecient de variatie), parametri de pozitie (e.g., cuantile), parametri cedescriu forma (e.g., skewness, kurtosis). Pentru date bidimensionale, datele pot descrise de parametrii cedescriu legatura intre variabile: corelatia sau coecientul de corelatie. Pentru date calitative (categoriale),cei mai des utilizati parametri sunt: proportia din populatie ce are caracteristica de interes (e.g.,numarul de fumatori din tara), cote (sanse teoretica pentru observarea caracteristicii de interes la intreagapopulatie) (e.g., exista 70% sanse sa ploua maine).

    Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii necunoscuti,obtinand descrieri numerice pentru populatie. Astfel de indicatori se numesc statistici. Prin intermediulstatisticilor putem trage concluzii despre populaia , din care a provenit eantionul observat. Teoriaprobabilitilor ne ofer procedee de determinare a repartiiei asimptotice a unei statistici, sau chiar, inanumite cazuri, a statisticii exacte. Repartiia exact este acea repartiie ce poate determinat pentruorice volum al seleciei. n general, dac se lucreaz cu selecii de volum redus (n < 30), atunci repartiiaexact ar trebui s e cunoscut a priori, dac se dorete luarea de decizii prin inferen. Repartiiaasimptotic este repartiia limit a statisticii cnd n , iar utilizarea acesteia conduce la rezultatebune doar pentru n 30.

    In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatii din acestea.Mai concret, detine metodele necesare de a realiza urmatoarele cerinte: sa descrie cat mai del si sugestivacele date (prin grace sau indicatori statistici), sa estimeze anumiti parametri de interes (e.g., mediateoretica, deviatia standard, asimetria ale caracteristicii), sa verice prin inferenta ipotezele ce se pot facereferitoare la anumiti parametri ai caracteristicii sau chiar la forma acesteia.

  • SA 1 [Dr. Iulian Stoleriu] 3

    Variabile aleatoare

    n general, rezultatul posibil al unui experiment aleator poate asociat unei valori reale, precizndregula de asociere. O astfel de regul de asociere se numete variabil aleatoare (prescurtat, v.a.). Senumete variabil deoarece poate lua valori diferite, se numete aleatoare deoarece valorile observatedepind de rezultatele experimentului aleator, i este "real" deoarece valoarea numeric este un numrreal. Aadar, din punct de vedere euristic, o variabil aleatoare este o cantitate ce poate avea oricevaloare dintr-o multime data, ecarei valori atribuindu-se o anumita pondere (frecventa relativa). nvia de zi cu zi ntlnim numeroase astfel de funcii, e.g., numerele ce apar la extragerea loto, rezultatulmasurarii fertilitatii solului in diverse locatii, numrul clienilor deservii la un anumit ghieu ntr-oanumit perioad, timpul de ateptare a unei persoane ntr-o staie de autobuz pn la sosirea acestuia,calicativele obinute de elevii de clasa a IV-a la un test de matematic etc.De regula, variabilele aleatoare sunt notate cu litere de la sfritul alfabetului, X, Y, Z sau , , etc.

    Exemplu 1.1. Un exemplu simplu de variabila aleatoare este urmtorul. Considerm experimentulaleator al aruncrii unei monede. Acest experiment poate avea doar dou rezultate posibile, notate S(stema) i B (banul). Aadar, spaiul seleciilor este = {S, B}. Acestui experiment aleator i putemataa variabila aleatoare real X, care asociaz feei S valoarea 1 i feei B valoarea 0. Matematic, scriemastfel: X : R, X(S) = 1, X(B) = 0. Astfel, valorile 1 i 0 pentru X vor indica faa aprut laaruncarea monedei. O astfel de variabil aleatoare se numete variabil aleatoare Bernoulli i poate ataat oricrui eveniment aleator ce are doar dou rezultate posibile, numite generic succes i eec.

    Variabilele aleatoare (prescurtat v.a.) pot discrete sau continue. Variabilele aleatoare discrete sunt celecare pot lua o mulime nit sau cel mult numrabil (adica, o multime care poate numarata) de valori.O variabil aleatoare se numete variabil aleatoare continu (sau de tip continuu) dac mulimea tuturorvalorilor sale este totalitatea numerelor dintr-un interval real (posibil innit) sau toate numerele dintr-oreuniune disjunct de astfel de intervale, cu precizarea c pentru orice posibil valoare c, P (X = c) = 0.

    Exemple de v.a. discrete: numrul feei aprute la aruncarea unui zar, numrul de apariii ale unuitramvai ntr-o staie ntr-un anumit interval, numrul de insuccese aprute pn la primul succes etc. Dinclasa v.a. de tip continuu amintim: timpul de ateptare la un ghieu pn la servire, preul unui activnanciar ntr-o perioad bine determinat.

    Pentru a specica o v.a. discret, va trebui s enumerm toate valorile posibile pe care aceasta le poatelua, mpreun cu probabilitile corespunzatoare. Suma tuturor acestor probabiliti va ntotdeaunaegal cu 1, care este probabilitatea realizarii evenimentului sigur. Cnd se face referire la repartiia uneiv.a. discrete, se nelege modul n care probabilitatea total 1 este distribuit ntre toate posibilele valoriale variabilei aleatoare. Pentru o scriere compact, adeseori unei v.a. discrete i se atribuie urmtoareareprezentare schematica:

    tabelul de repartiie

    X x1 x2 x3 . . . xnpk p1 p2 p3 . . . xn

    (1.1)

    unde pk este probabilitatea cu care variabila X ia valoarea xk (matematic, scriem pk = P (X = xk)) i

    suma tuturor probabilitilor corespunztoare variabilei discrete este egal cu 1 (scriem cani=1

    pi = 1).

  • SA 1 [Dr. Iulian Stoleriu] 4

    Exemplu 1.2.

    Presupunem c X este v.a. ce reprezint nu-mrul de puncte ce apare la aruncarea unuizar ideal. Aceast variabila o putem reprezentaschematic ca in tabelul alaturat.

    tabelul de repartiie

    X 1 2 3 4 5 6

    pk 1/6 1/6 1/6 1/6 1/6 1/6

    Dac X este o v.a. discret de forma (1.1), atunci denim funcia de probabilitate (de frecven) (en.,probability mass function) ataat variabilei aleatoare discrete X ca ind o funcie ce ataseaza ecareirealizari ale unei variabile probabilitatea cu care aceasta realizare este observata. Matematic, scriem ca

    f(xi) = pi, i {1, 2, . . . , n}.

    n cuvinte, pentru ecare posibil valoare a unei v.a. discrete, funcia de probabilitate ataeaz probabili-tatea cu care X ia aceast valoare. Funcia de probabilitate este pentru o v.a. discreta ceea ce o densitatede repartiie este pentru o variabil aleatoare continu.

    Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare intr-un intervala chiar din R. Deoarece in aceste multimi exista o innitate de valori, nu mai putem deni o variabilaaleatoare continua la fel ca in cazul discret, precizandu-i ecare valoare pe care o ia si ponderea cores-punzatoare. In schimb, pentru o variabila aleatoare continua, putem preciza multimea in care aceasta iavalori si o functie care sa descrie repartizarea acestor valori. O astfel de functie se numeste functie dedensitate a repartitiei, sau simplu, densitate de repartiie (en., probability density function).

    Exemplu 1.3. Vom spune c o variabila aleatoare X are o repartitie (sau distributie) normala de medie i deviatie standard (notam aceasta prin X N (, )) dac X poate lua orice valoare reala si aredensitatea de repartitie data de:

    f(x; , ) =1

    2e

    (x)2

    22 , pentro orice x R.

    Aceasta repartitie se mai numete i repartiia gaussian sau distribuia gaussian.

    Funcia de probabilitate sau densitatea de repartiie poate depinde de unul sau mai muli parametri reali.Spre exemplu, repartitia normala are doi parametri, si .

    Funcia de repartiie (sau funcia de repartiie cumulat)

    Numim funcie de repartiie ataat v.a reale X o funcie F : R [0, 1], denit prin

    F (x) = P (X x), pentru orice x R.

    Termenul din englez pentru funcia de repartiie este cumulative distribution function (cdf). Functia derepartitie asociaza ecarei valori reale x probabilitatea cu care variabila X ia valori mai mici sau egale cux. Ea este o functie crescatoare, care ia valori intre 0 si 1.

    n cazul unei variabile aleatoare discrete, cu tabelul de repartiie dat de (1.1), funcia de repartiie este:

    F (x) =

    {i;xix}

    pi, (1.2)

    adic suma tuturor probabilitilor corespunztoare valorilor lui X care nu-l depesc pe x.

  • SA 1 [Dr. Iulian Stoleriu] 5

    Dac X este o variabil aleatoare continu i f este densitatea sa de repartiie, atunci funcia de repartiieeste dat de formula:

    F (x) =

    x

    f(t) dt, x R. (1.3)

    Mai mult, F (x) = f(x), pentru orice x R.

    Parametrii populaiei

    O colectivitate statistica poate descrisa folosind una sau mai multe variabile. Pentru ecare dintreaceste variabile se pot determina anumite cantitati sau calitati specice, numite parametri. Astfel, acestiparametri sunt niste trasaturi caracteristice colectivitatii, ce pot determinate sau estimate pe baza unormasuratori (observatii) ale variabilelor. In continuare vom prezenta cativa parametri numerici importantipentru o variabila aleatoare, folositi in analiza statistica. Vom denumi acesti parametri caracteristicinumerice ale unei variabile aleatoare.

    Media (sau valoarea ateptat) (en., expected value; fr., esprance; ger., Erwartungswert)

    Pentru o variabila, media este o masura a tendintei centrale a valorilor sale. De remarcat faptul ca existavariabile (atat discrete cat si continue) care nu admit o valoare medie.

    Dac X este o v.a. discret avnd tabelul de repartiie (1.1), atunci media acestei v.a. (dac exist!)se denete prin:

    =

    ni=1

    xipi. (1.4)

    Daca U(x) este o functie, atunci media pentru variabila aleatoare U(X) se deneste prin

    E(U(X)) =ni=1

    U(xi)pi.

    Dac X este o v.a. de tip continuu, cu densitatea de repartiie f(x), atunci media (teoretic) acesteiv.a., dac exist (!), se denete astfel:

    =

    xf(x)dz. (1.5)

    Daca U(x) este o functie, atunci media pentru variabila aleatoare U(X) (dac exist!) se denesteprin

    E(U(X)) =

    U(x)f(x)dz.

    Notaii: n cazul n care poate pericol de confuzie (spre exemplu, atunci cnd lucrm cu mai multevariabile n acelai timp), vom folosi notaia X . Pentru media teoretic a unei variabile aleatoare se maifolosesc i notaiile: m, M(X) sau E(X).

    Dispersia (sau variana) (en., variance) i abaterea standard (en., standard deviation)

    Consideram X o variabil aleatoare care admite medie nita . Dorim sa stim in ce masura valorile acestevariabile sunt imprastiate in jurul valorii medii. Variabila aleatoare X0 = X (numit abaterea lui X

  • SA 1 [Dr. Iulian Stoleriu] 6

    de la media sa), atunci E(X0) = 0. Aadar, nu putem msur gradul de mprtiere a valorilor lui X njurul mediei sale doar calculnd X . Avem nevoie de o alt msur. Aceasta este dispersia variabileialeatoare, notat prin 2 sau V ar(X). n cazul n care poate pericol de confuzie (spre exemplu, atuncicnd lucrm cu mai multe variabile n acelai timp), vom folosi notaia 2X .

    2 =ni=1

    (xi )2pi

    (in cazul unei v.a. discrete).

    2 =

    (x )2f(x) dz

    (in cazul unei v.a. continue).

    Alte formule pentru dispersie:

    2 = E[X2] 2 =

    ni=1

    x2i pi 2 , n cazul discret

    x2f(x) dz 2 , n cazul continuu

    Numim abatere standard (sau deviaie standard) cantitatea =2. Are avantajul ca unitatea sa de

    masura este aceeasi cu a variabilei X.

    n conformitate cu teorema lui Cebev1, pentru orice variabila aleatoare X ce admite medie si oricea > 0, are loc inegalitatea:

    P ({|X | k}) 1k2. (1.6)

    n cuvinte, probabilitatea ca valorile variabilei X sa devieze de la medie cu mai mult de k deviatii standardeste mai mica decat 1

    k2. n cazul particular k = 3, obinem regula celor 3:

    P ({|X | 3}) 19 0.1.

    sauP ({ 3 < X < + 3}) 8

    9, (1.7)

    semnicnd c o mare parte din valorile posibile pentru X se a n intervalul [ 3, + 3].Coecientul de variaie

    Este denit prin CV =

    sau, sub forma de procente, CV = 100

    %. Este util in compararea variatiilor

    a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca variatiile sunt egale, atunci vomspune ca setul de observatii ce are media mai mica este mai variabil decat cel cu media mai mare.

    Standardizarea unei variabile aleatoare

    Pentru o variabila aleatoare X de medie i dispersie 2, variabila aleatoare Y =X

    se numete

    variabila aleatoare standardizat (sau normat). Astfel, prin standardizarea unei variabile, vom obtineurmatoarele proprietati ale sale: E(Y ) = 0, V ar(Y ) = 1.Daca X este o variabila normala (scriem asta prin X N (, )), atunci standardizarea sa este o variabilanormala standard, adica X N (0, 1).

    1Pafnuty Lvovich Chebyshev (1821 1894), matematician rus

  • SA 1 [Dr. Iulian Stoleriu] 7

    Momente centrate

    Pentru o v.a. X (discret sau continu), ce admite medie, momentele centrate sunt valorile ateptate aleputerilor lui X . Denim astfel k(X) = E((X )k). In particular,

    k(X) =

    ni=1

    (xi )kpi;

    (in cazul unei v.a. discrete).

    k(X) =

    (x )kf(x) dx;

    (in cazul unei v.a. continue).

    Momente speciale:

    2(X) = 2. Se observa ca al doilea moment centrat este chiar dispersia.

    1 =3(X)

    3este coecientul de asimetrie (en., skewness);

    Coecientul 1 este al treilea moment centrat standardizat. O repartiie este simetric dac 1 = 0.Vom spune c asimetria este pozitiv (sau la dreapta) dac 1 > 0 i negativ (sau la stnga) dac1 < 0.

    K =4(X)

    4 3 este excesul (coecientul de aplatizare sau boltire) (en., kurtosis).

    Este o msur a boltirii distribuiei (al patrulea moment standardizat). Termenul (3) apare pentruc indicele kurtosis al distribuiei normale s e egal cu 0. Vom avea o repartiie mezocurtic pentruK = 0, leptocurtic pentru K > 0 sau platocurtic pentru K < 0. Un indice K > 0 semnic faptulc, n vecintatea modului, curba densitii de repartiie are o boltire (ascuire) mai mare dectclopotul lui Gauss. Pentru K < 0, n acea vecintate curba densitii de repartiie este mai platdect curba lui Gauss.

    Cuantile

    Fie o v.a. X ce are funcia de repartiie F (x). Pentru un (0, 1), denim cuantila de ordin aceavaloare reala x R pentru care

    F (x) = P (X x) = . (1.8)

    (1) Cuantilele sunt msuri de poziie, ce msoar locaia uneianumite observaii fa de restul datelor. Aa cum se poateobserva din Figura 1.1, valoarea x este acel numr real pentrucare aria haurat este chiar .(2) n cazul n care X este o variabil aleatoare discret,atunci (1.8) nu are soluie pentru orice . ns, dac existo soluie a acestei ecuaiei F (x) = , atunci exist o innitatede soluii, i anume intervalul ce separ dou valori posibile.

    Figura 1.1: Cuantila de ordin .

    (3) Cazuri particulare de cuantile:

  • SA 1 [Dr. Iulian Stoleriu] 8

    pentru = 1/2, obtinem mediana. Astfel, F (Me) = 0.5. Mediana (notata Me) este valoarea careimparte repartitia in doua parti in care variabila X ia valori cu probabilitati egale. Scriem astaastfel:

    P (X Me) = P (X > Me) = 0.5.Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat media pentrutendinta centrala a valorilor variabilei.

    pentru = i/4, i {1, 2, 3}, obtinem cuartilele. Prima cuartila, Q1, este acea valoare pentru careprobabilitatea ca X sa ia o valoare la stanga ei este 0.25. Scriem asta astfel: P (X Q1) = 0.25.Cuartila a doua este chiar mediana, deci Q2 = Me. Cuartila a treia, Q3, este acea valoare pentrucare probabilitatea ca X sa ia o valoare la stanga ei este 0.75. Scriem asta astfel: P (X Q3) = 0.75.

    pentru = j/10, j {1, 2, . . . , 9}, obtinem decilele. Prima decila este acea valoare pentru careprobabilitatea ca X sa ia o valoare la stanga ei este 0.1. S.a.m.d.

    pentru = j/100, j {1, 2, . . . , 99}, obtinem centilele. Prima centila este acea valoare pentrucare probabilitatea ca X sa ia o valoare la stanga ei este 0.01. S.a.m.d.

    (4) Dac X N (0, 1), atunci cuantilele de ordin le vom nota prin z.

    Modul (valoarea cea mai probabil)

    Este valoarea cea mai probabila pe care o lua variabila aleatoare X. Cu alte cuvinte, este acea valoare x

    pentru care f(x) (densitatea de repartiie sau funcia de probabilitate) este maxim. O repartiie poates nu aib niciun mod, sau poate avea mai multe module.

    Covariana i coecientul de corelaie

    Conceptul de corelaie (sau covarian) este legat de modul n care dou variabile aleatoare tind s semodice una fa de cealalt; ele se pot modica e n aceeai direcie (caz n care vom spune c X1 iX2 sunt direct corelate) sau n direcii opuse (X1 i X2 sunt invers corelate).Consideram variabilele X1, X2 ce admit mediile, respectiv, 1, 2.

    Denim corelaia (sau covariana) variabilelor X1 i X2, notat prin cov(X1, X2), cantitatea

    cov(X1, X2) = E[(X1 1)(X2 2)].

    Daca X1 si X2 coincid, sa spunem ca X1 = X2 = X, atunci cov(X, X) = 2X .O relaie liniar ntre dou variabile este acea relaie ce poate reprezentat cel mai bine printr-o linie.Corelaia detecteaz doar dependene liniare ntre dou variabile aleatoare. Putem avea o corelaie po-zitiv, nsemnnd c X1 i X2 cresc sau descresc mpreun (vezi cazurile in care = 0.85 sau = 1 inFigura 19.2), sau o corelaie negativ, nsemnnd c X1 i X2 se modic n direcii opuse (vezi cazul = 0.98 in Figura 19.2). In cazul = 0.16 din Figura 19.2, nu se observa nicio tendinta, caz in carputem banui ca variabilele nu sunt corelate.

  • SA 1 [Dr. Iulian Stoleriu] 9

    O msur a corelaiei dintre dou variabile este coecientulde corelaie. Acesta este foarte utilizat n tiine ca ind omsur a dependenei liniare ntre dou variabile. Se numetecoecient de corelaie al v.a. X1 i X2 cantitatea

    =cov(X1, X2)

    12,

    unde 1 si 2 sunt deviatiile standard pentru X1, respec-tiv, X2. Uneori se mai noteaza prin (X1, X2) sau X1, X2 .Coecientul de corelatie ia valori intre 1 (perfect negativcorelate) si 1 (perfect pozitiv corelate) si masoara gradul decorelatie liniara dintre doua variabile.

    Figura 1.2: Reprezentare de datebidimensionale.

    Legi limita in Teoria Probabilitatilor

    Legea (tare) a numerelor mari:

    Teoremele limit clasice descriu comportarea asimptotic a sumei Sn, potrivit normalizat. Legea nume-relor mari descrie comportamentul asimptotic al unui sir de variabile aleatoare. n cazul cel mai simplu (sicel mai utilizat in Statistica), in care variabilele aleatoare {Xk}k1 sunt independente stochastic i identicrepartizate, cu E(Xn) = < , n N, atunci legea tare a numerelor mari spune ca sirul {Sn}n1, cu

    Sn =nk=1

    Xk satisface convergenta:Snn

    a.s. .

    Astfel, dei variabilele aleatoare independente {Xk}k1 pot lua valori deprtate de mediile lor, mediaaritmetic a unui numr sucient de mare de astfel de variabile aleatoare ia valori n vecintatea lui m,cu o probabilitate foarte mare.

    In Statistica, acest ir de v.a. poate privit ca ind un model pentru repetiii independente ale unuiexperiment aleator, efectuate n aceleasi condiii. Dei avem de-a face cu un ir de funcii ce iau valorintmpltoare, suma unui numr sucient de mare de variabile aleatoare i pierde caracterul aleator.

    Legea tare a numerelor mari e foarte util n metode de simulare tip Monte Carlo.

    Teorema limita centrala

    Teorema limita centrala este un rezultat foarte important in Statistica. Ea ne permite s aproximm sumede variabile aleatoare identic repartizate, avnd orice tip de repartiii (att timp ct variaia lor e nit),cu o variabila aleatoare normal.Presupunem ca in urma unor masuratori am obtinut datele x1, x2, . . . , xn si ca aceste date sunt realizarile

    unor variabile X1, X2, . . . , Xn. Daca aceste variabile sunt normale, atunci suma acestora (Sn =ni=1

    Xi)

    cat si media lor (X =1

    n

    ni=1

    Xi) sunt tot variabile normale, pentru orice volum al selectiei, n.

  • SA 1 [Dr. Iulian Stoleriu] 10

    Matematic, teorema TLC ne spune c, dac avem un ir de v.a. independente stochastic i identic repar-tizate, atunci, pentru n sucient de mare, repartiia asimptotic a sumei Sn este o variabil N (,

    n).

    Acest fapt este echivalent cu a spune c variabila aleatoare sum standardizat

    Sn =Sn nn

    =Sn E(Sn)D2(Sn)

    (1.9)

    este o v.a. de repartiie N (0, 1).

    Totodat, mai avem c distribuia variabilei aleatoare medie de selecie X =Snn

    =1

    n

    nk=1

    Xk este aproxi-

    mativ normal N (, n

    ).

    Aadar, Teorema limita centrala spune ca, dac variabilele X1, X2, . . . , Xn nu sunt neaprat normalrepartizate, atunci, pentru un volum n este sucient de mare, repartitiile pentru Sn si X tind sa etot normale. Spunem astfel ca repartitiile asimptotice (la limita) pentru Sn si X sunt normale. Cu catvolumul observatiilor este mai mare, cu atat suma sau media lor sunt mai aproape de repartitia normala.

    Mai mult, daca variabilele Xi au aceeasi medie () si aceeasi deviatie standard , atunci media X este

    o variabila normala de medie X = si deviatie standard X =n. Se observa ca, daca n este foarte

    mare, atunci deviatia standard a lui X scade, astfel ca valorile sale vor deveni foarte apropiate de .

    Se pune problema: Ct de mare ar trebui s e n, n practic, pentru c teorema limit central s eaplicabil? Se pare ca un numr n astfel nct n 30 ar sucicient pentru aproximarea cu repartiianormal dei, dac variabilele sunt simetrice, aproximarea ar putea bun i pentru un numr n mai micde 30.

    Statistici

    Considerm o caracteristic de interes X a unei populaii statistice i e x1, x2, . . . , xn un set de dateobservate pentru aceast caracteristic. Fiecrei date observate xi i se poate asocia o variabil aleatoareXi, astfel nct xi devine o posibil valoarea a variabilei Xi. Variabilele aleatoare X1, X2, . . . , Xn senumesc variabile aleatoare de selecie i pot interpretate ca ind un set de observaii independente asupravariabilei X. Toate aceste variabile de selectie sunt identic repartizate, repartiia comun ind repartiiavariabilei X. Aadar, Xi este o observaie a variabilei X i xi este valoarea corespunztoare observat.

    Se numete statistic (sau funcie de selecie) o funcie de aceste variabile aleatoare de selecie, i.e., ovariabil aleatoare de forma

    Sn(X) = g(X1, X2, . . . , Xn),

    unde g este o funcie g : Rn R msurabil.Ca o observaie, numele de statistic este folosit n literatura de specialitate att pentru variabila aleatoarede mai sus, ct i pentru valoarea ei, nelesul exact desprinzndu-se din context. Repartiia unei statisticise mai numete i repartiia (distribuia) de selecie.

    n literatur, statistica este notat cu una dintre urmtoarele:

    Sn(X), S(X, n), S(X1, X2, . . . , Xn).

    Valoarea numericSn(x) = g(x1, x2, . . . , xn)

  • SA 1 [Dr. Iulian Stoleriu] 11

    se numete valoarea funciei de selecie pentru un set dat de observaii x1, x2, . . . , xn.

    Prin intermeniul statisticilor putem trage concluzii despre populaia din care a provenit eantionul obser-vat. Teoria probabilitilor ne ofer procedee de determinare att a repartiiei exacte a lui Sn(X), ct ia repartiiei asimptotice a lui Sn(X). Repartiia exact este acea repartiie ce poate determinat pentruorice volum al seleciei. n general, dac se lucreaz cu selecii de volum redus (n < 30), atunci repartiiaexact ar trebui s e cunoscut a priori, dac se dorete luarea de decizii prin inferen. Repartiiaasimptotic este repartiia limit a Sn(X) cnd n, iar utilizarea acesteia conduce la rezultate bunedoar pentru n 30.De cele mai multe ori, o statistic este utilizat n urmtoarele cazuri:

    n probleme de estimare punctual a parametrilor populaiei;

    n obinerea intervalelor de ncredere pentru un parametru necunoscut;

    ca o statistic test pentru vericarea ipotezelor statistice.

    Exemple de statistici:

    Media de selecie: Numim medie de selecie (de volum n), statistica X =1

    n

    ni=1

    Xi.

    Valoarea mediei de selecie pentru valori ale acestor variabile aleatoare este media empiric: x =1

    n

    ni=1

    xi.

    Media de selecie satisface urmtoarele proprieti:

    [1] E(X) = E(X); V ar(X) = 1nV ar(X)

    [2] X a.s. E(X) (n)Convergena de mai sus spune c media de selecie X se apropie mult de media teoretic a populaieiatunci cnd volumul seleciei este mare.

    [3] Dac {X1, X2, . . . , Xn}, variabile aleatoare de selecie repetat de volum n, ce urmeaz o repartiiedat, atunci pentru un volum n sucient de mare, statistica X este o variabil normal. Matematic scriemc X satisface:

    X N(,

    n

    ). (n > 30)

    n cazul n care Xi sunt toate normale, atunci concluzia este valid pentru orice n N.[3] Dac selecia se face fr revenire dintr-o populaie de volum mai mic dect 30 i X nu este neapratnormal repartizat, atunci putem spune doar c

    E(X) = i V ar(X) =n

    N nN 1 ,

    fr a putea preciza care este repartiia asimptotic a lui X. Aici N este volumul populaiei i n estevolumul seleciei, cu n > 0.05N .

  • SA 1 [Dr. Iulian Stoleriu] 12

    Dispersie de selecie (sau variana seleciei): Numim dispersie de selecie (de volum n), statistica S2 (sau

    S2X , dac avem mai multe variabile) denit prin: S2 =

    1

    n 1ni=1

    [Xi X]2.

    Valoarea dispersiei de selecie pentru valori ale acestor variabile aleatoare este dispersia (sau variaia)empiric: simplitate, o vom nota cu s2 (sau s2X , dac avem mai multe variabile), iar valoarea acesteiapentru un (n) xat este:

    s2 =1

    n 1ni=1

    [xi x]2.

    n anumite situaii, n locul lui S2 se mai utilizeaz statistica S2(X), denit prin:

    S2(X) =1

    n

    ni=1

    [Xi X]2.

    Motivaia pentru considerarea statisticii S2 n detrimentul lui S2 este dat de faptul c prima statis-tic estimeaz variaia teoretic 2 mai bine dect cea de-a doua. Aceste statistici satisfac urmtoareleproprieti:

    Dispersiile de selecie veric urmtoarele proprieti:

    [1] E(S2) =n 1n

    2; E(S2) = 2

    [2] S2prob 2 (n)

    [3] Dac {X1, X2, . . . , Xn}, variabile aleatoare de selecie repetat de volum n, ce urmeaz o repartiiedat, atunci pentru un volum n sucient de mare, statistica S2 este o variabil 2(n 1).Matematic scriem c S2 satisface: n1

    2S2 2(n 1)

    [4] Dup cum vom vedea n capitolul urmtor, primele dou relaii arat c statistica S2 este un esti-mator nedeplasat pentru dispersia teoretic 2, pe cnd S2 este estimator deplasat.

    Funcia de repartiie de selecie Fie X1, X2, . . . , Xn variabile aleatoare de selecie repetat de volum n.

    Numim funcie de repartiie de selecie (de volum n), funcia F n(x) =n(x)

    n, x R,

    unde n(x) = card {i, Xi x} reprezint numrul de elemente din selecie mai mici sau egale cu x.Relaia din deniie poate scris i sub forma:

    F n(x) =1

    n

    ni=1

    (, x](Xi), x R, (1.10)

    unde A este funcia indicatoare a mulimii A.Pentru un x R xat, F n este o variabil aleatoare repartizat binomial B(n, F (x)).Pentru o selecie xat, F n(x) ia valorile:

    F n(x) =card {i, xi x}

    n,

    (i.e., este funcia de repartiie empiric).

    Funcia de repartiie de selecie satisface urmtoarele proprieti:

    [1] E(F n(x)) = F (x), x R;

  • SA 1 [Dr. Iulian Stoleriu] 13

    [2] V ar(F n(x)) =1n [F (x)(1 F (x))], x R

    n Statistic, exist o serie de criterii care permit s se aprecieze apropierea lui F n(x) de F (x). Mai jos,amintim doar dou dintre ele.

    [3] Funcia de repartiie de selecie satisface convergena

    F n(x)a.s.n

    F (x), x xat n R.

    [4] Pentru n N sucient de mare, funcia de repartiie de selecie satisface proprietatean(F n(x) F (x)) N ( 0,

    F (x)(1 F (x)) ), x xat n R.

  • LSA 1 [Dr. Iulian Stoleriu] 14

    2 Statistica Aplicata (L1)

    Generarea de numere (pseudo-)aleatoare

    Numerele generate de Matlab sunt rezultatul compilrii unui program deja existent n Matlab, aadarel vor pseudo-aleatoare. Putem face abstracie de modul programat de generare ale acestor numere is considerm c acestea sunt numere aleatoare.

    Generarea de numere uniform repartizate ntr-un interval, U(a, b)

    Funcia rand

    Funcia rand genereaz un numr aleator repartizat uniform n [0, 1].De exemplu, comanda

    X = (rand < 0.5)

    simuleaz aruncarea unei monede ideale. Mai putem spune ca numrul X astfel generat este unnumr aleator repartizat B(1, 0.5).

    De asemenea, numrul

    Y = sum(rand(10,1) < 0.5)

    urmeaz repartiia B(10, 0.5) (simularea a 10 aruncri ale unei monede ideale).

    rand(m, n) genereaz o matrice aleatoare cu m n componente repartizate U(0, 1).

    Comanda a+ (b a) rand genereaz un numr pseudo-aleator repartizat uniform n [a, b].

    Folosind comanda s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente, repre-zentnd starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimbastarea curent a generatorului sau iniializarea lui, putem folosi comanda

    rand(method, s)

    unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state','seed' sau 'twister'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniiali-zatorului. De exemplu,

    rand('state', 125)

    xeaz generatorul la starea 125.

    Observaia 2.1. Printr-o generare de numere aleatoare uniform distribuite n intervalul (a, b) nelegemnumere aleatoare care au aceeai ans de a oriunde n (a, b), i nu numere la intervale egale.

  • LSA 1 [Dr. Iulian Stoleriu] 15

    Figura 2.1 reprezint cu histograme date uniform distribuite n intervalul [2, 3], produse de comandaMatlab:

    hist(5*rand(1e4,1)-2,100)

    Figura 2.1: Reprezentarea cu histograme a datelor uniforme.

    Generarea de numere repartizate normal, N (, )

    Funcia randn

    Funcia randn genereaz un numr aleator repartizat normal N (0, 1).

    randn(m, n) genereaz o matrice aleatoare cu m n componente repartizate N (0, 1).

    Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generato-rului, folosim comanda:

    randn(method, s)

    unde unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state'sau 'seed'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului.

    Comanda m+randn genereaz un numr aleator repartizat normal N (m, ). De exemplu, codulurmtor produce Figura 2.2:

    x = 0:0.05:10;

    y = 5 + 1.1*randn(1e5,1); % date distribuite N (5, 1.1)hist(y,x)

  • LSA 1 [Dr. Iulian Stoleriu] 16

    0 2 4 6 8 100

    50

    100

    150

    200

    250

    Figura 2.2: Reprezentarea cu histograme a datelor normale.

    Generarea de numere aleatoare de o repartiie dat

    Comenzile Matlab

    legernd(, m, n)

    i

    random('lege', , m, n).

    Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu m linii i n coloane, avnd componentenumere aleatoare ce urmeaz repartiia lege. n loc de lege putem scrie oricare dintre expresiile din Tabelul2.1. De exemplu,

    normrnd (5, 0.2, 100, 10);

    genereaz o matrice aleatoare cu 100 10 componente repartizate N (5, 0.2).

    random ('poiss',0.01, 200, 50);

    genereaz o matrice aleatoare cu 200 50 componente repartizate P(0.01).Utiliznd comanda

    randtool

    putem reprezenta interactiv selecii aleatoare pentru diverse repartiii. Comanda deschide o interfagrac ce reprezint prin histograme seleciile dorite, pentru parametrii dorii (vezi Figura 2.3). Datelegenerate deMatlab pot exportate n ierulWorkspace cu numele dorit. De exemplu, folosind dateledin Figura 2.3, am generat o selecie aleatoare de 10000 de numere ce urmeaz repartiia lognormal deparametri = 2 i = 0.5 i am salvat-o (folosind butonul Export) ntr-un vector L.

  • LSA 1 [Dr. Iulian Stoleriu] 17

    Figura 2.3: Interfa pentru generarea de numere aleatoare de o repartiie dat.

    Tabelul 2.1 conine cteva repartiii uzuale i funciile corespunztoare n Matlab.

    repartiii probabilistice discrete repartiii probabilistice continue

    norm: repartiia normal N (, )bino: repartiia binomial B(n, p) unif: repartiia uniform continu U(a, b)nbin: repartiia binomial negativ BN(n, p) exp: repartiia exponenial exp()poiss: repartiia Poisson P() gam: repartiia Gamma (a, )unid: repartiia uniform discret U(n) beta: repartiia Beta (m,n)geo: repartiia geometric Geo(p) logn: repartiia lognormal logN (, )hyge: repartiia hipergeometric H(n, a, b) chi2: repartiia 2(n)

    t: repartiia student t(n)f: repartiia Fisher F(m, n)

    wbl: repartiia Weibull Wbl(k, )

    Tabela 2.1: Repartiii uzuale n Matlab

  • LSA 1 [Dr. Iulian Stoleriu] 18

    Simularea unui experiment aleator

    Simularea aruncrii unei monede

    Comanda

    X = (rand < 0.5);

    simuleaz aruncarea unei monede ideale. Vom mai spunem c numrul X astfel generat este unnumr aleator repartizat B(1, 0.5) (similar cu schema bilei revenite, n cazul n care o urn are bilealbe i negre n numr egal i extragem o bil la ntmplare)

    Numrul

    Y = sum (rand(30,1)

  • LSA 1 [Dr. Iulian Stoleriu] 19

    Folosind aceast metod, putem simula aruncarea unui zar ideal. Avem 6 rezultate posibile, i anume,apariia unei fee cu 1, 2, 3, 4, 5 sau 6 puncte. Pentru a simula acest experiment, modicm n modconvenabil problema. Vom considera c punctele din intervalul [0, 1] formeaz mulimea tuturor cazurilorposibile i mprim intervalul [0, 1] n 6 subintervale de lungimi egale:{

    (0,1

    6), (

    1

    6,

    2

    6), (

    2

    6,

    3

    6), (

    3

    6,

    4

    6), (

    4

    6,

    5

    6), (

    5

    6, 1)

    }.

    corespunztoare, respectiv, celor ase fee, s zicem n ordinea cresctoare a punctelor de pe ele. Vomvedea mai trziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete nchise, deschisesau mixte nu are efect practic asupra calculului probabilitii dorite. Acum, dac dorim s simulm nMatlab apariia feei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un numr "lantmplare" din intervalul [0, 1] i vericm dac acesta se a n intervalul (26 ,

    36). Aadar, comanda

    Matlab

    u = rand; (u < 3/6 & u > 2/6)

    simuleaz aruncarea unui zar ideal. Ca o observaie, deoarece cele 6 fee sunt identice, putem simplicaaceast comanda i scrie

    (rand < 1/6).

    Repartiii probabilistice n Matlab

    Funcia de probabilitate (pentru v.a. discrete) i densitatea de repartiie (pentru v.a. continue) (ambelenotate anterior prin f(x)) se introduc n Matlab cu ajutorul comenzii pdf, astfel:

    pdf('LEGE', x, ) sau LEGEpdf(x, ).

    Funcia de repartiie F (x) a unei variabile aleatoare se poate introduce n Matlab cu ajutorul comenziicdf, astfel:

    cdf('LEGE', x, ) sau LEGEcdf(x, ).

    Inversa funciei de repartiie pentru repartiii continue, F1(y), se introduce cu comanda icdf, astfel:

    icdf('LEGE', y, ) sau LEGEinv(y, ).

    n comenzile de mai sus, LEGE poate oricare dintre legile de repartiie din Tabelul 2.1, x este un scalar sauvector pentru care se calculeaz f(x) sau F (x), y este un scalar sau vector pentru care se calculeaz F1(y),iar este un scalar sau un vector ce reprezint parametrul (parametrii) repartiiei considerate.

    Observaia 2.2. Fie X o variabil aleatoare i F (x, ) funcia sa de repartiie, ind parametrul repar-tiiei. Pentru un x R, relaia matematic

    P (X x) = F (x)

    o putem scrie astfel n Matlab:

    cdf('numele repartiiei lui X',x,). (2.1)

  • LSA 1 [Dr. Iulian Stoleriu] 20

    Problema poate aparea la evaluarea n Matlab a probabilitii P (X < x). Dac repartiia considerateste una continu, atunci corespondentul n Matlab este tot (2.1), deoarece n acest caz

    P (X x) = P (X < x) + P (X = x) = P (X < x).

    De exemplu, dac X N (5, 2), atunci

    P (X < 4) = cdf('norm', 4, 5, 2).

    Dac X este de tip discret, atunci

    P (X < x) =

    {P (X [x]) , x nu e ntregP (X m 1) , x = m Z,

    unde [x] este partea ntreag a lui x.De exemplu, dac X B(10, 0.3), atunci

    P (X < 5) = P (X 4)= cdf('bino', 4, 10, 0.3) = 0.8497.

    Exerciii rezolvate

    Exerciiu 2.1. Un sondaj preliminar a determinat c 42% dintre persoanele cu drept de vot dintr-oanumit ar ar vota candidatul C pentru preedinie. Alegem la ntmplare 200 de votani. Care esteprobabilitatea ca un procent dintre acetia, situat ntre 40% i 50%, l vor vota pe C la preedinie?

    - S notm cu p = 0.42 i cu X variabila aleatoare ce reprezint numrul de votani ce au alescandidatul C, din selecia aleatoare de volum n = 200 considerat. Este clar c X B(n, p). Se cereprobabilitatea P (80 X 100) (deoarece 40% din 200 nseamn 80 etc). Deoarece X este o variabilaleatoare discret, avem c:

    P = P (80 X 100) = P (X 100) P (X < 80) = FX(100) FX(79),

    unde FX este funcia de repartiie a lui X.n Matlab:

    P = binocdf(100, 200, 0.42) - binocdf(79, 200, 0.42) = 0.7303.

    Exerciiu 2.3. O companie independent de evaluri statistice a estimat ca un anumit candidat are 25%anse s ctige alegerile locale. Dorim s efectum un alt sondaj de opinie care s verice rezultatulcompaniei. Determinai care ar trebui s e volumul minim de selecie pentru ca, cu o probabilitate de celpuin 0.97, procentul de alegtori ce intenioneaz s-l voteze pe respectivul candidat se ncadreaz ntrevalorile 20% i 30%. Determinai volumul minim folosind dou metode: teorema lui Cebev i teoremalimit central.

    Soluie: S notm cu n numrul de votani (din n alei aleator) care voteaz cu respectivul candidat.Se cere cel mai mic n N pentru care

    P(

    0.2 nn 0.3

    ) 0.97,

  • LSA 1 [Dr. Iulian Stoleriu] 21

    echivalent cuP(nn 0.25

    0.05) 0.97.(i) Observm c variabila aleatoare n B(n, 0.25), de unde E(n) = n4 i V ar(n) = 3n16 . Aadar,

    E(nn

    ) = 0.25, V ar(nn

    ) =3

    16n.

    Folosim inegalitatea lui Cebev pentru X = nn , a = 0.05. Gsim c:

    P(nn 0.25

    0.05) 1 V ar (nn )0.052

    = 1 75n.

    Impunem condiia

    1 75n 0.97,

    de unde obinem c n 2500 .(ii) Cutm n astfel nct

    P(0.05 n

    n 0.25 0.05

    )= 0.97. (2.2)

    Ne ateptm ca valoarea lui n s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,scriem c variabila aleatoare standardizat

    n E(n)(n)

    = 4n 0.25n

    3n N (0, 1).

    Folosind aceasta, rescriem egalitatea (2.2) astfel:

    0.97 = P(0.05 n

    n 0.25 0.05

    )= P

    (0.05 4

    n

    3 4n 0.25n

    3n 0.05 4

    n

    3

    )=

    (0.2

    n

    3

    )

    (0.2

    n

    3

    )=

    (0.2

    n

    3

    )[1

    (0.2

    n

    3

    )]= 2

    (0.2

    n

    3

    ) 1

    de unde (0.2

    n3

    )= 0.985 i 0.2

    n3 = z0.985 2.17 (cuantila de ordin 0.985 pentru repartiia normal

    standard). Din ultima egalitate gsim c n 353.1969. n Matlab, calculm astfel:

    n = 3*(norminv(0.985,0,1)/0.2)^2

    Aadar, pentru ca relaia din enun s aib loc, va trebui ca n 354 .Observm, din nou, c aceast valoare este mult mai mic dect cea gsit anterior.

  • LSA 1 [Dr. Iulian Stoleriu] 22

    Exerciii propuse

    Exerciiu 2.2. Temperatura T (0C) dintr-un anumit proces chimic are repartiia U(5, 5).Calculai P (T < 0); P (2.5 < T < 2.5); P (2 T 3).

    Exerciiu 2.3. Temperatura de topire a unui anumit material este o v.a. cu media de 120 oC i deviaiastandard de 2 oC. Determinai temperatura medie i deviaia standard n oF , tiind c oF = 1.8 oC + 32.

    Exerciiu 2.4. Dac Z N (0, 1), calculai:P (Z 1.35); P (0 Z 1); P (1 Z); P (|Z| > 1.5).

    Exerciiu 2.5. Calculai cuartilele repartiiei N (0, 1). De asemenea, calculai z0.95 i z0.975.

  • CSA 2 [Dr. Iulian Stoleriu] 23

    3 Elemente de Statistic descriptiv (C2)

    Statistica descriptiv este acea ramur a Statisticii care se preocup de descrierea datelor statistice, pringruparea, reprezentarea grac i calcularea unor msuri empirice ale formei sau tendinei datelor. Esteprimul pas pe care il face un statistician ce urmareste sa scoata informatii dintr-un set de date.

    Daca datele statistice sunt negrupate, atunci se prefera o grupare a lor in clase, pentru o mai bunaobservare a lor. Dupa gruparea in clase (care este la latitudinea statisticianului), datele sunt asezate intabele de frecvente. Aceste tabele pot contine, pe langa clasele construite, frecvente absolute, frecventerelative, frecvente cumulate, frontierele claselor, valorile de mijloc. Uneori doar un singur tip de frecventeeste sucient pentru a continua analiza datelor. Un exemplu de tabel de frecvente este Tabelul 3.4.

    Exista mai multe optiuni pentru reprezentarea graca a datelor, in functie de tipul de date pe care le avem.Spre exemplu, pentru date discrete sunt preferate reprezentarile cu bare sau cu sectoare de disc. Dupacaz, mai pot folosite reprezentari cu puncte sau stem&leaf. Pentru date continue se folosesc histogramesau sectoare de disc.

    Organizarea i descrierea datelor

    Presupunem c avem o colectivitate statistic, creia i se urmrete o anumit caracteristic (sau varia-bila). Spre exemplu, colectivitatea este mulimea tuturor studenilor dintr-o universitate nrolai n anulnti de master, iar caracteristica este media la licen obinut de ecare dintre aceti studeni. Teoretic,mulimea valorilor acestei caracteristici este intervalul [6, 10], iar aceasta variabila poate lua orice valoaredin acest interval.

    Vom numi date (sau date statistice) informaiile obinute n urma observarii valorilor acestei caracteristici.In cazul mentionat mai sus, datele sunt mediile la licen observate. n general, datele pot calitative (semai numesc i categoriale) sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ(exprima o calitate sau o categorie) sau, respectiv, cantitativ (are o valoare numerica). Totodata, acestedate pot date de tip discret, dac sunt obinute n urma observrii unei caracteristici discrete (o variabilaaleatoare discret, sau o variabila ale carei posibile valori sunt in numar nit sau cel mult numarabil),sau date continue, dac aceast caracteristic este continu (o variabil aleatoare de tip continuu, sau ovariabila ce poate lua orice valoare dintr-un interval sau chiar de pe axa reala). n cazul din exemplul demai sus, datele vor cantitative i continue.

    n Statistica clasic, se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z, . . ., sivalorile lor cu litere mici, x, y, z, . . .. In mare parte din acest curs vom folosi notatia Z pentru variabilaaleatoare si cu z o posibila valoare (sau realizare) a sa. Daca in exemplul de mai sus notam cu Z variabilamedie la licenta, atunci un anume z observat va media la licenta pentru un student din colectivitateales aleator.

    Primul pas n analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea i re-prezentarea graca a datelor, dar i n calcularea anumitor caracteristici numerice pentru acestea. Datelenainte de prelucrare, adic exact aa cum au fost culese, se numesc date negrupate. Un exemplu dedate negrupate (de tip continuu) sunt cele observate in Tabelul 3.1, reprezentnd timpi (n min.sec) deateptare pentru primii 100 de clieni care au ateptat la un ghieu pn au fost servii.

    De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urmrete ase grupa datele, pentru o mai uoar gestionare. Imaginai-v c enumerm toate voturile unei seleciintmpltoare de 15000 de votani, abia ieii de la vot. Mai degrab, ar mai util i practic s grupm

  • CSA 2 [Dr. Iulian Stoleriu] 24

    1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76

    0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14

    2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28

    0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67 3.89

    1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74 4.85

    3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 4.12

    3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88

    5.36 1.32

    Tabela 3.1: Date statistice negrupate

    datele dup numele candidailor, preciznd numrul de voturi ce l-a primit ecare. Asadar, pentru o maibuna descriere a datelor, este necesara gruparea lor in clase de interes.

    Gruparea datelor

    Datele prezentate sub form de tabel (sau tablou) de frecvene se numesc date grupate. Datele de selecieobinute pot date discrete sau date continue, dup cum caracteristicile studiate sunt variabile aleatoarediscrete sau, respectiv, continue.

    (1) Date de tip discret: Dac datele de selecie sunt discrete (e.g., {z1, z2, . . . , zn}), este posibil camulte dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt z1, z

    2, . . . , z

    r,

    r n. Atunci, putem grupa datele ntr-un aa-numit tabel de frecvene (vezi exemplul din Tabelul8.1). Alternativ, putem organiza datele negrupate ntr-un tabel de frecvene, dup cum urmeaz:

    data z1 z2 . . . z

    r

    frecventa f1 f2 . . . fr(3.1)

    unde fi este frecvena apariiei valorii zi, (i = 1, 2, . . . , r), i se va numi distribuia empiric de selecie alui Z. Aceste frecvene pot absolute sau de relative. Un tabel de frecvene (sau o distribuie de frecvene)conine cel puin dou coloane: o coloan ce reprezint datele observate (grupate n clase) i o coloande frecvene. n prima coloan apar clasele, adic toate valorile distincte observate. Datele din aceastcoloan nu se repet. Prin frecvena absolut a clasei nelegem numrul de elemente ce aparine ecreiclase n parte. De asemenea, un tabel de frecvene mai poate conine frecvene relative sau cumulate. Ofrecven relativ se obine prin mprirea frecvenei absolute a unei categorii la suma tuturor frecvenelordin tabel. Astfel, suma tuturor frecvenelor relative este egal cu 1. Frecvena (absolut) cumulat a uneiclase se obine prin cumularea tuturor frecvenelor absolute pn la (inclusiv) clasa respectiv. Frecvenarelativ cumulat a unei clase se obine prin cumularea tuturor frecvenelor relative pn la (inclusiv)clasa respectiv.

    Aadar, elementele unui tabel de frecvene pot : clasele (ce conin valori pentru variabile), frecveneabsolute, frecvene relative sau cumulate. ntr-un tabel, nu este obligatoriu s apar toate coloanele cufrecvene sau ele s apar n aceast ordine.

    Vom numi o serie de timpi (sau serie dinamic ori cronologic) un set de date culese la momente diferitede timp. O putem reprezenta sub forma unui tablou de forma

    data :

    (z1 z2 . . . znt1 t2 . . . tn

    ),

    unde zi sunt valorile caracteristicii, iar ti momente de timp (e.g., rspunsurile citite de un electrocardio-graf).

  • CSA 2 [Dr. Iulian Stoleriu] 25

    nota frecvena absolut frecvena cumulat frecvena relativ frecvena relativ cumulat2 2 2 2.22% 2.22%3 4 6 4.44% 6.66%4 8 14 8.89% 15.55%5 15 29 16.67% 32.22%6 18 47 20.00% 52.22%7 17 64 18.89% 71.11%8 15 79 16.67% 87.78%9 7 86 7.78% 95.56%10 4 90 4.44% 100%

    Total 90 - 100% -

    Tabela 3.2: Tabel cu frecvene pentru date discrete.

    n Tabelul 8.1, sunt prezentate notele studenilor din anul al III-lea la examenul de Statistic. Acesta esteexemplu de tabel ce reprezent o caracteristic discret.

    (o glum povestit de G. Plya,2 despre cum NU ar trebui interpretat frecvena relativ)Un individ suferind merge la medic. Medicul l examineaz ndelung i, balansnd dezamgit capul, i spunepacientului:"Of... drag domnule pacient, am dou veti: una foarte proast i una bun. Mai nti v aduc la cunotinvestea proast: suferii de o boal groaznic. Statistic vorbind, din zece pacieni ce contracteaz aceast boal,doar unul scap."Pacientul, deja n culmea disperrii, este totui consolat de doctor cu vestea cea bun:"Dar, i pe pace! Dumneavoastr ai venit la mine, i asta v face tare norocos", continu optimist doctorul."Am avut deja nou pacieni ce au avut aceeai boal i toi au murit, aa c... vei supravieui!"

    (2) Date de tip continuu: Dac datele statistice sunt realizri ale unei variabile Z de tip continuu,atunci se obinuieste s se fac o grupare a datelor de selecie n clase. Datele de tip continuu pot grupate ntr-un tablou de distribuie sau sub forma unui tabel de distribuie, dupa cum urmeaza:

    data [a0, a1) [a1, a2) . . . [ar1, ar)frecventa f1 f2 . . . fr

    clasa frecvena valoare medie[a0, a1) f1 z

    1

    [a1, a2) f2 z2

    ......

    ...[ar1, ar) fr z

    r

    Tabela 3.3: Tabel cu frecvene pentrudate de tip continuu.

    n particular, putem grupa datele de tip continuu din Tabelul 3.1 n tabloul de distribuie urmtor:

    data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)frecventa 14 17 21 18 16 14

    Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot modicate dupa cum doreste utiliza-torul. Uneori, tabelul de distribuie pentru o caracteristic de tip continuu mai poate scris i sub formaunui tabel ca in (3.1), unde

    2Gyrgy Plya (1887 1985), matematician ungur

  • CSA 2 [Dr. Iulian Stoleriu] 26

    vrsta frecvena frecvena relativ frecvena cumulat vrsta medie[18, 25) 34 8.83% 8.83% 21.5[25, 35) 76 19.74% 28.57% 30[35, 45) 124 32.21% 60.78% 40[45, 55) 87 22.60% 83.38% 50[55, 65) 64 16.62% 100.00% 60Total 385 100% - -

    Tabela 3.4: Tabel cu frecvene pentru rata somajului.

    zi =ai1 + ai

    2este elementul de mijloc al clasei [ai1, ai);

    fi este frecvena apariiei valorilor din [ai1, ai), (i = 1, 2, . . . , r),ri=1

    fi = n.

    Pentru denirea claselor unui tabel de frecvene, nu exist o regul precis. Fiecare utilizator de date ipoate crea propriul tabel de frecvene. Scopul nal este ca acest tabel s scoat n eviden caracteristiceledatelor, cum ar : existena unor grupe (clase) naturale, variabilitatea datelor ntr-un anumit grup (clas),informaii legate de existena unor anumite date statistice care nu au fost observate in selecia dat etc.n general, aceste caracteristici nu ar putea observate privind direct setul de date negrupate. Totui,pentru crearea tabelelor de frecvene, se recomand urmtorii pai:

    1. Determinarea numrului de clase (disjuncte). Este recomandat ca numrul claselor s e ntre 5 i20. Dac volumul datelor este mic (e.g., n < 30), se recomand constituirea a 5 sau 6 clase. Deasemenea, dac este posibil, ar util ca ecare clas s e reprezentat de cel puin 5 valori (pentruun numr mic de clase). Dac numrul claselor este mai mare, putem avea i mai puine date ntr-oclas, dar nu mai puin de 3. O clas cu prea puine valori (0, 1 sau 2) poate s nu e reprezentativ.

    2. Determinarea limii claselor. Dac este posibil, ar bine dac toate clasele ar avea aceeai lime.Acest pas depinde, n mare msur, de alegerea din pasul anterior.

    3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel nct ecare dat sta-tistic s aparine unei singure clase.

    n practic, un tabel de frecvene se realizeaz prin ncercri, pn avem convingerea c gruparea fcutpoate surprinde ct mai del datele observate.

    Aadar, dac ne este dat o niruire de date ale unei caracteristici discrete sau continue, atunci le putemgrupa imediat n tabele sau tablouri de frecvene. Invers (avem tabelul sau tabloul de repartiie i vrem senumerm datele) nu este posibil, dect doar n cazul unei caracteristici de tip discret. De exemplu, dacni se d Tabelul 3.4, ce reprezint rata somajului ntr-o anumit regiune a rii pe categorii de vrste, nuam putea ti cu exactitate vrsta exact a persoanelor care au fost selecionate pentru studiu.

    Observm c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi valoare demijloc pentru o clas, valoarea obinut prin media valorilor extreme ale clasei. n cazul Tabelului 3.4,valorile de mijloc sunt scrise n coloana cu vrsta medie. Frecvena cumulat a unei clase este suma frec-venelor tuturor claselor cu valori mai mici.

  • CSA 2 [Dr. Iulian Stoleriu] 27

    Reprezentarea datelor statistice

    Un tabel de frecvene sau o distribuie de frecvene (absolute sau relative) sunt de cele mai multe ori bazaunor reprezentri grace, pentru o mai bun vizualizare a datelor. Aceste reprezentri pot fcute ndiferite moduri, dintre care amintim pe cele mai uzuale.

    Reprezentare prin puncte

    Reprezentarea prin puncte (en., dot plot) este folosit, deregula, pentru selecii de date de tip discret de dimensiunimici. Sunt reprezentate puncte aezate unul peste celalalt,reprezentnd numrul de apariii ale unei valori pentrucaracteristica dat. Un astfel de grac este reprezentat nFigura 3.1. Aceste reprezentri sunt utile atunci cnd sedorete scoaterea n eviden a anumitor plcuri de date(en., clusters) sau chiar lipsa unor date (goluri). Au avan-tajul de a conserva valoarea numeric a datelor reprezentate.

    Figura 3.1: Reprezentarea cu puncte.

    Reprezentarea stem-and-leaf

    Este folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic. Urmtorul set dedate negrupate reprezinta punctajele (din 100 de puncte) obinute de cei 20 de elevi ai unui an de studiula o testare semestrial:

    50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96

    Tabelul 3.3 reprezint aceste date sub forma stem-and-leaf (ramur-frunz). Se observ c acest tabelarat att cum sunt repartizate datele, ct i forma repartiiei lor (a se privi gracul c avnd pe OYdrept axa absciselor i OX pe cea a ordonatelor). Aadar, 7|5 semnic un punctaj de 75. Pentru unvolum prea mare de date, aceast reprezentare nu este cea mai bun metod de vizualizare a datelor. nseciunile urmtoare vom prezenta i alte metode utile.

  • CSA 2 [Dr. Iulian Stoleriu] 28

    Figura 3.2: Reprezentarea datelor discrete.

    stem leaf109 2 68 1 5 6 87 3 5 7 7 7 96 1 2 2 4 8 85 0 3 5 94 1 4 83 4 921 80

    Figura 3.3: Tabel stem-and-leaf reprezentndpunctajele studenilor.

    Reprezentarea cu bare (bar charts)

    Este util pentru reprezentarea variabilelor discrete cu un numr mic de valori diferite. Barele suntdreptunghiuri ce reprezint frecvenele i nu sunt unite ntre ele. Fiecare dreptunghi reprezint o singurvaloare. ntr-o reprezentare cu bare, categoriile sunt plasate, de regul, pe orizontal iar frecvenele pevertical. n Figura 3.41 sunt reprezentate datele din tabelul cu note. Se poate schimba orientarea cate-goriilor i a claselor; n acest caz barele vor aprea pe orizontal (vezi Figura 3.42).

    Figura 3.4: Reprezentrile cu bare.

    Figura 3.5 contine o reprezentare de date folosind bare 3D.

  • CSA 2 [Dr. Iulian Stoleriu] 29

    Figura 3.5: Reprezentare 3D prin bare.

    Histograme

    Cuvntul "histogram" a fost introdus pentru prima oar de Karl Pearson3 n 1895. Acesta deriv dincuvintele greceti histos (gr., ridicat n sus) i gramma (gr., desen, nregistrare). O histogram este oform pictorial a unui tabel de frecvene, foarte util pentru selecii mari de date de tip continuu. Seaseamn cu reprezentarea prin bare, cu urmtoarele dou diferene: nu exist spaii ntre bare (dei, potaprea bare de nalime zero ce arat a spaiu liber) i ariile barelor sunt proporionale cu frecvenelecorespunztoare. Numrul de dreptunghiuri este egal cu numrul de clase, limea dreptunghiului esteintervalul clasei, iar nlimea este aa nct aria ecrui dreptunghi reprezint frecvena. Aria total atuturor dreptunghiurilor este egal cu numrul total de observaii. Dac barele unei histograme au toateaceeai lime, atunci nlimile lor sunt proporionale cu frecvenele. nlimile barelor unei histogrameise mai numesc i densiti de frecven.n cazul n care limile barelor nu sunt toate egale, atunci nlimile lor satisfac:

    nlimea = k frecvenalimea clasei

    , k = factor de proporionalitate.

    S presupunem c am grupat datele din Tabelul 3.5 ntr-o alt manier, n care clasele nu sunt echi-distante (vezi Tabelul 3.7). n Tabelul 3.7, datele din ultimele dou clase au fost cumulate ntr-o singurclas, de lime mai mare dect celelalte, deoarece ultima clas din Tabelul 3.5 nu avea suciente date.Histograma ce reprezint datele din Tabelul 3.7 este cea din Figura 3.8. Conform cu regula proporio-nalitii ariilor cu frecvenele, se poate observa c primele patru bare au nlimi egale cu frecvenelecorespunztoare, pe cnd nlimea ultimei bare este jumtate din valoarea frecvenei corespunztoare,deoarece limea acesteia este dublul limii celorlalte.

    3Karl Pearson (1857 1936), statistician, avocat i eugenist britanic

  • CSA 2 [Dr. Iulian Stoleriu] 30

    nlimea (n cm) frecvena[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 25) 10[25, 30) 2

    Tabela 3.5: Tabel cu nlimile plantelor.

    Tabela 3.6: Histograme pentru datele din Tabelul 3.5.

    n general, pentru a construi o histogram, vom avean vedere urmtoarele: datele vor mprite (unde este posibil) n clasede lungimi egale. Uneori aceste divizri sunt naturale,alteori va trebui s le fabricm. numrul de clase este, n general, ntre 5 i 20. nregistrai numrul de date ce cad n ecare clas(numite frecvene). gura ce conine histograma va avea clasele pe ori-zontal i frecvenele pe vertical.

    Figura 3.6: Histogram 3D.

    Observaia 3.1. (1) Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 3.7 este[20, )), atunci se obinuiete ca limea ultimului interval s e luat drept dublul limii intervaluluiprecedent.(2) n multe situaii, capetele intervalelor claselor sunt nite aproximri, iar n locul acestora vom puteautiliza alte valori. Spre exemplu, s considerm clasa [15, 20). Aceast clas reprezint clasa acelor plantece au nlimea cuprins ntre 15cm i 20cm. Deoarece valorile nlimilor sunt valori reale, valorile 15i 20 sunt, de fapt, aproximrile acestor valori la cel mai apropiat ntreg. Aadar, este posibil ca aceastclas s conin acele plante ce au nlimile situate ntre 14.5cm (inclusiv) i 20.5cm (exclusiv). Amputea face referire la aceste valori ca ind valorile reale ale clasei, numite frontierele clasei. n cazul ncare am determinat frontierele clasei, limea unei clase se denete ca ind diferena ntre frontierele ce-icorespund. n concluzie, n cazul clasei [15, 20), aceasta are frontierele 14.5 - 20.5, limea 6 i densitateade frecven 176 . Pentru exemplicare, n Tabelul 3.9 am prezentat frontierele claselor, limile lor idensitile de frecven pentru datele din Tabelul 3.4.

    Reprezentare prin sectoare de disc (pie charts)

    Se poate reprezenta distribuia unei caracteristici i folosind sectoare de disc (diagrame circulare) (en.,pie charts), ecare sector de disc reprezentnd cte o frecven relativ. Aceast variant este util nspecial la reprezentarea datelor calitative.

  • CSA 2 [Dr. Iulian Stoleriu] 31

    nlimea (n cm) frecvena[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 30) 12

    Tabela 3.7: Tabel cu nlimile plantelor.

    Tabela 3.8: Histograme pentru datele din Tabelul 3.7.

    nlimea (n cm) frontierele limea frecvena densitatea de frecven[18, 25) 17.5 25.5 8 34 4.25[25, 35) 24.5 35.5 11 76 6.91[35, 45) 34.5 45.5 11 124 11.27[45, 55) 44.5 55.5 11 87 7.91[55, 65) 54.5 65.5 11 64 5.82

    Tabela 3.9: Tabel cu frontierele claselor.

    Exist i posibilitatea de a reprezenta datele prin sectoare 3 dimensionale. n Figura 3.8 am reprezentatdatele din Tabelul 3.4.

    10%

    11%

    16%

    26%

    22%

    16%

    Nota 5Nota 6Nota 7Nota 8Nota 9Nota 10

    Figura 3.7: Reprezentarea pe disc a frecvenelor rela-tive ale notelor din tabelul cu note

    Figura 3.8: Reprezentare pe disc 3D

  • CSA 2 [Dr. Iulian Stoleriu] 32

    OgivePentru frecventele cumulate pot folosite ogive. Oogiv reprezint gracul unei frecvene cumulate(absolut sau relativ).

    X = [2 4 8 15 18 17 15 7 4];

    plot(2:10, cumsum(X), '*-')

    Figura 3.9: Ogiva pentru frecvenele absolutecumulate din Tabelul 8.1

    Diagrama Q-Q sau diagrama P-P

    Q-Q plot (diagrama cuantila-cuantila) si P-P plot (diagrama probabilitate-probabilitate) sunt utilizate in adetermina apropierea dintre doua seturi de date (repartitii). Daca datele provin dintr-o acceasi repartitie,atunci ele se aliniaza dupa o dreapta desenata in gura. Diagrama Q-Q este bazata pe rangurile valorilor,iar diagrama P-P este bazata pe functiile de repartitie empirice.

    Figura 3.10: Exemplu de diagrama Q-Q plot

    S considerm o populaie statistic de volum N i o caracteristic a sa, X, ce are funcia de repartiieF . Asupra acestei caracteristici facem n observaii, n urma crora culegem un set de date statistice.Dup cum am vzut anterior, datele statistice pot prezentate ntr-o form grupat (descrise prin tabelede frecvene) sau pot negrupate, exact aa cum au fost culese n urma observrilor. Pentru analizaacestora, pot utilizate diverse tehnici de organizare i reprezentare grac a datelor statistice ns, decele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat. Suntem interesai n a

  • CSA 2 [Dr. Iulian Stoleriu] 33

    atribui acestor date anumite valori numerice reprezentative. Pot denite mai multe tipuri de astfel devalori numerice, e.g., msuri ale tendinei centrale (media, modul, mediana), msuri ale dispersiei (dis-persia, deviaia standard), msuri de poziie (cuantile, distana intercuantilic) etc. n acest capitol, vomintroduce diverse msuri descriptive numerice, att pentru datele grupate, ct i pentru cele negrupate.

    Msuri descriptive ale datelor negrupate

    Considerm un set de date statistice negrupate, x1, x2, . . . , xn (xi R, i = 1, 2 . . . , n, n N), ce cores-pund unor observaii fcute asupra variabilei X. Pe baza acestor observatii, denim urmtoarele msuridescriptive ale datelor, in scopul de a estima parametrii reali ai caracteristicilor populatiei. Deoarece elese bazeaza doar pe observatiile culese, aceste masuri se mai numesc si masuri empirice.

    Valoarea medie

    Este o msur a tendinei centrale a datelor. Pentru o selecie {x1, x2, . . . , xn}, denim:

    x =1

    n

    ni=1

    xi,

    ca ind media datelor observate. Aceasta medie empirica este un estimator pentru media teoretica, = EX, daca aceasta exista.

    Pentru ecare i, cantitatea di = xi x se numete deviaia valorii xi de la medie. Aceasta nu poate denit ca o msur a gradului de mprtiere a datelor, deoarece

    ni=1

    (xi x) = 0.

    Momentele

    Pentru k N, momentele de ordin k se denesc astfel:

    k =1

    n

    ni=1

    xki .

    Pentru ecare k N, momentele centrate de ordin k se denesc astfel:

    k =1

    n

    ni=1

    (xi x)k.

    Dispersia

    Aceasta este o msur a gradului de mprtiere a datelor n jurul valorii medii. Pentru o selecie{x1, x2, . . . , xn}, denim dispersia astfel:

    s2 = 2 =1

    n 1ni=1

    (xi x)2(

    =1

    n 1[ni=1

    x2i n(x)2]).

  • CSA 2 [Dr. Iulian Stoleriu] 34

    Deviaia standard

    Este tot o msur a mprtierii datelor n jurul valorii medii. Pentru o selecie {x1, x2, . . . , xn},denim deviaia standard:

    s =

    1n 1

    ni=1

    (xi x)2.

    Coecientul de variaie (sau de dispersie)

    Aceste coecient (de obicei, exprimat n procente) este util atunci cnd comparm dou repartiiiavnd uniti de msur diferite. Nu este folosit atunci cnd x sau este foarte mic. Pentrudoua populatii care au aceeasi deviatie standard, gradul de variatie a datelor este mai mare pentrupopulatie ce are media mai mica.

    CV =s

    x, coecient de variaie,

    Amplitudinea (plaja de valori, range)

    Pentru un set de date, amplitudinea (en., range) este denit ca ind diferena dintre valoarea ceamai mare i valoarea cea mai mic a datelor, i.e., xmax xmin.

    Scorul z

    Este numrul deviaiilor standard pe care o anumit observaie, x, le are sub sau deasupra mediei.Pentru o selecie {x1, x2, . . . , xn}, scorul X este denit astfel:

    x =x xs

    .

    Corelaia (covariana)

    Dac avem n perechi de observaii, (x1, y1), (x2, y2), . . . , (xn, yn), denim corelaia (covariana):

    covsel =1

    n 1ni=1

    (xi x)(yi y). (3.2)

    Coecientul de corelaie

    rsel =covselsxsy

    , coecient de corelaie,

    Funcia de repartiie empiric

    Se numete funcie de repartiie empiric asociat unei variabile aleatoareX i unei selecii {x1, x2, . . . , xn},funcia F n : R [0, 1], denit prin

    F n(x) =card{i; xi x}

    n. (3.3)

    Propoziia de mai jos arat c funcia de repartiie empiric aproximeaz funcia de repartiieteoretic (vezi Figura 3.11).

    Propoziie: Fie o colectivitate statistic i X o caracteristic a sa, ce se dorete a studiat.Notez cu F (x) funcia de repartiie (teoretica) a lui X. Pentru o selecie de valori ale lui X,{x1, x2, . . . , xn}, construim funcia de repartiie empiric, F n(x). Atunci:

    F n(x)prob F (x), cnd n, x R.

  • CSA 2 [Dr. Iulian Stoleriu] 35

    Figura 3.11: Funcia de repartiie empiric i funcia de repartiie teoretic pentru distribuia normal.

    Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se denete prin

    1 =3

    3/22

    =3s3

    =1n

    ni=1(xi x)3[

    1n1

    ni=1(xi x)2

    ]3/2 .O repartiie este simetric dac 1 = 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac1 > 0 i negativ (sau la stnga) dac 1 < 0.

    Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se denete prin

    K =422 3 = 4

    s4 3 =

    1n

    ni=1(xi x)4(

    1n

    ni=1(xi x)2

    )2 3.Este o msur a boltirii distribuiei (al patrulea moment standardizat). Termenul (3) apare pentruc indicele kurtosis al distribuiei normale s e egal cu 0. Vom avea o repartiie mezocurtic pentruK = 0, leptocurtic pentru K > 0 sau platocurtic pentru K < 0. Un indice K > 0 semnic faptulc, n vecintatea modului, curba densitii de repartiie are o boltire (ascuire) mai mare dectclopotul lui Gauss. Pentru K < 0, n acea vecintate curba densitii de repartiie este mai platdect curba lui Gauss.

    Cuantile

    Cuantilele (de ordin q) sunt valori ale unei variabile aleatoare care separ repartiia ordonat n qpri egale.Pentru q = 2, cuantila xq se numete median, notat prin x0.5 sau Me.Presupunem c observaiile sunt ordonate, x1 < x2 < < xn. Pentru aceast ordine, denimvaloarea median:

    x0.5 =

    {x(n+1)/2 , dac n = impar;

    (xn/2 + xn/2+1)/2 , dac n = par;

    Pentru q = 4, cuantilele se numesc cuartile (sunt n numr de 3). Prima cuartil, notat x0.25 sauQ1, se numete cuartila inferioar, a doua cuartil este mediana, iar ultima cuartil, notat x0.75

  • CSA 2 [Dr. Iulian Stoleriu] 36

    sau Q3, se numete cuartila superioar. Diferena Q3 Q1 se numete distana intercuartilic.Pentru q = 10 se numesc decile (sunt n numr de 9), pentru q = 100 se numesc percentile (sunt nnumr de 99), pentru q = 1000 se numesc permile (sunt n numr de 999). Sunt msuri de poziie,ce msoar locaia unei anumite observaii fa de restul datelor.

    Modul

    Modul (sau valoarea modal) este acea valoare x din setul de date care apare cel mai des. Un setde date poate avea mai multe module. Dac apar dou astfel de valori, atunci vom spune c setulde date este bimodal, pentru trei astfel de valori avem un set de date trimodal etc. n cazul n caretoate valorile au aceeai frecven de apariie, atunci spunem c nu exist mod. De exemplu, setulde date

    1 3 5 6 3 2 1 4 4 6 2 5

    nu admite valoare modal. Nu exist un simbol care s noteze distinctiv modul unui set de date.

    Valori aberante (en. outliers)

    Valorile aberante sunt valori statistice observate care sunt ndeprtate de marea majoritate a ce-lorlalte observaii. Ele pot aprea din cauza unor msurtori defectuoase sau n urma unor eroride msurare. De cele mai multe ori, ele vor excluse din analiza statistic. Din punct de vederematematic, valorile aberante sunt valorile ce nu aparin intervalului urmtor.

    [Q1 1.5(Q3 Q1), Q3 + 1.5(Q3 Q1)]

    Sinteza prin cele cinci valori statistice (ve number summary)

    Reprezint cinci msuri statistice empirice caracteristice unui set de date statistice. Acestea sunt(n ordine cresctoare): cea mai mic valoare observat (min

    i{xi}), prima cuartil (Q1), mediana

    (Me), a treia cuartil (Q3) i cea mai mare valoare observat (maxi{xi}). Aceste cinci numere pot

    reprezentate grac ntr-o diagram numit box-and-whisker plot.

    n gurile de mai jos sunt desenate astfel de diagrame. Datele din Tabelul 3.4 sunt reprezentate nprima gur de mai jos prin dou diagrame box-and-whiskers. n prima diagram (numerotat cu 1)am generat uniform datele din tabel, pstrnd clasele; n a doua diagram am folosit reprezentareadatelor din acelai tabel prin centrele claselor. Reprezentrile sunt cele clasice, cu dreptunghiuri.Valorile aberante sunt reprezentate prin puncte n diagrama box-and-whisker plot.

    vrsta f. abs. f. rel. f. cum. mijlocul clasei[18, 25) 34 8.83% 8.83% 21.5[25, 35) 76 19.74% 28.57% 30[35, 45) 124 32.21% 60.78% 40[45, 55) 87 22.60% 83.38% 50[55, 65) 64 16.62% 100.00% 60Total 385 100% - -

    Tabela 3.10: Tabel cu frecvene.

    Figura 3.12: Box-an-whisker plot pentru dateledin Tabelul 3.4

  • CSA 2 [Dr. Iulian Stoleriu] 37

    n Figura 3.13, am reprezentat cu box-and-whiskerun set de date discrete ce conine dou valori abe-rante. Aici dreptunghiul a fost crestat (notchedbox-and whisker plot); lungimea crestturii oferindun interval de ncredere pentru median. Valorileaberante sunt reprezentate in gura prin puncte inafata range-ului datelor.

    Figura 3.13: Box-an-whisker plot pentru un set de datediscrete

    Msuri descriptive ale datelor grupate

    Considerm un set de date statistice grupate (de volum n), ce reprezinta observaii asupra variabilei X.

    Pentru o selecie cu valorile de mijloc {x1, x2, . . . , xr} i frecvenele absolute corespunztoare, {f1, f2,

    . . . , fr}, curi=1

    fi = n, denim:

    xf =1

    r

    ri=1

    xifi, media (empiric) de selecie, (sau, media ponderat)

    s2 =1

    n 1ri=1

    fi(xi xf )2 =1

    n 1

    (ri=1

    x2i fi n x2f

    ), dispersia empiric,

    s =s2, deviaia empiric standard.

    Formule similare se pot da i pentru msurile descriptive ale ntregii populaii.Mediana pentru un set de date grupate este acea valoare ce separ toate datele n dou pri egale. Sedetermin mai nti clasa ce conine mediana (numit clas median), apoi presupunem c n interiorulecrei clase datele sunt uniform distribuite. O formul dup care se calculeaz mediana este:

    Me = l +n2 FMefMe

    c,

    unde: l este limita inferioar a clasei mediane, n este volumul seleciei, FMe este suma frecvenelor pnla (exclusiv) clasa median, fMe este frecvena clasei mediane i c este limea clasei.

    Similar, formulele pentru cuartile sunt:

    Q1 = l1 +n4 FQ1fQ1

    c i Q3 = l3 +3n4 FQ3fQ3

    ,

  • CSA 2 [Dr. Iulian Stoleriu] 38

    unde l1 si l3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, iar FQ este sumafrecvenelor pn la (exclusiv) clasa ce contine cuartila, fQ este frecvena clasei unde se gaseste cuartila.

    Pentru a aa modul unui set de date grupate, determinm mai nti clasa ce conine aceast valoare (clasmodal), iar modul va calculat dup formula:

    Mod = l +d1

    d1 + d2c,

    unde d1 i d2 sunt frecvena clasei modale minus frecvena clasei anterioare i, respectiv, frecvena claseimodale minus frecvena clasei posterioare, l este limita inferioar a clasei modale i c este limea claseimodale.

    Transformari de date

    Uneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru a obtine valoriapropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilor observate (folosind functiileln sau log10, daca valorile sunt toate pozitive), radacina patrata a valorilor, transformarea logit, radacinide ordin superior etc. In Tabelul 3.11 am sugerat tipul de transformare ce poate utilizat in functie decoecientul de skewness 1.

    In ce conditii. . . skewness formula

    date aproape simetrice 0.5 < 1 < 0.5 nicio transformareskewness moderat pozitiv, date nenegative 0.5 1 < 1 yi =

    xi

    skewness moderat pozitiv, exista date < 0 0.5 1 < 1 yi =xi + C

    skewness moderat negativ 1 < 1 0.5 yi =C xi

    skewness mare negativ 1 1 yi = ln(C xi) sau yi = log10(C xi)skewness mare pozitiv, date pozitive 1 1 yi = lnxi sau yi = log10 xiskewness mare pozitiv, exista date 0 1 1 yi = ln(xi + C) sau yi = log10(xi + C)

    Tabela 3.11: Exemple de transformari de date statistice

    unde C > 0 este o constanta ce poate determinata astfel incat datele transformate sa aiba un skewnesscat mai aproape de 0. Aceasta constanta va aleasa astfel incat functia ce face transformarea este denita.

    De exemplu, presupunem ca datele observate sunt x1, x2, . . . , xn si acestea nu sunt toate pozitive, cuun coecient de asimetrie (skewness) 1 = 1.3495. Ne uitam la valoarea minima a datelor; aceasta estexmin = 0.8464. Pentru a obtine un set de valori pozitive, vom adauga valoarea 1 la toate datele observate.Apoi,logaritmam valorile obtinute. Cele doua procedee cumulate sunt echivalente cu folosirea directa aformulei ln(1 + xi) (adunand valoarea 1, am facut toate argumentele logaritmului pozitive). Obtinemastfel un nou set de date, si anume y1, y2, . . . , yn, unde yi = ln(1 + xi). Un exemplu este cel din Figura3.14. Se observa ca datele logaritmate sunt aproape normale. O analiza statistica poate condusa pentrudatele yi, urmand ca, eventual, la nal sa aplicam transformarea inversa xi = eyi 1 pentru a transformarezultatele pentru datele initiale.

  • CSA 2 [Dr. Iulian Stoleriu] 39

    Figura 3.14: Datele intiale si datele logaritmate

    Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor in puncteleneselectate), de multe ori este necesara transformarea inversa a datelor, pentru a determina proprietatiledatelor originale. De aceea, ar potrivit de a exprima indicatorii statistici atat pentru datele transformate,cat si pentru datele originale. Un exemplu este cel din Tabelul 3.12.

    Indicatorul datele originale datele tranformatexi yi = ln(1 + xi)

    Minimum 0.8464 1.8734Maximum 14.1107 2.7154Media 6.02142 1.51Cuartila Q1 3.1152 0.6532Mediana 6.5200 1.2512Cuartila Q3 8.7548 1.5785Deviatia standard 5.2511 0.7524Dispersia 27.5741 0.5661Skewness 6.2322 0.0233Kurtosis 78.6077 2.9786Numarul de observatii 100 1002 pentru testul de normalitate (cu 7 grade de libertate) 7.1445

    Tabela 3.12: Exemplu de indicatori pentru datele originale si pentru datele transformate

  • LSA 1 [Dr. Iulian Stoleriu] 40

    4 Statistica Aplicata (L2)

    Exerciiu 4.1. Urmtorul set de date reprezint preurile (n mii de euro) a 20 de case, vndute ntr-oanumit regiune a unui ora:

    113 60.5 340.5 130 79 475.5 90 100 175.5 100

    111.5 525 50 122.5 125.5 75 150 89 100 70

    (a) Determinai amplitudinea, media, mediana, modul, deviatia standard, cuartilele i distana intercu-artilic pentru aceste date. Care valoare este cea mai reprezentativ?(b) Desenai diagrama box-and-whiskers i comentai-o. Exista valori aberante?(c) Calculai coecientii de asimetrie si de aplatizare.

    Soluie: Rearanjm datele n ordine cresctoare:

    50 60.5 70 75 79 89 90 100 100 100 111.5

    113.5 122.5 125.5 130 150 175.5 340.5 475.5 525

    Amplitudinea este 525 50 = 475, media lor este 154.15, me-diana este

    100 + 111.5

    2= 105.75, modul este 100, cuartila in-

    ferioar este Q1 =79 + 89

    2= 84, Q2 = Me, cuartila superi-

    oar este Q3 =130 + 150

    2= 140 i distana intercuartilic este

    d = Q3 Q1 = 56.Mediana este valoarea cea mai reprezentativ n acest caz, deoa-rece cele mai mari trei preuri, anume 340.5, 475.5, 525, mrescmedia i o fac mai puin reprezentativ pentru celelalte date. ncazul n care setul de date nu este simetric, valoarea median estecea mai reprezentativ valoare a datelor.

    Deviatia standard este s =

    1n 1

    ni=1

    (xi x)2 = 133.3141. Fo-

    losind formulele, gasim ca 1 = 1.9598 (asimetrie la dreapta) siK = 5.4684 (boltire pronuntata). Figura 4.1: Box-an-whisker plot pentru

    datele din Exerciiul 4.1

    Valorile aberante sunt cele ce se aa in afara intervalului [Q11.5(Q3Q1), Q3+1.5(Q3Q1)] = [0, 178].Se observa ca valorile 340.5 475.5 525 sunt valori aberante, reprezentate prin puncte in gura.n Matlab,

    X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ...

    111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70

    a = range(X); m = mean(X); Me = median(X); Mo = mode(X); boxplot(X)

    Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75); d = Q3 - Q1;

    g1 = skewness(X); K = kurtosis(X);

  • LSA 1 [Dr. Iulian Stoleriu] 41

    Exerciiu 4.2. Considerm datele din Tabelul 3.5.(a) Determinai amplitudinea, media, mediana, modul, dispersia si distanta intercuartilic pentru acestedate.(b) Desenai diagrama box-and-whiskers i comentai-o. Exista valori aberante?

    Soluie: Amplitudinea este a = 30. Folosind centrele claselor, media este

    x =

    (x f)n

    =1

    70(2.5 5 + 7.5 13 + 12.5 23 + 17.5 17 + 22.5 10 + 27.5 2) = 13.9286.

    Dispersia este:

    s2 =1

    n 1(

    (x2 f) n x2)

    =1

    69(2.52 5 + 7.52 13 + 12.52 23 + 17.52 17 + 22.52 10 + 27.52 2 70 13.92862)

    = 37.06.

    Clasa median este clasa [10, 15). Deoarece n clasele anterioare ([0, 5) i [5, 10)) se a deja 5 + 13 = 18date mai mici dect mediana, pentru a aa valoarea median a plantelor (i.e., acea valoare care este maimare dect alte 35 de valori la stanga ei i mai mic dect alte 35 de plante de la dreapta sa), va trebuis determinm acea valoare din clasa median ce este mai mare dect alte 17 valori din aceast clas.Aadar, avem nevoie de a determina o fracie 1723 dintre valorile clasei mediane. n concluzie, valoareamedian este

    Me = 10 +35 18

    23 5 = 13.6957.

    Clasa modal este [10, 15), iar modul este Mo = 10 + 1010+6 5 = 13.125.

    Calculm acum prima cuartil dupa formula Q1 = l1 +n4 FQ1fQ1

    . Clasa in care se gaseste prima cuartila

    este [5, 10) (o valoare din acest interval va avea la stanga sa 70/4 dintre valorile observate). Avem:FQ1 = 5, fQ1 = 13, c = 5, de unde Q1 = 9.8077.Similar, clasa in care se gaseste a treia cuartila este [15, 20) (o valoare din acest interval va avea la dreaptasa 70/4 dintre valori. Avem: FQ3 = 41, fQ3 = 10, c = 5, de unde Q3 = 18.3824.

    Folosind Matlab:

    X = [5*rand(1,5), 5+5*rand(1,13),10+5*rand(1,23), 15+5*rand(1,17), ...

    20+5*rand(1,10), 25+5*rand(1,2)]; % datele

    x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor

    f = [5; 13; 23; 17; 10; 2]; % frecventele

    n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1);

    Q1 = quantile(X,0.25); Me = median(X); Q2 = quantile(X,0.75);

    Exerciiu 4.3. O companie de asigurri a nregistrat numrul de accidente pe sptmn ce au avut locntr-un anumit sat, n decurs de un an (52 de sptmni). Acestea sunt, n ordine:

    1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2,

    4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2

    (a) Construii un tabel de frecvene care s conin numrul de accidente, frecvenele absolute i relative.(b) Gsii media empiric, mediana i deviaia standard empiric.

  • LSA 1 [Dr. Iulian Stoleriu] 42

    (c) Reprezentai prin bare rezultatele din tabelul de frecvene.(d) Gsii i reprezentai grac (cdfplot) funcia de repartiie empiric a numrului de accidente.

    Soluie: (a) Tabelul de frecvene este Tabelul 4.1.

    numrul 0 1 2 3 4frecv. abs. 7 9 14 12 10frecv. rel. 0.1346 0.1731 0.2692 0.2308 0.1923

    Tabela 4.1: Tabel de frecvene pentru Exerciiu 4.3

    (b) Avem:

    x =

    52i=1

    xi = 2.1731, s =

    151

    52i=1

    (xi x)2 = 1.3094, Me = 2.

    (c) Reprezentarea prin bare a numrului de accidente i gracul lui F n(x) sunt reprezentate n Figura 4.2.

    (d) Funcia de repartiie empiric este:

    F n(x) = P (X x) =

    0, dac x < 0;752 , dac x [0, 1);1652 , dac x [1, 2);3052 , dac x [2, 3);4252 , dac x [3, 4);1, dac x 4.

    Figura 4.2: Reprezentare pentru numrul de accidente.

    Codul Matlab pentru calcule i grace este:

    Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)];

    m = mean(Y); s = std(Y); Me = median(Y);

    subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare

    subplot(1,2,2); cdfplot(Y) % graficul functiei de repartitie empirice

  • LSA 1 [Dr. Iulian Stoleriu] 43

    Exerciii propuse

    Exerciiu 4.4. Pentru un set de 5 valori, media empiric este x = 50 i dispersia empiric este s2 = 4.Dac trei dintre valori sunt 48, 51, 52, determinai i celelalte dou valori.

    Exerciiu 4.5. Se consider urmtoarea selecie de note obinute de elevii unei coli la teza de Matema-tic.

    5, 7, 8, 6, 9, 7, 10, 4, 7, 9, 6, 5, 7, 8, 7, 6, 10, 8, 6, 9, 4, 7, 5, 8, 8, 7, 5, 4, 8, 6

    (a) Estimai media, deviaia standard i mediana populaiei din care provine aceast selecie, precizndformulele folosite.(b) Grupai datele i scriei funcia de repartiie empiric.(c) Reprezentai un box-and-whisker plot pentru date.

    Exerciiu 4.6. Pentru evaluarea rezultatelor obinute la proba de Matematic a examenului de Bacalau-reat de ctre elevii unei coli, s-a fcut un sondaj de volum 30 printre elevii colii, notele ind urmtoarele:

    3.72 7.45 4.65 6.95 5.00 4.30 8.93 7.14 8.24 6.67 9.33 9.05 5.86 6.75 7.20

    7.28 6.65 5.90 7.75 4.33 7.18 8.00 5.50 7.70 4.12 8.40 7.00 6.90 5.00 7.80

    (a) Descriei datele folosind o reprezentare stem& leaf.(b) Calculai media, dispersia i mediana pentru selecia considerat, preciznd formulele folosite.(c) Determinai cele cinci msuri statistice din ve number summary(d) Reprezentai un box-and-whisker plot pentru date.(e) Ionel a obinut nota 8.45 la examen. Determinai scorul su.

    Exerciiu 4.7. Tabelul de mai jos conine notele la Matematic a 10 elevi dintr-o anumit coal obinutela: testul de simulare a examenului de Bacalaureat (T) i la examenul Bacalaureat (B).

    T 6.15 5.75 8.45 8.90 7.83 6.50 10 4.50 9.25 7.65B 7.23 6.00 7.76 9.63 6.90 6.33 9.90 3.24 8.67 7.90

    (a) Reprezentai cele dou seturi de date prin cte un box-and-whisker plot, n aceeai gur.(b) Reprezentai datele din tabel printr-o diagram scatter.(c) Calculai coecientul de corelaie empiric ntre notele la cele dou teste.

  • CSA 3 [Dr. Iulian Stoleriu] 44

    Statistica Aplicata (C3)

    5 Estimatori. Intervale de incredere (C3)

    Una dintre problemele de care se preocupa Statistica este estimarea parametrilor unei populatii. Conside-ram o populatie statistica de volum N (nit sau innit) si X o caracteristica (variabila aleatoare) a sa. Pebaza unor observatii asupra lui X, x1, x2, . . . , xn, dorim sa estimam parametrii = EX, 2 = D2(X).In continuare, vom preciza atat estimatori punctuali pentru acesti parametri, cat si intervale de incredere.

    Deoarece setul de valori observate poate sa difere de la un esantion la altul, vom considera in locul lorvariabilele aleatoare de selecie repetat de volum n, {X1, X2, . . . , Xn}. Cu alte cuvinte, xi este o posibilavaloare a variabilei Xi (i = 1, 2, , . . . , n). Aceste variabile sunt independente si repartitia lor comuna esterepartiia lui X.

    O functie f(X1, X2, . . . , Xn) ce depinde de aceste variabile se va numi generic statistic. In caz canu este pericol de confuzie, valoarea statisticii pentru un esant