Probabilités et Biostatistique...Test d’indépendance entre deux variables qualitatives (2) Etape...

of 78 /78
Probabilités et Biostatistique PCEM1 Pitié-Salpêtrière A. Mallet et V. Morice Cours 11 et 12

Embed Size (px)

Transcript of Probabilités et Biostatistique...Test d’indépendance entre deux variables qualitatives (2) Etape...

  • Probabilités et Biostatistique

    PCEM1 Pitié-SalpêtrièreA. Mallet et V. Morice

    Cours 11 et 12

  • Tests d’indépendance entre deux variables aléatoires- qualitatives- quantitatives (ch.13-14)

  • Test d’indépendance entre deux variables qualitatives. χ2 d’indépendance (1)

    Contexte. Sur chaque unité statistique peuvent être observées deux variables aléatoires qualitatives X et Y; X a k modalités, Y en a m; on cherche à prouver que ces variables

    ne sont pas indépendantessont liées

    Exemples.État rénal (présence-absence d’insuffisance rénale) et état hépatique (présence-absence d’insuffisance hépatique) sont liésPerte de connaissance (oui-non) après accident traumatique et survie à 1 mois (oui-non) sont liésCouleur des cheveux et couleur des yeux sont liées

  • Test d’indépendance entre deux variables qualitatives (2)

    Etape 1.

    H0: les variables X et Y sont indépendantesH1: les variables X et Y sont liées

    car: ->H0: Pr (X=modalité i et Y=modalité l) =Pr (X=modalité i) x Pr (Y=modalité l),ceci pour toutes les couples de modalités i,l

    H1: l’une des multiples (k x m) égalités ci-dessus est violée

  • Test d’indépendance entre deux variables qualitatives (3)

    Etape 2. Une expérience portant sur n unités statistiques est envisagée. Elle produira des effectifs observés, notés oli.

    Tableau appelé TABLEAU DE CONTINGENCE

    Ces effectifs sont encore aléatoires, Oli.

    8

    10

    3

    Noirs

    5137marrons101713gris7925bleus

    RouxBrunsBlondsY(l)

    X(i)

  • Cheveux (X) Yeux (Y)

    Modalité1 (blonds)

    Modalité2 (bruns) Modalité3 (roux) Modalité4 (noirs)

    Modalité 1 (bleus) O11 O12 O13 O14

    Modalité 2 (gris) O21 O22 O23 O24

    Modalité 3 (marrons) O31 O32 O33 O34

    n

  • Cheveux (X) Yeux (Y)

    Modalité1 (blonds)

    Modalité2 (bruns) Modalité3 (roux) Modalité4 (noirs) Mélange (total) Répartition (Y « donnée »

    Modalité 1 (bleus) 25 9 7 3 44 0,35

    Modalité 2 (gris) 13 17 7 10 47 0,38

    Modalité 3 (marrons) 7 13 5 8 33 0,27

    Mélange (total) 45 39 19 21 (124) Répartition(X) « donnée » 0,36 0,31 0,16 0,17

  • Cheveux (X) Yeux (Y)

    Modalité1 (blonds)

    Modalité2 (bruns) Modalité3 (roux) Modalité4 (noirs) Mélange (total) Répartition (Y) « donnée »

    Modalité 1 (bleus) 25 9 7 3 44 0,35

    Modalité 2 (gris) 13 17 7 10 47 0,38

    Modalité 3 (marrons) 7 13 5 8 33 0,27

    Mélange (total) 45 39 19 21 (124) Répartition(X) « donnée » 0,36 0,31 0,16 0,17

    xA23

    H0: Pr (X=modalité i et Y=modalité l) =Pr (X=modalité i) x Pr (Y=modalité l)

  • Cheveux (X) Yeux (Y)

    Modalité1 (blonds)

    Modalité2 (bruns) Modalité3 (roux) Modalité4 (noirs) Mélange (total) Répartition (Y) « donnée »

    Modalité 1 (bleus) 25 9 7 3 44 0,35

    Modalité 2 (gris) 13 17 7 10 47 0,38

    Modalité 3 (marrons) 7 13 5 8 33 0,27

    Mélange (total) 45 39 19 21 (124) Répartition(X) « donnée » 0,36 0,31 0,16 0,17

    x7,2

  • 7,2

    x/

    Calcul plus rapide

    Cheveux (X)

    Yeux (Y)

    Modalité1(blonds)

    Modalité2(bruns)

    Modalité3(roux)

    Modalité4(noirs)

    Mélange (total)

    Répartition (Y)« donnée »

    Modalité 1(bleus) 25 9 7 3 44 0,35

    Modalité 2(gris) 13 17 7 10 47 0,38

    Modalité 3(marrons) 7 13 5 8 33 0,27

    Mélange(total) 45 39 19 21 (124)Répartition(X)« donnée » 0,36 0,31 0,16 0,17

  • Test d’indépendance entre deux variables qualitatives (4)

    Etape 2. Suite.Paramètre:

    Sous H0,

    Conditions de validité à vérifier: tous les aj > 5

    A

    )A(O Q

    du tableau cases de nombre

    1j j

    2jj∑

    =

    −=

    ∑ −=colonnes leslignes les li

    2lili : encoresoit

    A)A(O Q

    ))1)(1(( Q :soit1))-Y de modalités de (nombre1)-X de modalités de nombre(( Q

    2 ~

    x2

    ~

    −− mkχχ

    Réalisation de Aj

  • Test d’indépendance entre deux variables qualitatives (5)

    Etape 3. Standard

    IP1−α (Q) = [0 K(k-1)(m-1); α ]

    Etape 4. Standard.En cas de rejet de H0: ‘les variables ne sont pas indépendantes’

    Etapes 5,6. Standards

  • Tests d’indépendance entre deux variables aléatoires- qualitatives- quantitatives (ch.13-14)

  • Test d’indépendance entre deux variables quantitatives (1)

    Contexte. Sur chaque unité statistique peuvent être observées deux variables aléatoires quantitatives X et Y; on cherche à prouver que ces variables

    ne sont pas indépendantessont liées

    Exemples précédents.État rénal (présence-absence d’insuffisance rénale) et état hépatique (présence-absence d’insuffisance hépatique) sont liésPerte de connaissance (oui-non) après accident traumatique et survie à 1 mois (oui-non) sont liésCouleur des cheveux et couleur des yeux sont liées

  • Test d’indépendance entre deux variables quantitatives (2)

    Exemples précédents.État rénal (présence-absence d’insuffisance rénale) et état hépatique (présence-absence d’insuffisance hépatique) sont liésPerte de connaissance (oui-non) après accident traumatique et survie à 1 mois (oui-non) sont liésCouleur des cheveux et couleur des yeux sont liées

    Exemples actuels.État rénal (niveau de créatininémie) et état hépatique (niveau de bilirubinémie) sont liésDegré de conscience (mesuré sur une échelle quantitative) après accident traumatique et état clinique à 1 mois (mesuré sur une échelle quantitative) sont liés‘Couleur’ des cheveux (longueur d’onde de la lumière réfléchie) et ‘couleur’ des yeux (longueur d’onde de la lumière réfléchie) sont liées

  • (Test d’)indépendance entre deux variables quantitatives (3)

    Concept étudié (comme précédemment).Supposons que X soit d’abord recueillie, puis Y chez l’unité statistique i

    liaison: la connaissance de xi modifie ce que l’on attend de Y. Quelque chose comme« Pr(Y=y/X=xi) ≠Pr(Y=y) »indépendance: la connaissance de xi ne modifie pas ce que l’on attend de Y

    RemarquesEn fait le point de vue est général: ‘la connaissance de X modifie-t-elle ce que l’on attend de Y ? ’La propriété est symétrique entre X et Y

  • Indépendance entre deux variables quantitatives (1). Abord graphique

    Un échantillon de valeurs a été obtenu:{(xi,yi), i=1,2,…n} sont disponibles

    X

    XX

    X

    X

    X

    X

    XXXX

    X

    XX

    X

    X

    X

    X

    X

    X

    XXXXX

    X

    X

    X

    X

    XX

    Dom

    aine

    de

    vale

    urs

    des

    bilir

    ubin

    émie

    s

    bilirubinémie (Y)

    créatininémie (X)

    bilirubinémie (Y)

    X

    X

    X

    X

    X

    X

    XX X

    X

    X

    X X

    X

    X

    X

    X

    X

    X

    XX

    XXX

    X

    X

    X

    X

    X

    XX

    x0

    Dom

    aine

    de

    vale

    urs

    des

    bilir

    ubin

    émie

    sco

    nnai

    ssan

    t x 0

    Pas de liaison apparente

  • Indépendance entre deux variables quantitatives (2). Abord graphique

    Un échantillon de valeurs a été obtenu:{(xi,yi), i=1,2,…n} sont disponibles

    X

    XX

    X

    X

    X

    X

    XXXX

    X

    XX

    X

    X

    X

    X

    X

    X

    XXXXX

    X

    X

    X

    X

    XX

    Dom

    aine

    de

    vale

    urs

    des

    bilir

    ubin

    émie

    s

    bilirubinémie

    Dom

    aine

    de

    vale

    urs

    des

    bilir

    ubin

    émie

    sco

    nnai

    ssan

    t x 0

    Liaison apparente

    XX

    XX X

    X

    X

    XX

    XXX

    XX

    X X

    X

    XX

    X

    X X

    XXX XX

    X

    XX

    X

    créatininémie

    bilirubinémie

    x0

  • Indépendance entre deux variables quantitatives (3). Abord graphique

    Conclusion:

    Liaison: propension des points à ne pas emplir l’espace (deux dimensions), mais plutôt à se répartir autour d’une courbe (une dimension)La connaissance de Y, si elle est améliorée par celle de X, l’est:

    En localisation (espérance de Y connaissant X)En dispersion (variance de Y connaissant X)

    moyenne (variance de Y connaissant X) = variance de Y –moyenne( (espérance de Y connaissant X - espérance de Y)2 )

    Se rappeler que les propriétés sont symétriques entre X et Y

    Recherche d’un indicateur de liaison (ou non indépendance)

  • Un indicateur de liaison entre deux variables quantitatives.

    RemarqueUne liaison n’est facilement interprétable que si le lien est monotone (courbe sous-jacente croissante ou décroissante)

    L’indicateur recherché idéal serait une mesure de l’empâtement du nuage autour d’une courbe: le seul indicateur connu est une mesure de l’empâtement autour d’une droite

    x

    X X

    X

    X

    X

    X

    X

    X

    X

    XX

    xX XX

    XX

    x XX

    X

    X

    X

    xXX

    X

    XXx

    X

    X

    X

    XX

    xX XX

    X

    Xx

    X

    XXX

    XX

    XX

    X

    X

    X

    XXXX

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (1).

    Principe de construction à partir des xi,yiDoit exprimer la façon dont xi et yi varient ensemble (on dit ‘covarient’)Doit ne pas dépendre de l’origine choisie pour mesurer X et YDoit ne pas dépendre de l’échelle choisie pour mesurer X et Y

    -> on s’intéresse aux:

    où mX et mY sont les moyennes observées sX et sY sont les écart-type observés

    Remarque: xi grand xri >0; xi petit xri 0; yi petit yri

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (2).

    Nuage des xi, yi

    xX XX

    X

    Xx

    X

    XXX

    XX

    XX

    X

    X

    X

    XXXX

    Nuage des xri, yri

    xX XX

    X

    Xx

    X

    XXX

    XX

    XX

    X

    X

    X

    XXXX

    mX

    mY2

    2

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (3).

    Si X et Y covarient de façon ‘coordonnée’, alors souvent:

    Si X et Y varient dans le même sens: lorsque xi est grand (xri >0), yi l’est aussi (yri >0) et le produit xri.yri est positif.lorsque xi est petit (xri

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (4).

    Pour indicateur observé de covariation ‘coordonnée’, on choisit le nombre:

    Propriétésr est toujours compris entre -1 et 1Si r est grand (vers 1), c’est le signe que X et Y covarient dans le même sensSi r est petit (vers -1), c’est le signe que X et Y covarient en sens contraireSi r est voisin de zéro, c’est le signe que X et Y covarient de façon désordonnée; c’est le signe d’une absence de lien entre X et Y

    ∑=

    =n

    1iriri .yx1-n

    1 r

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (5).

    r s’appelle coefficient de corrélation observéExpressions équivalentes

    Le numérateur s’appelle covariance observée

    YX

    n

    1iYXii

    YX

    n

    1iYiXi

    ss

    )mmyxn1(

    1-nn

    r

    encoreou ss

    )m)(ym(x1-n

    1

    r

    =

    =

    −=

    −−=

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire (6).

    Autres propriétés de rr∈[-1 1] (déjà dit)r=-1 Y=aX+b, a0|r| décroit

    Au fur et à mesure que le caractère rectiligne du nuage se distordAu fur et à mesure que le nuage s’épaissitOn dit que les variables apparaissent de moins en moins corrélées

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples d’épaississement

    r=0,97

    -2,5

    -2

    -1,5

    -1

    -0,5

    0

    0,5

    1

    1,5

    2

    2,5

    -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples

    r=0,75

    -2,5

    -2

    -1,5

    -1

    -0,5

    0

    0,5

    1

    1,5

    2

    2,5

    -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples

    r=0,37

    -2,5

    -2

    -1,5

    -1

    -0,5

    0

    0,5

    1

    1,5

    2

    2,5

    -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples

    r=0,04

    -2,5

    -2

    -1,5

    -1

    -0,5

    0

    0,5

    1

    1,5

    2

    2,5

    -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples de distorsion

    r=-0,97

    -2,5

    -2

    -1,5

    -1

    -0,5

    0

    0,5

    1

    1,5

    2

    2,5

    -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples de distorsion

    r=-0,87

    -2,5

    -2

    -1,5

    -1

    -0,5

    0

    0,5

    1

    1,5

    2

    2,5

    -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1

  • Un indicateur de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire. Quelques exemples

    r=-0,48

    -2,5

    -2

    -1,5

    -1

    -0,5

    0

    0,5

    1

    1,5

    2

    2,5

    -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5Série1

  • Un indicateur théorique de liaison entre deux variables quantitatives. Le coefficient de corrélation linéaire ‘vrai’.

    YX

    n

    1iYXii

    YX

    n

    1iYiXi

    ss

    )mmyxn1(

    1-nn

    r encoreou ss

    )m)(ym(x1-n

    1

    r ∑∑

    ==

    −=

    −−=

    YXYX σσ]E(X).E(Y)[E(XY)r encoreou

    σσ]E(Y)))(Y)X(EE[(X r −≈−−≈

    YX

    n

    1iii

    YX

    n

    1iii

    σσ

    E(X)E(Y))yxn1(

    r encoreou σσ

    E(Y))E(X))(y(x1-n

    1

    r ∑∑

    ==

    −≈

    −−≈

    ~1 car n grand

    Coefficient de corrélation ‘vrai’, noté ρ

  • Propriétés du coefficient de corrélation linéaire ‘vrai’.

    Propriétés de ρSi X et Y sont indépendantes, alors ρ=0De façon équivalente si ρ≠0, X et Y sont liéesLa réciproque étant fausse, deux variables de coefficient de corrélation nul seront dites non corrélées (et non pas indépendantes nécessairement)

    Ces propriétés engagent à tester la nullité de ρpour démontrer la liaison entre X et Y

  • Test d’égalité à zéro du coefficient de corrélation linéaire ‘vrai’ (1).

    Etape 1. H0: ρ=0 : les variables X et Y ne sont pas corréléesH1: ρ≠0 : les variables X et Y sont liées

  • Test d’égalité à zéro du coefficient de corrélation linéaire ‘vrai’ (2).

    Etape 2. Paramètre du test

    Sous H0, Z a une distribution connue, tabulée, celle du coefficient de corrélation, à (n-2) degrés de libertéCondition de validité: toute combinaison de X et Y du type aX+bY suit une loi normale. Condition connue sous le nom ‘X,Y suivent une loi binormale’

    M1-n

    n Zrr .YXn

    = dont la réalisation sera r

    Yn2

    Xn2

    YnXnX.Yn

    S S

    )MMM (1-n

    n

    Z−

    =

  • Test d’égalité à zéro du coefficient de corrélation linéaire ‘vrai’ (3).

    Etape 3. Intervalle de pari lu dans une table

    IP1-α(Ζ) = [-corrα(n-2) corrα(n-2) ]

    Etape 4.Décision selon que z (=r, le coefficient de corrélation linéaire observé) ∈ ou ∉ IP0,95(Z)Si rejet de H0: on conclut que ‘X et Y sont liées’, ‘X et Y ne sont pas indépendantes’Si non rejet de H0: ‘on n’a pas montré que X et Y sont liées’

    Etapes 5,6. Standards

  • Remarques générales sur les tests d’hypothèses

    La mise en œuvre d’un test suppose de synthétiser le problèmeLe seuil de signification- ou risque de première espèce vaut toujours 0,05On ne conclut jamais que H0 est vraieLe risque de première espèce d’une étude (conclure au moins une fois à tort) augmente si l’on effectue plusieurs tests car à chaque test un tel risque est pris. Risque global:1-(1-α)m (si questions résolues indépendantes)On choisit toujours un test avant recueil des données expérimentales

  • Cours 12Analyse des durées de survie.Analyse des délais de survenue d’un événement.

  • Analyse des durées de survie

    ContexteOn cherche à quantifier la probabilité qu’ont des (ou a un) patients de survivre au moins un certain temps à compter d’un instant de référence ayant une pertinence dans le contexte de la pathologie étudiée.Exemples

    Probabilité qu’un patient présentant un carcinome hépatocellulaire survive au moins 36 mois après la date de diagnosticProbabilité qu’un patient ayant bénéficié d’une hépatectomie survive au moins 10 ans après l’intervention

  • Analyse des durées de survie

    Remarques1. On s’intéresse souvent à d’autres événements que le décès: ‘probabilité qu’un patient infecté par le VIH présente 7 ans après la date d’infection un taux de CD4 encore supérieur à 400 CD4/ml’ ; on s’intéresse ici au délai d’apparition d’un taux de façon générale on s’intéresse au délai de survenue d’un événement à partir d’un instant de référence

  • Analyse des durées de survie

    2. Si on souhaite répondre à la question ‘survivre au moins 5 ans’, on souhaite généralement répondre à des questions portant sur des délais plus précoces. Le problème général est donc:‘quelle est la probabilité de survivre au moins une durée t à compter de l’instant de référence ?’

    ‘quelle est la probabilité que l’événement d’intérêt survienne après la date t à compter de l’instant de référence ?’

    Réponse: fonction de survie

  • Analyse des durées de survie. Fonction de survie.

    DéfinitionOn appelle fonction de survie, notée S, la fonction telle que:S(t) = Pr (délai de survenue de l’événement d’intérêt > t)

    délai

    1

    00

    Courbe de survie

  • survie à compter de la naissance- vue par l'INSEE-2006

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    0 10 20 30 40 50 60 70 80 90 100

    Série2

    années

  • Comprendre une fonction de survie (1)

    Information directe:S(t) = Pr (durée de survie >t)Notation. T: variable aléatoire durée de survie.

    S(t)=Pr(T>t)S(t)=1-Pr(Tτ), notée S(t/τ)

  • 0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    0 5 10 15 20 25 30 35 40 45 50

    Série1Série2

    Comprendre une fonction de survie (2)

  • Comprendre une fonction de survie (3)

    Ainsi: si t>τ

    Autres façons:mécanique: Pr(T>t / T>τ).Pr(T>τ) =Pr(T>t et T>τ)=Pr(T>t)Intuitive ?. Survivre une durée t c’est survivre une durée τ et survivre une durée t sachant que l’on a survécu une durée τ: S(t)=S(τ).S(t/τ)

    ) S(τS(t) ) S(t/τ ;

    τ)Pr(Tt)Pr(T τ)Tt / Pr(T =

    >>

    =>>

  • Comprendre une fonction de survie (4)

    Autre information indirecte: le risque de décès (ou de survenue de l’événement d’intérêt) à chaque instant t. C’est le risque (probabilité) de décéder juste après t –disons entre t et t+∆t, par unité de temps. En raisonnant comment précédemment:risque (t)= Pr(T∈[t t+∆t]/T>t)/∆t =

    Si par exemple ∆t=1 an, on calculera tous les ans (t entier) le risque

    c’est la proportion ‘vraie’ de sujets présentant l’événement dans l’année chez ceux qui ne l’ont pas présenté en début d’année

    t1 .

    S(t)t)S(t-S(t)

    tt)t]/T[t tPr(T (t) risque

    ∆∆+

    =∆

    >∆+∈=

    S(t)1)S(t1 +−

  • Comprendre une fonction de survie (5)

    lorsque ∆t devient très petit:

    appelé risque instantané de survenue de l’événement. C’est un risque encouru à chaque instant.

    S(t)

    (t)dtdS

    (t) risque−

    =

  • risque de décès-par an- ou taux de mortalitépar âge- INSEE-2005

    00,0010,0020,0030,0040,0050,0060,0070,0080,009

    0 5 10 15 20 25 30 35 40 45 50 55 60

    Série2

    années

  • Les deux problèmes fondamentaux de l’analyse de la durée de survie

    Décrire la survenue d’un événement

    -> estimer une fonction de survie à partir d’observations

    Mesurer une action sur la durée de survie

    -> comparer des fonctions de survie à partir d’observations

  • Le contexte expérimental. Terminologie

    Une étude est envisagée; elle a:

    Un débutUne fin, appelée date de point

    durant cette étude des sujets sont suivis au cours du temps pour observation de la survenue de l’événement d’intérêt; ce suivi a:

    Une date de début, différente selon les sujets, appelée date d’origine, c’est l’instant de référence pour ce sujet (ex:date de diagnostic)Une fin, qui peut être:

    (1)La date de point et le sujet n’a pas présenté l’événement(2)Une date antérieure sans que le sujet ait encore à cette date présenté l’événement, le sujet est dit perdu de vueUne date antérieure, date de la survenue de l’événement

    Dans les cas 1 et 2 on parle d’information censurée

  • 2003 2004 2005 2006

    Perdu de vue

    Décédé (sujet ayant présenté l’événement)

    Date de point

  • 2003 2004 2005 2006 0 1 2 3

  • Le contexte expérimental. Les données

    n sujets ont été suivis, on raisonne en durées comptées à partir de l’instant de référence (ex: instant du diagnostic) Pour le sujet i on dispose, à la date de point, de:

    La durée de suivi, tiL’information selon laquelle il a, ou non, présenté l’événement d’intérêt

    ExemplestatutDurée suivi

    (jours)

    Perdu de vu (censuré)

    273Sujet 3

    décédé352Sujet 2

    Vivant (censuré)

    412Sujet 1

  • Estimation d’une fonction de survie.

    I. Méthode actuarielle (1).

    On estime la fonction de survie à des instants successifs b1, b2, …., br choisis.

    La fonction de survie est estimée de proche en proche, en utilisant:S(bi)=S(bi-1).S(bi/bi-1)

    L’estimation de S(bi/bi-1) constitue le problème principal

    0 b1 b2 b3 b4 b5 durée

  • Estimation d’une fonction de survie.

    I. Méthode actuarielle (2).

    Sur l’intervalle [bi-1 bi] on dispose des informations suivantes:

    Le nombre de sujets connus vivants à bi-1: Ni .Ces sujets constituent les sujets appelés à risque à bi-1. Le nombre de sujets connus vivants à bi: Ni+1Le nombre de sujets censurés dans l’intervalle [bi-1 bi] (vivants dont le suivi s’arrête dans l’intervalle) : CiLe nombre de sujets décédés dans l’intervalle, Di. On a la relation:Di = Ni– Ni+1- Ci (Ni+1=Ni-Di-Ci)

  • 1 2 3 4

    Estimation d’une fonction de survie. I. Méthode actuarielle (3).

  • 1 2 3 4 5

    Estimation d’une fonction de survie. I. Méthode actuarielle (4).

  • Estimation d’une fonction de survie.

    I. Méthode actuarielle (5).

    S(bi/bi-1) est estimée par:

    On peut utiliser la formule voisine:

    2C N

    D 1)b/(bŜi

    i

    i1-ii

    −−=

    2C N

    Ni

    i

    1i

    +

    Nombre moyen à risque sur l’intervalle

  • Estimation d’une fonction de survie. I. Méthode actuarielle (6).

    Exemple (b0=0; )

    0,4420,7142007023

    0,61910209021

    0,6190,826201012018

    0,7490,931103016012

    0,8050,80540102109

    11002103

    Décédés dans [bi-1 bi] Di

    censurésCi

    Vivants à bi-1(Ni)

    Instantsbi )/b(bŜ 1-ii )(bŜ i

    1 (0)Ŝ =

  • Estimation d’une fonction de survie. I. Méthode actuarielle (7).

    Entre les instants bi, la fonction de survie est interpolée linéairement (segment de droite sur la courbe)

    Estimation de la médiane du délai de survenue de l’événement (médiane de survie)Valeur tm telle que

    0,5 )(tŜ m =

  • survie actuarielle

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    0 3 6 9 12 15 18 21 24 27 30 33 36 39

    Série1

  • survie actuarielle

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    0 3 6 9 12 15 18 21 24 27 30 33 36 39

    Série1

    Estimation de la médiane de survie

  • Estimation d’une fonction de survie. II. Méthode de Kaplan-Meier (1).

    Méthode plutôt utilisée pour de faibles effectifsPrincipe. Très voisin du précédent.

    Même principe de calculDifférence 1: la survie est supposée constante entre deux instants de décèsDifférence 2: la survie est calculée à tous les instants de décès

    Rappel. Pour le sujet i on dispose, à la date de point, de:

    La durée de suivi, tiL’information selon laquelle il a, ou non, présenté l’événement d’intérêtNOTATION DE CETTE INFORMATION: si le sujet est censuré, ti est noté ti* ->survie calculée aux ti

  • Estimation d’une fonction de survie. II. Méthode de Kaplan-Meier (2).

    Principe (connu)S(ti) = S(ti-1).S(ti/ti-1)Estimation de S(ti/ti-1) par

    formule très voisine de la précédenteNi-Ci est le nombre de sujets susceptibles de décéder à la date ti

    -> RETENIR

    ii

    i1-ii CN

    D -1 )/t(tŜ−

    =

    i

    i1-ii tà risque à nombre

    tàdécès denombre-1 )/t(tŜ =

  • Estimation d’une fonction de survie. II. Méthode de Kaplan-Meier (3).

    ExempleValeurs des ti: 6; 6; 6; 6,1*; 7; 9*; 10; 10,1*; 11*; 13; 16; 17*; 19*; 20*; 22; 23; 25*; 32*; 32*; 34*; 35*Fonction de survie à estimer aux instants: 6; 7; 10; 13; 16; 22; 23

    0,4480,8331606230,5370,85717310220,6270,90911101116

    12151721

    à risque à ti

    2110

    Ci

    14161821

    Ni

    0,6900,9171130,7530,9331100,8070,941170,8570,85736

    Diti )t/(tŜ 1-ii )(tŜ i

  • estimation Kaplan-Meier

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    0 5 10 15 20 25

  • estimation Kaplan-Meier

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    0 5 10 15 20 25

    Estimation de la médiane

  • Estimation d’une fonction de survie. II. Méthode de Kaplan-Meier (4).

    Estimation de la médiane du délai de survenue de l’événement (médiane de survie)Valeur tm telle que

    0,5 )(tŜ m =

  • Mesure d’une action sur la durée de survie: comparaison de deux fonctions de survie

    ExempleOn voudrait faire la preuve qu’un traitement adjuvant à la chirurgie dans le carcinome hépatocellulaireaméliore la survie des patients.

    la survie sera comptée à partir de la date de la chirurgie.des patients ont été inclus pendant une année dans une étude qui a duré 3 ans et répartis par tirage au sort dans un des deux groupes de traitement: chirurgie seule ou chirurgie +traitement adjuvant.La durée de suivi des patients (durée de participation à l’étude) varie d’un patient à l’autreà la fin de l’étude on dispose pour chaque patient

    Du groupe auquel il a appartenu, A ou BDe tAi ou tBi(si le patient est décédé) ou tAi*ou tBi*(si le patient est censuré, qu’il soit encore vivant ou perdu de vue)

  • Comparaison de deux fonctions de survie: test du log-rank

    Remarque. Pour simplifier l’écriture, NAi et NBidésigneront le nombre de sujets à risque des échantillons issus de A et B à la date ti (et non pas juste après ti-1)

    Etape 1. H0: les deux fonctions de survie SA et SB

    sont identiques: SA(t) = SB(t) à tout instant

    H1: pour au moins une date: SA(t) ≠ SB(t)

  • Comparaison de deux fonctions de survie: test du log-rank

    Etape 2. Principe: calculer à chaque instant (en fait à chaque instant de décès) un nombre de décès attendus sous l’hypothèse nulle. Paramètre construit sur un exemple

    information dans le groupe A (tAi): 1; 1; 2; 2; 3; 4; 4; 5; 5; 8; 8; 8; 8; 11; 11; 12; 12; 15; 17; 22; 23information dans le groupe B (tBi): 6; 6; 6; 6,1*; 7; 9*; 10; 10,1*; 11,2*; 13; 16; 17,3*; 19*; 20*; 22; 23; 25*; 32*; 32*; 34*; 35*

    I. Enumérer les instants de décès, ti, tous groupes confondus: 1; 2; 3; 4; 5; 6; 7; 8; 10; 11; 12; 13; 15; 16; 17; 22; 23

  • Comparaison de deux fonctions de survie: test du log-rank

    II. Remarquer que 1- S(ti/ti-1) exprime le risque pour un sujet vivant à ti-1de décéder entre les instants ti-1 et tiet calculer pour tous les instants tiles estimées de Kaplan-Meier de 1-S(ti/ti-1), en utilisant les données, tous groupes confondus.

    0,28623

    0,22222

    0,07717

    0,07116

    0,06715

    0,06213

    0,11112

    0,09511

    0,04310

    0,1438

    0,0347

    0,0916

    0,0575

    0,0544

    0,0263

    0,0502

    0,0481

    ti )t/(tŜ-1 1-ii

    i

    i1-ii tà risque à nombre

    tàdécèsdenombre )/t(tŜ-1 =

  • Comparaison de deux fonctions de survie: test du log-rank

    III. Appliquer ce risque aux effectifs à risque de chacun des échantillons à chacun des instants de décès ti ; on obtient des décès attendus sous H0, EAi, EBi

    IV. Totaliser les décès totaux attendus par groupe, EA, EB:

    1,714

    1,555

    0,770

    0,786

    0,732

    0,751

    1,334

    1,240

    0,656

    2,286

    0,578

    1,988

    1,201

    1,136

    0,553

    1,050

    1,000

    EBi

    0,286

    0,445

    0,230

    0,214

    0,268

    0,249

    0,666

    0,760

    0,344

    1,714

    0,408

    1,092

    0,799

    0,864

    0,447

    0,950

    1,000

    EAi

    0,28623

    0,22222

    0,07717

    0,07116

    0,06715

    0,06213

    0,11112

    0,09511

    0,04310

    0,1438

    0,0347

    0,0916

    0,0575

    0,0544

    0,0263

    0,0502

    0,0481

    ti )t/(tŜ-1 1-ii

    EBEA

    19,2610,74

  • Comparaison de deux fonctions de survie: test du log-rank approché

    V. calculer les décès totaux observés,DA, DB: ici, DA=21, DB=9 (EA=10,74; EB=19,26)

    Le paramètre s’obtient par:

    Sous H0, Q suit une distribution de χ² à 1 degré de liberté

    Condition de validité: EA et EB > 5

    ici, Qc = 15,26

    Etapes 3,4,5,6. Standards

    B

    2BB

    A

    2AA

    E)E(D

    E)E(D Q −+−=

  • Comparaison de deux fonctions de survie: test du log-rank approché

    Etape 3. IP0,95 = [0 3,84]

    Etape 4. StandardEn cas de rejet de H0: ‘les fonctions de survie diffèrent’.

    Etapes 5,6. Standards.L’orientation du rejet et plus généralement l’interprétation nécessitent l’examen des courbes de survies estimées