Apostila Análise DE Sobrevivência PDF

Title Apostila Análise DE Sobrevivência
Author João Victor Barros Henriques
Course Estatística Aplicada
Institution Centro Universitário de Brasília
Pages 49
File Size 1.9 MB
File Type PDF
Total Downloads 50
Total Views 152

Summary

Download Apostila Análise DE Sobrevivência PDF


Description

UM CURSO DE ANÁLISE DE SOBREVIVÊNCIA Prof. Eduardo Yoshio Nakano

Apostila de Análise de Sobrevivência

Prof: Eduardo Yoshio Nakano E-mail: [email protected]

1. INTRODUÇÃO A Análise de Sobrevivência (ou Confiabilidade) consiste em uma coleção de procedimentos estatísticos para a análise de dados relacionados ao tempo até a ocorrência de um determinado evento de interesse. Geralmente o termo “Análise de Sobrevivência” refere-se a dados biomédicos, enquanto “Confiabilidade” refere-se a área de engenharia (pesquisas industriais). Em estudos médicos, em geral, o evento de interesse é o tempo até o óbito do paciente, o tempo de duração da doença, o tempo até a ocorrência de uma doença ou à complicação da mesma, tempo até a cura, etc. Em pesquisas industriais, o evento em questão está relacionado ao tempo até a falha de um determinado produto manufaturado, o tempo até a ocorrência de um reparo, ou o tempo até a utilização da garantia de um determinado equipamento, etc. Nota: O termo “evento de interesse” tem sido estendido de forma aplica-lo aos mais variados tipos de eventos. Por exemplo: • tempo até a ocorrência de um sinistro (área de seguros); • tempo que um indivíduo permanece desempregado (ou empregado); • tempo até que um cliente atrase a primeira prestação de um empréstimo, etc... A variável de interesse, o tempo de sobrevivência ou até a falha, é estritamente positiva e, geralmente, medida em escala contínua. Obs: Neste curso consideraremos que a variável de interesse é absolutamente contínua (Não trataremos de variáveis discretas).

PRESENÇA DE CENSURAS Um problema em análise de sobrevivência relaciona-se ao fato de a variável de interesse, tempo de sobrevida, ser temporal e, consequentemente, não ser medida instantaneamente e independentemente do tamanho da resposta. Valores grandes da variável tempo necessitam de mais tempo e persistência para serem observados. Em situações extremas, este fato pode comprometer a observação do valor da variável para alguns indivíduos, uma vez que o evento de interesse pode não ocorrer até o tempo final do estudo. Também, o paciente pode abandonar o estudo antes da observação do evento de interesse por causa de uma possível mudança de localidade ou devido a possíveis efeitos colaterais relacionados à terapia, ou falecer devido a outras causas de morte, mas não a em estudo. Isso pode, inclusive, acontecer antes mesmo do tempo final de recrutamento. Da mesma maneira, este tipo de problema pode estar presente em dados industriais, quando somente uma proporção de componentes em estudo falha até o final do estudo. Entretanto, apesar de não termos o tempo até a ocorrência do evento de interesse para um determinado indivíduo, temos o tempo até, por exemplo, o abandono do estudo. Essa informação, apesar de incompleta, é útil e importante para a análise. Dessa forma existe a necessidade da introdução de uma variável dicotômica na análise que indique se o valor do tempo de sobrevida para um determinado indivíduo foi ou não observado. Essa variável é conhecida como variável indicadora de censura, ou simplesmente, censura, e é definida como sendo igual a um, se o tempo de sobrevida é observado e igual à zero, caso o tempo de sobrevida seja censurado. 0, se o i − ésimo tempo foi censurado δi =  i = 1,2,..., n. 1, se o i − ésimo tempo foi observado

1

Apostila de Análise de Sobrevivência

Prof: Eduardo Yoshio Nakano E-mail: [email protected]

Causas de Censuras As censuras podem ocorrer devido a várias causas, como por exemplo: Perda de acompanhamento: O paciente após entrar no estudo decide não ir até o fim, seja porque ele mudou de local de residência, de hospital ou simplesmente porque perdeu o interesse no estudo; Término do estudo: para certos pacientes o estudo termina antes do término do estudo; Falha devida a outra causa: A falha ou a morte de um paciente pode ocorrer devido a um fato totalmente independente do tratamento. Assim num estudo de tratamentos contra o câncer uma morte causada por um acidente automobilístico pode ser considerada como sendo uma censura; Número de falhas suficientes: O pesquisador acredita que o número de equipamentos que falharam já é suficiente para obter a informação desejada. Tipos de censuras Existem três principais tipos de censura: Censura do Tipo I: acontece nos casos em que o experimento tem um tempo de duração prédeterminado e ao final deste tempo um ou mais elementos em estudo não falharam e a informação sobre o tempo de falha destes elementos será incompleta. O percentual de censuras neste caso é uma variável aleatória. Na censura do Tipo I, censura-se o tempo de uma unidade em observação antes da ocorrência de falha ao se atingir um tempo pré-estabelecido e definido pelo pesquisador como tempo razoável para o estudo da variável. Censura do Tipo II: ocorre nos casos em que o estudo é conduzido até que um número (k≤n) de elementos falhe. O número de elementos a falharem deve ser determinado antes do inicio do experimento, desta forma o percentual de censuras será uma constante de escolha do experimentador. O pesquisador determina um número desejável de falhas, por exemplo, k falhas, e observa as unidades em estudo até que as k falhas aconteçam, lembrando-se que k ≤ n onde n é o tamanho da amostra a ser estudada. Censura aleatória: é a mais geral e engloba as demais, pode acontecer quando um ou mais componentes não puderem ser acompanhados até o final do experimento ou ainda quando estes falharem por motivos distintos do interesse do estudo. A censura aleatória ocorre de forma natural, ou seja, sem a manipulação do pesquisador, os exemplos anteriores de censuras por perda de acompanhamento, término do estudo e falha devida a outra causa são exemplos de censuras aleatórias. As censuras definidas acima (Tipo I, II e aleatória) são denominadas censuras à direita. Existem também outras classes de censuras denominadas como censura à esquerda e censuras intervalares. Maiores detalhes sobre essas classes de censuras podem ser encontrados em Lawless (1982). O esquema de censura do Tipo II é predominante em experimentos industriais e da engenharia, enquanto que, na prática médica costuma-se usar esquema de censura do Tipo I. Mesmo sendo incompletos os dados censurados fornecem informações sobre o tempo de vida dos elementos em teste. A omissão dos dados censurados torna as estimativas viezadas. Nos casos onde ocorrem censuras à direita, os valores populacionais são subestimados no caso de omissão das censuras, pois os dados censurados têm tempos de falhas sabidamente maiores que os não censurados.

2

Apostila de Análise de Sobrevivência

Prof: Eduardo Yoshio Nakano E-mail: [email protected]

Podemos ver nas figuras abaixo a ilustração das seguintes censuras:

Unidades do experimento

Final do estudo

Dados com ausência de censura

0

1

2

3

4

5

6

7

8

Censura aleatória

9

10

Escala de tempo

Evento de interesse Final do estudo

Unidades do experimento

? ?

?

Censura do tipo I

?

Censura Tipo I e Aleatórias

? 0

1

2

3

4

5

6

7

8

9

10

Escala de tempo

Censura do Tipo II Final do estudo

Unidades do experimento

? ?

Ultima falha ou ultimo evento de interesse

Censura Tipo II

? ? ? 0

1

2

3

4

5

6

7

8

9

10 Escala de tempo

3

Apostila de Análise de Sobrevivência

Prof: Eduardo Yoshio Nakano E-mail: [email protected]

PRESENÇA DE VARIÁVEIS EXPLICATIVAS Além do tempo de sobrevivência e da variável indicadora de censura, também podemos observar nos dados, variáveis que representam tanto a heterogeneidade existente na população, tais como, idade, sexo, entre outras; como também possíveis tratamentos aos quais os indivíduos são submetidos. Estas variáveis são conhecidas como variáveis explicativas ou covariáveis. Muitas vezes, o objetivo da análise está centrado na relação entre o tempo de sobrevivência e algumas variáveis explicativas de interesse. A figura abaixo ilustra como o tempo de sobrevivência pode ser influenciado por três variáveis explicativas. A questão é saber se existe o efeito do tratamento, do sexo e da idade do paciente no tempo de sobrevivência, bem como se as interações entre estas variáveis explicativas são importantes.

tratamento

sexo

Tempo de sobrevivência

idade

Figura: Relacionamento entre o tempo de sobrevivência e algumas variáveis explicativas.

Nota: Existem outras peculiaridades em Análise de Sobrevivência que não serão trabalhadas neste curso, como a quantidade de causas de falha e o número de eventos recorrentes. O primeiro é tratado como análise de dados de Riscos Competitivos (várias causas competem entre si para que o evento de interesse ocorra) e o segundo é tratado como análise de Eventos Recorrentes (quando o evento de interesse, este sendo não fatal, é observado várias vezes para um mesmo indivíduo).

4

Apostila de Análise de Sobrevivência

Prof: Eduardo Yoshio Nakano E-mail: [email protected]

2. DESCRIÇÃO DO COMPORTAMENTO DO TEMPO DE SOBREVIVÊNCIA O comportamento da variável aleatória contínua, tempo de sobrevivência, T≥0, pode ser expresso através de várias funções matematicamente equivalentes, tais que, se uma delas é especificada, as outras poder ser derivadas. Entre elas podemos citar: a Função Densidade de Probabilidades, f(t), a Função de Sobrevivência, S(t), e a Função de Risco (Taxa de Falha), h(t), que serão descritas em detalhes a seguir. FUNÇÃO DENSIDADE DE PROBABILIDADES A Função Densidade de Probabilidades (f.d.p.) é definida como o limite da probabilidade de um indivíduo experimentar o evento de interesse no intervalo de tempo [t, t+∆t) com ∆t→0, e é expressa por: P( t ≤ T < t + ∆t ) f ( t ) = lim ∆t → 0 ∆t onde f(t)≥0 para todo t e tem a área abaixo da curva igual a 1. FUNÇÃO DE SOBREVIVÊNCIA A função de sobrevivência é definida como sendo a probabilidade de um indivíduo sobreviver além de um determinado tempo t. Denotada por S(t), é definida por: S (t ) = P[T > t ] =1 − F (t ), t

onde F ( t ) = ∫ f ( u )du é a Função de Distribuição Acumulada (f.d.a.) da variável T. 0

A Função de Sobrevivência S(t) é uma função não-crescente, tal que: e lim S ( t ) = 0 lim S ( t ) = 1 t→ 0

t →∞

A função S(t) também pode ser utilizada para determinarmos o p-ésimo quantil do tempo de sobrevivência. Seja tp o p-ésimo quantil da variável T, isto é, P [T ≤ t p ] = p . Assim, 1− P[T > t p ] = p 1− S ( t p ) = p

S( t p ) = 1 − p Logo, temos que

t p = S − 1 (1 − p ) .

FUNÇÃO DE RISCO (OU TAXA DE FALHA) A Função de Risco, h(t), representa o risco instantâneo que o indivíduo tem de experimentar o evento de interesse em um terminado tempo t. Ele é definido como a razão do limite da probabilidade de um indivíduo experimentar o evento de interesse no intervalo de tempo [t,t+∆t), dado que o mesmo não tenha experimentado o evento de interesse até o tempo t sobre o intervalo de tempo ∆t . A função h(t) é expressa por:

5

Apostila de Análise de Sobrevivência

Prof: Eduardo Yoshio Nakano E-mail: [email protected]

h( t ) = lim

∆t → 0

P( t ≤ T < t + ∆t | T ≥ t ) ∆t

É importante notar que h(t) é uma função que assume todos os valores reais positivos. Esta função também pode ser definida em termos de f(t) e S(t) através da expressão f(t ) h( t ) = (1) S( t ) descrevendo assim, o relacionamento entre as três funções que, geralmente são utilizadas para representar o comportamento do tempo de sobrevivência. Nota: Devido a sua interpretação, a função de risco, h(t), tem sido preferida por muitos autores para descrever o comportamento do tempo de sobrevivência. A Função de Risco descrever como a probabilidade instantânea de falha (taxa de falha) se modifica com o passar do tempo. Ela também é conhecida em outras áreas como taxa de falha instantânea, força de mortalidade e taxa de mortalidade condicional. Além disso, a Função de Risco é importante pois é através dela que podemos caracterizar classes especiais de distribuições de tempo de sobrevivência, de acordo com o seu comportamento como função do tempo. A função de risco pode ser constante, crescente, decrescente ou mesmo não monótona. Algumas distribuições usuais de tempo de sobrevivência são, por exemplo, a Exponencial, a Weibull, a Log-Normal, a Log-Logística, entre outras. Função de Risco Acumulada Uma outra função importante que pode ser obtida da função h(t) é dada pela Função de Risco Acumulada, definida por: t

H ( t ) = ∫ h( u )du .

(2)

0

Note que H ( ∞ ) = lim H ( t ) = ∞ t →∞

ALGUMAS RELAÇÕES IMPORTANTES ENTRE f(t), S(t) e H(t) Como citado anteriormente, as funções f(t), S(t) e h(t), definidas acima, são matematicamente equivalentes. Aqui, descreveremos algumas relações básicas que podem ser utilizadas na obtenção de uma dessas funções quando uma delas é especificada.

Sabemos que a f.d.p., f(t), é definida como a derivada da Função de Distribuição Acumulada, F(t), isto é, ∂ f ( t ) = F( t ) ∂t Como F(t) = 1 – S(t), podemos escrever ∂ ∂ f (t ) = [1− S (t )] = − S (t ) = − S ' (t ) (3) ∂t ∂t Substituindo (3) em (1) obtemos S' ( t ) ∂ = − log S ( t ) h( t ) = − S( t ) ∂t

6

Apostila de Análise de Sobrevivência

Prof: Eduardo Yoshio Nakano E-mail: [email protected]

Desta forma, integrando ambos os termos temos t

log S ( t ) = −∫ h( u )du = −H ( t ) . 0

Uma vez que S(0) = 1, temos que  t  S ( t ) = exp − ∫ h( u )du  = exp{− H ( t )}  0 

(4)

Também, de (1) temos que f ( t ) = h( t )S ( t ) .

(5)

Substituindo (4) em (5) temos  t  f ( t ) = h( t ) exp − ∫ h( u )du  .  0  Essa expressão é muito importante quando desenvolvemos os procedimentos de estimação somente sobre a função de risco.

EXERCÍCIOS 1. Classifique cada uma das situações abaixo como um tipo específico de censura (Tipo I, II, aleatória e combinações entre elas). i) De 50 pacientes submetidos a um tratamento, apenas 40 permaneceram até experimentarem o evento de interesse (experimento sem limite de tempo); ii) O estudo consiste em obter informações sobre a expectativa de vida de pacientes com um certo tipo de doença (expectativa de vida a partir do diagnóstico da doença). Os indivíduos entram no estudo a medida que o diagnóstico acusa a doença. O estudo teve início em Janeiro de 2000 e até hoje novos indivíduos entram no estudo (são diagnosticados com a doença); iii) Em um teste de visão, mede-se o tempo necessário para que um indivíduo consiga detectar um alvo camuflado numa tela de computador. A tela com o alvo fica exposta durante 30 segundos e durante esse tempo o indivíduo deve apontar o mouse sobre o alvo. Cabe lembrar que caso o indivíduo aponte em um local que não seja o alvo, instantaneamente a tela com o alvo desaparece; iv) Suponha que 20 ônibus chegaram simultaneamente num posto de gasolina. Um indivíduo que estava em um destes ônibus resolve estimar o tempo médio que um ônibus permanece parado neste posto. Note que ele não pode observar o tempo que cada ônibus permanece no posto (a não ser que o seu ônibus seja o último a partir). Neste caso, esse indivíduo observa apenas o tempo de permanência daqueles ônibus que partiram antes dele; v) Em uma corrida de kart com 15 pilotos, apenas 5 pilotos são classificados (os 5 mais rápidos). No momento que o 5º piloto passa pela linha final a corrida é imediatamente interrompida, fazendo que os demais pilotos não tenham a oportunidade de completar a corrida. Deseja-se estimar o tempo médio que um piloto (piloto qualquer; classificado ou não) necessita para completar a prova.

7

Apostila de Análise de Sobrevivência

Prof: Eduardo Yoshio Nakano E-mail: [email protected]

2. Seja T uma variável aleatória com distribuição Exponencial com parâmetro λ . Assim, a f.d.p. de T é dada por: f ( t ) = λ e −λ t , t ≥0 (i) Determine as funções S(t), h(t) e H(t) e mostre que as relações entre f(t), S(t) e h(t) são verdadeiras. (ii) Mostre que a distribuição Exponencial possui a propriedade de “falta de memória”, isto é, P[T≥t+s|T≥s] = P[T≥t] (iii) Ache o p-ésimo quantil, tp, da distribuição Exponencial.

3. Prove que, para qualquer variável T contínua, h( t ) =

f(t ) . S( t )

4. Considere que o tempo de vida (em anos) de um equipamento eletrônico pode ser representado por uma variável aleatória T com a seguinte f.d.p. 2

f ( t ) = 2te −t , t ≥ 0 i) Qual a probabilidade de um equipamento eletrônico funcionar por mais de 1 ano? ii) Determine a Função de Risco h(t) e responda: O risco desse equipamento falhar aumenta ou diminui com o passar do tempo? iii) qual a mediana do tempo de vida desse equipamento (mediana = t0,5 = quantil 0,5);

1.0

5. Considere três tratamentos, A, B e C, para o combate de uma doença. O tempo (em semanas) até a cura é representado por uma variável aleatória T, que depende de qual tratamento foi utilizado. A figura abaixo apresenta a Função de Sobrevivência de T para os três tratamentos.

0.6 0.4 0.0

0.2

Função de Sobrevivência

0.8

Tratamento A Tratamento B Tratamento C

0.0

0.5

1.0

1.5

2.0

tempo até a cura (em semanas)

i) Qual dos três tratamentos é o mais eficiente? ii) Se o objetivo é a cura da doença em menos de uma semana, o tratamento A ou B deve ser preferido? iii) Se o objetivo é garantir a cura da doença em no máximo duas semanas, o tratamento A ou B deve ser preferido?

8

Apostila de Análise de Sobrevivência

Prof: Eduardo Yoshio Nakano E-mail: [email protected]

3. MÉTODOS NÃO-PARAMÉTRICOS DE ESTIMAÇÃO Do ponto de vista prático, inicialmente temos interesse na estimação da Função Densidade de Probabilidades f(t), da Função de Sobrevivência, S(t) e da Função de Risco, h(t). Estas funções podem ser estimadas diretamente a partir dos dados amostrais através de procedimentos nãoparamétricos que serão apresentados a seguir. ESTIMAÇÃO NA AUSÊNCIA DE CENSURA O procedimento de estimação de dados não censurados será ilustrado através do seguinte exemplo: Exemplo 1: Tempo de sobrevivência (em meses) de pacientes após receberem transplante de rim. 2 4 5 7 11 11 12 13 15 19 22 23 25 25 29 32 37 39 44 55

Estimação da Função Densidade de Probabilidades A Função Densidade de Probabilidades, f(t), pode ser estimada a partir dos dados amostrais por meio da expressão ˆf ( t ) = nº de indivíduos que exp erimentaram o evento de int eresse no int ervalo [ t ,t + ∆t ) (6) ∆t × ( nº total de indivíduos )

onde ∆t representa a amplitude do intervalo. Notas: (i) O valor de ∆t é definido da mesma forma que a amplitude de classes nas Tabelas de Freqüências. (ii) Na prática a f.d.p. é usualmente estimada pelo Histograma de freqüências relativas.

Considere os dados do Exemplo 1. Por meio de (6) temos que o valor estimado de f(t) no intervalo [10,20) é dado por ˆf ([ 10 ,20 ) ) = 6 = 0 ,03 10 × 20 Realizando o mesmo cálculo, obtemos a estimativa de f(t) para os demais intervalos. Os resultados podem ser vistos através da figura abaixo. Histograma

0.020

0.020

0.010

0.015

0.015

0.005

0.01...


Similar Free PDFs