Compartilhamento de tecnologia

[Curso completo de inferência causal de Stanford] 2_Sem confusão e pontos de tendência 1

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Índice

Além de um único ensaio clínico randomizado controlado

Agregação de estimadores de diferença de médias

X contínuo e o escore de propensão


Uma das extensões mais simples dos ensaios randomizados é a estimativa irrestrita dos efeitos da intervenção. Qualitativamente falando, a ilimitação é relevante quando queremos estimar um efeito de tratamento que não é aleatório, mas é tão bom quanto aleatório, uma vez que controlamos um conjunto de covariáveis ​​Xi.

O objetivo desta palestra é discutir a identificação e estimativa dos efeitos médios da intervenção sob esta suposição ilimitada. Tal como antes, adoptaremos uma abordagem não paramétrica: não assumiremos uma boa especificação de qualquer modelo paramétrico, e a identificação dos efeitos médios do tratamento será conduzida inteiramente pela concepção (ou seja, reivindicações de independência condicional no que diz respeito a potenciais resultados de intervenção e tratamentos).

Além de um único ensaio clínico randomizado controlado

Definimos o efeito causal de um tratamento pelo seu resultado potencial de intervenção. Para uma intervenção binária w∈{0, 1}, definimos os resultados potenciais Yi(1) e Yi(0), correspondentes aos resultados que o i-ésimo sujeito experimentaria ao receber ou não a intervenção, respectivamente. Assumimos que SUTVA,Y_i = Y_i(W_i), e deseja estimar o efeito médio da intervenção

texto{ATE}=mathbb{E}esquerda[Y_i(1)-Y_i(0)direita]

Na primeira aula assumimos atribuição de intervenção aleatória{Y_i(0), Y_i(1)}perp W_i, e vários estimadores √n consistentes de ATE são estudados.

A maneira mais fácil de ir além de um ECR é considerar dois ECRs. Como exemplo concreto, suponhamos que estamos interessados ​​em dar recompensas em dinheiro aos adolescentes para desencorajá-los de fumar. Cinco por cento dos adolescentes em Palo Alto, Califórnia, e 20% dos adolescentes em Genebra, Suíça, eram elegíveis para participar no estudo.

Dentro de cada cidade tivemos estudos randomizados e controlados, e foi realmente fácil ver que a intervenção ajudou. No entanto, olhar para dados agregados pode ser enganador, fazendo parecer que uma intervenção causa danos; este é um exemplo do que por vezes é chamado de Paradoxo de Simpson: Depois de reunirmos os dados, este deixou de ser um ECR porque os genebranos eram mais propensos a estar em tratamento e mais propensos a fumar, independentemente de estarem ou não em tratamento. Para obter estimativas ATE consistentes, precisamos estimar o efeito da intervenção separadamente para cada cidade:begin{alinhado} &hat{tau}_{mathrm{PA}}=frac{5}{152+5}-frac{122}{2362+122}aprox-1,7%, \ &hat{tau}_{mathrm{GVA}}=frac{350}{350+581}-frac{1979}{2278+1979}aprox-8,9% \ &begin{alinhado}hat{tau}=frac{2641}{2641+5188}hat{tau}_{mathrm{PA}}+frac{5188}{2641+5188}hat{tau}_{mathrm{GVA}}aprox-6,5%.end{alinhado} end{alinhado}

Quais são as propriedades estatísticas deste estimador? Como essa ideia se generaliza para x consecutivos?

Agregação de estimadores de diferença de médias

Suponha que a covariável Xi assume valores no espaço discreto Xi∈X,|matemática{X}|=p . Suponha ainda que a alocação do tratamento seja aleatória condicional a Xi (ou seja, cada grupo tem um ECR definido pelo nível x):{Y_i(0), Y_i(1)} perp W_i grande| X_i=x, texto{para todos} xinmathcal{X}.

Defina o efeito médio do tratamento dentro do grupo comotau(x)=mathbb{E}início{bmatriz}Y_i(1)-Y_i(0)&X_i=xfim{bmatriz}

Então, como mencionado acima, podemos estimar ATE τ agregando estimativas de efeito de tratamento em nível de grupo,

begin{alinhado}hat{tau}_{AGG}=soma_{xinmathcal{X}}frac{n_x}{n}hat{tau}(x),quadhat{tau}(x)=frac{1}{n_{x1}}soma_{{X_i=x,W_i=1}}Y_i-frac{1}{n_{x0}}soma_{{X_i=x,W_i=0}}Y_i,end{alinhado}

em n_x=|{i:X_i=x}|início{alinhado}n_{xw}=|{i:X_i=x, W_i=w}|fim{alinhado} . Quão boa é essa estimativa?Intuitivamente, precisamos estimar|matemática{X}|=p "parâmetro", então podemos esperar que a variância seja linear com p?

Para estudar esta estimativa, podemos escrevê-la da seguinte forma. Primeiro, para qualquer grupo com covariável x, defina e(x) como a probabilidade de receber tratamento nesse grupo,e(x)=mathbb{P}esquerda[W_{i}=1 grande| X_{i}=xdireita] , e observou

sqrt{n_x}esquerda(hat{tau}(x)-tau(x)direita)Rightarrowmathcal{N}esquerda(0, frac{texto{Var}esquerda[Y_i(0) grande| X_i=xdireita]}{1-e(x)}+frac{texto{Var}esquerda[Y_i(1) grande| X_i=xdireita]}{e(x)}direita)

Além disso, de acordo com mathrm{Var}begin{bmatriz}Y(w)&X=xend{bmatriz} =sigma^{2}(x) Sem depender das suposições simplificadoras de w, podemos obter

sqrt{n_x}esquerda(hat{tau}(x)-tau(x)direita)Rightarrowmathcal{N}esquerda(0, frac{sigma^2(x)}{e(x)(1-e(x))}direita).

A seguir, para o estimador de conjunto, iremos chapéu{pi}(x) = n_x/n definido comoX_{i}=x A proporção de observações serápi(x)=mathbb{P}esquerda[X_i=xdireita] Definido como seu valor esperado, podemos obter

Juntando essas partes obtemossqrt{n}esquerda(hat{tau}_{AGG}-taudireita)direitasetamathcal{N}esquerda(0,V_{AGG}direita)

begin{reunido} V_{AGG} =mathrm{Var}esquerda[tau(X_{i})direita]+sum_{xinmathcal{X}}pi^{2}(x)frac{1}{pi(x)}frac{sigma^{2}(x)}{e(x)(1-e(x))} \ =mathrm{Var}esquerda[tau(X_i)direita]+mathbb{E}esquerda[frac{sigma^2(X_i)}{e(X_i)(1-e(X_i))}direita]. end{reunido}

Vale ressaltar que a variância assintótica VAGG não depende do número de grupos |matemática{X}|=p,Como veremos mais tarde, este facto desempenha um papel fundamental na realização eficiente de inferências semiparamétricas sobre os efeitos médios da intervenção em estudos observacionais.

Contínuo X e a pontuação de propensão

Acima, consideramos o caso em que X é discreto e o número de níveis é limitado, e o tratamento Wi é tão aleatório quanto a condição de Xi = x em (2.1). Neste caso, descobrimos que o ATE ainda pode ser estimado com precisão agregando estimativas do efeito do tratamento dentro do grupo, e o número exato de grupos |X=p não afeta a precisão da inferência. No entanto, este resultado não se aplica diretamente se X for contínuo (ou se o número qui-quadrado de Defina τ (x) como em.

Para generalizar nossa análise além do caso X discreto, não podemos mais simplesmente tentar estimar τ(x) para cada valor de Para fazer isso, primeiro precisamos generalizar a hipótese de que existe um ECR para cada grupo.Formalmente, apenas escrevemos o mesmo

{Y_i(0),Y_i(1)}perp W_i grande| X_i,quad(2.6)

Embora agora Xi possa ser uma variável aleatória arbitrária, esta afirmação pode precisar ser interpretada com mais cautela. De uma perspectiva qualitativa, um entendimento de (2.6) é que medimos covariáveis ​​suficientes para capturar qualquer dependência entre Wi e o resultado potencial, de modo que dado Xi, Wi não pode "Peep"{Yi(0), Yi(1)} .Chamamos essa hipóteseinconfundibilidade.

A suposição (2.6) parece difícil de usar na prática porque envolve condições para variáveis ​​aleatórias contínuas.Porém, como apontam Rosenbaum e Rubin (1983), ao considerar o escore de propensãoe(x)=mathbb{P}begin{bmatriz}W_i=1 grande| X_i=xend{bmatriz}

Estatisticamente, uma propriedade chave do escore de propensão é que ele é um escore equilibrado: se (2.6) for válido, então de fato

{Y_i(0),Y_i(1)}perp W_i | e(X_i),quad(2.8)

Ou seja, na verdade, você só precisa controlar e(X) em vez de X para eliminar o viés associado à atribuição não aleatória à intervenção. Podemos verificar esta afirmação por:

begin{alinhado} &mathbb{P}esquerda[W_{i}=w grande| {Y_{i}(0), Y_{i}(1)grande} , e(X_{i})direita] \ &=int_{mathcal{X}}mathbb{P}esquerda[W_i=w grande| {Y_i(w)} ,X_i=xdireita]mathbb{P}esquerda[X_i=x grande| {Y_i(w)} , e(X_i)direita] dx \ &=int_{mathcal{X}}mathbb{P}esquerda[W_i=w grande| X_i=xdireita]mathbb{P}esquerda[X_i=x grande|  grande{Y_i(w)grande} , e(X_i)direita] dxquadtext{(inconf.)} \ &=e(X_{i})mathbf{1}_{w=1}+(1-e(X_{i}))mathbf{1}_{w=0}. fim{alinhado}

A implicação de (2.8) é que se pudermos dividir as observações em grupos com valores (quase) constantes do índice de propensão e(x), então podemoschapéu{tau}_{AGG} Variantes de estimar consistentemente o efeito médio da intervenção.