Compartir tecnología

[Curso completo de inferencia causal de Stanford] 2_Sin confusión y puntos de tendencia 1

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Tabla de contenido

Más allá de un único ensayo controlado aleatorio

Estimadores de diferencia de medias agregadas

X continua y el puntaje de propensión


Una de las extensiones más simples de los ensayos aleatorios es la estimación ilimitada de los efectos de la intervención. Hablando cualitativamente, la ilimitación es relevante cuando queremos estimar un efecto de tratamiento que no es aleatorio, pero que es casi aleatorio una vez que controlamos por un conjunto de covariables Xi.

El propósito de esta conferencia es discutir la identificación y estimación de los efectos promedio de la intervención bajo este supuesto ilimitado. Como antes, adoptaremos un enfoque no paramétrico: no asumiremos una buena especificación de ningún modelo paramétrico, y la identificación de los efectos promedio del tratamiento estará impulsada enteramente por el diseño (es decir, afirmaciones de independencia condicional con respecto a los resultados y tratamientos potenciales de la intervención).

Más allá de un único ensayo controlado aleatorio

Definimos el efecto causal de un tratamiento por el resultado potencial de la intervención. Para una intervención binaria w∈{0, 1}, definimos los resultados potenciales Yi(1) y Yi(0), correspondientes a los resultados que el i-ésimo sujeto experimentaría al recibir o no la intervención, respectivamente. Suponemos que SUTVA,Y_i = Y_i(W_i)y desea estimar el efecto promedio de la intervención

texto{ATE}=matemáticabb{E}izquierda[Y_i(1)-Y_i(0)derecha]

En la primera conferencia, asumimos una asignación de intervención aleatoria,{Y_i(0), Y_i(1)}perp W_i, y se estudian varios estimadores consistentes √n de ATE.

La forma más sencilla de ir más allá de un ECA es considerar dos ECA. Como ejemplo concreto, supongamos que estamos interesados ​​en dar recompensas en efectivo a los adolescentes para disuadirlos de fumar. El cinco por ciento de los adolescentes de Palo Alto, California, y el 20 por ciento de los adolescentes de Ginebra, Suiza, fueron elegibles para participar en el estudio.

Dentro de cada ciudad realizamos estudios controlados aleatorios y, de hecho, fue fácil ver que la intervención ayudó. Sin embargo, observar datos agregados puede resultar engañoso, haciendo que parezca que una intervención causa daño. Este es un ejemplo de lo que a veces se llama la paradoja de Simpson: Una vez que agrupamos los datos, este ya no era un ECA porque los ginebrinos tenían más probabilidades de estar en tratamiento y más probabilidades de fumar, independientemente de si estaban o no en tratamiento. Para obtener estimaciones ATE consistentes, necesitamos estimar el efecto de la intervención por separado para cada ciudad:begin{alineado} &hat{tau}_{mathrm{PA}}=frac{5}{152+5}-frac{122}{2362+122}aproximadamente-1,7 %, \ &hat{tau}_{mathrm{GVA}}=frac{350}{350+581}-frac{1979}{2278+1979}aproximadamente-8,9 % \ &begin{alineado}hat{tau}=frac{2641}{2641+5188}hat{tau}_{mathrm{PA}}+frac{5188}{2641+5188}hat{tau}_{mathrm{GVA}}aproximadamente-6,5 %.end{alineado} end{alineado}

¿Cuáles son las propiedades estadísticas de este estimador? ¿Cómo se generaliza esta idea a x consecutivas?

Estimadores de diferencia de medias agregadas

Supongamos que la covariable Xi toma valores en el espacio discreto Xi∈X,|matemática{X}|=p . Supongamos además que la asignación del tratamiento es aleatoria condicionada a Xi (es decir, cada grupo tiene un ECA definido por el nivel x):{Y_i(0), Y_i(1)} perp W_i grande| X_i=x, texto{para todos} xinmathcal{X}.

Defina el efecto promedio del tratamiento dentro del grupo comotau(x)=mathbb{E}begin{bmatrix}Y_i(1)-Y_i(0)&X_i=xend{bmatrix}

Luego, como se mencionó anteriormente, podemos estimar ATE τ agregando estimaciones del efecto del tratamiento a nivel de grupo,

comienzo{alineado}hat{tau}_{AGG}=suma_{xinmathcal{X}}frac{n_x}{n}hat{tau}(x),cuadradohat{tau}(x)=frac{1}{n_{x1}}suma_{{X_i=x,W_i=1}}Y_i-frac{1}{n_{x0}}suma_{{X_i=x,W_i=0}}Y_i,fin{alineado}

en n_x=|{i:X_i=x}|comienzo{alineado}n_{xw}=|{i:X_i=x, W_i=w}|fin{alineado} . ¿Qué tan buena es esta estimación?Intuitivamente debemos estimar|matemática{X}|=p "parámetro", por lo que podríamos esperar que la varianza sea lineal con p?

Para estudiar esta estimación, podemos escribirla de la siguiente manera. Primero, para cualquier grupo con covariable x, defina e(x) como la probabilidad de recibir tratamiento en ese grupo,e(x)=mathbb{P}izquierda[W_{i}=1 grande| X_{i}=xderecha] , y anotó

sqrt{n_x}izquierda(hat{tau}(x)-tau(x)derecha)Flechaderechamathcal{N}izquierda(0, frac{text{Var}izquierda[Y_i(0) grande| X_i=xderecha]}{1-e(x)}+frac{text{Var}izquierda[Y_i(1) grande| X_i=xderecha]}{e(x)}derecha)

Además, según mathrm{Var}begin{bmatrix}Y(w)&X=xend{bmatrix} =sigma^{2}(x) Sin depender de los supuestos simplificadores de w, podemos obtener

sqrt{n_x}izquierda(hat{tau}(x)-tau(x)derecha)Flecha derechamathcal{N}izquierda(0, frac{sigma^2(x)}{e(x)(1-e(x))}derecha).

A continuación, para el estimador de conjuntos, haremos sombrero{pi}(x) = n_x/n definido comoX_{i}=x La proporción de observaciones serápi(x)=mathbb{P}izquierda[X_i=xderecha] Definido como su valor esperado, podemos obtener

Juntando estas partes obtenemossqrt{n}izquierda(hat{tau}_{AGG}-tauderecha)Flecha derechamathcal{N}izquierda(0,V_{AGG}derecha)

comienzo{recopilado} V_{AGG} =mathrm{Var}izquierda[tau(X_{i})derecha]+suma_{xinmathcal{X}}pi^{2}(x)frac{1}{pi(x)}frac{sigma^{2}(x)}{e(x)(1-e(x))} \ =mathrm{Var}izquierda[tau(X_i)derecha]+mathbb{E}izquierda[frac{sigma^2(X_i)}{e(X_i)(1-e(X_i))}derecha]. fin{recopilado}

Vale la pena señalar que la varianza asintótica VAGG no depende del número de grupos. |matemática{X}|=p,Como veremos más adelante, este hecho desempeña un papel clave a la hora de realizar eficientemente inferencias semiparamétricas sobre los efectos promedio de la intervención en estudios observacionales.

Continuo X y la puntuación de propensión

En lo anterior, consideramos el caso en el que X es discreto y el número de niveles es limitado, y el tratamiento Wi es tan aleatorio como la condición de Xi = x en (2.1). En este caso, encontramos que ATE aún puede estimarse con precisión agregando estimaciones del efecto del tratamiento dentro del grupo, y el número exacto de grupos |X = p no afecta la precisión de la inferencia. Sin embargo, este resultado no se aplica directamente si X es continuo (o si el número chi-cuadrado de Defina τ (x) como en .

Para generalizar nuestro análisis más allá del caso de X discreto, ya no podemos simplemente intentar estimar τ(x) para cada valor de Para ello, primero necesitamos generalizar la hipótesis de que existe un ECA para cada grupo.Formalmente, simplemente escribimos lo mismo.

{Y_i(0),Y_i(1)}perp W_i grande| X_i,cuadrado(2.6)

Aunque ahora Xi puede ser una variable aleatoria arbitraria, es posible que esta afirmación deba interpretarse con más cautela. Desde una perspectiva cualitativa, una comprensión de (2.6) es que hemos medido suficientes covariables para capturar cualquier dependencia entre Wi y el resultado potencial, de modo que dado Xi, Wi no puede "Peep"{Yi(0), Yi(1)} .A esta hipótesis la llamamosfalta de confusión.

El supuesto (2.6) parece difícil de utilizar en la práctica porque involucra condiciones para variables aleatorias continuas.Sin embargo, como señalan Rosenbaum y Rubin (1983), al considerar la puntuación de propensióne(x)=mathbb{P}begin{bmatrix}W_i=1 grande| X_i=xend{bmatrix}

Estadísticamente, una propiedad clave del puntaje de propensión es que es un puntaje equilibrado: si (2.6) se cumple, entonces, de hecho,

{Y_i(0),Y_i(1)}perp W_i | e(X_i),cuadrado(2.8)

Es decir, en realidad sólo es necesario controlar e(X) en lugar de X para eliminar el sesgo asociado con la asignación no aleatoria a la intervención. Podemos verificar esta afirmación mediante:

begin{alineado} &mathbb{P}izquierda[W_{i}=w grande| {Y_{i}(0), Y_{i}(1)grande} , e(X_{i})derecha] \ &=int_{mathcal{X}}mathbb{P}izquierda[W_i=w grande| {Y_i(w)} ,X_i=xderecha]mathbb{P}izquierda[X_i=x grande| {Y_i(w)} , e(X_i)derecha] dx \ &=int_{mathcal{X}}mathbb{P}izquierda[W_i=w grande| X_i=xderecha]mathbb{P}izquierda[X_i=x grande|  grande{Y_i(w)grande} , e(X_i)derecha] dxquadtext{(sin conf.)} \ &=e(X_{i})mathbf{1}_{w=1}+(1-e(X_{i}))mathbf{1}_{w=0}. fin{alineado}

La implicación de (2.8) es que si podemos dividir las observaciones en grupos con valores (casi) constantes del puntaje de propensión e(x), entonces podemossombrero{tau}_{AGG} Las variantes de estiman consistentemente el efecto promedio de la intervención.