[Corso completo sull'inferenza causale di Stanford] 2_Nessuna confusione e punti di tendenza 1

2024-07-12

Sommario

Oltre un singolo studio randomizzato controllato

Aggregazione di stimatori di differenza nelle medie

X continua e il punteggio di propensione

Una delle estensioni più semplici degli studi randomizzati è la stima non vincolata degli effetti dell’intervento. Qualitativamente parlando, l’illimitatezza è rilevante quando vogliamo stimare un effetto del trattamento che non è casuale, ma è altrettanto casuale una volta controllato un insieme di covariate Xi.

Lo scopo di questa lezione è discutere l'identificazione e la stima degli effetti medi dell'intervento sotto questo presupposto illimitato. Come prima, adotteremo un approccio non parametrico: non assumeremo una buona specificazione di alcun modello parametrico e l’identificazione degli effetti medi del trattamento sarà guidata interamente dalla progettazione (vale a dire, rivendicazioni di indipendenza condizionale rispetto ai potenziali risultati dell’intervento e dei trattamenti).

Oltre un singolo studio randomizzato controllato

Definiamo l’effetto causale di un trattamento in base al suo potenziale risultato dell’intervento. Per un intervento binario w∈{0, 1}, definiamo i risultati potenziali Yi(1) e Yi(0), corrispondenti ai risultati che l'i-esimo soggetto sperimenterebbe rispettivamente quando riceve o non riceve l'intervento. Supponiamo che SUTVA, $Y_i = Y_i(W_i)$ e desideriamo stimare l’effetto medio dell’intervento

$testo{ATE}=mathbb{E}sinistra[Y_i(1)-Y_i(0)destra]$

Nella prima lezione, abbiamo ipotizzato un incarico di intervento casuale, ${Y_i(0), Y_i(1)}per W_i$ , e vengono studiati diversi stimatori √n coerenti dell'ATE.

Il modo più semplice per andare oltre un RCT è considerare due RCT. Come esempio concreto, supponiamo di essere interessati a dare agli adolescenti premi in denaro per scoraggiarli dal fumare. Erano idonei a partecipare allo studio il 5% degli adolescenti di Palo Alto, in California, e il 20% degli adolescenti di Ginevra, in Svizzera.

All’interno di ciascuna città abbiamo condotto studi randomizzati e controllati, ed è stato facile vedere che l’intervento ha aiutato. Tuttavia, guardare i dati aggregati può essere fuorviante, facendo sembrare che un intervento causi danni. Questo è un esempio di quello che a volte viene chiamato il paradosso di Simpson: Una volta riuniti i dati, questo non era più un RCT perché i ginevrini avevano sia maggiori probabilità di essere in trattamento che maggiori probabilità di fumare, indipendentemente dal fatto che fossero in trattamento. Per ottenere stime ATE coerenti, è necessario stimare l’effetto dell’intervento separatamente per ciascuna città: $begin{aligned} &hat{tau}_{mathrm{PA}}=frac{5}{152+5}-frac{122}{2362+122}circa-1,7%, \ &hat{tau}_{mathrm{GVA}}=frac{350}{350+581}-frac{1979}{2278+1979}circa-8,9% \ &begin{aligned}hat{tau}=frac{2641}{2641+5188}hat{tau}_{mathrm{PA}}+frac{5188}{2641+5188}hat{tau}_{mathrm{GVA}}circa-6,5%.end{aligned} end{aligned}$

Quali sono le proprietà statistiche di questo stimatore? Come si generalizza questa idea alle x consecutive?

Aggregazione di stimatori di differenza nelle medie

Supponiamo che la covariata Xi assuma valori nello spazio discreto Xi∈X, $|matematico{X}|=p$ . Supponiamo inoltre che l'assegnazione del trattamento sia un'assegnazione casuale condizionata a Xi (ovvero, ciascun gruppo ha un RCT definito dal livello x): ${Y_i(0), Y_i(1)} perp W_i grande| X_i=x, testo{per tutti} xinmathcal{X}.$

Definire l'effetto medio del trattamento all'interno del gruppo come $tau(x)=mathbb{E}inizio{matriceb}Y_i(1)-Y_i(0)&X_i=xfine{matriceb}$

Quindi, come accennato in precedenza, possiamo stimare l’ATE τ aggregando le stime degli effetti del trattamento a livello di gruppo,

$inizio{allineato}hat{tau}_{AGG}=somma_{xinmathcal{X}}frazione{n_x}{n}hat{tau}(x),quadhat{tau}(x)=frazione{1}{n_{x1}}somma_{{X_i=x,W_i=1}}Y_i-frazione{1}{n_{x0}}somma_{{X_i=x,W_i=0}}Y_i,fine{allineato}$

In ${i:X_i=x}|$ ， $inizio{allineato}n_{xw}=|{i:X_i=x, W_i=w}|fine{allineato}$ . Quanto è buona questa stima?Intuitivamente dobbiamo stimare $|matematico{X}|=p$ "parametro", quindi potremmo aspettarci che la varianza sia lineare con p?

Per studiare questa stima, possiamo scriverla come segue. Innanzitutto, per qualsiasi gruppo con covariata x, definisci e(x) come la probabilità di ricevere il trattamento in quel gruppo, $e(x)=mathbb{P}sinistra[W_{i}=1 grande| X_{i}=xdestra]$ , e notato

$sqrt{n_x}sinistra(cappello{tau}(x)-tau(x)destra)frecciadestramatematica{N}sinistra(0, frac{testo{Var}sinistra[Y_i(0) grande| X_i=xdestra]}{1-e(x)}+frac{testo{Var}sinistra[Y_i(1) grande| X_i=xdestra]}{e(x)}destra)$

Inoltre, secondo $mathrm{Var}inizio{matriceb}Y(w)&X=xfine{matriceb} =sigma^{2}(x)$ Senza fare affidamento sulle ipotesi semplificative di w, possiamo ottenere

$sqrt{n_x}sinistra(hat{tau}(x)-tau(x)destra)frecciadestramathcal{N}sinistra(0, frac{sigma^2(x)}{e(x)(1-e(x))}destra).$

Successivamente, per lo stimatore dell'insieme, lo faremo $cappello{pi}(x) = n_x/n$ definito come $X_{io}=x$ La proporzione delle osservazioni sarà $pi(x)=mathbb{P}sinistra[X_i=xdestra]$ Definito come il suo valore atteso, possiamo ottenere

Mettendo insieme queste parti otteniamo $sqrt{n}sinistra(cappello{tau}_{AGG}-taudestra)frecciadestramathcal{N}sinistra(0,V_{AGG}destra)$

$inizio{raccolto} V_{AGG} =mathrm{Var}sinistra[tau(X_{i})destra]+somma_{xinmathcal{X}}pi^{2}(x)frazione{1}{pi(x)}frazione{sigma^{2}(x)}{e(x)(1-e(x))} \ =mathrm{Var}sinistra[tau(X_i)destra]+mathbb{E}sinistra[frazione{sigma^2(X_i)}{e(X_i)(1-e(X_i))}destra]. fine{raccolto}$

Vale la pena notare che la varianza asintotica VAGG non dipende dal numero di gruppi $|matematico{X}|=p,$ Come vedremo più avanti, questo fatto gioca un ruolo chiave nel fare in modo efficiente inferenze semiparametriche sugli effetti medi dell’intervento negli studi osservazionali.

Continuo X e il punteggio di propensione

In precedenza, abbiamo considerato il caso in cui X è discreto e il numero di livelli è limitato, e il trattamento Wi è casuale quanto la condizione di Xi = x nella (2.1). In questo caso, troviamo che l'ATE può ancora essere stimata accuratamente aggregando le stime degli effetti del trattamento all'interno del gruppo e il numero esatto di gruppi |X = p non influisce sull'accuratezza dell'inferenza. Tuttavia, questo risultato non si applica direttamente se X è continuo (o se il numero chi quadrato di Define τ (x) come in .

Per generalizzare la nostra analisi oltre il caso X discreto, non possiamo più semplicemente provare a stimare τ(x) per ogni valore di Per fare ciò, dobbiamo prima generalizzare l’ipotesi che esista un RCT per ciascun gruppo.Formalmente scriviamo semplicemente la stessa cosa

${Y_i(0),Y_i(1)}perp W_i grande| X_i,quad(2.6)$

Sebbene ora Xi possa essere una variabile casuale arbitraria, questa affermazione potrebbe dover essere interpretata con maggiore cautela. Da un punto di vista qualitativo, una comprensione della (2.6) è che abbiamo misurato abbastanza covariate per catturare qualsiasi dipendenza tra Wi e il risultato potenziale, in modo che dato Xi, Wi non può "Peep"{Yi(0), Yi(1)} .Chiamiamo questa ipotesiinconfondibilità.

L'ipotesi (2.6) sembra difficile da usare nella pratica perché implica condizioni per variabili casuali continue.Tuttavia, come sottolineano Rosenbaum e Rubin (1983), considerando il punteggio di propensione $e(x)=mathbb{P}inizio{matriceb}W_i=1 grande| X_i=xfine{matriceb}$

Statisticamente, una proprietà chiave del propensity score è che si tratta di un punteggio equilibrato: se vale la (2.6), allora in effetti

${Y_i(0),Y_i(1)}perp W_i | e(X_i),quad(2.8)$

Cioè, in realtà è necessario controllare solo e(X) anziché X per eliminare la distorsione associata all'assegnazione non casuale dell'intervento. Possiamo verificare questa affermazione tramite:

$inizio{allineato} &mathbb{P}sinistra[W_{i}=w grande| {Y_{i}(0), Y_{i}(1)grande} , e(X_{i})destra] \ &=int_{mathcal{X}}mathbb{P}sinistra[W_i=w grande| {Y_i(w)} ,X_i=xdestra]mathbb{P}sinistra[X_i=x grande| {Y_i(w)} , e(X_i)destra] dx \ &=int_{mathcal{X}}mathbb{P}sinistra[W_i=w grande| X_i=xdestra]mathbb{P}sinistra[X_i=x grande| grande{Y_i(w)grande} , e(X_i)destra] dxquadtext{(non conf.)} \ &=e(X_{i})mathbf{1}_{w=1}+(1-e(X_{i}))mathbf{1}_{w=0}. fine{allineato}$

L’implicazione della (2.8) è che se possiamo dividere le osservazioni in gruppi con valori (quasi) costanti del propensity score e(x), allora possiamo $cappello{tau}_{AGG}$ Le varianti di stimano in modo coerente l'effetto medio dell'intervento.

Condivisione della tecnologia