Berbagi teknologi

[Selesaikan Kursus Inferensi Kausal Stanford] 2_Tidak ada poin kebingungan dan kecenderungan 1

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Daftar isi

Di luar uji coba terkontrol acak tunggal

Menggabungkan estimasi perbedaan rata-rata

X Kontinu dan Skor Kecenderungan


Salah satu perluasan paling sederhana dari uji coba acak adalah estimasi efek intervensi yang tidak dibatasi. Secara kualitatif, ketidakterbatasan relevan ketika kita ingin memperkirakan efek pengobatan yang tidak acak, namun sama acaknya ketika kita mengontrol sekumpulan kovariat Xi.

Tujuan dari kuliah ini adalah untuk mendiskusikan identifikasi dan estimasi rata-rata dampak intervensi berdasarkan asumsi tidak terbatas ini. Seperti sebelumnya, kami akan mengadopsi pendekatan nonparametrik: kami tidak akan mengasumsikan spesifikasi yang baik dari model parametrik apa pun, dan identifikasi rata-rata dampak pengobatan akan sepenuhnya didorong oleh desain (yaitu, klaim independensi bersyarat sehubungan dengan potensi hasil intervensi dan pengobatan).

Di luar uji coba terkontrol acak tunggal

Kami mendefinisikan efek kausal dari suatu pengobatan berdasarkan potensi hasil intervensinya. Untuk intervensi biner w∈{0, 1}, kami mendefinisikan hasil potensial Yi(1) dan Yi(0), sesuai dengan hasil yang akan dialami subjek ke-i ketika menerima atau tidak menerima intervensi. Kami berasumsi bahwa SUTVA,Y_i = Y_i(W_i), dan ingin memperkirakan dampak intervensi rata-rata

teks{ATE}=mathbb{E}kiri[Y_i(1)-Y_i(0)kanan]

Pada kuliah pertama, kami mengasumsikan tugas intervensi acak,{Y_i(0), Y_i(1)}pelaku W_i, dan beberapa √n penduga ATE yang konsisten dipelajari.

Cara termudah untuk melampaui satu RCT adalah dengan mempertimbangkan dua RCT. Sebagai contoh nyata, misalkan kita ingin memberikan hadiah uang tunai kepada remaja untuk mencegah mereka merokok. Lima persen remaja di Palo Alto, California, dan 20% remaja di Jenewa, Swiss, memenuhi syarat untuk berpartisipasi dalam penelitian ini.

Di setiap kota kami melakukan penelitian terkontrol secara acak, dan mudah untuk melihat bahwa intervensi tersebut membantu. Namun, melihat data agregat bisa menyesatkan, sehingga tampak bahwa suatu intervensi menimbulkan kerugian; ini adalah contoh dari apa yang kadang-kadang disebut Paradoks Simpson: Setelah kami mengumpulkan data, hal ini bukan lagi merupakan RCT karena penduduk Jenewa lebih cenderung menjalani pengobatan dan lebih cenderung merokok terlepas dari apakah mereka sedang menjalani pengobatan. Untuk mendapatkan estimasi ATE yang konsisten, kita perlu memperkirakan dampak intervensi secara terpisah untuk setiap kota:mulai{aligned} &topi{tau}_{mathrm{PA}}=frac{5}{152+5}-frac{122}{2362+122}sekitar-1,7%, \ &topi{tau}_{mathrm{GVA}}=frac{350}{350+581}-frac{1979}{2278+1979}sekitar-8,9% \ &mulai{aligned}topi{tau}=frac{2641}{2641+5188}topi{tau}_{mathrm{PA}}+frac{5188}{2641+5188}topi{tau}_{mathrm{GVA}}sekitar-6,5%.akhir{aligned} akhir{aligned}

Apa sifat statistik dari penduga ini? Bagaimana ide ini digeneralisasikan ke x yang berurutan?

Menggabungkan estimasi perbedaan rata-rata

Asumsikan bahwa kovariat Xi mengambil nilai dalam ruang diskrit Xi∈X,|matematika{X}|=p . Misalkan lebih lanjut bahwa alokasi perlakuan adalah penugasan acak yang bergantung pada Xi (yaitu, setiap kelompok memiliki RCT yang ditentukan oleh tingkat x):{Y_i(0), Y_i(1)} perp W_i besar| X_i=x, teks{untuk semua} xinmathcal{X}.

Tentukan efek pengobatan rata-rata dalam kelompok sebagaitau(x)=mathbb{E}mulai{bmatriks}Y_i(1)-Y_i(0)&X_i=xakhir{bmatriks}

Kemudian, seperti disebutkan di atas, kita dapat memperkirakan ATE τ dengan menggabungkan estimasi efek pengobatan tingkat kelompok,

mulai{aligned}topi{tau}_{AGG}=jumlah_{xmatematika{X}}frak{n_x}{n}topi{tau}(x),kuadrat{tau}(x)=frak{1}{n_{x1}}jumlah_{{X_i=x,W_i=1}}frak_Y_i{1}{n_{x0}}jumlah_{{X_i=x,W_i=0}}Y_i,akhir{aligned}

di dalam Bahasa Indonesia: n_x=|{i:X_i=x}|mulai{sejajar}n_{xw}=|{i:X_i=x, W_i=w}|akhir{sejajar} . Seberapa bagus perkiraan ini?Secara intuitif, kita perlu memperkirakan|matematika{X}|=p "parameter", jadi kita mungkin mengharapkan variansnya linier dengan p?

Untuk mempelajari perkiraan ini, kita dapat menulisnya sebagai berikut. Pertama, untuk setiap kelompok dengan kovariat x, tentukan e(x) sebagai probabilitas menerima perlakuan pada kelompok tersebut,e(x)=mathbb{P}kiri[W_{i}=1 besar| X_{i}=xkanan] , dan dicatat

sqrt{n_x}kiri(topi{tau}(x)-tau(x)kanan) Panah kanan matematika{N}kiri(0, frac{teks{Var}kiri[Y_i(0) besar| X_i=xkanan]}{1-e(x)}+frac{teks{Var}kiri[Y_i(1) besar| X_i=xkanan]}{e(x)}kanan)

Selanjutnya menurut matematika{Var}mulai{bmatrix}Y(w)&X=xakhir{bmatrix} =sigma^{2}(x) Tanpa bergantung pada asumsi penyederhanaan w, kita dapat memperolehnya

sqrt{n_x}kiri(hat{tau}(x)-tau(x)kanan) Panah kanan matematika{N}kiri(0, frac{sigma^2(x)}{e(x)(1-e(x))}kanan).

Selanjutnya, untuk estimator ansambel, kita akan melakukannya topi{pi}(x) = n_x/n didefinisikan sebagaiX_i=x Proporsi pengamatan akan menjadipi(x)=mathbb{P}kiri[X_i=xkanan] Didefinisikan sebagai nilai yang diharapkan, yang bisa kita peroleh

Dengan menggabungkan bagian-bagian ini, kita mendapatkanakar{n}kiri(topi{tau}_{AGG}-taukanan) Panah kanan matematika{N}kiri(0,V_{AGG}kanan)

mulai{dikumpulkan} V_{AGG} ={Var}kiri[tau(X_{i})kanan]+jumlah_{xhitung{X}}pi^{2}(x)frac{1}{pi(x)}frac{sigma^{2}(x)}{e(x)(1-e(x))} \ ={Var}kiri[tau(X_i)kanan]+mathbb{E}kiri[frac{sigma^2(X_i)}{e(X_i)(1-e(X_i))}kanan]. akhir{dikumpulkan}

Perlu dicatat bahwa varians asimtotik VAGG tidak bergantung pada jumlah kelompok |matematika{X}|=p,Seperti yang akan kita lihat nanti, fakta ini memainkan peran kunci dalam membuat kesimpulan semiparametrik secara efisien tentang efek intervensi rata-rata dalam studi observasional.

Kontinu X dan skor kecenderungan

Dalam contoh di atas, kita mempertimbangkan kasus dimana X adalah diskrit dan jumlah levelnya terbatas, dan perlakuan Wi sama acaknya dengan kondisi Xi = x pada (2.1). Dalam kasus ini, kami menemukan bahwa ATE masih dapat diperkirakan secara akurat dengan menggabungkan perkiraan efek pengobatan dalam kelompok, dan jumlah pasti kelompok |X| = p tidak mempengaruhi keakuratan inferensi. Namun, hasil ini tidak berlaku secara langsung jika X kontinu (atau jika bilangan chi-kuadrat dari Definisikan τ (x) seperti pada .

Untuk menggeneralisasi analisis kami di luar kasus X-diskrit, kami tidak bisa lagi mencoba memperkirakan τ(x) untuk setiap nilai Untuk melakukan hal ini, pertama-tama kita perlu menggeneralisasi hipotesis bahwa terdapat RCT untuk setiap kelompok.Secara formal, kami hanya menulis hal yang sama

{Y_i(0),Y_i(1)}perp W_i besar| X_i,quad(2.6)

Meskipun sekarang Xi mungkin merupakan variabel acak yang berubah-ubah, pernyataan ini mungkin perlu ditafsirkan dengan lebih hati-hati. Dari perspektif kualitatif, salah satu pemahaman dari (2.6) adalah bahwa kita telah mengukur cukup banyak kovariat untuk menangkap ketergantungan antara Wi dan potensi hasil, sehingga dengan adanya Xi, Wi tidak dapat "Mengintip"{Yi(0), Yi(1)} .Kami menyebutnya hipotesisketidakteraturan.

Asumsi (2.6) tampaknya sulit digunakan dalam praktik karena melibatkan kondisi variabel acak kontinu.Namun, seperti yang dikemukakan Rosenbaum dan Rubin (1983), dengan mempertimbangkan skor kecenderungane(x)=mathbb{P}mulai{bmatrix}W_i=1 besar| X_i=xakhir{bmatrix}

Secara statistik, ciri utama dari skor kecenderungan adalah skor yang seimbang: jika (2.6) berlaku, maka pada kenyataannya

{Y_i(0),Y_i(1)}perp W_i | e(X_i),kuadrat(2.8)

Artinya, Anda sebenarnya hanya perlu mengontrol e(X) daripada X untuk menghilangkan bias yang terkait dengan penugasan non-acak pada intervensi. Kami dapat memverifikasi pernyataan ini dengan:

Bahasa Indonesia: mulai{sejajar} &mathbb{P}kiri[W_{i}=w besar| {Y_{i}(0), Y_{i}(1)besar} , e(X_{i})kanan] \ &=int_{matematika{X}}mathbb{P}kiri[W_i=w besar| {Y_i(w)} ,X_i=xkanan]mathbb{P}kiri[X_i=x besar| {Y_i(w)} , e(X_i)kanan] dx \ &=int_{matematika{X}}mathbb{P}kiri[W_i=w besar| X_i=xkanan]mathbb{P}kiri[X_i=x besar|  besar{Y_i(w)besar}, e(X_i)kanan] dxquadtext{(tidak dikonf.)} \ &=e(X_{i})mathbf{1}_{w=1}+(1-e(X_{i}))mathbf{1}_{w=0}. akhir{sejajar}

Implikasi dari (2.8) adalah jika kita dapat membagi observasi menjadi kelompok-kelompok dengan nilai skor kecenderungan e(x) yang (hampir) konstan, maka kita dapattopi{tau}_{AGG} Varian memperkirakan secara konsisten efek intervensi rata-rata.