기술나눔

[스탠포드 인과추론과정 이수] 2_혼란 및 경향성 점 없음 1

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

목차

단일 무작위 대조 시험을 넘어서

평균 차이 추정치 집계

연속 X와 경향성 점수


무작위 시험의 가장 간단한 확장 중 하나는 개입 효과의 무제한 추정입니다. 질적으로 무한성은 무작위가 아니지만 공변량 Xi 세트를 제어하면 무작위만큼 좋은 치료 효과를 추정하려는 경우 관련이 있습니다.

본 강의의 목적은 이러한 무한한 가정 하에서 평균 개입 효과를 식별하고 추정하는 방법에 대해 논의하는 것입니다. 이전과 마찬가지로 우리는 비모수적 접근 방식을 채택할 것입니다. 우리는 어떤 매개변수적 모델에 대해서도 좋은 사양을 가정하지 않을 것이며 평균 치료 효과의 식별은 전적으로 설계에 따라 이루어질 것입니다(즉, 잠재적 개입 결과 및 치료에 대한 조건부 독립 주장).

단일 무작위 대조 시험을 넘어서

우리는 잠재적인 개입 결과를 통해 치료의 인과적 효과를 정의합니다. 이진 개입 w∈{0, 1}의 경우, i번째 피험자가 개입을 받을 때 또는 받지 않을 때 경험할 결과에 해당하는 잠재적인 결과 Yi(1) 및 Yi(0)을 정의합니다. 우리는 SUTVA,Y_i = Y_i(W_i), 평균 개입 효과를 추정하고 싶습니다.

텍스트{ATE}=mathbb{E}왼쪽[Y_i(1)-Y_i(0)오른쪽]

첫 번째 강의에서는 무작위 개입 할당을 가정했는데,{Y_i(0), Y_i(1)}수행 W_i, 그리고 ATE의 여러 √n 일관된 추정자가 연구되었습니다.

하나의 RCT를 넘어서는 가장 쉬운 방법은 두 개의 RCT를 고려하는 것입니다. 구체적인 예로, 청소년의 흡연을 막기 위해 현금 보상을 제공하는 데 관심이 있다고 가정해 보겠습니다. 캘리포니아 팔로알토 청소년의 5%, 스위스 제네바 청소년의 20%가 연구에 참여할 자격이 있었습니다.

각 도시 내에서 우리는 무작위 대조 연구를 실시했고 실제로 개입이 도움이 되었다는 것을 쉽게 확인할 수 있었습니다. 그러나 집계된 데이터를 보는 것은 오해의 소지가 있어 개입이 해를 끼치는 것처럼 보일 수 있습니다. 이는 때때로 Simpson's Paradox라고 불리는 것의 예입니다. 데이터를 통합한 후에는 제네바 사람들이 치료 중일 가능성이 더 높고 치료 중인지 여부에 관계없이 흡연할 가능성이 더 높기 때문에 이는 더 이상 RCT가 아닙니다. 일관된 ATE 추정치를 얻으려면 각 도시에 대해 개별적으로 개입 효과를 추정해야 합니다.시작{정렬} &hat{tau}_{mathrm{PA}}=frac{5}{152+5}-frac{122}{2362+122}대략-1.7%, \ &hat{tau}_{mathrm{GVA}}=frac{350}{350+581}-frac{1979}{2278+1979}대략-8.9% \ &begin{aligned}hat{tau}=frac{2641}{2641+5188}hat{tau}_{mathrm{PA}}+frac{5188}{2641+5188}hat{tau}_{mathrm{GVA}}대략-6.5%.end{aligned} end{aligned}

이 추정기의 통계적 속성은 무엇입니까? 이 아이디어는 연속적인 x로 어떻게 일반화됩니까?

평균 차이 추정치 집계

공변량 Xi가 이산공간 Xi∈X에서 값을 취한다고 가정하면,|수학{X}|=p . 또한 치료 할당이 Xi를 조건으로 하는 무작위 할당이라고 가정합니다(즉, 각 그룹은 x 수준으로 정의된 RCT를 갖습니다).{Y_i(0), Y_i(1)} perp W_i big| X_i=x, text{모든} xinmathcal{X}.

그룹 내 평균 치료 효과를 다음과 같이 정의합니다.타우(x)=수학bb{E}시작{b매트릭스}Y_i(1)-Y_i(0)&X_i=x끝{b매트릭스}

그러면 위에서 언급한 것처럼 그룹 수준의 치료 효과 추정치를 집계하여 ATE τ를 추정할 수 있으며,

시작{정렬됨}햇{타우}_{AGG}=합계_{xinmathcal{X}}프랙{n_x}{n}햇{타우}(x),쿼드햇{타우}(x)=프랙{1}{n_{x1}}합계_{{X_i=x,W_i=1}}Y_i-프랙{1}{n_{x0}}합계_{{X_i=x,W_i=0}}Y_i,끝{정렬됨}

~에 n_x=|{i:X_i=x}|시작{정렬}n_{xw}=|{i:X_i=x, W_i=w}|끝{정렬} . 이 추정치는 얼마나 좋은가요?직관적으로 추정해야 합니다.|수학{X}|=p "매개변수"이므로 분산이 p에 대해 선형일 것으로 예상할 수 있습니까?

이 추정치를 연구하기 위해 다음과 같이 작성할 수 있습니다. 먼저, 공변량 x가 있는 그룹에 대해 e(x)를 해당 그룹에서 치료를 받을 확률로 정의합니다.e(x)=mathbb{P}왼쪽[W_{i}=1 큰| X_{i}=x오른쪽] , 그리고 언급됨

sqrt{n_x}왼쪽(모자{타우}(x)-타우(x)오른쪽)오른쪽화살표수학{N}왼쪽(0, frac{text{Var}왼쪽[Y_i(0) 큰| X_i=x오른쪽]}{1-e(x)}+frac{text{Var}왼쪽[Y_i(1) 큰| X_i=x오른쪽]}{e(x)}오른쪽)

게다가에 따르면 mathrm{Var}시작{bmatrix}Y(w)&X=x끝{bmatrix} =시그마^{2}(x) w의 단순화된 가정에 의존하지 않고 다음을 얻을 수 있습니다.

sqrt{n_x}left(hat{tau}(x)-tau(x)right)Rightarrowmathcal{N}left(0, frac{sigma^2(x)}{e(x)(1-e(x))}right).

다음으로 앙상블 추정기에 대해 모자{파이}(x) = n_x/n ~로써 정의 된X_{i}=x 관측치의 비율은 다음과 같습니다.pi(x)=mathbb{P}왼쪽[X_i=x오른쪽] 기대값으로 정의하면 다음을 얻을 수 있습니다.

이 부분들을 하나로 합치면sqrt{n}left(hat{tau}_{AGG}-tauright)Rightarrowmathcal{N}left(0,V_{AGG}right)

시작{수집됨} V_{AGG} =mathrm{Var}왼쪽[타우(X_{i})오른쪽]+sum_{xinmathcal{X}}파이^{2}(x)프랙{1}{파이(x)}프랙{시그마^{2}(x)}{e(x)(1-e(x))} \ =mathrm{Var}왼쪽[타우(X_i)오른쪽]+mathbb{E}왼쪽[프랙{시그마^2(X_i)}{e(X_i)(1-e(X_i))}오른쪽]. 끝{수집됨}

점근적 분산 VAGG가 그룹 수에 의존하지 않는다는 점은 주목할 가치가 있습니다. |수학{X}|=p,나중에 살펴보겠지만, 이 사실은 관찰 연구에서 평균 개입 효과에 대한 반모수적 추론을 효율적으로 만드는 데 중요한 역할을 합니다.

마디 없는 엑스 그리고 성향점수

위에서 우리는 X가 이산적이고 수준의 수가 제한되어 있고 처리 Wi가 (2.1)의 Xi = x 조건만큼 무작위인 경우를 고려했습니다. 이 경우 그룹 내 치료 효과 추정치를 집계하여 ATE를 여전히 정확하게 추정할 수 있으며 정확한 그룹 수 |X|는 추론의 정확성에 영향을 미치지 않습니다. 그러나 X가 연속형인 경우(또는 τ(x)를 정의하는 카이제곱 수가 에서와 같은 경우에는 이 결과가 직접 적용되지 않습니다.

이산-X 사례를 넘어 분석을 일반화하기 위해 더 이상 단순히 각 값에 대해 τ(x)를 추정하려고 시도할 수 없습니다. 이를 위해서는 먼저 각 그룹에 대한 RCT가 있다는 가설을 일반화해야 합니다.공식적으로는 그냥 똑같이 씁니다

{Y_i(0),Y_i(1)}perp W_i 큰| X_i,quad(2.6)

이제 Xi는 임의의 무작위 변수일 수 있지만 이 설명은 좀 더 주의해서 해석해야 할 수도 있습니다. 질적 관점에서 (2.6)에 대한 한 가지 이해는 Wi와 잠재적 결과 사이의 의존성을 포착하기에 충분한 공변량을 측정했기 때문에 Xi가 주어지면 Wi는 "Peep"{Yi(0), Yi(1)}을 할 수 없다는 것입니다. .우리는 이것을 가설이라고 부릅니다.혼란스럽지 않음.

가정(2.6)은 연속확률변수에 대한 조건을 포함하기 때문에 실제로 사용하기 어려워 보입니다.그러나 Rosenbaum과 Rubin(1983)이 지적한 것처럼 성향점수를 고려하면e(x)=mathbb{P}시작{bmatrix}W_i=1 큰| X_i=x끝{bmatrix}

통계적으로 성향 점수의 주요 속성은 균형 잡힌 점수라는 것입니다. (2.6)이 성립하면 실제로

{Y_i(0),Y_i(1)}수행 W_i | e(X_i),quad(2.8)

즉, 개입에 대한 무작위 할당과 관련된 편향을 제거하려면 실제로 X가 아닌 e(X)만 제어하면 됩니다. 우리는 다음을 통해 이 진술을 확인할 수 있습니다.

시작{정렬됨} &mathbb{P}왼쪽[W_{i}=w 큰| {Y_{i}(0), Y_{i}(1) 큰} , e(X_{i})오른쪽] \ &=int_{mathcal{X}}mathbb{P}왼쪽[W_i=w 큰| {Y_i(w)} ,X_i=x오른쪽]mathbb{P}왼쪽[X_i=x 큰| {Y_i(w)} , e(X_i)오른쪽] dx \ &=int_{mathcal{X}}mathbb{P}왼쪽[W_i=w 큰| X_i=x오른쪽]mathbb{P}왼쪽[X_i=x 큰|  큰{Y_i(w)큰} , e(X_i)오른쪽] dxquadtext{(미확인)} \ &=e(X_{i})mathbf{1}_{w=1}+(1-e(X_{i}))mathbf{1}_{w=0}. 끝{정렬됨}

(2.8)의 의미는 관측치를 성향 점수 e(x)의 (거의) 일정한 값을 갖는 그룹으로 나눌 수 있다면 다음을 수행할 수 있다는 것입니다.하타우_AGG 의 변형은 평균 개입 효과를 일관되게 추정합니다.