當前位置:香港算命王 > 百科 > 心理測試 > 為那些認為因果推斷不適合他們的心理學家提供因果推斷_研究_關聯_al

為那些認為因果推斷不適合他們的心理學家提供因果推斷_研究_關聯_al

時間:2025-01-15 07:11:44   來源:香港算命王   關鍵詞:方法,实验,因果,心理学,问题,al,关联,例子,研究,et,效度,因果,因果关系,变量,et

1 引言

到底什麽是因果關係?從閱讀心理學的實證文獻中,一個人可能只會得到一個模糊的概念。觀察性研究通常報告“效應[effects]”,但牠們的因果關係往往是模糊的或完全矛盾的。這種現象並不局限於個別研究,而是普遍存在的(Grosz et al.,2020),如果一個人接觸文獻的時間太長,牠可能看起來像是寫研究文章的自然方式。因此,一些例子可能有助於說明這些歧義和矛盾的性質。

舉一個最近備受關注的例子,Killingsworth等人(2023)著手解決(因果)研究問題“金錢能買到幸福嗎?”——後來才澄清,他們只是 簡單地描述了幸福和收入之間的橫斷面關聯[cross‐sectional associations ](第4頁)。然而,這些橫斷面關聯得出的結論是,對一些人來說,痛苦只會隨著收入達到一定的門檻而減少,而不會超過這個門檻。這是對最初因果研究問題的因果回答,我們不禁要問:這項研究是在橫截面關聯的幫助下解決因果研究問題,還是在橫截面關聯提供答案的情況下解決其他(未指明的)研究問題?

舉另一個引人注目的例子,一大群人格研究人員認為,人格特徵是各種理想結果的預測因素,因此是政策干預的有希望的目標(Bleidorn et al., 2019)。這一論點之所以成立,是因為“預測[prediction]”一詞經常被含糊地使用;牠可以簡單地描述統計關聯,但通常會喚起從預測到結果的因果關係。Bleidorn等人(2019)為統計關聯意義上的預測提供了大量證據,但從未明確指出這些關聯應被解釋為因果效應。然而,只有當牠們被解釋為因果關係時,牠們才為針對個性的政策干預提供了理由,因為只有這樣,人格的改變才會導致預期結果的變化。

一般來說,如果在文章中明確討論因果關係,通常是否定的;因果關係被否認。第三個例子是我從最近一期的JPSP中隨機挑選的一篇論文。作者利用各種觀察設計(Elnakouri et al., 2023),調查了與工具性他人的共享現實[shared reality with instrumental others](即,一個人與對實現某些目標很重要的其他人分享感受、信念和關注的主觀體驗)是否會導致[leads to]目標實現。這篇文章以一個因果關係問題(“ 為什麽有些人比其他人更成功?”)開篇,並總結說,研究結果表明,經歷共享現實“在實現目標的過程中起著重要作用”。這種類型的語言成功地喚起了因果解釋,同時保持了合理的否認。因果關係提到了兩次:首先,承認觀察到的縱向關聯[observed longitudinal association]不允許因果結論;第二,參考未來可能使用實驗操縱的工作。

這三個例子的共同點是,牠們完全不引人注目。我們的期刊上充斥著一些文章,其中的因果推斷以一種不透明的方式發生,在字裡行間,而不是在明確的論點中。由此可以得出結論, 非實驗心理學從一開始就是個壞主意。我不同意這種評估(Rohrer, 2018),但無論如何, 實驗研究都有自己的因果推斷問題,例如,一項研究是否確定了某種實驗操作(例如,情緒誘導)的因果效應,還是心理原因(例如,情緒;Eronen, 2020)。在因果推斷的形式化方法的幫助下,系統地思考這些問題變得更加容易;事實上,適用於觀察性研究的框架也可以在這裡使用。

在這種情況下,“更形式化”[more formalized]是什麽意思?我使用這個短語是指因果推斷的方法,其目的是:(a) 清楚地闡明所謂的 被估量[estimand],即興趣的效應(Lundberg et al., 2021),(b)闡明可以做出有效陳述的預設[ assumptions]。 這絕不是得出推論的唯一方法(Krieger & Smith, 2016),即使沒有形式化的框架,心理學家在因果關係方面也不是na?ve。我們中的許多人都學過Donald T. Campbell的因果推斷框架,牠關注不同類型的有效性(參見 Shadish et al., 2002年的一本體現這種方法的教科書;West & Thoemmes, 2010年的簡介)。這個框架可以映射到更形式化的因果推斷框架上(Matthay & Glymour, 2020),甚至預示著最近關於可推廣性的研究[transportability](Pearl & Bareinboim, 2014)。

但在心理學中,很少採取從更直觀到更形式化的因果推斷方法,因此,我們的訓練留下了許多懸而未決的問題。例如, 每個人都知道雙變量相關性不等於因果關係,但是根據觀測數據估計的更複雜的模型呢?每個人都知道實驗證明了因果關係的主張,但是哪些主張是由這個保證所涵蓋的呢?對有效性威脅的關注也意味著,心理學家更善於發現事情何時出錯,而不是理解事情正確的必要條件——哪些條件需要為真才能證明某個因果主張是合理的(也就是說,許可預設是什麽[licensing assumptions],Pearl & Bareinboim, 2014, p. 580)。在這裡,形式化的方法為我們提供了可靠地獲得原則性答案的工具。

心理學絕非唯一對因果關係的處理含糊不清、有時是隨意的。例如,因果關係模糊的語言——試圖暗示因果關係而沒有明確地做出因果關係陳述——在健康研究中也很猖獗(Haber et al., 2022),關於如何將因果研究問題與統計聯繫起來的困惑也困擾著社會學(Lundberg et al., 2021)。與此同時,許多領域越來越多地將形式化的方法納入因果推斷。這種趨勢不僅局限於社會科學和生命科學,甚至在氣候科學等完全不同的領域也顯而易見(Kretschmer et al., 2021)。

在本文中, 我的目標是推廣這樣一種更形式化的方法。第一部分向讀者介紹了潛在結果框架[potential outcomes]和因果推斷的有向無環圖(directed acyclic graphs, DAG)。在第二部分,我們將轉向社會心理學和人格心理學中的推斷問題。首先,我們將看到因果推斷如何在隨機化的情況下失敗,以及因果視角如何統一廣泛的不同問題(操縱檢查[manipulation checks]、中介分析、缺失數據)。其次,我們將討論增值效度[incremental validity]的概念,我們將看到更明確的因果推斷方法如何促使我們更清楚地了解統計分析的目標。

2 第 1 部分:因果推斷基礎知識2.1 潛在結果框架[The potential outcomes framework]

現在,你可以繼續閱讀這篇文章(X = 1),或者你可以停在這裡做其他事情(X = 0)。在一天結束時,這兩種行動(X)中哪一種對你的幸福感(Y)更有好處?潛在結果框架(Neyman, 1923;Rubin, 2005)為思考因果關係提供了一種“通用語言”(Cunningham, 2021;參見West & Thoemmes, 2010年對心理學家的介紹)。其中,現在閱讀這篇文章對你一天結束時的幸福感的影響被定義為繼續閱讀(YX = 1)和停止閱讀(YX = 0)的幸福感對比。這兩種假設的幸福感狀態(YX = 1, YX = 0)就是所謂的潛在結果。從概念上講,在確定您是否閱讀了文章之前,牠們就“存在”了。但最終,你要麽讀,要麽不讀,所以只有一種潛在的結果會被觀察到(例如,如果你繼續讀,YX = 1)。另一個(例如,YX = 0)仍然是反事實[counterfactual];實際上沒有發生的事情,而且仍然無法觀察到。因此,就短期幸福感而言,你永遠不會知道這篇文章是否值得你花時間閱讀:個人層面的因果效應(例如,YX = 1 - YX = 0)是不可知的。這被稱為因果推斷的基本問題(Holland, 1986);對於重新考慮自己的決定的個人來說,這是一個遺憾的來源,對於進行因果推斷的科學家來說,這是一個頭痛的來源。

隨機分配處理[Random assignment of treatment]提供了一個優雅的部分解決方案。讓我們假設我們有一個樣本,我們可以確定他們是否閱讀了這篇文章(例如,服從的學生,以字母i為指代)。我們通過拋硬幣來決定誰必須閱讀,誰不閱讀。回想一下,在兩種可能的情況下(Yi X = 1, Yi X = 0),潛在的結果——潛在的幸福感——是獨立於處理分配的;牠們的值不能與拋硬幣相關。因此,平均而言,閱讀本文後的潛在幸福感(Yi X = 1)在兩組之間不會發生變化,未閱讀本文後的潛在幸福感(Yi X = 0)也不會發生變化。除了處理之外,兩組是可交換的,這使我們能夠計算平均因果效應:

(因為期望的線性;隨機變量的和的期望值等於牠們各自期望值的和)

(這是基於這樣的知識:隨機分配的群體成員與潛在結果無關;因此,我們期望兩組的平均值與總樣本中的平均值相同)

(因為在兩組中,可以觀察到各自的潛在結果1)

最後,我們可以通過簡單地比較兩個隨機分配組的(可觀察的)平均結果來估計所有(不可觀察的)個體水平處理效果的平均值。這就是隨機化的魔力(Collins et al., 2020)。在實踐中的主要缺點是,牠並不總是像這樣工作。有時,隨機化處理是可能的,但一些參與者不遵守指示或不提供結果數據。其他時候,我們不能直接操縱興趣的原因(例如,因為牠是一個心理變量,如情緒),間接操縱(例如,情緒誘導)會帶來副作用(Eronen, 2020)。然而,在其他時候,操縱根本不是一種選擇,因為牠是不道德的(童年虐待,暴露於環境汙染……)或不可行的(種族,社會階層……)-但我們可能仍然對這些原因感興趣,即使牠們不符合要求可操縱的因果關係的狹隘框架(Krieger & Smith, 2016)。在這些情況下,考慮數據背後的整個因果網路可能會有所幫助,而圖形化的符號又會使這一點變得更容易。

2.2 用於因果推理的有向無環圖[Directed acyclic graphs for causal inference]

如果您熟悉結構方程建模(SEM),您可以將DAG視為非參數SEM (Elwert, 2013;參見Rohrer, 2018; Wysocki et al., 2022,用於介紹)。有向無環圖由表示變量的節點和表示因果效應的箭頭組成(見圖 1)。變量可以是任何類型(二分變量、分類變量、連續變量);牠們可以是多維的(例如,代表大五的單個節點)、可觀察的或不可觀察的、可測量的或不可測量的。因果效應可能採取任何可能的形式,包括非線性和因人而異的效應。每當兩個變量共同影響另一個變量時,牠們也可能相互作用。組合節點和箭頭可能會導致變量之間出現複雜的路徑(圖 1,底部),但這些路徑可以分解為更基本的結構(圖 1,頂部)。

圖 1 有向無環圖 (DAG) 說明了三個基本因果結構以及更複雜的路徑。

讓我們假設我們對因果推斷知識對學術生涯成功的因果效應感興趣(圖1)。混淆因素(X←混淆因素→Y,箭頭表示因果效應)導致變量之間的非因果關聯。例如,在某些研究領域,科學家可能更了解因果推斷(例如,因為該領域更成熟),並且在這些領域,學術生涯成功的概率可能更高(例如,因為這些領域有更大的成功潛力)。因此,因果推斷知識與學術生涯成功之間可能存在混淆相關。為了消除這種虛假的關聯,我們可以以混淆因素為條件;這可以通過統計控制(例如,在回歸分析中)或分層(分別分析每個領域)來實現。混淆因素與所謂的後門路徑[backdoor paths]密切相關,後門路徑指向感興趣的自變量和因變量。如果牠們是“開放的”,牠們會導致感興趣的變量之間的非因果關聯;因此,牠們需要關閉以估計因果關係。可以使用一組形式化規則來確定路徑是否開放,參見Chatton和Rohrer(2023)中的框1。

中介(X → 中介 → Y)傳遞變量之間的因果關聯。例如,因果推斷知識可以提高一個人的研究工作質量,從而增加職業成功的機會; 這整個鏈條反映了知識對成功的因果影響。通常,我們不想消除這種因果關聯,但我們可以在中介分析的背景下通過條件化中介[conditioning on the mediator]來消除這種因果關係。

碰撞變量[Colliders](X→碰撞變量←Y)通常不傳輸任何關聯。然而,一旦我們條件化牠們,牠們就會引發非因果關聯。例如,一個人的因果推斷知識和一個人的學術生涯成功可能會獨立影響一個人如何看待自己的因果推斷技能。想像一下,您遇到一個非常自信自己是因果推斷專家的人。然而,你注意到他們的知識有明顯的差距。這可能會讓你懷疑你正在和一位成功的學者交談——不然他們為什麽會如此自信,儘管他們缺乏知識?但這並不意味著成功和因果推斷知識通常是負相關的;虛假的負向關聯僅在碰撞變量“自我感知因果推理技能”的條件下產生。

這三種結構幫助我們了解更複雜的路徑是否會引起因果關聯或非因果關聯。考慮圖1的底部:因果推理知識←好奇心→廣泛的興趣→缺乏專一的專注→學術生涯的成功。如果我們想估計因果推斷知識對學術生涯成功的影響,這條路徑會帶來麻煩嗎?好奇心會導致因果推斷知識與廣泛興趣之間產生非因果關聯。這種非因果關聯通過缺乏專注而進一步傳播,進而(可能產生負面影響)影響學術生涯的成功。因此,我們有一條開放的後門路徑,牠會導致因果推斷知識與學術事業成功之間產生虛假關聯。 我們可以通過以好奇心為條件(消除混淆影響),或者以廣泛的興趣或缺乏單一的關注為條件(然後停止傳播非因果關聯)來阻止這種非因果關聯。

3 第2部分:因果推斷很重要3.1 實驗者的克星:條件化後處理變量[Conditioning on post-treatment variables]3.1.1 不依從的參與者[Noncompliant participants]

之前,我們提到了一種情況,你可以決定誰讀或不讀這篇文章。 但學生很少完全服從:有些人不會聽從你的指示。當我們對實際閱讀文章的效果感興趣時,我們應該收集文章是否被閱讀的數據;這是一個所謂的後處理變量[post-treatment variables],可以為後續分析提供信息。一種想法是簡單地忽略隨機分配,分析人們實際做了什麽(讀是/否)和結果之間的聯繫。然而,這一分析顯然不再具有隨機實驗的性質;閱讀和幸福可能會混淆。一個更合理的解決方案是,在比較兩種情況的結果之前,排除那些沒有遵循說明的學生。

圖2說明了由此導致的問題。閱讀任務是隨機分配的;牠不會與結果相混淆。 但實際閱讀的人受到指定條件和其他變量(例如,動機)的影響,而這些變量反過來又可能影響結果。因此,實際閱讀成為一個碰撞變量,而對其進行條件化(例如,根據學生的依從性而放棄學生)將導致其原因、動機和閱讀任務之間的非因果關聯(用 紅色虛線表示)。也許那些被分配閱讀文章並真正閱讀的學生,平均而言,比那些沒有被分配閱讀文章並成功“完成”的學生更有動力。如果動機也影響幸福感,我們可能會發現,不管閱讀文章是否有因果關係,依從的閱讀者得分高於依從的非閱讀者。通過這種方式, 引入有關後處理變量(依從性)的信息會導致最初隨機分配的組之間的系統性差異。這種現象被稱為後處理偏差,儘管隨機分配,也會破壞內部有效性(參見Montgomery等人,2018年對這個問題的精彩介紹)。

當然,內部效度是我們進行隨機實驗的原因;因此,我們可以得出結論,對後處理變量的條件作用總是不好的。如果主要關注的是得出一個具有明確因果解釋的估計,那麽這是正確的結論。然而,這種估計不一定是對最初感興趣的因果關係的估計。考慮到我們的例子,如果我們想知道閱讀這篇文章是否會讓你更快樂,那麽被分配閱讀這篇文章是否會讓你快樂的答案並不是我們感興趣的。

3.1.2 意向處理、實際處理和符合方案分析[Intention‐to‐treat, as‐treated, and per‐protocol analysis]

在臨床研究中,指定處理的因果效應與實際處理的因果效應之間的區別非常突出。患者可能會被隨機分配到一些非常複雜的處理方案中,比如難以遵循的飲食,偶爾會被遺忘的藥物,或者執行不完美的處理方案。臨床研究人員區分意向處理[intention‐to‐treat]分析、實際處理[as‐treated]和符合方案[per-protocol]分析。意向-處理[intention‐to‐treat]分析只是比較隨機分配組的結果(無論接受何種處理;在上述實驗中:僅比較兩個實驗分配組的結果均值)。實際處理[as‐treated]分析比較了人們實際接受的處理(並忽略了隨機分組;在上面的實驗中:忽略隨機化,比較人們是否閱讀文章)。符合方案[per-protocol]分析隻包括遵守指定方案的個體(在上面的實驗中:去掉不遵守的人)。

從因果推斷的角度來看,意向-處理[intention‐to‐treat]分析是無害的;已經隨機化的已經隨機化了。然而,意向-處理[intention‐to‐treat]效應(例如,被指定遵循某種飲食的效應)不一定是處理效應(例如,遵循飲食的效應)。有時,研究人員將意向-處理[intention‐to‐treat]效應解釋為對處理效應的保守估計(即接近於零)。但這並不普遍正確,因為意向-處理[intention‐to‐treat]效應可能無法同時捕捉到有益和有害的影響。在處理幫助了一些人但傷害了另一些人的情況下,意向-處理[intention‐to‐treat]的效應可能大於或小於處理本身的效應(Hernán & Robins, 2020, p. 121)。相比之下,實際處理[as‐treated]和符合方案[per-protocol]分析的目的是獲得實際的處理效應,但做任何一種分析都必然涉及對後處理變量的條件化,因此有後處理偏差的風險。這種後處理偏差可以通過第三個變量調整來消除,第三個變量調整依賴於基於觀測數據的因果推斷的相同原則(Hernán & Hernández‐Díaz, 2012)。然而,在實踐中很少這樣做,例如,研究人員進行“na?ve 符合方案[per-protocol]分析”(Hernán & Robins, 2020, p. 287),其中不考慮任何第三變量。這反過來會導致嚴重偏差的結論,通過破壞實驗的最大優勢——隨機化,從根本上破壞了實驗(Montgomery et al., 2018)。

補充——Gemini對這三種分析的介紹:

Intention-to-treat (ITT) 分析

  • 定義:ITT 分析是一種統計分析方法,牠根據隨機分組,而不是實際收到的治療來分析研究結果。也就是說,即使有些患者在研究過程中沒有按照規定服藥或中途退出了研究,也將其納入到最初分配的治療組中進行分析。

  • 優點:

    • 保持隨機化:ITT 分析能夠最大程度地保持隨機分組的優勢,避免引入選擇偏倚。

    • 反映真實世界:這種分析方法更接近於真實世界的臨床實踐,因為在實際治療中,患者往往不會完全按照醫囑服藥。

    • 保守估計:ITT 分析通常會低估治療的效果,因此可以提供一個較為保守的估計。

  • 缺點:

    • 稀釋效應:由於納入了未按規定服藥或中途退出的患者,可能會稀釋治療效果。

    • 不能評估治療的真實效果:如果想了解治療在理想條件下的效果,ITT 分析並不是最佳選擇。

As-treated 分析
  • 定義:As-treated 分析根據患者實際收到的治療來進行分析,即隻分析那些按照規定服藥並完成整個研究的患者。

  • 優點:

    • 評估治療的真實效果:這種分析方法可以更準確地評估治療在理想條件下的效果。

  • 缺點:

    • 引入選擇偏倚:由於排除了未按規定服藥或中途退出的患者,可能會引入選擇偏倚,高估治療效果。

    • 破壞隨機化:As-treated 分析破壞了隨機分組,因為分析對象不再是最初的隨機分組。

Per-protocol 分析
  • 定義:Per-protocol 分析與 as-treated 分析相似,也是根據患者實際收到的治療來進行分析。但與 as-treated 分析不同的是,per-protocol 分析對患者的依從性要求更高,通常隻包括那些完全按照研究方案完成所有治療過程的患者。

  • 優點:

    • 評估治療在理想條件下的效果:這種分析方法可以更準確地評估治療在理想條件下的效果。

  • 缺點:

    • 引入選擇偏倚:與 as-treated 分析一樣,per-protocol 分析也可能引入選擇偏倚。

    • 樣本量減少:由於對患者的依從性要求更高,per-protocol 分析的樣本量通常會比 ITT 分析少。

總結

這三種分析方法各有優缺點,適用於不同的研究目的。

  • ITT 分析更適合評估治療的總體效果,反映真實世界的臨床實踐。

  • As-treated 和 per-protocol 分析更適合評估治療在理想條件下的效果,但需要注意選擇偏倚的問題。

在實際研究中,通常會同時進行 ITT 分析和 per-protocol 分析,以全面評估治療的效果。

3.1.3 主題的變體(後處理偏差無處不在)[Variations on a theme (posttreatment bias is everywhere)]

有許多方法可以誘導後處理偏差。剔除在處理後未能通過操縱檢查或注意力檢查的參與者,以及移除結果中的異常值(例如極端的反應時間),都構成了對後處理變量的條件化。在中介分析中,如果中介變量沒有被隨機化,則根據設計條件化後處理變量(中介變量)(圖3,A);這種類型的分析屬於隨機實驗的觀察分析領域(Bullock et al., 2010; Rohrer et al., 2022),如果中介變量和結果之間存在混淆,則會導致虛假結果(MacKinnon & Pirlott,2015)。最後,缺失數據可能導致後處理偏差。簡單地忽略沒有提供結果數據的參與者,這種幼稚的方法威脅到內部效度(參見圖3,B;參見Thoemmes & Mohan,2015,了解關於缺失數據的因果視角的介紹)。

圖 3 在更多情況下,對後處理變量進行條件化可能會導致後處理偏差

3.1.4 建議

只要有可能在不改變分析目標的情況下預防或減少後處理偏差,這都是首選解決方案。這涉及到選擇可能導致實際感興趣的處理的處理分配,但在處理之前評估注意(以及任何其他感興趣的協變量或調節變量)(Montgomery et al., 2018)。通過這種方式,實驗設計的最佳實踐可以被稱為“非觀察性數據的因果推斷”。

如果研究問題不可避免地要條件化處理後變量,繪制潛在因果圖(Elwert, 2013; Rohrer, 2018)有助於評估偏差的可能性以及是否可以通過第三變量調整來減少偏差。這可以通過多種統計方法實現,從在方差分析或(非)線性模型中包含第三變量作為協變量到專門為因果推斷開發的方法,如逆概率加權;後者適用於更一般的情況,例如,當感興趣的效果被量化為優勢比或風險比時(Chatton & Rohrer, 2023)。為了完全透明,這種更複雜的分析應該始終與實驗組的簡單比較一起報告。

3.2 增值效度[Incremental validity]:尋找研究問題的答案

當我們測試增值效度時,我們測試的是心理結構的測量是否“超越”其他變量來預測結果。如果我們已經在模型中包含了這些預測變量,然後添加感興趣的測量,我們的預測是否有所改善?這種做法是在應用背景下發展起來的(Hunsley & Meyer, 2003),其中需要做出可能通過了解結果而得到改善的決策(例如,招聘、治療決策)。由於結果發生在未來(例如,潛在員工的生產力)或收集成本高昂(例如,複雜的專家評估),因此該結果通常無法獲得——如果不是這種情況,我們可以直接測量牠,而不需要依賴預測。因此,增值 效度有助於評估,例如,添加人格測量以補充更容易獲得的信息是否值得付出努力。答案將始終與特定情境相關聯,因為增值 效度取決於感興趣的結果、樣本的性質以及其他可用的預測變量(Hunsley & Meyer, 2003)。

在人格心理學中,增值 效度的概念通常不同於此。通常,沒有特定的決策背景。結果不一定發生在未來,也不一定收集成本高昂。雖然有時可以構建一個應用,但會對想像力造成壓力。例如,一項研究可以測試新的結構是否能夠超越大五人格預測一個理想的(同時發生的)結果(幸福感、人際關係滿意度、受歡迎程度...)。但是,在什麽情況下,人們的大五人格信息很容易獲得,但關於他們同時發生的成果的信息卻不可用呢?在這裡,增值 效度的演示似乎有時服務於其他目的。

這樣的目的之一可能是測試理論(Wang & Eastwick, 2020, p. 158)。在這裡,統計預測的概念與解釋混淆了(關於如何明確區分這些概念,請參見 Shmueli, 2010; Yarkoni & Westfall, 2017):為什麽某事會發生,一件事如何影響另一件事?因此,增值效度將因果研究問題(構念 X 是否影響結果 Y)重新表述為嚴格的統計術語,這可能更適合那些認為基於觀察數據進行因果推斷是可疑的研究人員(Grosz et al., 2020)。在下一節中,我們將討論增值效度在哪些情況下可以真正為我們提供有關因果關係的信息。

有時,增值效度旨在證明新測量與已經建立的測量不是冗余的;牠對“不就是……”的批評提供了回應(Wang & Eastwick, 2020)。考慮到已發表的心理測量的大量(其中許多從未被用於超出“建立”牠們的研究所;Elson et al., 2023),避免冗余似乎是個好主意,因此我們將在下個章節之後討論增值效度的這種用法。

3.2.1 增值效度 能告訴我們因果關係嗎? [Can incremental validity inform us about causality? ]

假設我們想要證明一個新的測量預測結果超越其他預測變量,因為我們感興趣的是新測量是否對結果具有因果影響。這意味著我們正在基於觀察數據進行因果推斷,在這裡考慮在分析中包含哪些其他預測變量變得至關重要(Wysocki et al., 2022)。心理學家通常運行和報告這些分析的方式意味著所有預測變量“扮演相同的角色”(圖 4,A)。任何包含的預測變量都可能是下一個預測變量的潛在混淆因素;連接牠們的因果網路並不相關。通常,所有系數都會被報告和解釋。從因果推斷的角度來看,這裡最好的情況是所有結果的相關原因都被包含在內(並且進行了適當的建模)。在這種(不太可能)的最佳情況下,所有系數都可以解釋為相應預測變量的直接因果效應。

圖 4 當增值效度被認為可以告訴我們因果關係時,因果推斷決定了需要包括哪些其他預測因素。

但是我們想要知道這些直接效應嗎?考慮這樣一種情況,我們想要知道自戀欽佩[narcissistic admiration ](通過自我推銷尋求社會欽佩的傾向,Back et al., 2013)是否影響個人的受歡迎程度。自然地,在我們的增值效度 分析中,我們可能想要控制大五人格;尤其是外向性似乎相關。但是外向性的一個方面是自信(Soto & John, 2017)。這個變量實際上可能是自戀欽佩的影響的中介(Leckelt et al., 2015):尋求社會欽佩的人可能會因此表現得更自信,從而變得更受歡迎。控制包括自信的外向性測量可以從總效應中去除通過自信的間接效應(圖 4,B)。

此時,有必要回想一下,因果效應對比了世界的不同狀態。總因果效應對比了一個人得分高自戀欽佩的世界和得分低的世界——他們的受歡迎程度會有何不同?間接效應(以自信為條件)相反,對比了一個人得分高自戀欽佩但我們積極阻止他們根據分配的自戀改變自信的世界,以及一個他們得分低(我們再次阻止他們改變自信)的世界。這種更複雜的對比並不對應我們通常認為的因果效應——在大多數情況下,我們感興趣的是總效應2。

注釋2:在實踐中(即,當我們不能確定我們包含了結果的所有原因時),會發生另一個問題,因為自信是一個處理後變量,牠可能會影響直接效應的估計。

因此,我們可以得出結論,自信不應該作為預測變量包括在內。同時,我們也不能確定牠是一個中介——牠也可能是一個混淆因素,在這種情況下,我們應該在分析中包含牠以避免偏差。哪些預測變量應該(不)包含是連接預測變量的因果網路的函數。不幸的是,我們無法觀察到這個因果網路。因此,我們必須基於易錯的假設進行操作。在最佳情況下,我們的假設恰好與現實相符,在這種情況下,我們可以對感興趣的測量的系數(但不一定是對其他預測變量的系數,Keele et al., 2020)進行因果解釋。

如果不想對不可觀察的心理變量之間不可觀察的因果聯繫做出猜測呢?比簡單的橫斷面觀察研究更強的研究設計可以幫助放鬆至少一些假設;然而,當涉及到心理原因時,沒有萬無一失的解決方案。縱向觀察數據仍然需要關於混淆的強假設(Rohrer & Murayama, 2023)。而且,心理變量的實驗干預在多大程度上為因果推斷提供杠桿作用[leverage]可能經常受到限制,因為牠們的“大手筆”[fat‐handedness](即,牠們可能一次改變多個心理變量,Eronen, 2020),這再次需要額外的預設。

假設我們想要證明我們的新測量是對文獻的有用補充。牠對預測重要結果的增值效度確實可以支持這一點——至少,人們可能想要仔細研究一下這種效度來自哪裡3。但為了使增值效度成為一個令人信服的論點,應該滿足一些先決條件。

注釋3:我們隨後可能會發現,一旦包括了其他潛在的混淆因素,預測貢獻就會消失。儘管如此,我們還是學到了東西——即那些混淆因素不應該被忽略。

首先,其他預測變量(增值效度超越其建立的)應該準確地代表我們已知預測 Y 的變量。這可能包括已建立的心理測量和人口統計變量(如年齡、性別、教育)。當忽略已知的重要預測變量時,關於增值效度的主張就不那麽令人印象深刻(圖 5,A),尤其是在省略的預測變量與新構念可能相關時。其次,心理測量從來都不是完全可靠的,預測變量中的測量誤差必須明確建模。如果不這樣做(圖 5,B),很容易錯誤地聲稱增值效度,在某些情況下,誤差率接近 100%(Westfall & Yarkoni, 2016)。第三,添加的預測效用應該與已知的信息相比具有實質性意義。額外的 0.5% 的解釋方差可能很容易是由於模型錯誤規範造成的,而且在任何情況下,如果年齡、性別和大五人格已經解釋了 50 倍以上的方差,那麽牠將相當不起眼(圖 5,C)。考慮到這些標準,許多發表的增值效度主張不幸地對說服讀者新測量是一個有用的補充幾乎沒有幫助。

圖 5 建立新措施的增值效度論證的常見問題

在這種情況下,增值效度的吸引力之一可能是牠提供的表面客觀性和硬性量化。這兩者都因為以下事實而相對化:增值效度超越哪些其他預測變量而建立通常相當任意。而且,通常可能不是數字,而是“更軟”的原因,作者才一開始就認為新測量值得考慮。例如,一個測量可能會與現有的測量重疊,但以我們認為更直觀的方式或更符合某種總體理論框架的方式“切片”現實。在這種情況下,倡導新構念的一種更誠實的方式可能涉及明確闡述支持牠的概念論點。與現有測量的重疊本身就成為一個實證問題,而不是必須預先駁斥的東西。例如,作者可能試圖在現有框架(如大五人格)內定位他們的新測量,借助人類數據(Bainbridge et al., 2022)或大型語言模型(Cutler & Condon, 2023; Wulff & Mata, 2023)。

4 結論:因果推理具有挑戰性,但至關重要

支持因果主張所需的因果網路假設數量之多可能會令人驚訝。科學哲學家南希·卡特賴特[Nancy Cartwright ]將其總結為“無因入,無因出[No causes in, no causes out ]”(Cartwright, 1994)。而且,鑒於即使是描述通常也需要對生成數據的因果過程做出假設,她可能低估了這一點(“無因入,無出[No causes in, nothing out ]”,McElreath, 2022)。甚至隨機樣本的概念也依賴於因果關係,因此“因果關係不是超統計的,而是現實世界推斷的邏輯先決條件”(Greenland, 2022, p. 3)。

科學可以被視為在複雜性面前尋找因果模式(Potochnik, 2017)。因此,選擇不是在因果推斷和以其他方式進行科學之間進行,而是 在系統地進行因果推斷和以非正式的方式進行因果推斷“行間”之間進行。偶然的因果推斷有時可能會偶然得出正確的答案,但當事情出錯時,我們無法知道原因和如何做得更好。系統的因果推斷也可以(而且經常)出錯,但當預設被違反時,牠以可預測的方式出錯,並為更嚴格的推理和漸進改進提供了機會。

4.1 一般建議

這樣的漸進改進的一個起點是更明確地闡述統計分析的目標(理論估計量)(Lundberg et al., 2021)。例如,在測試增值效度時,這將涉及闡述應用預測情境。如果沒有這樣的情境,人們可能想要回到繪圖板並弄清楚真正感興趣的是什麽(可能是特定的因果效應或潛在結構之間的重疊)。通過這種方式,闡述估計量有助於研究人員澄清他們的研究問題並選擇合適的分析。對於整個領域來說,關於估計量的更多透明度可能會提高學術辯論的質量。關於應該建立哪個主張的不清楚可能會導致很多來回討論,正如在圍繞棉花糖測試(取決於預測和解釋之間的區別,以及涉及一些關於過度控制偏差的困惑,Doebel et al., 2020; Falk et al., 2020; Watts & Duncan, 2020; Watts et al., 2018)、幸福感的年齡軌跡(取決於相關性的區別)等辯論中所看到的。與年齡和年齡效應有關,也涉及過度控制偏差的擔憂,Kratz & Brüderl, 2021)和許多分析師項目[Many Analysts project](其中不同團隊的研究人員可能針對完全不同的估計量;Auspurg & Brüderl, 2021)。這樣的辯論可以是有教育意義的,但是研究人員的時間和精力可能更好地用於將明確定義的估計量作為起點。

接下來,應該明確闡述支持所需推斷的中心預設——在哪些條件下,數據可以解決手頭研究問題?這比諸如“因為數據僅僅是相關性的,所以不能得出因果結論”之類的樣板陳述更有信息量,因為牠允許讀者直接評估他們是否願意繼續。一個好的起點是使用 DAG 闡明分析中涉及的變量背後的假設因果網路。大量易於獲取的資源討論了進入各種類型主張的假設(例如,跨文化概括,Deffner et al., 2022;基於觀察數據的因果主張一般,Rohrer, 2018;中介、調節及其組合,Rohrer et al., 2022;基於縱向數據的因果主張,Rohrer & Murayama, 2023)。

預設可能“誠實地自我毀滅”(Pearl & Bareinboim, 2014, p. 2);研究人員可能猶豫不決地披露牠們,因為牠們為審稿人提供了拒絕的理由。這最終是一個培訓和研究文化的問題。如果審稿人能夠發現隱藏的預設,那麽隱藏牠們就不再是一種成功的策略了;如果編輯考慮到所有研究都依賴於預設,那麽就不需要那麽大的壓力使牠們消失。通過這篇文章,我希望為培訓部分的解決方案做出貢獻。也有令人鼓舞的跡象表明,至少有一家主要期刊Psychological Science旨在為解決研究文化問題做出貢獻(Vazire, 2023)。儘管如此,直到心理學界的審稿人習慣於看到明確寫出的安靜部分,披露預設可能需要謹慎行事——包括提醒,僅僅因為其他研究未能承認這樣的預設並不意味著牠們會消失。最後,心理學是一門相對年輕的科學,正式的因果推斷方法也不是很古老。因此,這是一個我們所有人的持續學習過程。

百科小知識

夢見

星座測算

十二生肖運程