序貫安慰劑平行對照設計和雙向富集設計的樣本量估計*

2018-07-16 12:23柏建嶺陳夢鍇魏永越蔡晶晶

中國衛生統計 2018年3期

秦　飛　柏建嶺△　陳夢鍇　陳　峰,2　魏永越　趙　楊,2　蔡晶晶　劉　晉　于　浩△

【提　要】　目的　探討臨床試驗中序貫安慰劑平行對照設計和雙向富集設計的樣本量計算方法。方法　在不同參數設置條件下，計算序貫安慰劑平行對照設計和雙向富集設計所需要的樣本量，并與傳統的平行組設計、交叉設計等進行比較。結果　序貫安慰劑平行對照設計和雙向富集設計相比于傳統的平行組設計、交叉設計需要的樣本量更少，其中，雙向富集設計的優勢更為明顯。對于連續性結局變量，第二階段的療效越大，第一階段的權重越小，需要的樣本量越小。對于二分類結局變量，得分檢驗參數取9.8和6.2時，SPCD和TED分別需要的樣本量最少。假定兩階段療效相同時，第一階段分配到安慰劑組的比例取0.57和0.50時，SPCD和TED需要的樣本量最少。結論　在安慰劑效應較高或是沒有徹底治愈方案的慢性疾病試驗中，序貫安慰劑平行對照設計和雙向富集設計相比于傳統設計有很大的優勢。

在精神類藥物的臨床試驗中，一個很普遍的問題就是高安慰劑效應[1-2]。為解決這一問題，有人提出在試驗中加入了一個安慰劑導入期(run-in phase)，導入期內所有受試者均接受安慰劑的治療。然后將安慰劑無效者進行隨機分組，分別接受試驗藥和安慰劑，從而有效地排除了安慰劑效應。然而，Trivedi等人[3]在meta分析中綜合了101項研究結果之后得出結論，并沒有直接證據表明安慰劑導入期有助于檢驗試驗藥的療效?？紤]原因是研究者和受試者在該類試驗中很難再維持盲態，從而對研究結果產生了很大的干擾。后續也有人提出了隨機撤藥試驗(randomized withdrawal design)的概念[4]，試驗初，所有受試者都接受試驗藥的治療，從而把對試驗藥易感的群體提前篩選出來。當單純使用安慰劑對照試驗存在倫理問題時，使用隨機撤藥試驗更容易被接受。但其估計的療效一般是有偏的，由于滯后效應的存在可能會高估第二階段安慰劑的效應，同時隨機分組的群體只是全部受試者的一個子集，因而缺乏代表性[5]。

考慮到以上兩種方法的弊端，序貫安慰劑平行對照設計(sequential parallel comparison design,SPCD)在2003年被正式提出[1]。SPCD在第一階段對所有受試者都會進行隨機分組，只有安慰劑無應答者會進入第二階段，再次進行隨機分組。后來又有人在此基礎上提出了雙向富集設計(two-way enriched design,TED)[6]，不同于前者，第一階段中的試驗組有效者也會進入第二階段，并進行隨機分組。在這兩種設計中，我們會綜合第一階段和第二階段的療效差值，并結合權重進行評價，從而得出更為可靠的結論。

目前，針對序貫安慰劑平行對照設計和雙向富集設計中樣本量估計問題的探討還很有限，因而本文的主要目的就是將這兩種設計與我們臨床試驗中傳統的幾種設計在樣本量估計方面進行比較，為今后臨床試驗設定樣本量提供參考意見。

原理及方法

1.序貫安慰劑平行對照設計概述

篩選合格的受試者在第一階段隨機分成試驗藥組和安慰劑組，安慰劑組占總受試者的比例會事先確定。第一階段的安慰劑無應答者進入第二階段，并再次隨機分為試驗藥組和安慰劑組(圖1)。實際試驗中，為了維持盲態，第一階段安慰劑有效組和試驗藥組還是會進入第二階段，分別服用安慰劑和試驗藥，其結果不會納入最終分析。計算藥物療效時會拿第一階段的療效加權第一階段安慰劑無效者在第二階段的表現，綜合分析得出結論。

圖1　序貫安慰劑平行對照設計流程圖

2.雙向富集設計概述

不同于序貫安慰劑平行對照設計，雙向富集設計會有兩個子集進入第二階段，第一階段的安慰劑無效者和試驗藥有效者均被隨機分為試驗藥組和安慰劑組(圖2)。此時再進行分析時，就是把三個亞組的療效加權進行分析。同樣，第一階段安慰劑有效組和第一階段試驗藥無效組還是會在第二階段進行服藥，只是結果不會納入最終分析。

圖2　雙向富集設計流程圖

3.連續性結局變量樣本量計算

依據最小二乘法,Chen等[7]推導出了SPCD中連續性結局變量的樣本量計算公式，此后，我們在此基礎上變換得到了適用于TED和SPCD的樣本量計算公式，具體為：

式中：b：第一階段分配到安慰劑組的比例(第二階段的分配比例常定為1:1)

θ1：第一階段試驗組和安慰劑組的療效差值

θ2：第一階段安慰劑無效者在第二階段的療效差值

θ3：第一階段試驗組有效者在第二階段的療效差值

1-q1：第一階段安慰劑組無效者的比例

p1：第一階段試驗組有效者的比例(只針對TED)

w1：第一階段療效的權重

w2：第一階段安慰劑無效者在第二階段療效的權重

w3：第一階段試驗組有效者在第二階段療效的權重(SPCD：w3=0，w1+w2=1；TED：w1+w2+w3=1)

4.二分類結局變量樣本量計算

Ivanova等人[8]在2011年基于得分檢驗(score test)的方法推導出了二分類結局變量的樣本量計算公式，具體為：

n=(z1-β+z1-α/2)2/γ1

η1=(1-b)p1+bq1

η2=0.5p2+0.5q2

η3=0.5p3+0.5q3

式中：b：第一階段分配到安慰劑組的比例(第二階段的分配比例常定為1:1)

p1：第一階段試驗組的有效率

q1：第一階段安慰劑組的有效率

p2：第一階段安慰劑無效者在第二階段試驗組的有效率

q2：第一階段安慰劑無效者在第二階段安慰劑組的有效率

p3：第一階段試驗組有效者在第二階段試驗組的有效率

q3：第一階段試驗組有效者在第二階段安慰劑組的有效率

s2：第一階段中的安慰劑組無效者完成第二階段試驗的比例

s3：第一階段中的試驗組有效者完成第二階段試驗的比例

r2、r3：得分檢驗中的檢驗參數，推薦設定為1，應用SPCD時取r3=0

SPCD和TED樣本量比較

連續性結局變量的樣本量估計中，考慮到沒有現有的參數信息，我們依據Ivanova等[9]提供的一個評價振動性儀器對緩解疼痛功效的試驗來幫助確定參數。由于第二階段比第一階段療效低的可能性很小，最終我們設定的第一階段試驗組和安慰劑組的療效差值θ1=0.87，各階段的方差均為7.37。TED第一階段分配到安慰劑組的比例b設為0.50，SPCD設為0.67。針對兩階段的療效權重，我們取了兩種情況，對于TED設計，一種是w1=w2=w3=0.33，即三個亞組權重相同；另一種是w1=0.5，w2=w3=0.25，保證第二階段的兩個亞組權重一致。對于SPCD設計，一種是w1=w2=0.5，另一種是w1=0.75，w2=0.25。一類錯誤和檢驗效能分別設定為0.05和0.8。我們比較了不同參數設置下SPCD、TED、傳統的單階段隨機對照設計和交叉設計所需的樣本量。二分類結局變量中，我們根據一個隨機、雙盲、安慰劑對照的兩階段交叉設計試驗來幫助參數設置。這是一個用來評價高頻刺激止痛效果的試驗[10]，高頻刺激作為試驗組。分兩種情況進行討論：(1)假定在兩階段療效不相同時，探討得分檢驗參數r2、r3和樣本量之間的關系，r2、r3是用來估計第二階段療效與第一階段療效的比值，一般在一次試驗中需要事先確定[8]；(2)假定兩階段療效相同時，探討第一階段分配到安慰劑組的比例b與樣本量之間的關系，此時r2、r3選擇推薦值，即r2=r3=1。具體參數設置見表1。一類錯誤和檢驗效能分別設定為0.05和0.80。

表1　二分類結局變量樣本量估計參數設置

我們比較了不同參數設置條件下SPCD、TED、經典的單階段安慰劑隨機對照設計、安慰劑導入期設計、隨機撤藥設計和交叉設計的樣本量。其中，TED和SPCD又分為最佳參數設置和推薦參數設置兩種情況，最佳參數設置是指依據估計的各階段各組有效率來設置r2和r3，同時求出最佳的分配比例b，以達到樣本量最小。推薦參數設置中，SPCD的b取0.67，r2=1，r3=0，TED的b取0.50，r2=r3=1。本次試驗中假定數據的缺失率為0，故s2=s3=1。本次研究均采用SAS 9.4來進行分析。

結　　果

當結局變量為連續性時，在不同參數條件下需要的樣本量見表2，此外單階段設計需要的樣本量為2253，交叉設計需要的樣本量為1130。顯然，當第二階段的療效優勢越明顯，SPCD和TED需要的樣本量就越少。相同參數條件下，TED相比于SPCD需要的樣本量更少，但兩者均顯著優于單階段設計和交叉設計。第一階段療效的權重設置的越大，總體療效越差，因而需要的樣本量越大。此外，第一階段安慰劑組無效者和試驗組有效者的比例越大，相當于有更多的受試者進入了第二階段，最終需要的樣本量更少。

二分類變量樣本量和r2、b的關系可見圖3。圖3(a)是假定兩階段療效(試驗組有效率-安慰劑組有效率)不同時樣本量與r2的關系，可見隨著r2的增加，SPCD和TED的樣本量急劇下降，SPCD中，當r2到達9.8時，樣本量變化趨于穩定，并在此后緩慢升高。TED中，當r2到達6.2時，樣本量趨于穩定，并在此后緩慢回升?？傮w來看，TED比SPCD需要的樣本量要多，主要原因應該是SPCD分配到安慰劑組的比例更大。圖3(b)是假定兩階段療效相同時樣本量與第一階段安慰劑組分配比例b的關系，隨著b的增加，SPCD和TED的樣本量都經歷了先下降再升高的過程，SPCD的最低點位于b=0.57的時候，TED是當b=0.50時需要的樣本量最小?？傮w來看，TED比SPCD需要的樣本量少。

表2　連續型結局變量兩種設計的樣本量估計

此外，表3還列出各種參數設定條件下常見幾種設計需要的樣本量?？梢?，交叉設計優勢最明顯，只有在p1=0.50，q1=0.40，p2=0.50，q2=0.40，p3=0.50，q3=0.30時，需要的樣本量略多于雙向富集設計和隨機撤藥設計。當安慰劑無效組的療效有限時，安慰劑導入設計需要的樣本量較大。當試驗藥有效組的療效有限時，隨機撤藥設計需要的樣本量較大。SPCD需要的樣本量要略大于TED設計。單階段安慰劑對照設計的樣本量主要取決于第一階段的療效，療效越大，需要的樣本量越小，考慮到我們主要針對的是有高安慰劑效應的精神類疾病，因而單純用單階段設計沒有優勢。

圖3　二分類變量樣本量和r2、b的關系

p1q1p2q2p3q3TEDSPCD(b,r2,r3)*(b,r2,r3)(b,r2,r3)*(b,r2,r3)One stageRun-inRWithdrCrossover0.500.400.500.400.500.40(0.51,1,1)*501(0.5,1,1)501(0.57,1,0)*589(0.67,1,0)538777129515533920.600.400.500.300.500.40(0.55,1,0.5)*140(0.5,1,1)148(0.57,1,0)*147(0.67,1,0)1521963121295980.600.400.500.200.500.40(0.66,1.5,0.5)*100(0.5,1,1)117(0.68,1.5,0)*103(0.67,1,0)1081961271295980.500.400.500.400.500.30(0.32,1,2)*314(0.5,1,1)367(0.57,1,0)*589(0.67,1,0)60877712953743920.600.400.500.300.500.30(0.5,1,1)*120(0.5,1,1)120(0.57,1,0)*147(0.67,1,0)152196312312980.600.400.500.200.500.30(0.6,1.5,1)*92(0.5,1,1)98(0.68,1.5,0)*103(0.67,1,0)10819612731298

*One stage：經典的單階段安慰劑對照設計；Crossover ：2×2交叉設計；Run-in：安慰劑導入期；RWithdr：隨機撤藥設計；*表示最佳參數設置，未加*表示一般推薦的參數設定

模擬研究

為了驗證我們樣本量計算公式的可靠性，我們進行了模擬研究來檢驗把握度。連續性變量中，現設定α=0.05，β=0.20，其它參數設置見表4。最終計算得到SPCD需要的樣本量為450，TED需要的樣本量為296。根據設定的參數進行模擬分析，分析方法采用的是Chen等[11]提出的最小二乘法，模擬循環1000次，最終計算得到的SPCD的檢驗效能為0.870，TED的檢驗效能為0.769。

二分類變量中，設定一類錯誤α=0.05，二類錯誤β=0.20，其它參數設置見表5。最終計算得到SPCD需要的樣本量為388，TED需要的樣本量為267。統計分析采用的Ivanova和Tamura[6]提出的得分檢驗，自由度為1。模擬循環1000次，最終計算得到的SPCD的檢驗效能為0.821，TED的檢驗效能為0.760。

表4　連續性變量模擬研究參數設置

表5　二分類變量模擬研究參數設置

討　　論

相比于傳統的單階段隨機對照設計，序貫安慰劑平行對照設計和雙向富集設計在第二階段利用了更多受試者的信息，因而在相同參數設置條件下，無論是連續型結局變量還是二分類結局變量，它們需要的樣本量都更少。其中，TED的優勢又格外明顯。當然，在二分類的結果中，交叉設計在部分參數條件下需要的樣本量比TED還要少，但交叉設計的樣本量估計是基于兩階段療效相同的前提下進行的，但在試驗的開始階段，我們是沒法得出這樣的結論的，而本文介紹的這兩種設計是沒有這樣的假設前提的，因此適用性更強。在交叉設計中，很大比例的受試者要在服用試驗藥之后再服用安慰劑，有可能存在遲滯效應，從而高估安慰劑的療效，影響最終的試驗結論。相比于安慰劑導入設計以及隨機撤藥設計，SPCD和TED除了在樣本量上的優勢外，還減輕了前面兩種方法在試驗中維持盲態的困難，因而值得推薦。

結果顯示，兩階段療效相同時，對于SPCD，當第一階段安慰劑組的比例b=0.57時，樣本量最小，實際試驗中，一般第二階段的療效要明顯優于第一階段，因而我們會盡量取較大的b值，使更大比例的受試者進入第二階段，從而更易得到有統計學意義的結論。但一般，我們不會將此比例設置超過3:1[12]，否則會對維持盲態帶來困難，從而影響整個試驗的療效，所以推薦將b取為2/3～3/4之間。對于TED，我們一般推薦b=0.5。兩階段療效不同時，本文在r2=9.8和6.2時，SPCD和TED需要的樣本量最小，但實際試驗中，一般實際有效率事先是未知的，因而很多時候還是推薦r2=r3=1[6]。通過模擬研究我們得到了相應樣本量下的檢驗效能，連續型變量和二分類變量SPCD的Power均達到了80%以上，另外兩組TED的Power也達到了76%以上，稍有損失。

由于序貫安慰劑平行對照設計和雙向富集設計都是兩階段，因而相比于傳統的單階段隨機對照設計受試者經歷的藥物暴露時間會更長。但由于兩階段設計需要的樣本量更少，整個試驗的周期還是會縮短，這就為藥物的早日上市以及患者早日得到有效的治療贏得了寶貴的時間。然而，兩階段試驗還是有部分缺點，由于它們需要在第二階段重新進行隨機分組，這就可能給整個試驗維持盲態帶來困難。首先第一階段使用安慰劑的受試者，如果在第二階段分配到了試驗藥組，可能會明顯察覺到療效的提升而意識到自己的用藥情況，即使病人覺察不出來，醫生也有可能因為病人癥狀在第二階段的改善而發現用藥的變化。其次，第一階段的安慰劑無效者，如果在第二階段依舊分配到了安慰劑組，受試者的疾病癥狀可能會一直得到不到改善，甚至越來越惡化，從而懷疑自己用的是安慰劑，病情嚴重的話也難以得到倫理委員會的同意。

對于統計分析，近年來，陸續有人已經提出了SPCD和TED的分析方法，針對二分類結局變量，主要是得分檢驗[6]的方法。針對連續性變量，有似不相關回歸[13]、最小二乘法[7]和重復測量的混合效應效應模型[14]。使用SPCD或TED時，會存在較大比例的缺失，前兩種方法對于缺失數據的處理一般是忽略或是判為缺失，這在很大程度上影響了整個試驗的檢驗效能，而重復測量混合效應模型在處理缺失數據時有很大的優勢，所以一般還是推薦用混合效應模型來處理該類數據。SPCD和TED雖然都是二階段的，但考慮到一階段結束后沒有進行假設檢驗，同時也不存在因療效顯著而提前終止試驗的情況，因而不要校正一類錯誤[5]。

綜上所述，在安慰劑效應較高或是沒有徹底治愈方案的慢性疾病試驗中，序貫安慰劑平行對照設計和雙向富集設計相比于傳統設計有很大的優勢，但如果是某些病情嚴重或是治愈方案明確的疾病，還是不推薦使用。