
随机化是确保临床试验中比较组间混杂因素均衡的关键,是使研究结果具有可比性的统计学基础。在大样本中简单的随机化就可以均衡比较组间受试者的数量和混杂因素,但在小样本中要实现受试者数量组间均衡的目的,需要选择限制性随机化方法中的区组随机化。区组随机化方法通过保证比较组间研究对象数量的基本相等,使临床试验的检验效能最大化,同时降低估计处理效应的标准误差,这对提升随机对照试验研究的准确性和可信度有十分重要的意义。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
1926年Fisher[1]在农业研究中首创将随机化作为实验设计的一项基本原则。20世纪40年代末,随机对照试验被成功应用于卫生保健,这很大程度上归功于英国流行病学家和统计学家Hill,他在普遍公认的第一个被报道的随机对照试验——链霉素治疗肺结核的试验中使用随机数对试验受试者进行随机分配[2]。之后,随机化成为实现试验比较组之间可比性的最佳方法,同时也是数据分析中许多统计推断方法的理论基础[3,4],而随机对照试验则为现代医学的研究确立了卓越的方法学标准。
随机化的目的是使各研究组中已知和未知的混杂因素具有可比性,尽可能消除参与者是否参与试验的偏倚,以及被分配到何种治疗的偏倚,并通过概率论来合理估计比较组之间任何结果的差异仅仅由随机误差所致的可能性[5]。最基本的随机化是简单或无限制的随机化,其过程类似于反复抛硬币,如果硬币出现正面,受试者被分配到A组,如果出现反面则分配到B组,这样使得每个分配结果都是随机和独立的,且分配到每个处理组A和B的概率都是相同的。当样本含量充足时,简单随机化可以使两个组研究对象的数量和混杂因素的分布趋于完美的平衡。然而,在小样本或者多中心研究中个别中心入组研究对象较少的临床试验中,样本含量较少,抛硬币次数较少,这时获得几个连续正面或背面的概率比通常认为的要大[6,7],比较组间的平衡无法保证。因而为最大限度地减少这些研究的组间受试者数量和混杂因素的不平衡,受限的随机化方法(如区组随机化和分层随机化)应运而生。
为了在整个随机对照试验过程中尽可能使进入各比较组的受试者数量大致相同,Hill[8]在1951年提出了区组随机化方法。区组随机化是指将符合条件的受试者分成若干个大小相等的区组,就像一列火车中几个容纳相等数量乘客的车厢,然后将每一个区块(车厢)内部的受试者按一定的分配比例(通常是1∶1)随机分配到各比较组,即每个车厢中有一半的对象进入试验组,一半的对象进入对照组。
区组的长度是指单个区组内受试者的数量,例如区组长度或大小是4,则表示招募4个连续进入的研究对象为一个区组。区组长度可以在整个试验过程中保持固定或是随机变化为任何大小,但要求变化的大小需是比较组数量的倍数[9]。在本文中只讨论有两个比较组的情况,但是也可以很容易地推广应用到两个以上的比较组。如果在非双盲试验中使用区组随机化,那么区组大小应该随机变化并且最好在患者纳入之前就生成随机分配序列,以减少负责招募受试者的人员知晓分配计划的机会[10]。如果区组大小是固定的,特别是当区组大小比较小(6人或更少)时,其大小和各区组的分配计划容易被预测到[11]。对此,一般采取分配隐匿、选择较长的区组长度(例如,10或20)、随机选择区组大小的办法来保证试验中分配计划的不可预测性[10]和混杂因素的组间平衡。对于比较组为2的随机对照试验,随机选择的区组长度一般取4、6、8、16[12]。
通常认为区组的分配比例应该平等,即分配到处理组和对照组的比例为1∶1,有1/2的对象分配给处理组,1/2的对象分配给对照组,除非有可信的理由支持才应更改为不相等的分配比例[5]。例如,有研究者提出一种不平等的2∶1的分配比例,假定区组长度为6,那么从每个区组中,会分配4个对象到处理组,分配2个对象到对照组[13]。这项研究虽然可能会因此略微降低统计效能,但同时可能会获得更多有关受试者对新干预措施反应的信息,如毒性和副作用。而且将分配比例定在6∶4或6.7∶3.3(2∶1),只要不超过7∶3,比较两种处理之间的统计学效能就可能不会减少太多,甚至处理组样本的增加可能会抵消了效能的损失[14]。与此相反的另一种不平等的1∶2的分配比例,通过增加对照组的受试者人数可增加统计效能。但对于一般情况而言,1∶1的分配仍然是最佳的设计,特别是比较组中对治疗有反应或出现疾病的个体比例(p)的估计值存在高度不确定性的情况下。例如,一项关于糖尿病妇女后代先天畸形风险p1与非糖尿病妇女后代先天畸形风险p2的比较研究。平均分配可能是实现组间差异最小化的一个相对安全的选择[15,16],更符合将受试者均衡无偏地分配到两个比较组中的思想[5]。
根据区组的长度和分配比例,区组随机可以生成不同的分配序列。假设在样本量为24,处理组由A表示,对照组由B表示,区组长度为4,按1∶1的分配比例的试验中,每个区组将得到六种可能的分配序列:AABB、ABAB、ABBA、BABA、BAAB和BBAA。将这六种可能的分配序列分别任意赋值,比如AABB=1、ABAB=2、ABBA=3、BABA=4、BAAB=5、BBAA=6,然后查随机数字表选择随机数字,将随机数字和各序列的赋值相对应来确定各区组的分配序列。比如,第n个区组选择的随机数字是6,那么该随机数字所对应的序列就是BBAA,即该区组内的受试者按顺序前两个进入B组,后两个进入A组,分别接受相应的处理,到此完成一个区组的随机分配。在实践中,该随机化过程将一直重复直到所有受试者被平均的分配到各比较组中。
区组随机化与简单随机相比有以下优点:
首先,区组随机化可以在样本量较小的情况下保证整个试验过程中比较组间研究对象数量的均衡,特别是当所有区组都被填满时,比较组间的受试者数量可以实现完全的相同。这对于试验在对象纳入未完成之前被终止或在试验完成前开展预先计划的期中分析时格外重要[5],因为通常提前终止的试验或是期中分析时,样本量一般不会太大,如果使用简单随机化则更有可能在组与组分配的受试者数量之间产生较大的不平衡[6,7,11,17],使各组间存在混杂因素,影响试验的内部有效性,导致比较组之间结果的差异难以解释为是由处理不同产生的。但在比较组之间保持受试者数量的均衡则可以最大限度地减少混杂[18]。
其次,区组设计按照比较组数量分为小的区组后,根据研究对象纳入时间编号进行随机化分组,在保证比较组间数量均衡的情况下,还保障了对象进入试验的时间在各组间平均分布[5,12,19]。这一点尤为重要,因为通常情况下研究对象是一个有时间异质性的群体,研究对象的基线类型可能随着研究对象进入试验的时间而发生变化。最初纳入的患者可能比后面纳入的患者更健康或病情更严重,这种偶然或周期性产生的失衡可能导致比较组之间患者特征分布的差异。
最后,区组随机化还可以用于分层后平衡各层分配到比较组中的受试者数量,达到分层的目的和效益,尤其适用于各层的研究对象数量较少的情况。
首先,与简单随机化的完全不可预测性相比,区组随机化的局限性在于存在预测分配处理的可能性。特别是当区组长度较小时,随着研究的进行,研究人员能从之前的分配方式中逐渐地识别出分配序列,预测之后研究对象的分组安排。比如区组大小为4时,当研究者知道了前3个对象的分配情况,就可以推测出第4个对象的分配。在这种情况下,不论分配隐匿的效力如何都会在试验中引入选择偏倚[11]。此外,研究表明,对于一个样本量大于200的试验,简单无限制的随机化与区组随机化是等价的,都能产生数量均衡的比较组,这时就应用简单随机化避免引入选择偏倚还是应用区组随机化避免入组时间分布不均的决策而言,保证分配的不可预测性,避免可能出现的选择偏倚更为重要[20]。因为,一旦选择偏倚渗透到一项试验中,就难以排除其对试验结果的影响。
其次,使用区组随机化对数据的分析比简单的随机化要相对复杂。研究指出,区组内相关系数(intrablock correlation coefficient)的方向会影响结果产生偏差,因而在区组设计试验的统计分析中是否需要考虑区组,应取决于是否存在区组内相关性。若存在,则因基于随机化置换模型(permutation model)选择适合的区组分析方法,如Mantel-Haenszel检验(Mantel-Haenszel test)、随机区组方差分析(blocked analysis of variance F test)或区组线性秩检验(blocked linear rank test);否则,可以在分析时不考虑区组[12]。但也有研究者认为在分析中忽略区组是可行的[20]。因为在使用区组的试验中,如果结果存在时间趋势,使用标准的统计分析方法通常结果会相对保守,即忽略区组的分析结果将小于考虑区组的分析结果,但在其他情况下,二者的分析结果类似[20]。
当研究样本量较大时,查随机数字表会使工作量增加,这时可以利用计算机软件(如:SPSS、Stata、R等)根据区组内受试者的编号生成在0~p之间的随机数。这里用SPSS 20.0编辑程序演示样本量大小为50,区组长度为4的情况下,每个区组单独生成4个在0~1之间的随机数,并按1∶1的比例随机分配到A、B两个比较组中的过程,程序如表1所示。

区组随机化的SPSS实现
区组随机化的SPSS实现
| 输入命令 | 命令解释 |
|---|---|
| INPUT PROGRAM | 导入样本量为50的数据 |
| LOOP#i=1 to 50. | 为50个数据生成连续的ID号 |
| COMPUTE ID=#i. | |
| END CASE. | |
| END LOOP. | |
| END FILE. | |
| EXECUTE. | |
| COMPUTE Block=TRUNC(($CASENUM-1)/4)+1. | 将连续的4个对象纳为一个区组 |
| EXECUTE. | |
| SET SEED=20190118. | 设置种子数为20190118(同一个种子数可以重现同样的随机分组过程) |
| COMPUTE Random=RV.UNIFORM(0,1). | 生成0~1之间均匀分布的随机数字 |
| EXECUTE. | |
| SORT CASES BY Block(A)Random(A). | 将各个区组内的4个随机数字按升序排列 |
| RANK VARIABLES=Random BY Block. | 对各个区组内的4个随机数字分别排秩 |
| EXECUTE. | |
| COMPUTE GrouP=TRUNC((Rrandom-1)/(4/2))+1. | 将各区组中秩次排在前1/2的对象分配到1组,后1/2的对象分配到2组,事先规定1组=A组,2组=B组。(下式中的4为区组长度,2为比较组的个数) |
| EXECUTE. | |
| SORT CASES BY ID(A) | 将分配结果按ID号升序排列 |
在上述随机化过程中,每个区组会得到不同的分配序列,但都包括在这6种(AABB、ABAB、ABBA、BABA、BAAB和BBAA)可能的序列中。见图1。


在区组随机化分配之后,为保证实现均衡,还应该进一步比较干预组和对照组基线资料的匹配性。尽管概率较低,但在小样本的临床试验研究中,即使使用了区组随机化的方法,但两组仍存在着不均衡的可能性,此时应重新设定随机数重复随机化过程,直到两组的已知基线特征达到均衡。并且为防止选择偏倚的发生,区组内随机序列的生成和对应的处理分配应该在试验开始招募对象之前就完成,并对相关研究人员和受试者保密,直至试验结束。
综上所述,简单的随机化过程可以保证大型临床试验研究中已知和未知因素的均衡可比,无需控制混杂,但当样本例数较少(n<200)时,仅凭简单的随机化方法无法均衡混杂因素,这可能会导致临床试验研究结果对处理效应的错误估计,而在小样本中应用区组随机化方法不仅可以确保在整个试验过程中比较组间受试者数量相当,提高统计效能,有助于期中分析的进行;还可以在招募期较长的研究中,保障患者基线特征和/或预后结果不受患者纳入试验时间的影响;最后,也可以与分层随机化结合,实现各层内对象在比较组间的均衡分布,达到分层的目的。但没有完美的方法,当研究分配和处理已知或可预测时,区组随机化极易引入选择偏倚。因此在区组随机化的研究设计中选择合理的区组大小、在试验开始前完成随机分配序列的生成、区组大小的随机选择和严格的盲法等是减少或防止选择偏倚产生的策略。
所有作者均声明不存在利益冲突
【选择题】(单选)
1.区组随机化的目的不包括:
A.确保每个比较组中基线特征的相似分布
B.确保每个比较组中受试者人数基本相同
C.确保对象进入试验的时间在各组间平均分布
D.降低估计处理效应的标准误差
2.区组随机化不适用于:
A.期中分析
B.大型临床试验研究
C.多中心研究中个别中心入组对象较少的情况
D.小样本临床试验研究
3.区组随机化与分层随机化的区别是:
A.使各比较组内已知混杂因素的相似分布而不是受试者人数基本相同
B.使各比较组内受试者人数基本相同而不是已知混杂因素的相似分布
C.分层随机化适用于大样本的试验研究,区组随机化适用于小样本的研究
D.区组随机化必须按已知的混杂因素划分区组
4.区组随机化与简单随机化相比容易发生的偏倚是:
A.混杂偏倚
B.信息偏倚
C.选择偏倚
D.偶然偏倚
5.下列关于区组随机化说法正确的是:
A.一个区组中所有的对象都被分配到同样的处理中
B.在招募时,按1∶1的分配比例意味着每个参与者被分配到处理组或对照组的概率相等
C.每个区组分配对象接受处理的顺序是交替的
D.每个区组分配对象接受处理的顺序不是随机的





















