
筛查作为发现人群中多种慢性病早期患者和识别可能发生疾病的高危个体的主要措施,与健康管理存在密不可分的联系。筛查试验和筛查效果的评价需要综合运用多种流行病学研究和卫生经济学评价方法。本文将从筛查的概念、目的和类型、实施原则、筛查试验的评价、筛查效果评价及其常见的偏倚等内容展开介绍,以帮助读者充分理解筛查的评价内容与开展筛查的要求,以期更好地在健康管理领域开展高质量的筛查相关科学研究。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
疾病筛查起源于19世纪,最初应用于结核病的早诊早治上。20世纪早期,美国推广了面向人群的定期体检,扩展了筛查的病种和覆盖面。近年来,筛查的应用范围不断扩大,不仅用于发现人群中多种慢性病早期患者,还用于识别可能发生疾病的高危个体。健康管理是以现代健康概念(生理、心理和社会适应能力)和新的医学模式(生理-心理-社会)以及中医治未病理念为指导,采用现代医学和现代管理学的理论、技术、方法和手段,对个体或群体整体健康状况及影响其健康的危险因素进行全面检测、评估、有效干预与连续跟踪服务的医学行为及过程。从预防保健角度上看,健康管理就是通过健康体检早期发现疾病,并做到早诊断及早治疗;从疾病健康管理角度上看,健康管理就是更加积极主动的疾病筛查与及时诊治[1]。通过健康管理概念可以看出,健康管理与筛查存在密不可分的联系。
本文作为健康管理科研设计方法学系列讲座的第7讲,旨在结合健康管理科研特点,介绍筛查的概念、目的和类型、实施原则、筛查试验的评价、筛查效果评价及其常见的偏倚。
筛查或筛检(screening)是针对临床前期或更早期的疾病阶段,运用快速、简便的试验、检查或其他方法,在未察觉或未诊断疾病的人群中,将可能有疾病或缺陷、但表面健康的个体,同可能无疾病者鉴别开来的一系列医疗卫生服务措施[2]。筛查所用的各种手段和方法称为筛查试验(screening test),包括问卷调查[3]、体检[4]、内镜[5]与X线等影像学检查[6],也可以是细胞学[7]或生物大分子标志物检测技术[8]。筛查试验除了应具备良好的真实性、可靠性和预测值外,还应具备以下5个特征。(1)简易性,指容易学习、容易操作,即便是非专业人员经过适当的培训也会操作。(2)廉价性,原则上在健康收益一定的情况下,费用越低越好。(3)快速性,能很快得到结果。(4)安全性,不会给受试者带来创伤,原则上初筛宜采用无创性检查手段。(5)可接受性,筛查方法易于被目标人群接受。
筛查试验一般不会单独使用,对筛查结果阳性或可疑阳性者需进一步做确诊检查,对确诊患病者或健康管理高危人群还需进行治疗或其他干预措施。图1为筛查与诊断试验流程示意图。


筛查目的包括(1)早期发现健康管理重点人群或可疑患者,做到早诊断、早干预,提高治愈率,实现疾病的二级预防,如乳腺癌、宫颈癌、结直肠癌的筛查。(2)发现健康管理高危人群,从病因学的角度采取生活方式管理等相应的干预措施,降低人群的发病率,实现疾病的一级预防。如在中老年人群,尤其是有危险因素的人群中开展脑卒中风险评估成为脑卒中一级预防的重要手段,为开展脑血管健康管理提供有利条件[9]。(3)了解疾病自然史,通过筛查可以观察到疾病发展过程的各个阶段,包括临床前期、临床期及临床后期的症状和体征[7]。(4)进行疾病监测,如可通过筛查进行传染病和食源性疾病的病原学监测及发现隐性感染者[10,11]。(5)合理分配卫生资源,如根据高血压的危险因素、靶器官损害等情况,制订阶梯式筛查路径,将问卷评估作为一级筛查,常规体检作为二级筛查,高血压专项检查(针对靶器官损害和临床并发症)作为三级筛查,这样既可便于分层评估和管理,又有利于卫生资源的合理分配[3]。
筛查有多种分类形式,按筛查对象的范围可分为整群筛查和选择性筛查,按筛查组织的方式可分为主动性筛查和机会性筛查,按筛查项目的数量可分为单项筛查和多项筛查,按筛查的目的不同可分为治疗性筛查和预防性筛查。
整群筛查是对整个目标人群进行筛查,也称普查,当某病患病率很高时,对该目标人群进行普查,找出其中患病可能性较大的人即整群筛查,如乳腺癌和宫颈癌的普查;选择性筛查是在高危人群中进行筛查,如对具有乙型肝炎病毒和(或)丙型肝炎病毒感染、长期酗酒、非酒精脂肪性肝炎、食用被黄曲霉毒素污染食物、各种原因引起的肝硬化,以及有肝癌家族史等的人群进行肝癌的筛查[12]。
主动筛查是指通过有组织的宣传介绍,动员群众到筛查服务点进行检查。如某地区动员40至60岁妇女到医疗机构进行彩色超声检查乳腺及腋下淋巴结以筛查乳腺癌,25至65岁妇女到医疗机构通过妇科检查和宫颈细胞学检查以筛查宫颈癌[7]。机会性筛查属于被动筛查,是指将日常性的医疗服务与目标疾病的患者筛查联合,在健康体检中或在进行其他疾病的诊疗时对高风险因素进行筛查。如目前在各级医院门诊给首诊患者和在体检中心给受检者测血压发现隐匿的高血压患者。
单项筛查是使用某一种检查方法筛查某一种疾病,如用低剂量螺旋CT筛查肺癌[13];多项筛查是同时使用多种检查方法筛查一种或多种疾病,如在乳腺癌和宫颈癌高危人群中用乳腺X线检查、乳腺超声检查、乳腺体检、妇科检查、传统巴氏涂片和液基薄层细胞技术的宫颈细胞学检查等筛查乳腺癌和宫颈癌[7,14]。
治疗性筛查是以早发现、早诊断和早治疗某疾病为目的进行的筛查,如乳腺癌、宫颈癌、结直肠癌等的筛查[7,15]。预防性筛查是以发现某疾病的高危人群,以便进行预防为目的进行的筛查,如筛查高血压、糖尿病和血脂异常预防心脑血管疾病的发生[3,16,17]。在健康管理领域此类筛查更常见,便于风险评估和制定个性化的干预方案,从而实现早期预防的目的。
在健康管理过程中通过健康体检实施一项筛查计划前,要考虑一系列与筛查实施有关的标准,一般包括4个方面:筛查的疾病、筛查试验、医疗保健系统和伦理学问题[18]。
(1)所筛查的疾病或健康问题必须是目标人群现阶段重大公共卫生问题,即有较高的死亡率或患病率。(2)对所筛查疾病或健康问题的自然史有比较清楚的了解,有足够长的可识别的临床前期和临床前期标识,且这种标识要有比较高的流行率。(3)对所筛查的疾病或健康问题的预防效果及其副作用有清楚的认识。
(1)筛查试验的可接受性,筛查试验必须快速、简便、廉价和安全,避免在时间、人力和资金方面的成本过高,使受检者易于接受,同时也不能给受检者带来任何伤害。(2)筛查试验的灵敏度和特异度要适宜,如果检查方法的灵敏度下降,阳性预测值仅轻微下降;但特异度下降,阳性预测值则下降非常明显。
(1)应该明确实施筛查的目标人群。(2)对筛查阳性者能实行有效的随访,确定其是否患病。需要考虑随后的诊断试验花费的经费、时间以及可能造成创伤等风险是否可以接受。(3)在开展一项疾病的筛查项目计划前,患者应该已经得到有效治疗。(4)必须治疗筛查和诊断过程发现的患病者。(5)干预措施应该易于被筛查人群接受。(6)应该明确用于判断筛查试验阳性结果的截断值。(7)应该将受检者的筛查结果作为健康档案予以记录。
(1)实施筛查必须遵守尊重个人意愿、有益无害、公正等一般伦理学原则。(2)参加筛查项目的受检者有知情权。(3)有益无害原则在筛查实施的标准中有明确体现。(4)需考虑个体的预期寿命是否长于无症状患者早期筛查的获益时间。(5)公平、合理地对待每一位被筛查人员。
开展筛查项目首先要评价筛查试验的有效性,除考察其安全性、简便快速及经济可行外,还要考察其真实性、可靠性和预测值。
1.真实性(validity)评价:真实性又称效度,是指测量值与实际值符合的程度,又称为准确性(accuracy)。
(1)研究设计,真实性评价的研究思路是比较筛查试验与诊断疾病的金标准(标准诊断方法)判断结果的一致程度。研究设计一般有2种,①以医院为研究现场的病例-非病例设计。先用“金标准”确定某疾病的患病和非患病人群,随机选择病例组和非病例组,再用待评价筛查试验盲法试测2组对象。②以社区为研究现场的横断面设计。抽取一个目标人群的代表性样本,同时用金标准和筛查试验盲法试测所有研究对象,事后根据金标准检测结果判断病例组和非病例组。
以社区为现场的研究,样本对筛查的目标人群代表性好,还可直接估计预测值指标。但要筛查出足够的病例,往往所需要的样本量较大,研究成本较高。病例-非病例设计较为经济、操作简便,且适用范围较宽,但需考虑病例组和非病例组对筛查目标人群的代表性。此外,病例-非病例设计不能直接计算预测值。以病例-非病例方法进行筛查试验真实性评价设计流程图见图2。


筛查试验真实性评价设计的具体内容如下:①确定金标准。金标准(gold standard)是当前医学界公认的最准确可靠的、可以反映实际有无疾病的诊断方法。最佳的“金标准”有病理诊断、活检、手术发现、微生物培养、尸检或特殊检查等。如粪便隐血试验筛查结直肠癌的金标准是结肠镜及病理结果[15]。应注意,金标准会随着医学的发展不断更新,如金标准选择不当,则可造成错分偏倚,影响对试验的正确评价。一些较难诊断的疾病可能没有真正意义上的金标准,或金标准复杂且昂贵,甚至使受检者遭受痛苦或承担一定风险,此时可选一种相对公认的诊断方法作金标准。
②选择研究对象。研究对象应能代表筛查试验可能应用的目标人群。病例是经金标准确诊的某病患者,筛查的目的是发现临床前期或早期的病例,病例应包括早期症状轻微的病例,还应考虑疾病的各种临床类型(不同病情程度、不同病程、典型和不典型、有无并发症,是否经过治疗)。
非病例是金标准证实未患有目标疾病者。非病例除了未患目标疾病外,应在其他可能影响试验结果的因素和特征方面尽量与病例组可比,可以是其他疾病的患者或健康人,若为前者,还需考虑纳入易与目标疾病相混淆的其他疾病患者,以了解待评试验的鉴别诊断能力。如评价粪隐血试验筛查结直肠癌的真实性研究中,入组的324例研究对象中,病例组为结直肠癌50例,非病例组包括慢性结肠炎(含溃疡性结肠炎)60例,痔疮、肛裂15例,结直肠腺瘤60例,结肠未发现器质性疾病139例[18]。
③确定样本量。影响样本量大小的因素包括筛查试验的灵敏度和特异度,灵敏度用于估计病例组的样本量,特异度用于估计非病例组的样本量;显著性检验水平;允许误差,一般定在0.05~0.10。具体公式可参考流行病学专业书籍[2]。
④同步盲法测试。对于金标准所确定的研究对象,与待评价的筛查试验同步进行盲法测试,可以减少人为的主观因素的影响。如要求粪便隐血试验距结肠镜检查的时间不得超过1周,参加试验的各个中心分别对各自观察的患者进行全结肠镜检查[15]。假设未实施盲法,研究者可能自觉和不自觉地对病例和非病例的试验结果做出不同的判断,对同样可疑的结果,金标准确诊的病例易判断为试验阳性,非病例易判断为试验阴性,这样就会过高估计粪隐血试验的准确性。除采用同步盲法测试以保证结果的真实性外,应保证病例组和非病例组在整个检查流程,包括建档、生物材料采集、检测程序,结果分析报告中各个环节所得到的处理保持一致;对试验所用的仪器型号、试验条件、试验方法、所用试剂的质量、标号等要统一、标准化;尽量采用客观指标,对调查员要进行严格培训,将误差减小到最低。如粪隐血试验的真实性研究中要求粪隐血试剂盒的生产厂家和型号要统一,各中心按统一观察方案,对各医院接受肠镜检查的患者,按试剂盒说明书方法连续进行3次化学法和免疫法粪便隐血检查。如果患者不能连续送检3次粪便标本,或检验人员未能按隐血试剂盒说明书要求进行操作的病例均从统计中删除[15]。
⑤确定筛查结果分类标准。如果筛查试验的结果是分类或等级变量指标的,可根据专业知识判断阳性或阴性;如果检测结果为数值变量指标的,需要确定判断阳性和阴性结果具体取值,即截断值,后文将进一步详述。
(2)资料整理与真实性评价指标。首先检查核对所获得的资料,以确保准确无误。由金标准判定的病例组和非病例组,经待评价筛查试验检测后,其结果可有4种情况,见表1。

待评价筛查试验与金标准判定结果比较
待评价筛查试验与金标准判定结果比较
| 筛查试验 | 金标准 | 合计 | |
|---|---|---|---|
| 病例组 | 非病例组 | ||
| 阳性 | a(真阳性) | b(假阳性) | a+b |
| 阴性 | c(假阴性) | d(真阴性) | c+d |
表1中,a(真阳性)是指经金标准确诊的病例中,待评价筛查试验检出的阳性例数;b(假阳性)是指经金标准确诊的非病例中,待评价筛查试验检出的阳性例数;c(假阴性)是金标准确诊的该病病例中,待评价筛查试验检出的阴性例数;d(真阴性)是指在金标准确诊的非病例中,待评价筛查试验检出的阴性例数。第一列a+c表示为所有患病人数,第二列b+d表示所有未患病人数。
评价真实性的指标有灵敏度(真阳性率)与假阴性率(漏诊率)、特异度(真阴性率)与假阳性率(误诊率)、正确指数(约登指数)、似然比(阳性似然比和阴性似然比)、一致率(符合率)和Kappa值。
①灵敏度与假阴性率,
,
。灵敏度和假阴性率都是反映该筛查试验正确识别患病者能力的指标,二者之和等于1。
②特异度与假阳性率,
,
。特异度与假阳性率都是反映筛查试验正确识别非患病者的能力指标,两者之和为1。
灵敏度和特异度越大越好,假阴性率和假阳性率越小越好,说明筛查试验识别患者和非患者的能力强。
③正确指数,也称为约登指数,反映了筛查试验发现真正病例和非病例的总能力,正确指数 = 灵敏度 + 特异度 - 1 = 1 -(假阳性率+ 假阴性率)。正确指数的范围介于0~1之间,可用于不同筛查试验方法之间的比较,正确指数越大,说明筛查试验的真实性越好。
④似然比,是指有疾病者中得出某试验结果的概率与无疾病者得出这一概率的比值,可以综合反映灵敏度和特异度的大小,该指标非常稳定,不受患病率影响。可分为阳性似然比和阴性似然比,
,
。阳性似然比反映了筛查试验正确判断为阳性的可能性是错误判断为阳性可能性的倍数;阴性似然比反映了筛查试验错误判断为阴性的可能性是正确判断为阴性可能性的倍数。阳性似然比越大或阴性似然比越小,说明筛查试验的真实性越好。
2.可靠性评价,可靠性(reliability)也称信度、精确度(precision)或可重复性(repeatability),是指在相同条件下用某筛查试验重复测量同一受试者时结果的一致程度。可靠性评价与金标准诊断是否患病的结果无关。
(1)研究设计。可靠性评价研究通常是与真实性评价同时开展。由2名或多名检查者采取同样的检查程序对研究人群进行同步盲法检查,例如,多人同时读一批X线片,用来评价不同读片者之间的可靠性;或者对同一人群用相同方法多次检测,如血压重复测量3次,再比较重复检查结果的一致情况,用来评价血压计的精密度。样本量一般不少于100例。如果真实性研究的样本量较大(>1 000),可随机抽取5%~10%样本进行重复检测。
(2)影响筛查试验可靠性的因素。
①受试者自身生物学差异,指因受试者某些生理、生化、免疫学等指标受各种因素,如机体、精神、环境等因素的影响,使同一测量者以同一方法对同一受试者进行重复测量时,测得的结果出现差异。如血压、心率、血糖值等,可因测量的时间、地点及受试者的情绪等的不同而有差异。
②观察者差异,指由同一或不同观察者对同一受试者的同一指标进行测量时,结果会出现差异。包括观察者自身的差异(如不同时间、条件等)和观察者之间的差异,如不同的观察者测量同一对象的血压值,会出现不同的结果,同一观察者在不同时间和不同地点对同一试验结果判断不同。观察差异常因观察者技术不熟练和责任心不强所致。
③实验室条件,重复筛查试验时,因筛查试验方法本身不稳定,或所用的仪器、设备、试剂不同或不稳定,甚至配制方法及外环境(如温度、湿度等)的影响等,致使测量结果出现误差。
在评价筛查试验的可靠性时,应充分了解影响因素的来源及控制方法,如仪器设备统一校准、试剂同批次、检测步骤标准化、试验条件和方法严格控制,对工作人员统一培训等,将这些因素的影响控制在最低限度,以保证试验的可靠性。
(3)可靠性评价指标。可靠性评价应根据资料类型来选择指标和分析方法,重测资料可以看作配对(数值变量或分类变量)设计。对于筛查试验指标为数值变量资料(如血压值),可以用标准差、变异系数、相关系数和组内相关系数(ICC)作为可靠性评价指标;标准差和变异系数适用于对同一样品或一组同质性样品进行多次重复测量,其中变异系数不受变量单位和均值大小的影响,更适合比较不同数值变量指标的可靠性。变异系数越小,表示可重复性越好,可靠性高。对于分类变量资料指标(如筛查结果阳性、阴性),评价指标可以用符合率(一致率)、Kappa值。符合率和Kappa越大,说明筛查试验的可靠性越好。Kappa值比符合率更为客观。一般认为Kappa值>0.80为一致性极好,0.6~0.8为一致性较好,0.4~0.6为一致性中等,Kappa值≤0.40为一致性较差。具体计算方法可以参考相关专业书籍[2,19]。
3.预测值(predictive value)评价:预测值是应用筛查试验的阳性和阴性结果来估计受检者为病例和非病例可能性的指标。该指标反映了筛查试验实际应用到人群筛查后,获得的收益大小。
(1)计算方法,预测值有直接计算和间接计算两种估计方法[2]。①直接计算法。在社区开展的,基于横断面研究设计的筛查试验评价[20],样本人群的疾病患病率与目标人群的患病率一致时,可以用此方法。整理成如表1的结果,阳性预测值为筛查发现的阳性者中患目标疾病的人所占的比例,阳性预测值=
。阴性预测值为筛查发现的阴性者中未患目标疾病的人所占的比例。阴性预测值=
。②间接计算法。在医院开展的,基于病例-非病例设计的筛查试验研究,不能直接计算预测值。此时,可以根据灵敏度、特异度、患病率与预测值的关系式来估算预测值。阳性预测值=
,阴性预测值=
。
(2)预测值与患病率、真实性指标的关系:筛查试验的灵敏度、特异度和目标人群的疾病患病率都会影响预测值的大小。
①患病率对预测值的影响,当筛查试验的灵敏度和特异度一定,疾病患病率升高,阳性预测值升高,阴性预测值降低。
②灵敏度和特异度对预测值的影响,当人群患病率不变时,灵敏度升高,特异度降低,阳性预测值计算公式中,分母较分子增大更显著,则阳性预测值下降,阴性预测值升高。同理,筛查试验的灵敏度降低,特异度升高,则阳性预测值升高,阴性预测值降低。
4.试验阳性结果截断值(cut-off value)的确定:当筛查试验的测量结果为连续性的数值变量指标时,为区分阳性与阴性结果,就需要确定阳性、阴性结果的判定界值——截断值,即确定某项指标的正常值。一个合理的判断标准就是要使筛查试验的真实性最好,使灵敏度和特异度均为100%,尽可能没有漏诊和误诊,但多数情况下是难以达到的。病例与非病例的筛查试验测量值大多不能截然分开,有重叠现象,使正确判定阳性与阴性出现了许多困扰。
筛查试验阳性结果的截断值选择在何处,可以从以下几方面考虑:
(1)若疾病的预后差,漏诊病例可能带来严重后果,且目前又有可靠的治疗方法,则截断值应向提高灵敏度的方向移动,尽可能多地发现可疑患者,但会使假阳性增多,如宫颈癌、乳腺癌筛查。
(2)若疾病后续诊疗方法不理想,则截断值应向提高特异度的方向移动,尽可能将非病例鉴别出来,减少假阳性对参加者造成的心理压力,如肝癌筛查。
(3)大多数情况下,筛查试验应综合考虑灵敏度和特异度,使假阳性率和假阴性率最小。实际操作时一般采用受试者工作特征曲线(receiver operating characteristic curve,ROC曲线)来决定最佳截断值[4]。ROC曲线是以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标所做的曲线,以表示灵敏度与特异度之间相互关系的一种方法。ROC曲线常被用来确定筛查试验的最佳截断值,将该曲线最接近左上角的一点处定为最佳截断值,因为此点灵敏度和特异度之和最大,假阳性和假阴性之和最小。ROC曲线与对角线构成的曲线下面积(AUC)也可以反映筛查试验方法的真实性,AUC越接近1.0,筛查试验真实性越高;等于0.5时,则真实性最低,无实用价值。此外,2种或2种以上筛查试验方法进行比较时,可以利用其AUC大小直接比较哪种试验的真实性更好。具体方法详见相关流行病学书籍及本杂志后续的继续教育园地栏目。
筛查效果评价包括近期收益、中早期疾病中间结局改善,以及长远人群终末结局风险(死亡)降低3个人群获益阶段。筛查经常是政府主导的一项公共卫生服务措施,筛查效果评价除了观察生物学效应指标外,还应同期开展安全性、卫生经济和项目可持续性(即社会适应性评价)。因此,筛查项目是否能在人群中推广,需要经历有计划且漫长的研究过程,最终应在循证公共卫生的思想指导下,系统评价所获得的证据等级,由科学家团队共同制定出筛查指南[2]。
(1)现场干预研究,一般采用设计严谨的随机对照试验(RCT),将研究对象以个体或整群随机的方式分为2组,干预组需要接受连续周期性的筛查,对照组则接受常规的医疗服务。由于大人群的长期随访研究需要大量人力和物力,因此RCT研究多用于评价筛查的收益、中间结局改善情况、筛查成本及人群可接受度等近期效果指标[21]。
(2)筛查示范区建设阶段,这一阶段采用多中心的社区类实验研究,连续观察筛查的中、远期效果的生物学指标、卫生经济学效果指标及筛查和治疗的不良反应事件发生情况等,探索筛查在实际环境中的运作机制。
(3)验证和应用阶段,筛查项目已经在某些地区广泛推广,地区全人群健康档案齐全,有连续多年的、完整准确的筛查和疾病等记录信息。此时可采用观察性的研究方法,进一步验证真实条件下筛查所取得的远期生物学效果、卫生经济学效益以及项目的可持续性。常用的流行病学方法如下。
①回顾性队列研究。通过比较既往参与筛查人群和不接受筛查人群的随访一段时间后的归因死亡率、生存率的差异说明筛查项目的效果。
②病例对照研究。病例组是实施了筛查项目的地区人群的所有死亡病例的随机样本;对照组是同一人群(包括病例)的存活者的随机样本。分析病例组和对照组既往参与筛查率是否存在差异。如果筛查项目能够降低疾病死亡率,则在同一人群中,死亡病例中接受筛查的比例应低于存活患者。
③生态学研究。筛查项目推广较长时间后,可应用生态学研究方法比较开展地区和未开展地区,或者项目地区开展前后人群某疾病归因死亡率的变化,以此说明筛查项目的长远效果。
筛查效果评价内容包括收益、生物学效果指标、卫生经济学评价、安全性和伦理学评价、项目持续性评价。
(1)收益评价。①收益(yield)评价指标也称收获量,指经筛查后能使多少原来发现的患者(或临床前期病人、高危人群)得到诊断和治疗。该类指标反映人群在短期内因筛查得以早诊早治的获益情况,常用的指标如下。
a.阳性预测值,它是常用的收益指标。该指标高,说明筛查出的阳性者中,真病人的比例高,筛查具有较高的效率。
b.转诊率或筛查阳性率,筛查阳性率是筛查阳性人数占筛查目标人群数的比例;转诊率与筛查试验的灵敏度高或特异度低有关,如果目标人群基数较大,该指标不宜太高,否则卫生系统要额外提供足够的设施和人力以确诊真正患有该疾病者,个人、单位或国家也要为这些服务花费买单,不符合卫生经济学原则。
c.早诊和(或)早治率,该指标是指早期病例在筛查所发现的全部病例中所占的比例,如果筛查的早诊率显著高于正常医疗程序发现的早诊率,则可认为筛查收益较好。如一项研究分析广州市宫颈癌项目筛查结果,宫颈癌初筛阳性转诊率从6.90%下降到2.57%,转诊阴道镜检查异常率从36.86%上升到87.93%,转诊组织病理学检查异常率从27.96%上升到59.65%[22]。宫颈癌早诊率均>90%,说明广州市宫颈癌筛查方案逐步优化,筛查的有效性明显提升,达到了早发现、早诊断的目的。
②提高筛查收益的方法。a.高危人群策略,在某些年龄、性别、种族及其他主要危险因素暴露特征人群(高危人群)中有较高的疾病患病率,在这些高危人群中开展筛查,可提高阳性预测值,也更符合低成本高效益的原则。如空腹血糖筛查2型糖尿病简单易行,宜作为常规的筛查方法,但有漏诊的可能性。《中国2型糖尿病防治指南(2017年版)》[16]推荐空腹血糖≥6.1 mmol/L或任意点血糖≥7.8 mmol/L但未达到糖尿病诊断标准者,行口服葡萄糖耐量试验(OGTT)。该指南也推荐采用中国糖尿病风险评分表对20~74岁普通人群进行糖尿病风险评估,总分≥25分者应进行OGTT,可获得较高的糖尿病检出率。
b.选择合理的筛查方案,包括选择高灵敏度筛查试验,应用联合试验和设置合理的筛查起始年龄及间隔时间。
选择高灵敏度筛查试验,如果所筛查的疾病早期诊断意义重大,筛查的目的是尽可能不漏诊病例,应尽量选择高灵敏度的方法。
采用联合试验,在实施筛查时,可采用2种或2种以上筛查试验检查同一受试对象,以提高筛查的灵敏度或特异度,增加筛查的收益,这种方式称为联合试验。根据联合的形式,分为串联试验和并联试验。
并联试验,也称平行试验,即全部筛查试验同时平行开展,任何一项筛查试验结果阳性就可判断为阳性。该方法的优点是可以弥补2种方法灵敏度都不足的问题,提高筛查整体的灵敏度,但会降低特异度。如联合使用液基薄层细胞学(TCT)和高危型人乳头瘤病毒(HPV)基因检测方法筛查宫颈癌,高危型HPV基因检测与TCT检查并联的灵敏度(97.0%)明显高于单独TCT检查(32.7%)及单独高危型HPV 基因检测(91.1%);2种方法并联应用的特异度(90.6%)稍低于单独TCT检查(97.5%)和单独高危型HPV基因检测(92.4%)[23]。高危型HPV检测虽然具有较高的检出率,但是其检查特异度较差,而TCT检查虽经济实惠,但是灵敏度和准确率较低。因此,2者并联作为宫颈癌及癌前病变筛查的重要检查方法,相互之间具有互补作用,从而使患者得到及时的早期诊断和治疗,对预防宫颈癌的发生具有重要的临床价值。在设计并联筛查方案时,应充分考虑筛查方法的成本-效益比。
串联试验,也称系列试验,即1组筛查试验按一定的顺序相连,初筛阳性者进入下一轮筛查,全部筛查试验结果均为阳性者才定为阳性。该方法可以提高特异度,但会使灵敏度降低。因此,初筛的方法尽量选择灵敏度高的方法,第2轮的筛查尽可能选择特异度较高的方法。例如,序贯粪便隐血大肠癌初筛方案就是首先进行化学法粪隐血试验,阴性者不再进入下一步检查,阳性者再进行免疫粪隐血试验;若免疫隐血阴性,不再进入下一步检查,只有2者均阳性者才进行全结肠镜检查[24]。
筛查起始年龄和筛查频率,应根据人群最大获益的时点来确定。如我国女性乳腺癌的发病高峰年龄为45~54岁,因此中国乳腺癌筛查指南建议一般风险人群乳腺癌筛查的起始年龄为40岁,每1~2年进行1次乳腺X线检查。但对于乳腺癌高危人群可将筛查起始年龄提前到40岁以前,每年1次乳腺X线检查,每6~12个月1次乳腺超声检查,每6~12个月1次乳腺体检,必要时每年1次乳腺增强MRI[14]。
(2)生物学效果评价。根据筛查能够改善疾病的中间或终末结局状态(发病或预后)为观察终点的效果评价是生物学效果评价。评价指标包括结局测量指标(归因死亡率、治愈率、复发率、生存率和生存时间);关联指标[RCT设计的常用指标有效果指数、保护率、归因危险度(AR);队列研究多用参加筛查人群和未参加人群的相对危险度(RR);病例对照研究的指标是死亡病例与对照组参加筛查的比值比(OR)];需要筛查人数(number needed to screened,NNBS),该指标表示减少一例目标疾病病例的死亡,需要筛查多少人,这个数值越小越好[2,25]。
(3)卫生经济学评价。筛查评价涉及成本-效果、成本-效用和成本-效益的综合评价[2,26]。
卫生经济学评价的目的是优选出投入一定的资源(成本)后,获益(健康产出或经济产出)最大的筛查方案。具体的评价方法参考相关专业书籍[2]。
(4)筛查的安全性、伦理学及可持续性评价[2]。①安全性及伦理学评价。安全性评估是评价人群获益是否远远超过伤害,以及伤害可接受程度。评价伤害的指标为过度诊断和(或)治疗率,不良事件发生率。②可持续性评价。筛查项目的可持续性受国家政策支持、项目经费保障、筛查人力资源配备、目标人群接受程度、医疗保障制度是否介入等因素影响,可采用社会学定性和定量研究方法进行评价。③人群接受度。在开展推广筛查项目前,应对目标人群的认知水平进行摸底,了解影响筛查项目推广的影响因素,并积极开展有针对性的健康教育,以保证项目可持续开展。如为提高社区大肠癌筛查的依从性,有研究分析家用型粪便隐血自测方法在社区用于大肠癌筛查的可行性,参与调查的社区医生有88.6%、社区居民中有69.1%表示愿意选择家用型粪便隐血自测方法进行筛查;有大肠癌高危因素的调查者相比无高危因素者、男性相比女性、曾经使用过或知晓家用型粪便隐血自测方法者更愿意接受其用于社区大肠癌筛查[27]。
(1)领先时间偏倚,是指临床前筛查诊断的时点(年龄)至常规临床诊断时点(年龄)之间的时间间隔。如宫颈癌临床诊断平均年龄为50岁,如果患病人群在30~50岁之间进行筛查,则平均诊断年龄可提前至45岁,领先时间为5年。该间隔是疾病的自然病程阶段,如果筛查只提前了发现疾病的时点,而并未改变筛查人群的死亡时点(年龄),也会观察到筛查人群比未筛查人群生存时间更长的假象,即领先时间偏倚。
(2)病程偏倚,疾病被检出的可能性和疾病的进展速度有关。例如,恶性程度较低的腺癌,进展速度较慢,在临床前期被筛查发现的机会高于恶性程度较高的非小细胞肺癌。如果筛查组中疾病进展缓慢的肺腺癌占比较大时,可能观察到筛查组较未筛查组生存概率更高或生存时间更长。此时,筛查的效果被高估了,即产生了病程偏倚。
(3)过度诊断偏倚,筛查发现过多的早期病例而增加了诊断治疗的负担,这种现象称为,过度诊断。因为筛查会发现较多的惰性病例(某些筛查指标异常的病例可能终身无进展或进展缓慢),导致筛查发现的患者有较多的生存者或较长的生存时间,从而高估了筛查效果,该偏倚即为过度诊断偏倚,这是病程偏倚的极端形式。
(4)志愿者偏倚,健康行为可能决定筛查意愿,参加筛查者可能比未参加者有更高的受教育程度、个人经济状况更好,更关注自身的健康,不良行为习惯的发生率较低,因此参加筛查的人群总发病或死亡风险可能低于未参加筛查人群。如有研究发现≥50岁女性乳腺癌筛查率低于35~49岁,低教育水平、未就业、低家庭收入和无医保女性接受乳腺癌筛查的可能性显著低于高社会经济水平女性,居住在农村、西部地区的女性乳腺癌筛查率较低[28]。此外,主动参与筛查者对后续治疗的依从性更高。这些因素都可能是筛查人群的死亡风险低于未参加人群,导致筛查效果被高估,也就产生了健康志愿者偏倚。
所有作者均声明不存在利益冲突
1.筛查是指:
A. 在人群中采用快速的试验或其他方法确诊病人
B. 在人群中采用诊断试验确诊病人
C. 在人群中采用快速的试验或其他方法去发现未识别的病人、可疑病人或有缺陷的人
D. 在人群中随机抽取一部分进行检查
E. 在人群中随机抽取一部分人进行初步体检,阳性者再到医院进行诊断
2.如果某项筛查试验的指标的高滴度与疾病有联系时,将判断阳性界值的标准降低一个稀释度则很可能会导致:
A. 灵敏度和特异度都增加
B. 特异度减小,灵敏度增加
C. 灵敏度减小,特异度增加
D. 灵敏度和特异度都减小
E. 灵敏度增加,特异度则分局情况增加或减小
3.下面适用于筛查的选项是:
A. 自然史不明确的疾病
B. 患病率低的疾病
C. 早期诊断可改善预后的疾病
D. 病情严重难以治愈的疾病
E. 给患者带来精神压力的疾病
4.筛查一般不要求具备的特点是:
A. 灵敏度高
B. 简便、快速
C. 准确、权威
D. 安全
E. 经济
5.下面不属于筛查试验真实性评价指标的是:
A. 灵敏度
B. 特异度
C. 正确指数
D. 符合率
E. 变异系数





















