
及时、准确评估新生儿疼痛是确保疼痛管理方案安全、有效实施的关键。目前,国内外学者针对不同的新生儿群体和疼痛类型,构建和测试了40多种疼痛评估量表。但是,其测量结果的可靠性和稳定性存在较大差异。并且,现有单项研究或系统评价仅能提供某个量表或量表某种测量性能的零散证据,不利于医护人员的临床决策。
对新生儿疼痛评估量表测量学性能进行系统评价再评价,为临床实践者和研究者选择最佳的疼痛评估量表提供证据支持。
计算机检索中国知网、中国生物医学文献数据库、万方数据知识服务平台、维普网、PubMed、Embase、Cochrane Library、Web of Science、CINAHL数据库,通过纳入研究的参考文献追溯与本研究相关的文献。纳入有关新生儿疼痛评估量表测量学性能的系统评价。由两名研究者独立进行文献筛选和资料提取,并分别采用澳大利亚乔安娜布里格斯研究所(JBI)循证卫生保健中心对系统评价的方法学质量评价工具、系统评价偏倚风险(ROBIS)工具和PRISMA声明对纳入研究的方法学质量、偏倚风险和报告质量进行评价,进一步依据定性系统评价证据分级工具(CERQual)评价纳入研究的证据质量。
共纳入7篇系统评价。文献质量评价结果显示,4篇研究方法学质量较高,为低偏倚风险;3篇研究方法学质量相对较低,为高偏倚风险。PRISMA评价结果显示,5篇研究报告相对完全(报告完成率>60.00%),1篇研究存在一定报告缺陷(报告完成率为45.95%),1篇研究有严重信息缺失(报告完成率为10.81%)。CERQual评价结果显示,新生儿疼痛评估量表测量性能结局的22条证据中,高级证据2条(9.09%),中级证据8条(36.36%),低级证据9条(40.91%),极低级证据3条(13.64%)。证据综合结果显示,有25种量表用于新生儿疼痛评估时具有良好的内部一致性、评估者间信度、结构效度和可解释性,分别适用于早产儿和/或足月儿的急性疼痛、持续性疼痛、术后疼痛或机械通气性疼痛。
尚无单个疼痛评估量表可用于新生儿所有类型疼痛的评估。推荐根据患儿年龄和疼痛类型等具体的临床情景选择经过验证的评估量表对患儿疼痛进行定期动态评估。并需进一步补充设计合理、方法严谨的高质量研究来检验现有量表测量我国新生儿人群各种类型疼痛时的可靠性和稳定性,探索扩宽其应用范围的可行性。
本刊2022年版权归中国全科医学杂志社所有
未经编辑部许可,不得任意转载和摘编
本刊所发表作品仅为作者观点,并不代表编委会和编辑部意见
如有印装质量问题请向本刊发行部调换
住院新生儿因诊疗原因,不可避免地要经历各种疼痛刺激。研究显示82.6%的常见临床操作可引发重度疼痛[1]。新生儿疼痛评估与镇痛管理专家共识指出,规范适宜的疼痛管理,可减轻或防止疼痛对身体或心理带来的各种不良影响,加速康复进程[2]。及时、准确评估新生儿疼痛是实施疼痛管理,衡量镇痛措施有效性的关键。由于新生儿无法通过语言表达疼痛,医护人员需借助神经生理、行为反应的测量对其疼痛进行评估。包含有生理和/或行为指标的疼痛评估量表被认为是最为便捷且费用最低廉的评估方法,医护人员经过简单培训即可掌握[3]。
基于共识选择健康测量工具的标准(Consensus-based Standards for the Selection of Health Measurement Instruments,COSMIN)指出只有具备良好测量学性能的量表才能作为可靠工具用于临床实践[4]。目前,针对不同的新生儿群体和不同的疼痛类型,已构建和测试了40多种疼痛评估量表。然而,对于具体的临床情景,应该选择哪种量表评估新生儿疼痛仍没有定论。其主要原因在于现有新生儿疼痛评估量表数量众多,且其测量结果的可靠性和稳定性存在较大差异[5];而已发表的单项研究或系统评价仅能提供关于某个量表或量表某一方面测量学性能的零散证据,不利于医护人员的临床决策。系统评价再评价作为一种对某一特定问题相关系统评价进行综合研究的一种方法,可为证据使用者提供全面系统的高质量证据[6]。因此,本研究拟通过系统评价再评价,对现有新生儿疼痛评估量表的测量学性能进行全面评价,从而为临床实践者和研究者选择最佳的疼痛评估量表提供证据支持。
纳入标准:(1)研究主题为新生儿疼痛评估量表的测量性能研究,包括信度(内部一致性信度、评分者间信度、重测信度等)、效度(内容效度、结构效度、校标效度等)、反应度,以及可解释性、实用性和可行性等(后三者虽非测量性能,但是量表的重要特性);(2)量表测评对象为住院新生儿;(3)研究类型为:系统评价、Meta分析或Meta整合。排除标准:(1)研究主题为其他类型的疼痛评估方法,如新生儿疼痛表情自动识别系统、近红外光谱技术、心率变异性分析等;(2)无法提取测量学性能相关数据的文献;(3)发表语言为非中文或非英文;(4)系统评价计划书、会议摘要、重复发表的文献。
2021-10-31以自由词和主题词结合制定检索策略,计算机检索中国知网、中国生物医学文献数据库、万方数据知识服务平台、维普网、PubMed、Embase、Cochrane Library、Web of Science、CINAHL数据库,通过纳入研究的参考文献追溯与本研究相关的文献。指南推荐意见的形成应基于当前可得的最佳证据[7],而系统评价证据的有效期为3~5年[8],故本次文献检索时段限制为近5年(2016年11月至2021年11月)。中国知网的检索策略为:(主题=疼痛+镇痛)AND(主题=新生儿+足月儿+早产儿+低出生体重儿+小于胎龄儿+婴儿)AND(主题=评估+评分+测量+测定+量表+简表+问卷+工具)AND(主题=测量学+信效度+信度+效度+反应度+反应性+可行性+实用性+适用性+可操作性)AND(主题=系统评价+系统综述+荟萃分析+Meta分析+Meta整合)NOT(主题=剖宫产+分娩+产科+产妇+成人+老年人+妊娠)。PubMed的检索策略见表1。

PubMed检索策略
Search strategies for systematic reviews about psychometric properties of neonatal pain assessment scales in PubMed
PubMed检索策略
Search strategies for systematic reviews about psychometric properties of neonatal pain assessment scales in PubMed
| 步骤 | 检索式 |
|---|---|
| #1 | "pain" [Title/Abstract] OR "pain" [MeSH Terms] |
| #2 | (newborn OR neonat* OR "newborn infant" [Title/Abstract] OR premature OR "preterm infant" [Title/Abstract] OR "premature infant" [Title/Abstract] OR "premature baby" [Title/Abstract] OR "premature babies" [Title/Abstract] OR "neonatal prematurity" [Title/Abstract] OR "term infant" [Title/Abstract] OR "low birth weight infant" [Title/Abstract] OR "low birth weight" [Title/Abstract] OR LBW OR ELBW OR VLBW OR "small for gestational age" [Title/Abstract]) OR ( "infant,newborn" OR "Infant,premature" OR "infant,extremely premature" OR "infant,low birth weight" OR "infant,small for gestational age" OR "infant,very low birth weight" [MeSH Terms]) |
| #3 | (delivery[Title/Abstract] OR childbirth[Title/Abstract] OR labor[Title/Abstract]) OR ( "Delivery,Obstetric" OR Parturition OR "Labor,Obstetric" [MeSH Terms]) |
| #4 | #1 AND #2 NOT (#3 AND #1) |
| #5 | (measur*[Title/Abstract] OR assess*[Title/Abstract] OR evaluat*[Title/Abstract] OR rating[Title/Abstract] OR monitor*[Title/Abstract] OR quantif*[Title/Abstract] OR scale[Title/Abstract] OR tool[Title/Abstract] OR instrument[Title/Abstract] OR profile[Title/Abstract] OR questionnaire[Title/Abstract] OR score[Title/Abstract] OR intensit*[Title/Abstract] OR severit*[Title/Abstract]) OR ( "pain measurement" [MeSH Terms]) |
| #6 | (psychometr*[Title/Abstract] OR reliability[Title/Abstract] OR consistency[Title/Abstract] OR accuracy[Title/Abstract] OR validity[Title/Abstract] OR responsiv*[Title/Abstract] OR sensitiv*[Title/Abstract] OR feasibility[Title/Abstract] OR utility[Title/Abstract] OR applicability[Title/Abstract]) OR ( "reproducibility of results" OR "validation studies as topic" OR "feasibility studies" [MeSH Terms]) |
| #7 | #4 AND #5 AND #6,Filters applied:Meta-Analysis,Systematic Review,in the last 5 years |
利用EndNote软件对各数据库合并后的检索结果去除重复文献,进一步由2名研究者独立完成文献筛选和资料提取,并通过交叉核对与分歧讨论后达成一致意见。利用Excel提取资料,内容包括:第一作者、发表年份、研究主题、纳入研究数、研究对象、纳入量表数、量表使用情景、方法学质量评价和结果综合方法等。
由2名研究者分别独立地对纳入研究的方法学质量、偏倚风险、报告质量和证据质量进行评价,并交叉核对评价结果,采用组内讨论的形式解决分歧。具体的评价方法或标准如下。
依据澳大利亚乔安娜布里格斯研究所(Joanna Briggs Institute,JBI)循证卫生保健中心系统评价的方法学质量评价工具[9]对纳入研究的方法学质量进行评价。该系统评价的方法学质量评价工具包括循证问题、文献纳入排除标准、检索策略、文献质量评价、资料提取与综合、发表偏倚等11个条目。每个条目可评价为"是""否""不清楚"和"不适用"。
依据系统评价偏倚风险(Risk of Bias in Systematic Review,ROBIS)工具[10]对纳入研究的偏倚风险进行评价。ROBIS的评价过程分为3个阶段,阶段1:评估相关性(此部分主要针对干预性、病因性、诊断试验和预后性系统综述。故本研究不进行阶段1的评估);阶段2:评估系统评价制定过程中的偏倚风险程度,包括4个领域,共21个标志性问题;阶段3:评估系统评价整体的偏倚风险,包括3个标志性问题。评估领域及标志性问题(阶段2、3)的方法为:从系统评价中寻找支持偏倚风险程度判断的信息,回答标志性问题,判断偏倚风险程度。标志性问题的回答为"是""可能是""否""可能否"和"无信息";偏倚风险程度的评价为"低"(所有标志性问题的回答为"是"或"可能是")、"高"(任一标志性问题的回答为"否"或"可能否")和"不确定"。
由于测量工具系统评价的报告规范PRISMA-COSMIN正处于开发阶段,故本研究采用Preferred Reporting Items for Systematic Reviews and Meta-Analyses(PRISMA)声明[11]对纳入研究的报告质量进行评价。PRISMA声明作为系统评价报告的基础规范,包括7个部分,共27个条目。每个条目根据文献中是否有完整报告,评价为"是"(完整报告)、"否"(部分报告+未报告)和"不适用",并计算每个条目的报告完成率。
纳入的系统评价由于原始研究间的临床异质性和方法学异质性均未进行定量合成。故本研究主要依据定性系统评价证据分级工具(Confidence of the Evidence from Reviews of Qualitative Research,CERQual)[12]对纳入研究证据质量进行评价:系统评价结果起始为高质量证据,然后从方法学局限性、相关性、结果一致性和数据充分性4个方面判断是否进行降级:不降级(无)、降1级(严重)、降2级(非常严重),最终将系统评价的证据质量分为"高""中""低"和"极低"4个级别。
初检共获得文献122篇,利用EndNote软件去除重复文献34篇,阅读标题和摘要剔除研究对象、研究主题、研究类型和发表语言等明显不符合纳入标准的文献76篇,进一步阅读全文剔除会议摘要2篇,研究对象不符3篇,最终纳入7篇文献[13,14,15,16,17,18,19]进行描述性分析。文献筛选流程图见图1。


文献纳入的研究数量为9~352篇,涉及1~40种新生儿疼痛评估量表,可归纳为急性疼痛、持续性疼痛、术后疼痛、机械通气性疼痛4种类型。纳入的1篇发表在JAMA Pediatrics的系统评价[13]对现有新生儿疼痛评估量表的测量学特征进行了综合性评价,其余纳入研究仅针对一个疼痛评估量表、一类新生儿群体,或一种测量学特征:2篇系统评价[14,15]分别评价了新生儿疼痛、躁动和镇静评分(Neonatal Pain,Agitation,and Sedation Scale,N-PASS)和舒适量表(COMFORT)的测量学性能;2篇系统评价[16,17]分别关注了机械通气新生儿和颌面外科新生儿两类特殊人群;2篇系统评价[18,19]分别对新生儿疼痛评估量表的反应度和实用性进行了评价。纳入系统评价的基本特征见表2。

纳入研究的基本特征
Characteristics of the included systematic reviews
纳入研究的基本特征
Characteristics of the included systematic reviews
| 第一作者 | 发表时间(年) | 研究主题 | 纳入研究数(篇) | 研究对象 | 纳入量表数(个) | 量表使用情景 | 方法学质量评价 | 结果综合方法 |
|---|---|---|---|---|---|---|---|---|
| OLSSON[19] | 2021 | 疼痛评估量表实用性(使用频率及使用正确性)评价 | 352 | 新生儿 | 22 | 急性操作性疼痛;持续性疼痛;术后疼痛 | 仅评价了盲法 | 描述性分析 |
| POPOWICZ[16] | 2020 | 疼痛评估量表的综合评价(信效度/医护认知) | 12 | 机械通气新生儿 | 8 | 机械通气性合并急性操作性疼痛;单纯机械通气性疼痛 | Newcastle-Ottawa Scale(NOS) | 描述性分析 |
| MORGAN[14] | 2020 | 新生儿疼痛、躁动和镇静评分(N-PASS)的信效度评价 | 29 | 新生儿 | 1 | 急性疼痛;持续性疼痛 | 牛津循证医学中心质量评价标准 | 描述性分析 |
| GIORDANO[13] | 2019 | 疼痛/镇静评估量表在不同人群和不同临床情景应用时的信效度、反应度、区分度、适用性等的综合评价 | 89 | 足月儿;早产儿;幼儿 | 40a | 急性疼痛;持续性疼痛;术后疼痛;机械通气性疼痛 | COSMIN偏倚风险评价清单 | 描述性分析 |
| MEESTERS[18] | 2019 | 疼痛评估量表反应度评价 | 9 | 新生儿 | 10 | 术后疼痛;持续性疼痛 | COSMIN偏倚风险评价清单 | 描述性分析 |
| MAASKANT[15] | 2016 | COMFORT系列量表信效度和反应度评价 | 30 | 新生儿;0~18岁儿童 | 4a | 操作性疼痛;术后疼痛 | COSMIN偏倚风险评价清单 | 描述性分析 |
| YARIPOOR[17] | 2016 | 疼痛评估量表的信效度和实用性(使用频率)评价 | 17 | 颌面外科新生儿 | 16 | 术后疼痛 | — | 描述性分析 |
注:COSMIN=基于共识选择健康测量工具的标准;a表示研究中纳入的与新生儿疼痛评估量表有关的数据;—表示无此内容
纳入研究的质量评价结果显示,4篇研究[13,15,18,19]方法学质量较高,为低偏倚风险,3篇研究[14,16,17]方法学质量相对较低,为高偏倚风险。影响纳入研究方法学质量及偏倚风险的主要因素为:研究纳入、排除标准不适合系统评价的问题,或未清晰明确地界定纳入研究的特征;未提供完整的检索策略,或未包括重要的检索数据库,未通过除数据库以外的其他方法确定相关研究;研究采用的文献质量评价工具不符合系统评价的问题和纳入研究的文献类型,或未提取和报告量表测量性能的关键结局指标。纳入研究的方法学质量及偏倚风险评价结果分别见表3、表4。

纳入研究的方法学质量评价结果
Methodological quality of the included systematic reviews
纳入研究的方法学质量评价结果
Methodological quality of the included systematic reviews
| 第一作者 | 条目1 | 条目2 | 条目3 | 条目4 | 条目5 | 条目6 | 条目7 | 条目8 | 条目9 | 条目10 | 条目11 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| OLSSON[19] | 是 | 是 | 是 | 是 | 否 | 是 | 是 | 是 | 不适用 | 是 | 是 |
| POPOWICZ[16] | 是 | 否 | 不清楚 | 否 | 否 | 不清楚 | 是 | 是 | 不适用 | 是 | 不清楚 |
| MORGAN[14] | 是 | 否 | 不清楚 | 是 | 否 | 是 | 是 | 是 | 不适用 | 是 | 是 |
| GIORDANO[13] | 是 | 是 | 不清楚 | 是 | 是 | 是 | 不清楚 | 是 | 不适用 | 是 | 是 |
| MEESTERS[18] | 是 | 是 | 是 | 是 | 是 | 不清楚 | 不清楚 | 是 | 不适用 | 是 | 是 |
| MAASKANT[15] | 是 | 是 | 不清楚 | 是 | 是 | 是 | 是 | 是 | 不适用 | 是 | 否 |
| YARIPOOR[17] | 否 | 是 | 不清楚 | 否 | 不清楚 | 不清楚 | 不清楚 | 不清楚 | 不适用 | 是 | 否 |
注:条目1:所提出的循证问题是否清晰明确?条目2:文献的纳入标准是否恰当?条目3:采用的检索策略是否恰当?条目4:研究论文的来源是否恰当?条目5:采用的文献质量评价标准是否恰当?条目6:是否由2名或2名以上的评价者独立完成文献质量评价?条目7:提取资料时是否采用一定的措施减少误差?条目8:综合/合并研究的方法是否恰当?条目9:是否对可能的发表偏倚进行评估?条目10:作者是否在报道数据的支持下对政策和/或实践提出推荐意见?条目11:对今后进一步研究的特定方向是否提出恰当建议?

纳入研究的偏倚风险评价结果
Risk of bias in the included systematic reviews
PRISMA评价结果显示,5篇研究[13,14,15,18,19]报告相对完全(报告完成率>60.00%),1篇研究[16]存在一定报告缺陷(报告完成率为45.95%),1篇研究[17]有严重信息缺失(报告完成率为10.81%)。报告质量不足主要表现为结构式摘要,注册与计划书,检索策略,每个结果合成中纳入研究的处理过程及方法,研究结果间异质性分析、证据可信度评价,资金支持,数据、代码和其他材料的可用性报告不全面(规范报告率<50%)。纳入系统评价的报告质量评价结果见表5。

纳入系统评价的报告质量评价结果
Reporting quality of the included systematic reviews
纳入系统评价的报告质量评价结果
Reporting quality of the included systematic reviews
| 文章结构 | PRISMA条目 | OLSSON[19] | POPOWICZ[16] | MORGAN[14] | GIORDANO[13] | MEESTERS[18] | MAASKANT[15] | YARIPOOR[17] | 规范报告率(%) |
|---|---|---|---|---|---|---|---|---|---|
| 标题 | 1.标题 | 是 | 是 | 是 | 是 | 是 | 是 | 是 | 100.00 |
| 摘要 | 2.结构式摘要 | 否 | 是 | 否 | 是 | 否 | 否 | 否 | 28.57 |
| 背景 | 3.理论基础 | 是 | 是 | 是 | 是 | 是 | 是 | 是 | 100.00 |
| 4.目的 | 是 | 是 | 是 | 是 | 是 | 是 | 否 | 85.71 | |
| 方法 | 5.纳排标准 | 是 | 是 | 是 | 是 | 是 | 是 | 是 | 100.00 |
| 6.信息来源 | 是 | 否 | 是 | 是 | 是 | 是 | 否 | 71.43 | |
| 7.检索策略 | 是 | 否 | 否 | 否 | 是 | 否 | 否 | 28.57 | |
| 8.研究选择 | 是 | 是 | 否 | 是 | 是 | 是 | 否 | 71.43 | |
| 9.资料提取 | 是 | 是 | 是 | 否 | 否 | 是 | 否 | 57.14 | |
| 10a.资料条目-结局指标数据 | 是 | 否 | 是 | 否 | 是 | 是 | 否 | 57.14 | |
| 10b.资料条目-其他变量 | 是 | 是 | 是 | 是 | 是 | 是 | 否 | 85.71 | |
| 11.偏倚风险评价 | 是 | 否 | 是 | 是 | 否 | 是 | 否 | 57.14 | |
| 12.效应指标 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | — | |
| 13a.方法综合-结果合并时纳入研究的过程 | 是 | 否 | 否 | 否 | 否 | 否 | 否 | 14.29 | |
| 13b.方法综合-数据准备 | 是 | 否 | 否 | 否 | 是 | 否 | 否 | 28.57 | |
| 13c.方法综合-单个研究/综合结果呈现方法 | 是 | 否 | 否 | 否 | 否 | 否 | 否 | 14.29 | |
| 13d.方法综合-结果综合方法 | 是 | 否 | 是 | 是 | 否 | 是 | 否 | 57.14 | |
| 13e.方法综合-异质性分析方法 | 否 | 否 | 是 | 是 | 否 | 是 | 否 | 42.86 | |
| 13f.方法综合-敏感性分析方法 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | — | |
| 14.报告偏倚评价 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | — | |
| 15.可信度评价 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 0 | |
| 结果 | 16a.研究选择-检索和筛选过程结果 | 是 | 是 | 是 | 是 | 是 | 是 | 否 | 85.71 |
| 16b.研究选择-排除研究 | 是 | 是 | 是 | 是 | 是 | 是 | 否 | 85.71 | |
| 17.研究特征 | 是 | 是 | 是 | 否 | 是 | 是 | 否 | 71.43 | |
| 18.研究偏倚风险 | 是 | 是 | 是 | 是 | 是 | 是 | 否 | 85.71 | |
| 19.单个研究结果 | 是 | 否 | 是 | 否 | 是 | 是 | 否 | 57.14 | |
| 20a.结果综合-纳入研究特征及偏倚风险 | 是 | 否 | 是 | 是 | 是 | 是 | 否 | 71.43 | |
| 20b.结果综合-统计综合结果 | 是 | 否 | 是 | 是 | 是 | 是 | 否 | 71.43 | |
| 20c.结果综合-异质性原因 | 否 | 否 | 是 | 是 | 否 | 是 | 否 | 42.86 | |
| 20d.结果综合-敏感性分析结果 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | — | |
| 21.报告偏倚 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | — | |
| 22.证据可信度 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 0 | |
| 讨论 | 23a.讨论-结果解释 | 是 | 是 | 是 | 是 | 是 | 是 | 否 | 85.71 |
| 23b.讨论-证据的局限性 | 是 | 是 | 是 | 是 | 是 | 是 | 否 | 85.71 | |
| 23c.讨论-系统评价过程局限性 | 是 | 是 | 是 | 是 | 是 | 否 | 否 | 71.43 | |
| 23d.讨论-结果对实践等的影响 | 是 | 是 | 是 | 是 | 是 | 是 | 是 | 100.00 | |
| 其他信息 | 24a.注册与计划书-注册信息 | 是 | 否 | 否 | 是 | 否 | 否 | 否 | 28.57 |
| 24b.注册与计划书-计划书 | 是 | 否 | 否 | 是 | 否 | 否 | 否 | 28.57 | |
| 24c.注册与计划书-注册/计划书的信息修改 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 0 | |
| 25.支持 | 是 | 否 | 否 | 否 | 是 | 是 | 否 | 42.86 | |
| 26.利益冲突 | 是 | 是 | 是 | 是 | 是 | 是 | 否 | 85.71 | |
| 27.数据、代码和其他材料的可用性 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 42.86 | |
| 报告完成率(%) | 83.78 | 45.95 | 64.86 | 67.57 | 64.86 | 67.57 | 10.81 | — | |
注:—表示无此数值
采用CERQual方法评价新生儿疼痛评估量表的信度、效度和反应度三种测量性能结局,共22条证据质量。结果显示,提取的证据中高级证据2条(9.09%),中级证据8条(36.36%),低级证据9条(40.91%),极低级证据3条(13.64%)。证据质量降级的主要原因是原始研究的方法学局限性、研究结果间的异质性、纳入研究与系统评价问题的间接性,以及数据不充分性(小样本量研究)。由于YARIPOOR等[17]研究未标引纳入研究并报告研究特征,故未能获取相关信息评价其测量性能的证据质量。其余纳入系统评价的证据质量评价结果见表6。

纳入系统评价的证据质量评价结果
Quality assessment of the evidence from the included systematic reviews
纳入系统评价的证据质量评价结果
Quality assessment of the evidence from the included systematic reviews
| 第一作者 | 纳入研究数(篇) | 研究结果 | 方法学局限性 | 相关性 | 结果一致性 | 数据充分性 | CERQual证据质量 |
|---|---|---|---|---|---|---|---|
| POPOWICZ[16] | 5 | COMFORTneo和N-PASS量表用于测量机械通气新生儿疼痛反应的信效度较好 | 无 | 无 | 严重a | 无 | 中 |
| MORGAN[14] | 4 | N-PASS评估新生儿急性疼痛的信度:N-PASS测量机械通气或非机械通气状态下所有胎龄(足月儿/早产儿)新生儿急性疼痛的可靠性较好:内部一致性信度范围为α=0.837~0.971;评估者间的信度为ICC=0.93~0.99 | 严重b | 无 | 无 | 无 | 中 |
| 3 | N-PASS评估新生儿急性疼痛的效度:通过与PIPP和FLACC比较,评估N-PASS用于测量机械通气或非机械通气状态下所有胎龄新生儿急性疼痛的结构效度:Spearman秩相关系数范围从中等正相关到高度正相关(ρ=0.62~0.75)。N-PASS与FLACC相关性高(r=0.980~0.996) | 严重b | 无 | 严重a | 无 | 低 | |
| 1 | N-PASS评估新生儿持续性疼痛的信度:N-PASS测量机械通气、非机械通气或术后状态下所有胎龄(足月儿/早产儿)新生儿持续性疼痛的可靠性较好:内部一致性信度范围为α=0.72~0.82,评估者间的信度为r=0.97 | 无 | 无 | 无 | 严重c | 中 | |
| 3 | N-PASS评估新生儿持续性疼痛的效度:通过与PIPP比较评估N-PASS测量机械通气或术后状态下新生儿持续性疼痛的结构效度:Spearman秩相关系数范围从中等到高度正相关(ρ=0.62~0.83) | 无 | 无 | 严重a | 无 | 中 | |
| GIORDANO[13] | 12 | NFCS、N-PASS、COMFORT和COMFORT-B可用于评估早产儿和足月儿的急性疼痛和持续性疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 无d | 严重e | 无 | 无 | 中 |
| 1 | PIPP可用于评估早产儿和足月儿的急性疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 无d | 无 | 无 | 无 | 高 | |
| 1 | COMFORTneo可用于评估早产儿和足月儿的持续性疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 无d | 无 | 无 | 无 | 高 | |
| 1 | EVENDOL可用于评估足月儿的急性疼痛和持续性疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 无d | 严重e | 无 | 无 | 中 | |
| 1 | EDIN可用于评估早产儿的持续性疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 无d | 严重e | 无 | 严重C | 中 | |
| 3 | MAPS、CHIPPS可用于评估早产儿和足月儿的术后疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 严重f | 严重e | 无 | 无 | 低 | |
| 2 | PAT可用于评估早产儿和足月儿的术后疼痛和持续性疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 严重f | 严重e | 无 | 无 | 低 | |
| 1 | BIIP可用于评估早产儿的急性疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 严重f | 严重e | 无 | 严重c | 极低 | |
| 1 | MBPS可用于评估足月儿的急性疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 严重f | 严重e | 无 | 严重c | 极低 | |
| 4 | ABC和COVERS可用于评估早产儿和足月儿的急性疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 严重f | 严重e | 无 | 无 | 低 | |
| 5 | APN/DAN、NIPS和NIAPAS可用于评估早产儿和足月儿的急性疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 严重g | 严重e | 无 | 无 | 低 | |
| 6 | FLACC、POPS、RIPS和NAPI可用于评估足月儿的术后疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 严重g | 严重e | 无 | 无 | 低 | |
| 1 | UWCH可用于评估足月儿的急性疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 严重g | 严重e | 无 | 严重c | 极低 | |
| 1 | PASPI可用于评估早产儿的急性疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 严重f | 无 | 无 | 严重c | 低 | |
| 2 | POCIS可用于评估足月儿的急性疼痛、持续性疼痛和术后疼痛,具有较好的内部一致性、评估者间信度、结构效度和可解释性 | 严重g | 严重e | 无 | 无 | 低 | |
| MEESTERS[18] | 9 | 仅10个新生儿疼痛评估量表进行了反应性研究,其中8个量表的疼痛评分在镇痛干预后显著降低,反应度较好:7个新生儿疼痛评估量表(N-PASS、COMFORT-B、EVENDOL、COMFORTneo、FLACC、EDIN、MAPS)干预前后评分差异较大,1个量表(LIDS)干预前后评分差异中等 | 严重b | 无 | 无 | 无 | 中 |
| MAASKANT[15] | 5 | COMFORT量表/COMFORT-without blood pressure用于评估新生儿操作性疼痛,COMFORTneo用于评估持续性疼痛时的内部一致性信度和评估者间信度均>0.70,信度较好;结构效度的相关系数为0.38~0.74 | 无 | 无 | 严重a | 严重C | 低 |
注:a表示研究间信效度结果差异较大;b表示纳入的多数研究的质量较差;c表示小样本量研究;d表示COSMIN偏倚风险评价均为低偏倚;e表示研究对象包括幼儿;f表示COSMIN偏倚风险评价均为中等偏倚;g表示COSMIN偏倚风险评价均为高偏倚;COMFORT=舒适量表;N-PASS=新生儿疼痛、躁动及镇静评分,ICC=组内相关系数,PIPP=早产儿疼痛量表,FLACC=儿童疼痛行为量表,NFCS=新生儿面部表情编码系统,EDIN=新生儿疼痛与不适量表,MAPS=多维疼痛评估量表,CHIPPS=小儿术后疼痛评分,PAT=疼痛评估工具,BIIP=儿疼痛行为指征量表,MBPS=改良行为疼痛量表,APN/DAN=新生儿急性疼痛行为评分量表,NIPS=新生儿疼痛量表,NIAPAS=新生儿急性疼痛评估量表,POPS=术后疼痛评分,RIPS=婴儿疼痛量表,NAPI=疼痛程度护理评估单,UWCH=威斯康星大学儿童医院疼痛量表,PASPI=早产儿疼痛评估量表,POCIS=幼儿疼痛观察量表,LIDS=利物浦婴儿不适评分,CERQual=定性系统评价证据分级工具
测量性能是选择最佳患者报告结局测量工具(patient reported mutcome measures,PROMs)首要考虑的因素之一[20]。一个经过信效度和反应度验证的评估量表可准确反映新生儿的疼痛状态,指导医护人员及时调整镇痛方案,达到最好的疼痛预防和控制效果。本研究采用系统评价再评价的方法对新生儿疼痛评估量表测量性能相关证据进行了严格评价与综合。本研究的纳入研究共评价了40余种新生儿疼痛评估量表的测量性能,证据综合结果显示,有25种量表用于新生儿疼痛评估时具有良好的内部一致性、评估者间信度、结构效度和可解释性。其中8种量表COSMIN偏倚风险评价为低风险、6种量表为中风险、5种量表为高风险,分别适用于早产儿和/或足月儿的急性疼痛、持续性疼痛、术后疼痛或机械通气性疼痛;尚无足够证据支持单个疼痛评估量表用于所有新生儿各种类型疼痛的评估。
然而,现有疼痛量表的多样性及适用范围的局限性极大降低了国内外新生儿疼痛评估率,制约了疼痛管理的开展[21]。目前,国内外新生儿病房至少需同时使用3~5种量表评估患儿疼痛,这对量表使用者和医院管理者均是极大的挑战[22]。另外,由于国内外学者尚未对新生儿疼痛的分类及定义进行清楚界定,这将直接影响医护人员正确判断新生儿经历的疼痛类型,进而影响恰当疼痛评估量表的选择。所以,新生儿疼痛评估量表相关推荐意见的形成需要考虑:在平衡测量学性能的前提下,优先选择同时适用于多种疼痛类型的普适量表,以免医护人员对量表的选择不当导致低估或高估患儿疼痛程度。本研究结果显示,目前可同时适用于2种及以上疼痛类型评估的量表包括:新生儿面部表情编码系统(Neonatal Facial Coding System,NFCS)、N-PASS、COMFORT、COMFORT-B,可同时用于早产儿和足月儿急性疼痛和持续性疼痛(包括机械通气性疼痛)的评估(中级质量证据);疼痛评估工具(Pain Assessment Tool,PAT)可用于早产儿和足月儿术后疼痛和持续性疼痛的评估(低级质量证据);幼儿疼痛观察量表(pain observation scale for young children,POCIS)可用于足月儿急性疼痛、持续性疼痛和术后疼痛的评估(低级质量证据)。
除测量性能和适用情景,临床实践者在选择恰当的评估工具时还需考虑PROMs的语言及临床实用性。由于以上量表均来源于国外,为保证量表本土化应用过程的语义对等性和内容可理解性,应采用标准流程对量表进行汉化[23]。然而,目前仅N-PASS[24]和COMFORT-B[25]有中文译本,且后者由于未进行回译,其汉化本测量概念的可靠性和有效性需进一步研究确认。N-PASS经何碧云等引入翻译形成中文修订版[24],并在急性操作性疼痛合并机械通气性疼痛[26,27],单纯机械通气性疼痛[25]和单纯术后疼痛[28]三种疼痛类型中进行了验证,结果均显示N-PASS具有较好的信效度和反应度。临床实用性方面,OLSSON等[19]的系统评价结果显示现有新生儿镇痛有效性的随机对照试验中有2.80%的研究采用了N-PASS量表。国内调查研究显示,全国新生儿病房中有4.31%采用N-PASS进行日常疼痛评估[21]。该量表亦得到了美国儿科学会(American Academy of Pediatrics,AAP)和中国医师协会新生儿科医师分会的推荐[2,29]。因此,鉴于N-PASS可能具备准确测量住院新生儿各种疼痛类型的潜力,建议国内研究者进一步扩大中文版N-PASS的验证范围,但需要基于规范的量表测量性能评价方法。同时,在更佳证据出现之前,推荐根据患儿年龄和疼痛类型等具体的临床情景选择经过验证的评估量表对患儿疼痛进行定期动态评估[30]。并需进一步补充设计合理、方法严谨的高质量研究来检验现有量表测量我国新生儿人群各种类型疼痛时的可靠性和稳定性,探索扩宽其应用范围的可行性。
WHO临床实践指南制定手册指出指南制定者需审慎评价系统评价质量,只有最新的高质量系统评价才能作为指南推荐意见的证据来源[7]。为选择最佳的PROMs,制作高质量的系统评价至关重要[31]。为此,由多位心理测量学相关领域的专家组成的COSMIN工作组提出了基于共识选择健康测量工具的标准COSMIN,用于指导PROMs系统评价的制作以帮助临床实践者和研究者选择最恰当的健康测量工具[32]。然而,本研究中纳入的新生儿疼痛评估量表的系统评价并未遵照COSMIN系统评价的标准步骤,而主要遵循常规系统评价制作和报告的方法,但由于未能有效处理信效度和反应度的结局,致使无法对量表推荐意见及强度进行判断。此外,纳入研究中同样出现了现有系统评价或Meta分析存在的共性问题[33]:(1)循证问题、纳排标准及检索策略的结构不清晰:未包含所测构念、目标人群、PROMs类型和测量属性四个关键要素[20],甚至简单套用干预性研究循证问题的PICO模式[16];(2)检索资源不全面,未包括COSMIN指南建议的两个基本数据库Medline和Embase[31],或未进行相关研究的补充检索;(3)文献质量评价标准不恰当,纳入系统评价中仅3篇研究[13,15,18]采用COSMIN偏倚风险清单对量表测量性能评价研究的方法学质量进行评价;(4)资料提取不充分,缺少量表测量性能的关键结局指标数据。(5)重要信息报告缺失,在摘要(规范报告率为28.57%),方法(规范报告率为48.98%),结果(规范报告率为44.44%)和其他信息(规范报告率为38.10%)四部分均存在重要信息缺失。以上研究及报告局限性将直接影响量表的证据质量和推荐等级。基于此,建议研究者参考COSMIN指南[31]对最佳测量性能评价研究的界定,严格设计、实施和报告量表测量性能评价研究;进一步采用基于共识选择健康测量工具的标准COSMIN[32]规范制作新生儿疼痛评估量表测量学性能的系统评价,并形成最终推荐意见,以指导临床实践者和研究者选择最佳的疼痛评估量表。
本研究存在一定的局限性:研究结果主要基于当前发表的系统评价,其稳定性可能受到新发表文献或文献更新的影响;由于纳入研究的临床异质性和方法学异质性未能进行Meta分析,进而未能定量比较各评估量表测量学性能的优劣;由于缺乏量表实用性的直接证据,研究将疼痛评估量表的使用频率作为实用性检验的依据可能无法反映量表实用性的真实情况。
虽然当前证据尚不足以支持单个疼痛评估量表用于新生儿所有类型疼痛的评估,但目前有25种量表在新生儿疼痛评估时具有良好的测量性能,分别适用于早产儿和/或足月儿的急性疼痛、持续性疼痛、术后疼痛或机械通气性疼痛。建议临床实践者及研究者根据胎龄和疼痛类型等具体的临床情景选择经过验证的量表进行患儿疼痛评估。同时,建议采用COSMIN规范制作新生儿疼痛评估量表测量性能的评价研究,以验证现有量表测量我国新生儿人群各种类型疼痛时的可靠性和稳定性,并进一步制作系统评价,形成最佳疼痛评估量表的推荐意见。
本文无利益冲突。
CRD42021292583





















