
定量分析可以提高18F-脱氧葡萄糖(FDG)PET显像的准确性和一致性,尤其是在肿瘤疗效评估时。标准摄取值(SUV)目前已成为18F-FDG PET肿瘤定量检测的主要量化指标,尽管存在一些不足。越来越多的文献表明,治疗前后SUV的差异可用来预测肿瘤的早期响应。然而,SUV的测量结果受多种变异因素的影响,为了更好地使用SUV评价疗效,了解该技术的重复性是必要的。重复性测量研究涉及在相隔几天内于同一扫描仪上重复使用同一种显像方案,对同一患者重复同样的扫描,并提供有关该技术重复性的基本信息。目前已有多个重复性测量研究用于评价SUV的可重复性,虽然对使用不同方法和统计指标的多个研究进行比较是复杂的。该文回顾了目前能获得的数据,重点分析了不同的重复性度量指标、相对单位、log转换和重复性的非对称局限性等问题。当严格按照研究方案测量SUV时,肿瘤SUV的个体内CV约为10%。在评价疗效的研究中,SUV减少超过25%和增长超过33%不太可能是由测量变异导致的。对没有非常严格遵从研究方案的单位,上述界限范围的设定要宽一些。总的来说,SUV是一个高度可重复的显像生物标志,非常适用于监测患者个体对肿瘤的治疗响应。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
定量分析可提高肿瘤18F-脱氧葡萄糖(fluorodeoxyglucose, FDG)PET显像的准确性和一致性,特别是在评估肿瘤疗效时[1,2]。在治疗后的早期,治疗效果未完全呈现之前,肿瘤发生部分响应或仅发生小的变化时,视觉评估存在一定的困难[3]。不同读片者的主观解释会导致不一致性,这会潜在削弱研究的价值。这些问题不仅存在于临床实践中,同时也存在于临床试验中,后者对强有力的定量数据有更大的期望。越来越多证据表明,辅助性的定量分析可以提高视觉分析在临床实践和临床试验等应用中的评估效果[4],这种分析方法尤其适用于PET显像。
标准摄取值(standardized uptake value, SUV)刚出现即备受关注[5],随着方法学的改进其逐渐成为肿瘤18F-FDG PET显像的主要定量指标。虽然SUV可能缺乏科学严谨性和建立在更复杂动力学建模方法[6]基础上的概念吸引力,但其在临床方案的实用性和兼容性方面具有很大优势。有大量的证据支持SUV在肿瘤疗效无创性评价中的应用价值[7,8,9,10,11,12]。SUV在基线和随访研究中的变化有助于确定肿瘤是否对治疗有所响应,随访的PET显像可以在肿瘤治疗结束后早期进行,也可在解剖学成像发现肿瘤大小变化前进行疗效评估。例如,PET的早期肿瘤疗效评估能力可使无治疗应答者重新接受更合适的治疗;此外,在临床试验中,早期肿瘤疗效评估可以帮助在药物研发中,在药物进入大规模、昂贵的多中心试验前及时地发现无效的治疗。
虽然简单性和易用性是SUV的优点,但其测量容易受到许多变异因素的影响[13],这些因素包括生物学差异、患者准备、扫描仪的稳定性、图像定量准确性和包括肿瘤感兴趣体积(volume of interest, VOI)技术在内的图像分析等。改进的标准化方法已经在某种程度上减少了这些因素的影响,但许多变异因素仍存在。对SUV测量重复性的认识尤其与疗效评估研究密切相关,因其为理解基线和随访中的肿瘤SUV提供了基础。什么样的SUV变化应被理解为肿瘤的真正变化呢?什么样的SUV变化可以简单地被认为仅是由于测量变异所导致的呢?当SUV变化超过预期的可变异范围时,可认为这种变化与稳定的病情不符合,应是治疗导致的,因此SUV的差异程度有助于指导或支持读片者的诊断。在临床试验中,重复性还可用于确定验证特定疗效需要的志愿者数量[14]。因此,重复性可以直接影响试验的成本,相应地影响开发新疗法的成本。所以,了解SUV测量重复性对临床实践和研究都有重要的意义。
关于肿瘤18F-FDG SUV的重复性的文章数量不多,主要原因是很难获取到相关数据。体模研究[15]和仿真研究[16]是获取变异的重要方法,但更直接的、具有代表性的数据则需要在重复性测量条件下采集患者的测量数据。在同一扫描仪上使用同一显像方案,在几天内为同一患者做重复性扫描,可为技术的重复性提供基本的信息。假设肿瘤在这短暂的相隔时间里没有进展,理论上2次测得的SUV应完全相同。然而,在实际操作中,由于测量变异的存在,2次SUV测得值是不一样的。通过分析大样本患者的数据,可估算出预期的重复性范围。在这种情况下,有时可使用"再现性"这个术语,但是"再现性"更适用于在不同条件下进行的研究[17],如使用不同的扫描系统。虽然再现性本身令人感兴趣,但本综述重点关注目前可获得的重复性数据。
目前,有一些已发表的文献研究了18F-FDG PET或PET/CT显像中肿瘤SUV测量的重复性。然而,采用的方法学不同,如使用不同的采集方案或图像分析方法,使得对这些文献进行比较并不简单。尤其是这些文献还采用了不同的统计学分析方法,即使实验方法基本类似,也通常使用了不同的度量或命名来表示重复性。因此,这些文献中的结果往往没有直接的可比性,并有些让人混淆。本文试图回顾现有的文献,调和不同文献之间的差异,明确肿瘤SUV的预期重复性。
笔者对科学文献进行回顾,以确保这些文献与18F-FDG PET显像和肿瘤SUV重复性研究有关。于在线数据库PubMed(美国国家医学图书馆、国立卫生研究院)和谷歌学术(谷歌公司)输入FDG、PET、SUV、重复性、再现性等术语进行文献搜索。标准是每篇入选文献应符合以下全部条件:(1)在重复性测量研究设计中测量SUV的重复性;(2)是人而不是动物的研究;(3)定量的是肿瘤而不是正常组织或其他病变;(4)所用的是18F-FDG而不是其他药物。鉴于此,纳入的重复性研究应该是在同一扫描系统使用相同的采集和分析方案、对同一患者进行2次显像的研究。需要明确的是,2次显像研究必须单独注射18F-FDG,以便研究与生物效应、患者准备、示踪剂注射相关的变异。2次成功显像的时间间隔在本研究中没有严格限定,但通常为1~7 d。重要的是,笔者明确设定在这2次显像研究的间隔内,患者不能接受任何治疗或其他重要的干预措施。动物研究、体模研究和计算机仿真研究被明确排除在本研究之外。排除在外的研究还包括1次18F-FDG给药后进行的重复显像研究[18]、不同读片者对同一图像进行的重复性研究[19],以及不涉及SUV量化的重复性研究。
表1列出的是本综述纳入的文献。发表于1995年至2016年间的16篇论文[20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35]符合纳入标准。所有报告均为原创性研究,虽然有一些原始数据存在重叠,如Nakamoto等[22]使用了此前Minn等[20]发表的数据进行回顾性分析;Krak等[23]用于分析的SUV测量值最初是由Hoekstra等[36]提供的动态数据;van Velden等[31]分析了Velasquez等[25]发表的部分数据;以及de Langen等[28]将5个先前发表的研究数据进行荟萃分析。有几篇文章尽管是与本研究密切相关的,但不符合本综述的严格要求。例如,Hoekstra等[36]对非小细胞肺癌患者进行的重复测量研究中评估的是示踪剂动力学分析的重复性,而不是SUV的重复性。Kamibayashi等[37]使用不同扫描系统评价肿瘤SUV测量的可再现性,即一组数据从单纯的PET获得,而另一组数据从PET/CT获得。Bengtsson等[38]虽然研究的是重复显像,但2次显像的时间间隔太长(中位数21 d),且患者在这个间隔时间内接受了治疗,尽管这些治疗被证实是无效的。以上文献虽然没有被纳入分析,但笔者将会在后面对部分文献进行讨论。

有关肿瘤标准摄取值(SUV)重复性的文献
有关肿瘤标准摄取值(SUV)重复性的文献
| 文献 | 年份 | 肿瘤类型(例数) | 注释 |
|---|---|---|---|
| Minn[20] | 1995 | 肺癌(n=10) | PET;局部动态显像 |
| Weber[21] | 1999 | 各种恶性肿瘤(n=16) | PET;局部动态显像 |
| Nakamoto[22] | 2002 | 肺癌(n=10) | 回顾性分析Minn等[20]的数据 |
| Krak[23] | 2005 | 非小细胞肺癌(n=11) | PET;局部动态显像 |
| Nahmias[24] | 2008 | 各种恶性肿瘤(n=26) | PET/CT;全身显像 |
| Velasquez[25] | 2009 | 晚期胃肠道恶性肿瘤(n=61) | PET和PET/CT;多中心研究 |
| Hatt[26] | 2010 | 食管癌(n=14) | PET/CT;全身显像 |
| Heijmen[27] | 2012 | 结直肠癌肝转移(n=18) | PET/CT;全身显像 |
| de Langen[28] | 2012 | 各种恶性肿瘤(最大亚组n=102) | Meta分析 |
| Hoang[29] | 2013 | 头颈鳞状细胞癌(n=17) | PET/CT;局部显像 |
| Kumar[30] | 2013 | 各种恶性肿瘤,主要为结肠癌(n=21) | PET/CT;全身显像 |
| van Velden[31] | 2014 | 结直肠癌(n=29) | PET/CT;全身显像 |
| Rockall[32] | 2014 | 卵巢癌(n=21) | PET/CT;全身显像;2个中心 |
| Weber[33] | 2015 | 非小细胞肺癌(n=74) | PET/CT;全身显像;多中心研究 |
| Rasmussen[34] | 2015 | 头颈鳞状细胞癌(n=24) | PET/CT和PET/MR;局部显像 |
| Kramer[35] | 2016 | 非小细胞肺癌(n=9) | PET/CT;全身显像 |
重复性测量研究中纳入的肿瘤类型如表1所示。肺癌一直都是重点研究对象,但针对其他类型的肿瘤也进行了广泛的研究,包括胃肠道恶性肿瘤、食管癌、结直肠癌、头颈癌和卵巢癌等。每项研究都涉及1个严谨的重复性测量方案,即2次重复性显像中同一患者必须使用相同的方案和相同的扫描仪系统进行显像。其中4篇文献[25,31,32,33]是多中心研究,这些研究均确保个体患者的每次显像都使用同一扫描仪系统;其余的文献都是单中心研究。大部分研究的局限性均为纳入的病例数较少(中位数=18)。然而,当这些文献被视为一个整体时,能获得300例以上患者的重复性测量数据。
以上文献的时间跨度超过20年,因此使用了不同代的PET仪器,其中还包括不同厂家的PET和PET/CT扫描仪。数据采集方法反映了这一时期的技术发展状况,包括锗酸铋、硅酸镥晶体探测器、二维和三维采集方式,以及有或无飞行时间(time-of-flight, TOF)能力的扫描系统等。各种重建算法也被应用,虽然在一个既定的研究中重建算法一致,但不能假设不同研究中的重建算法一致。例如,Minn等[20]用滤波反投影技术获得12 mm半宽高的估算空间分辨率;而Krak等[23]用有序子集最大期望值迭代算法获得7 mm半宽高的估算空间分辨率。有的研究是在单床位进行动态扫描获得PET数据的头颈部局部研究(1或2个床位),有的是从颅底到大腿中部范围的全身研究(每床位2~5 min),有的在采集完动态数据后[20,21,23],将静脉注射示踪剂后60 min进行10~15 min扫描获得的数据用于SUV计算。对于静态显像研究,静脉注射18F-FDG与PET开始扫描的时间间隔通常为60 min,而Nahmias和Wahl[24]更倾向于在90 min时进行扫描;Kramer等[35]在60 min和90 min均进行了重复性研究。大多数研究都坚持维护摄取时间的一致性。例如,Rockall等[32]的研究中,对于同一患者,第1次扫描和第2次扫描之间的摄取时间差平均为1.9 min。如此仔细地控制摄取时间对于优化重复性很重要,但不是典型的临床状态。Kumar等[30]的研究中,2次显像的摄取时间差为(33±20) min,可能更好地反映在典型临床环境下所预期的重复性[39]。
由于采用不同的方法勾画肿瘤区域,文献分析变得复杂。一般来说,有3种不同勾画VOI的方法,其相应的SUV分别为最大SUV(maximum SUV, SUVmax)[22,23,25,26,27,29,30,31,32,33,34,35],平均SUV(mean SUV, SUVmean)[21,23,24,25,26,27,29,30,31,34,35]和峰值SUV(peak of SUV, SUVpeak)[20,22,23,25,27,32,33,34,35]。通常,SUVmax为肿瘤内摄取最高的单一体素的SUV。鉴于SUVmax的定义很明确,SUVmax在不同的研究之间最具可比性,尽管不同研究中体素大小不尽相同(如头颈部的体素大小为2.3 mm×2.3 mm×3.3 mm[29],而全身的体素大小为5.5 mm×5.5 mm×3.3 mm[30])。SUVmean被定义为在一个大的VOI内所有体素的SUV平均值。通常用等高线阈值来确定VOI,这个阈值通常基于一个固定的SUVmax百分值(如50% SUVmax),有时也包括背景校正。其他肿瘤分割方法也被使用,如局部自适应的模糊贝叶斯(Bayesian)方法[26,27]、手动勾画法[23,29]和圆形区域手动调整至肿瘤大小[24]。SUVpeak被定义为放置在肿瘤内的1 ml球形区域中所有体素的SUV平均值,以此获得最大平均值[1]。一些可重复性研究的论文发表在"SUVpeak"术语出现之前,虽然其SUV也是按SUVpeak测量方法测得,但采用的是其他名称。在一些情况下,峰值区域的定义与上述标准稍有不同,通常是以肿瘤摄取最高的体素为中心画一个小的(例如12 mm)圆形或正方形区域作为VOI。为了进行研究,当文献中使用固定约1 ml大小的VOI时,尽管原始文献中没有使用SUVpeak这个术语,笔者仍将其看作SUVpeak。
不同的研究中每例患者纳入分析的肿瘤病灶数目不同,部分研究含有多病灶分析。最常见的是分析每例患者的单一肿瘤病灶[20,21,22,24,25,29,31,33,34];另一种是分析1例患者体内多个肿瘤病灶,分析1例患者个体所有肿瘤总的或取所有病灶的SUV平均值[21,23,26,27,30,35],然后评价SUV平均值的可重复性[25,32,33,35]。关于最小的肿瘤大小或最小SUV的纳入标准,在各个文献中并没有明确规定。当有些文献报道这方面的纳入标准时,通用的设置是在3个正交方向上肿瘤最小直径为2 cm[20]或最大直径至少为3 cm[35]。Rockall等[32]和Weber等[33]分别规定2.5和4.0为纳入的最小SUVmax。采用患者的体质量或预测公式估算的瘦体质量对SUV进行标准化[20,22,23,25,35]。人体含有不同的组成成分,瘦体质量的应用使得SUV在不同患者之间更具可比性。因此,个体间变异会减少(如正常器官的SUV),但瘦体质量标准化不会改变个体内变异,至少在此次的重复性测量研究中不会。
文献中采用的统计学分析方法略有不同。各种统计指标(表2)之间的关系不能马上辨别出来,并造成了一些混乱。以往的文献倾向于用平均绝对百分比差异(mean absolute percentage difference, MAPD)来代表重复性,而最近的文献往往使用衍生于Bland-Altman分析的重复性系数(repeatability coefficient, RC)[40]。这2种方法均可以反映重复性,但RC提供了有用的重复性限值,当SUV变化超过这个限值范围时,SUV很有可能反映单个肿瘤的真实变化。

本文中各种重复性指标
本文中各种重复性指标
| 参数 | 符号 | 定义 | 注释 |
|---|---|---|---|
| 差值 | d | SUV2-SUV1 | 以原始数据为单位的重测试差异 |
| 相对差值 | D | 100×d/[0.5×(SUV1+SUV2)] | 重测试差异表示为平均值的百分比 |
| 差值标准差 | DSD | 所有相对差值的标准差 | 如果用原始单位分析必需用差值的标准差 |
| 个体内变异系数 | wCV | DSD/![]() | 反映单次测量的可重复性 |
| 重复性系数 | RC | 1.96× ×wCV | 反映D正态分布下95%置信区间的可重复性差异 |
| 平均绝对百分比差异 | MAPD | 所有∣D∣的平均值 | ∣D∣反映D的绝对值 |
重复性测量研究中,SUV1和SUV2代表同一肿瘤2次显像研究测得的SUV,两者的差用d表示,计算公式如下:


参数d的单位与原始的SUV测量值的单位(如g/ml)相同,但也可以转化为相对单位(D)来表示:


需要注意的是,D代表的差值是用2次测量值的平均百分比。MAPD由研究中多个患者的平均| D |(D的绝对值)决定,计算公式如下:


其中Di指的是多个患者的相对差(i=1…… n )。
有另一种替代统计学方法设计重复性测量差异标准差(standard deviation, SD)的应用。其数据可以很方便地使用Bland-Altman散点图(图1)表示,该图中2次重复测量值的差异以两者的平均值(
)函数进行绘制,单位为原始单位(d)或者相对单位(D)。随后的分析是基于满足以下2个条件:差值(d或|D|)的大小与SUV平均值(
)不存在比例关系,并且2次差值数据(d或|D|)呈正态分布。满足第1个条件代表测量值的变异性与SUV的大小无关,因此,重复性评估结果对具有不同SUV的肿瘤是有效的。若不满足此条件,如|d|与
成比例关系,则重复性评估很有可能在低SUV的肿瘤中过高,而在高SUV的肿瘤中过低。对于呈正态分布的数据,笔者预期95%的差异落在约2个SD范围内,因此满足第2个条件则代表评估的是95%的重复性限值。


在确定数据满足这些条件之后,可以确定不同数据的SD值。在大多数情况下,使用的是相对数据,且D值的SD值(SD of D, DSD)可以被视为CV。需要注意的是,D值受到SUV1和SUV2的噪音影响,因此DSD代表的不是单一测量值的变异性。单一测量值的个体内变异系数(within-subject CV, wCV)由DSD/
计算得出,且常作为重复性的主要度量。RC与wCV和DSD直接相关,它由1.96×DSD计算得出。假设D呈正态分布,RC则代表了在重复性测量研究中2次SUV测量值差异的95%的重复性限值。换而言之,即使一个非常稳定的肿瘤,其基线和随访时测得的SUV也应该不同,而两者的差异在95% RC范围内。相反,如果SUV的变化超过RC,那么可以合理地推断这个SUV的变化是肿瘤内的一些真实变化所导致的(而不是测量误差)。在所有文献中,包括本综述,均没有说明MAPD和DSD的关系。然而,在一定条件下,MAPD与DSD存在一定的关系。Bland-Altman方法及相关的95%重复性限值,要求差值数据D的分布呈正态分布。假定最初分析的数据是以MAPD定义的,为了比较不同的文献,对这类数据做相同的假设是合理的。如果进一步假设差值的平均值为零,这对重复性测量数据来说是合理的,则MAPD与DSD的关系可表示为[41]:


这种关系的适用性可以利用Nakamoto等[22]的文章数据进行说明。从SUVmax表格资料计算而得的DSD为13.44%,根据公式5,这相当于MAPD为10.72%,这结果与根据公式4计算出的已发表的数值11.3%相当一致。表2中列出的这种相关关系和其他关系允许对来源不同文献的数据进行直接比较。
这类重复性测量研究中出现一个问题,即分析这些数据是用原始测量单位(d用SUV单位表示)还是用相对单位(D以百分比表示)。计算MAPD时必须使用相对单位,但RC既可用SUV单位也可用百分比来表达。根据数据的特性进行合适的选择,这是一个重要的考虑因素。图1中展示的例子[27]说明差值数据对SUV大小具有明显的依赖性。通常,使用原始单位表示的差值绝对数(| d |)与平均值(
)成比例关系,因此,使用SUV单位表示重复性的限值不适用于所有范围的SUV。相对单位似乎是用于表达SUV可重复性的一个更好的方式,因为相对差值(| D |)的大小通常不依赖于
。大多数但不是全部的文献强调了处理SUV重复性结果时,采用无量纲相对单位来表示[24]。
当将SUV用于评估疗效时,用相对单位描述重复性非常适合,在此种情况下,通常选用相对于SUV基础测量值的百分比变化值。除了容易理解,相对单位的应用还有助于比较使用不同SUV公式的文献。使用瘦体质量进行标准化的SUV数据和使用总体质量进行标准化的SUV数据有不同的范围并且不能直接比较。但使用相对差值D来表示重复性时,则不用进行SUV标准化也可比较不同文献的数据。
de Langent等[28]研究了SUV变异性和肿瘤摄取之间的相关关系,通过结合分析多个研究数据,他们发现使用相对单位(| D |)表示的重复性测量差异实际上并不是如大多数研究假设的那样与摄取水平(
)无关。即使用百分比表示重复性,重复性也会随着摄取的增加而增高,因此假设固定的重复性限值适用于所有范围的SUV不正确。还有一个现实问题是低摄取肿瘤组的重复性差于广泛摄取组。考虑到这些低摄取肿瘤,de Langen等[28]推荐了相对和绝对的SUV最小变化值用于肿瘤疗效评价研究。虽然尚未解决这些问题,但相对单位似乎比原始单位更适用,尽管两者都不完全充分。描述重复性的最完整的方法,包括最适合的单位,仍然是一个令人持续感兴趣的话题。
对数变换的应用与相对单位的应用密切相关。事实上,仅部分文献[25,32,33]在研究中应用了对数变换,对数变换后的数据看起来似乎较难进行比较,但实际上对数变换后的数据与相对差异数据进行比较很容易。对数变换方法可以用于计算绝对差(|d|)和平均值(
)之间存在的比例关系。与其他对数转换相比,更推荐自然对数转换,因为差值用自然对数转换表示时解释起来非常直观:ln(SUV2)- ln(SUV1)约等于相对差(SUV2- SUV1)/(
)。例如,当SUV1和SUV2分别假定是9和10时,(SUV2-SUV1)/
=0.105,ln(SUV2)-ln(SUV1)=0.105。这种近似方法的适用性已被PET重复性数据所证实[42] ,如图1B所示。可以看出,用自然对数为量级表示的差值数据不需要进行反向变换即可直接理解为相对差异。以对数表示差值数据的SD(20.5%,图1B)基本上等于使用相对单位表示的DSD(20.3,图1B)。这种关系大大简化了对对数转换数据的理解,并允许对使用了相对差数据(D)和自然对数转换的文献进行直接比较。
关于RC的理解,不同文献间存在着一定的差异。如果假设重复性测量的差值数据呈正态分布,均值为0,且所有测量值的变异性是恒定的,此时重复性95%限值可以表示为[-RC, +RC]。在重复性测量的背景下,SUV差异性有可能在2个方向上一致,重复性极限值呈零对称。这种理解在SUV的重复性文献中经常被采用,并且符合Bland-Altman的总体框架[40]。然而,2篇引人注目的PET文章[25,33]使用了非对称的重复性限值,其下限和上限的RC不同。Weber等[33]认为SUVmax降低超过28%才能提示肿瘤对治疗有响应,而SUVmax增加39%以上才提示肿瘤进展。这些非对称限值不是由于重复性测量数据的样本量不足所致,也不是由于第1次扫描和第2次扫描之间存在系统性偏差所致。引入非对称性的重复性限值是为了计算相对于基线值的SUV变化[33]。
在重复性测量研究中,根据公式2,相对差数据通常用对应于2次测量值的平均值来表达。然而,这种用法与经典的临床用法不同。临床中基线(SUV1)和随访(SUV2)的差异通常使用单一的基线测量值表示,如公式6:


如果基线和随访的SUV分别为18和25,那ΔSUV将大约为+39%,但是,如果上述2个SUV被反过来(基线SUV为25,随访SUV为18),那ΔSUV将是-28%。使用单一基线的SUV作为参考值将导致数据的倾斜,从而需要采用非对称的RC。图2试图说明这种情况,从CV为12%的正态分布数据中提取2个随机样本,这个过程模拟了一个理想化的重复性测量设置,并被选用于匹配Weber等[33]的SUVmax数据。上述采样过程重复1 000次,图2A展示的是SUV差异除以平均值(公式2)。有了这个特定的样本集,测得的DSD为16.7%,相对应的RC为33%,如图2A所示其为对称性极限值。在图2B中,相同的SUV差值数据除以单一的基线SUV(公式6),其明显地表现为非对称分布。可以注意到没有任何数据点低于-40%,大部分均高于+40%。非对称分布的RC可以按照Velasquez等[25]和Weber等[33]的方法来确定。




其中LRC是RC下限值,URC是RC上限值,SDdln指的是以对数数量级表示的差异性的SD。通过将以公式2中(相对于2个测量值的平均值)的单位表示的对称的RC限值转换为以公式6中(相对于单基线测量值)单位表示的对应值,即可得到类似的非对称限值。如以下公式所示:


其中LRC、URC、RC(表2罗列了对称性限值的定义)都是以百分比表示。图2B显示LRC和URC限值为[-28%,+39%],而且可以看出,50个数据点超出这个范围,说明1 000个数据点有95%在这些非对称的限值范围内。因此,非对称RC适合用于反映相对于基线测量值的变化,这也是目前应用于疗效评价研究中SUV方法。
本部分比较了不同研究的结果,需要注意的是,这种比较不可避免地涉及到在稍微不同条件下获取的数据。例如,随后的分析既包含了分析单个患者多个肿瘤病灶的重复性研究数据,也包括单个患者单个肿瘤病灶的重复性研究数据。为了比较这些结果,不同的统计指标被转化为统一的参数wCV。对于应用了Bland-Altman方法的文献,即使在原文中并未明确报道,利用表2中总结的相关关系也可以很容易地推导出wCV。报道了MAPD的文献也应用了公式5。Nakamoto等[22]报道当SUVmax的MAPD为11.30%时,利用公式5,可以推断出相应的DSD为14.16%,而wCV为10.01%。表3展示了如何通过使用上述方法将每篇文献所获取的SUVmax结果转换成经推导而得的wCV。对SUVmean和SUVpeak也可进行类似的分析(表4和表5)。图3展示了所有相关文献中3个SUV指标相对应的wCV推导值。从所有3种SUV算法推导而得的wCV值用曲线显示于图3中。在所有相关文献中SUVmax、SUVmean和SUVpeak的平均wCV分别为10.96%(SD,3.32)、9.98%(SD,3.06)和9.60%(SD,3.40)。这些均值间的差异无统计学意义(P>0.05)。整合所有相关文献中3个SUV指标,其总平均wCV为10.27%(SD,3.20)。



最大标准摄取值(SUVmax)重复性评估
最大标准摄取值(SUVmax)重复性评估
| 文献 | 重复性参数 | 参数值 | 原始文章中的位置 | 推断的wCV(%) |
|---|---|---|---|---|
| Nakamoto[22] | MADP | 11.3 | 表4 | 10.01 |
| Krak[23] | MADP | 13 | 表2 | 11.52 |
| Velasquez[25] | wCV | 11.9 | 表5 | 11.90 |
| Hatt[26] | DSD | 16.7 | 第1371页 | 11.81 |
| Heijmen[27] | RC | 39 | 表1 | 14.08 |
| Hoang[29] | MADP | 12.6 | 表2 | 11.17 |
| Kumar[30] | RC | 49 | 第177页 | 17.69 |
| van Velden[31] | MADP | 12.1 | 第17页 | 10.72 |
| Rockall[32] | RC | 17.3 | 表2 | 6.25 |
| Weber[33] | DSD | 17 | 表2 | 12.02 |
| Rasmussen[34] | wCV | 4.8 | 表5 | 4.80 |
| Kramer[35] | RC | 26.6 | 表3 | 9.60 |
| 平均值 | 10.96(SD,3.32) |
注:DSD为相对单位(D)值的标准差(SD);MADP为平均绝对百分比差异;RC为重复性系数;wCV为个体内变异系数

平均标准摄取值(SUVmean)重复性评估
平均标准摄取值(SUVmean)重复性评估
| 文献 | 重复性参数 | 参数值 | 原始文章中的位置 | 推断的wCV(%) |
|---|---|---|---|---|
| Weber[21] | DSD | 9.1 | 表2 | 6.43 |
| Krak[23] | MAPD | 12 | 表2 | 10.63 |
| Velasquez[25] | wCV | 11.8 | 表5 | 11.80 |
| Hatt[26] | DSD | 15.6 | 表2 | 11.03 |
| Heijmen[27] | RC | 31.2 | 表1 | 11.26 |
| Hoang[29] | MAPD | 11.4 | 表2 | 10.10 |
| Kumar[30] | RC | 44 | 第177页 | 15.87 |
| van Velden[31] | MAPD | 11.8 | 第17页 | 10.46 |
| Rasmussen[34] | wCV | 5.7 | 表5 | 5.70 |
| Kramer[35] | RC | 18.1 | 表3 | 6.53 |
| 平均值 | 9.98(SD,3.06) |
本文回顾了有关肿瘤18F-FDG PET显像的SUV重复性文献,确定了方法的不同之处和共同之处,特别是关于统计分析方面。通过将不同的统计度量转换为一个共同的指标,可以直接比较多个研究的结果。在所有涉及拥有范围广泛SUV的肿瘤文献中,不管VOI是什么类型,测算得到的平均wCV大约为10%。虽然各种文献之间有一些不同之处,但文献之间的一致性令人吃惊。只有少数文献报道wCV超过12%。Kumar等[30]的研究中观察到的重复性相对较差,可能是由于摄取期间存在的高变异性、肿瘤低平均摄取以及非标准的相对差定义所造成的。与其他文献不同,其相对差数据不是相对于平均值计算的(公式2),而是相对于一个基线值计算的(公式6)。Heijmen等[27]研究的wCV也超过了12%,在其研究中,有部分患者在PET数据采集前1~3个月内接受了化疗,这些特定的患者人群可能起了一定的作用。当将研究对象分为2组,一组为在PET显像前1~3个月内接受化疗的患者,另一组为在PET显像前3个月或以上接受化疗的患者,SUVmax的RC从47%(wCV,16.96%)下降到33.3%(wCV,12.01%)。总地来说,应强调患者准备标准化[43]的重要性,包括保持摄取时间的一致性。在重复性范围的另一端,Rasmussen等[34]报道了非常低的变异(SUVmax的wCV为4.8%),可能是这些患者的肿瘤摄取非一般地高(平均SUVmax为15.0)。de Langen等[28]已经表明,SUV的重复性随着肿瘤摄取的增加而增高,可能是因为这些图像的高摄取区域的信噪比较高。本综述中的大多数文献没有直接强调这个问题,其结果反映了基于广大范围的肿瘤摄取值的平均重复性。通常每个研究中可用的数据较少,因此忽略这些数据在原始文献数据中的潜在趋势是可以理解的,但可能需要纳入更多的分析来更好地描述基于所有范围的SUV的重复性。de Langen等[28]提出结合绝对和相对差值阈值来描述重复性的限值。这个方法有灵活性,允许绝对和相对差值的截断值进行多重组合,其中之一与已发表的肿瘤疗效评价指南一致[1]。还有人提出相对差值阈值随着基线SUV的变化而变化[38]。
有趣的是,随着扫描仪技术的发展,并没有出现重复性明显提高的趋势。这可能会令人惊讶,因为在过去的20年中,PET技术已出现了巨大改进。Rasmussen等[34]对使用和不使用高级算法(结合了点扩展函数建模的TOF)的PET重建进行比较,发现更先进的算法并没有改善重复性。他们还比较了PET/CT和PET/MR的重复性(此为首次报道),也发现两者之间差异无统计学意义。SUV的变异性在很大程度上受生物学因素的影响,而不管扫描仪系统如何,这些因素都会保持不变。此外,与近期的全身显像研究相比,一些涉及动态数据采集的早期高效研究严格控制摄取时间,且采集的数据量更大。
在一般情况下,尽管肿瘤勾画方法不同,但各种类型的SUV(SUVmax、SUVmean、SUVpeak)的重复性是相似的。SUVmean比SUVmax具有更大的平均体积,但需要将具有潜在异质性的肿瘤一致地勾画出来。SUVpeak可能在SUVmax和SUVmean之间提供了一个有利的折中,但不同文献在这个方面存在不一致的观点。一些研究认为与SUVmax相比,SUVpeak没有显著地改善重复性[25,33,34];而有些研究却认为确实有所改善。后者使用自动化软件用于识别峰值区,而不是以摄取最高区为中心设定一个固定大小的VOI,这可能有助于改进重复性。另一个关于处理单个患者中多发肿瘤的问题同样没有定论。Weber等[33]和Velasquez等[25]发现无论SUV来源于单个肿瘤还是多个肿瘤的平均值,重复性是相似的。相反,Kramer等[35]发现将多个肿瘤获得的SUV平均化,重复性大大提高,尽管该研究只局限于小样本、单中心研究。
本综述包含的所有研究的肿瘤SUV平均wCV约为10%(10.27%),相当于对称性RC为±28%。这些限值与以前PET肿瘤疗效分类[PET实体瘤疗效评价标准(PET respeonse criteria in solid tumors, PERCIST)[1]]推荐的±30%标准基本吻合。在该推荐标准发表的时候,PET文献中还没有引入非对称重复性限值这一概念,即使到现在该概念还没有完全建立起来。然而,其似乎适用于针对相对于基线测量值的肿瘤疗效评估,也应被视为未来PERCIST的迭代。在这种假设下,wCV为10.27%时,其相对应的RC低限值和高限值分别为-25%和+33%。当然,本综述包含的很多研究的重复性差于平均值,但大多数的wCV在12%以下,这相当于RC限值为[-28%,+39%][33]。
虽然这些重复性数据为解释肿瘤SUV的微小变化提供了一个有用的背景环境,但在预测临床结果时还需要考虑得更多。例如,肿瘤SUV的降低仅略超过重复性的限值,这意味着治疗效果较小可能不足以治愈这种疾病。区分患者治疗后预后好坏的最佳SUV变化值可能远远大于SUV测量重复性限值。Meignan等[44]发现弥漫性大B细胞淋巴瘤化疗2个周期后SUVmax降低66%是确定疗效好坏的最佳截断值。因此,尽管SUV的重复性限值有助于区分SUV变化是肿瘤真实的变化还是测量变异导致,但是要更好地预测治疗是否成功则需要更高的阈值才行。
本综述证实,SUV是肿瘤PET中用以量化18F-FDG摄取高低的高度可重复性定量指标。当严格遵照方案进行采集时,肿瘤SUV测得的wCV大约为10%。在疗效评价的研究中,肿瘤SUV降低超过25%或增高超过33%不太可能是由于测量变异所致。对于方案遵从性较差的单位,可能需要更大的界值,但总体上,SUV是一个高度可重复性的影像生物标志物,非常适合用于监测患者个体对肿瘤治疗的响应。
非常感谢与北美放射学会定量影像生物标记协会(FDG PET生物标记物委员会)成员之间的非常有帮助的讨论


×wCV




















