
构建适用于评估和校准人类生物学年龄的表观遗传学时钟模型。
于2019年7月1日至11月30日从广西壮族自治区长寿队列选取186名研究对象,于2020年10月1日至12月31日从解放军总医院第七医学中心体检人群选取124名研究对象。采用自制问卷收集人口学特征、家族疾病史等资料,通过体格检查测量对象的心率和血压,采集空腹外周静脉血,分别检测空腹血糖(FBG)、总胆固醇(TC)、甘油三酯(TG)、高密度脂蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C)和端粒长度,采用靶向甲基化位点测序检测EDARADD cg09809672、IPO8 cg19722847、NHLRC1 cg22736354、P2RX6 cg05442902和SCGN cg06493994基因位点的甲基化水平。排除DNA甲基化和端粒长度检测质量控制不合格的54名对象,最终对256名对象资料进行分析。分析不同年龄段甲基化水平变化情况,采用多重线性回归法构建生物学年龄预测模型,采用Kendal秩相关分析评价年龄差值[即(公历年龄-生物学年龄)]与端粒长度的相关性,比较各年龄组不同年龄差值对象的健康相关指标。
对象年龄的M(Q1,Q3)为67(51,91)岁,其中女性166名(64.84%)。随年龄增加,基因位点甲基化水平分别呈下降(EDARADD cg09809672、IPO8 cg19722847和P2RX6 cg05442902)和上升趋势(NHLRC1 cg22736354和SCGN cg06493994)(均P<0.05)。所构建的生物学年龄预测模型为:Y=-53.121×EDARADD cg09809672-137.564×IPO8 cg19722847+141.040×NHLRC1 cg22736354-67.893×P2RX6 cg05442902+149.547×SCGN cg06493994+4.592×sex+64.185(R2=0.86,P<0.001),式中Y为生物学年龄,方程各项依次为5个基因位点甲基化水平、性别(男性=1,女性=2)和截距。年龄差值与端粒长度Kendall秩相关系数为0.731(P<0.001)。与年龄差值<0的对象相比,年龄差值≥0的对象未成年期收缩压较高[分别为(88.50±8.89)和(109.83±9.48)mmHg,1 mmHg=0.133 kPa],青壮年期TC较低[分别为(5.48±0.23)和(3.98±0.54)mmol/L],TG较低[分别为(3.51±0.32)和(3.41±0.20)mmol/L],中年期FBG较低[分别为(6.17±0.67)和(5.37±0.79)mmol/L],高龄老年期舒张压较高[分别为(76.99±6.78)和(83.97±9.36)mmHg](均P<0.05)。
所构建的表观遗传学时钟模型可用于评估和校准人类生物学年龄。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
衰老是一个受到遗传和环境因素影响的复杂过程,生物学年龄并不简单等同于公历年龄[1, 2]。端粒缩短、表观遗传学改变、营养失衡、线粒体损伤、细胞衰老和干细胞衰竭等均可作为衰老的细胞和分子标志[1,3, 4]。表观遗传学在衰老过程中发挥了重要作用,其中甲基化修饰DNA多发生于胞嘧啶-磷酸-鸟嘌呤(CpG)位点,参与调控基因表达和染色质稳定性,其多态性是个体表型差异的重要原因。部分基因位点甲基化水平与年龄相关,可据此构建“表观遗传学时钟”,并对公历年龄进行评估[5]。有文献报道表观遗传学时钟与中老年人认知和生理状态相关[6, 7, 8, 9],其所需检测甲基化位点较多,高昂的成本使其应用受限。本研究采用5个甲基化位点构建适用于评估人类生物学年龄的表观遗传学时钟,评估体检对象的健康和衰老状况。
1.对象:源自广西壮族自治区长寿队列和解放军总医院第七医学中心体检人群,其中广西壮族自治区长寿队列是由广西壮族自治区所有90岁及以上老年人(以居民身份证登记的出生日期为准)构成的自然人群队列。于2019年7月1日至11月30日从广西壮族自治区长寿队列选取186名对象,于2020年10月1日至12月31日从解放军总医院第七医学中心体检人群选取124名对象[10, 11]。纳入标准包括:(1)年龄范围为0~110岁;(2)无不良健康结局(包括心脑血管疾病、肿瘤、脑卒中、痴呆、糖尿病、高血压和呼吸系统等重大疾病);(3)当地居住1年及以上。共纳入310名对象,排除DNA甲基化和端粒长度检测质量控制不合格54名,最终对256名对象资料进行分析。本研究通过了北京医院伦理委员会批准(批号:2019BJYYEC-118-02),所有对象均签署了知情同意书。
2.方法:(1)问卷调查:采用自制问卷对广西壮族自治区长寿队列对象进行面对面调查,收集对象人口学特征(性别和年龄)、家族疾病史(包括慢性支气管炎、高血压、高血脂、糖尿病、心脑血管疾病、肿瘤、痴呆和关节病变)等资料;(2)体格检查:对广西壮族自治区长寿队列对象测量身高、体重、心率和血压等指标;(3)医疗档案资料收集:由医院信息系统导出解放军总医院第七医学中心体检对象的人口学和体格检查资料;(4)血液生化检测:对所有对象均以抗凝管和促凝管各采集5 ml空腹外周静脉血,采用ADVIA2400型全自动生化分析仪(德国西门子公司)检测空腹血糖(FBG)、高密度脂蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C)、总胆固醇(TC)和甘油三酯(TG)等指标;(5)甲基化位点测定:对Levine等[12](513个CpG位点)、Horvath[13](353个CpG位点)和Hannum等[14](70个CpG位点)报道的位点进行重叠交集分析,获得的5个CpG位点,采用Genomic Tip-500试剂盒(北京天根生化科技有限公司)提取全血基因组DNA,采用EpiTect快速亚硫酸氢盐转化试剂盒(德国Qiagen公司)对DNA样本进行重亚硫酸盐处理,采用热启动Taq酶试剂盒(日本Takara公司)对5个CpG位点片段进行聚合酶链式扩增并构建文库,所需引物以Methylation Primer软件设计,由上海生工有限公司合成,引物序列见表1。由上海天昊生物科技有限公司采用MiSeq Benchtop测序仪(美国Illumina公司)对扩增产物进行双端测序并测定各CpG位点甲基化水平;(6)外周血白细胞端粒长度测定:采用DL50端粒相对长度检测试剂盒(上海翼和生物有限公司)以端粒重复拷贝数与单拷贝基因比率法计算端粒长度[15, 16];(7)年龄差值:年龄差值=公历年龄-生物学年龄。

DNA甲基化位点引物序列
DNA甲基化位点引物序列
| 靶向基因 | 正义链引物 | 反义链引物 | 扩增片段长度(bp) |
|---|---|---|---|
| EDARADD | 5′-TTATTTAGAAGGTTTGATTTTGGTTAGA-3′ | 5′-ACAACCTCTAACTAAAAACTCAACTCTAAAAA-3′ | 232 |
| IPO8 | 5′-TTAGTGAAAGYGAATGAATGAATGAA-3′ | 5′-AAATCTACTTACAACTACTTCCAAATTAAACA-3′ | 200 |
| NHLRC1 | 5′-TGTAAGGTGTGTTTTGAGAAGTTTG-3′ | 5′-CTAAACCCAAAAACTCTATAAAATACAACA-3′ | 211 |
| P2RX6 | 5′-GTTGTGAGAGGAGGGTTTGAG-3′ | 5′-AAACCAAATCACCCTCTCACTC-3′ | 219 |
| SCGN | 5′-YGAAAGAAGTAGGAGAGTAAGTTAAGAA-3′ | 5′-ATTCTACTCACCATCCRCATCAAAAC-3′ | 194 |
3.统计学分析:采用问卷星在线录入广西壮族自治区长寿队列人群对象资料,由医院信息系统直接导出解放军总医院第七医学中心体检对象资料。采用SPSS 16.0软件进行统计学描述和分析。采用趋势性检验分析不同年龄段甲基化水平变化情况。年龄不符合正态分布,以M(Q1,Q3)表示。心率、收缩压、舒张压、FBG、TC、TG、HDL-C和LDL-C均符合正态分布,以表示,不同年龄差值的组间比较采用独立样本t检验。分类变量以例(%)表示,不同年龄差值的组间比较采用χ²检验。以公历年龄为因变量,基因位点DNA甲基化水平和性别为自变量,采用多重线性回归法构建生物学年龄预测模型。采用Kendall秩相关分析评价端粒长度和年龄差值的相关性。双侧检验,检验水准α=0.05。
1.基本情况:256名对象年龄为67(51,91)岁,年龄范围为0~110岁,其中女性166名(64.84%),EDARADD cg09809672、IPO8 cg19722847、NHLRC1 cg22736354、P2RX6 cg05442902和SCGN cg06493994甲基化水平分别为0.246±0.026、0.087±0.026、0.124±0.044、0.192±0.019和0.113±0.045。趋势性检验显示:随着年龄增加,EDARADD cg09809672、IPO8 cg19722847和P2RX6 cg05442902基因位点甲基化水平呈下降趋势(F值分别为382.04、383.69和38.79,均P<0.05),NHLRC1 cg22736354和SCGN cg06493994基因位点甲基化水平呈升高趋势(F值分别为354.16和335.33,均P<0.05)(表2)。

不同年龄对象表观遗传学时钟基因甲基化水平和端粒长度()
不同年龄对象表观遗传学时钟基因甲基化水平和端粒长度()
| 年龄组(岁) | 人数 | EDARADD cg09809672 | IPO8 cg19722847 | NHLRC1 cg22736354 | P2RX6 cg05442902 | SCGN cg06493994 | 端粒长度 |
|---|---|---|---|---|---|---|---|
| 0~10 | 16 | 0.236±0.088 | 0.139±0.022 | 0.054±0.007 | 0.230±0.033 | 0.045±0.009 | 0.803±0.447 |
| 11~20 | 6 | 0.249±0.034 | 0.123±0.020 | 0.078±0.007 | 0.182±0.032 | 0.068±0.011 | 1.473±0.866 |
| 21~30 | 19 | 0.261±0.063 | 0.103±0.013 | 0.079±0.014 | 0.210±0.021 | 0.071±0.011 | 1.410±0.986 |
| 31~40 | 25 | 0.260±0.054 | 0.092±0.018 | 0.091±0.017 | 0.201±0.022 | 0.080±0.016 | 1.502±0.949 |
| 41~50 | 29 | 0.293±0.060 | 0.093±0.016 | 0.117±0.019 | 0.204±0.020 | 0.106±0.020 | 1.547±0.974 |
| 51~60 | 47 | 0.253±0.054 | 0.082±0.015 | 0.121±0.022 | 0.194±0.019 | 0.108±0.017 | 1.681±0.978 |
| 61~70 | 23 | 0.223±0.064 | 0.077±0.014 | 0.138±0.030 | 0.190±0.020 | 0.123±0.024 | 1.489±0.989 |
| 71~80 | 11 | 0.226±0.059 | 0.066±0.015 | 0.154±0.032 | 0.174±0.026 | 0.137±0.027 | 1.223±0.910 |
| 81~90 | 34 | 0.230±0.050 | 0.061±0.015 | 0.169±0.024 | 0.170±0.033 | 0.159±0.027 | 1.523±0.911 |
| 91~100 | 33 | 0.274±0.062 | 0.057±0.015 | 0.168±0.032 | 0.172±0.036 | 0.166±0.040 | 1.216±0.817 |
| 101~110 | 13 | 0.203±0.050 | 0.062±0.013 | 0.191±0.048 | 0.181±0.040 | 0.184±0.036 | 2.055±0.966 |
| 合计 | 256 | 0.246±0.026 | 0.087±0.026 | 0.124±0.044 | 0.192±0.019 | 0.113±0.045 | 1.436±0.981 |
2.生物学年龄预测模型和准确性验证:采用多重线性回归法构建生物学年龄预测模型如下:Y=-53.121×EDARADD cg09809672-137.564×IPO8 cg19722847+141.040×NHLRC1 cg22736354-67.893×P2RX6 cg05442902+149.547×SCGN cg06493994+4.592×sex+64.185[F=469.202,P<0.001,(R2=0.86)]。式中:Y为生物学年龄(岁),EDARADD cg09809672、IPO8 cg19722847、NHLRC1 cg22736354、P2RX6 cg05442902、和SCGN cg06493994为相应基因位点DNA甲基化水平,sex为性别(男性=1,女性=2)。90岁以下和90岁及以上对象的预测标准误差(RMSE)范围分别为5.02~7.63和8.66~12.62岁。端粒长度和年龄差值的Kendall秩相关系数为0.731(P<0.001)。
3.各年龄组不同年龄差值对象健康相关指标比较:与年龄差值<0的对象相比,年龄差值≥0的对象未成年期收缩压较高,青壮年期TC和TG较低,中年期空腹血糖较低,高龄老年期舒张压较高(均P<0.05)(表3)。

各年龄组不同年龄差值对象健康相关指标比较()
各年龄组不同年龄差值对象健康相关指标比较()
| 项目 | 人数 | 心率(次/min) | 收缩压(mmHg) | 舒张压(mmHg) | 空腹血糖(mmol/L) | TC(mmol/L) | TG(mmol/L) | HDL-C(mmol/L) | LDL-C(mmol/L) |
|---|---|---|---|---|---|---|---|---|---|
| 未成年(0~17岁) | |||||||||
年龄差值≥0 | 10 | 85.00±9.22 | 109.83±9.48 | 65.38±9.28 | 4.50±0.49 | 3.52±0.59 | 0.87±0.57 | 1.09±0.19 | 1.84±0.58 |
年龄差值<0 | 8 | 103.50±11.63 | 88.50±8.89 | 57.33±8.55 | 4.15±0.87 | 3.97±0.72 | 0.90±0.43 | 1.62±0.61 | 1.99±0.48 |
t值 | 2.14 | -3.22 | -1.73 | -1.10 | 1.10 | 0.11 | 2.22 | 0.42 | |
P值 | 0.062 | 0.006 | 0.107 | 0.286 | 0.298 | 0.914 | 0.054 | 0.682 | |
| 青壮年(18~40岁) | |||||||||
年龄差值≥0 | 33 | 76.48±7.64 | 118.82±8.17 | 75.24±6.50 | 4.91±0.68 | 3.98±0.54 | 3.41±0.20 | 1.14±0.26 | 2.25±0.75 |
年龄差值<0 | 7 | 79.29±5.62 | 121.29±6.18 | 79.43±5.22 | 5.10±0.57 | 5.48±0.23 | 3.51±0.32 | 1.10±0.28 | 2.78±0.21 |
t值 | 0.57 | 0.75 | 1.40 | 0.70 | 2.84 | 4.43 | -0.21 | 0.96 | |
P值 | 0.572 | 0.457 | 0.170 | 0.487 | 0.009 | <0.001 | 0.832 | 0.345 | |
| 中年(41~60岁) | |||||||||
年龄差值≥0 | 100 | 74.59±10.44 | 132.17±7.56 | 80.69±8.34 | 5.37±0.79 | 4.96±0.90 | 1.43±0.69 | 1.45±0.43 | 3.28±0.94 |
年龄差值<0 | 29 | 75.00±9.88 | 128.03±6.65 | 77.24±8.46 | 6.17±0.67 | 4.99±0.75 | 1.27±0.64 | 1.29±0.31 | 3.10±0.72 |
t值 | 0.16 | -1.04 | -1.47 | 2.14 | 0.13 | 0.66 | -1.66 | -0.88 | |
P值 | 0.871 | 0.301 | 0.145 | 0.035 | 0.898 | 0.510 | 0.099 | 0.379 | |
| 老年(61~90岁) | |||||||||
年龄差值≥0 | 48 | 77.40±10.62 | 142.43±9.56 | 83.18±9.57 | 6.12±1.25 | 5.26±1.02 | 1.53±0.11 | 1.45±0.41 | 3.43±0.61 |
年龄差值<0 | 55 | 75.16±10.86 | 142.36±10.50 | 79.35±10.78 | 5.97±0.97 | 5.11±1.18 | 1.88±0.56 | 1.35±0.39 | 3.16±0.94 |
t值 | -1.00 | -0.01 | -1.64 | -0.65 | -0.65 | 0.84 | -1.18 | -1.18 | |
P值 | 0.319 | 0.989 | 0.104 | 0.520 | 0.519 | 0.404 | 0.242 | 0.241 | |
| 高龄老年(91~110岁) | |||||||||
年龄差值≥0 | 31 | 82.48±9.84 | 151.45±10.37 | 83.97±9.36 | 6.57±0.48 | 5.24±1.37 | 1.36±0.67 | 1.32±0.44 | 3.26±0.88 |
年龄差值<0 | 107 | 80.19±11.98 | 145.91±9.88 | 76.99±6.78 | 7.38±0.82 | 5.06±0.91 | 1.30±0.66 | 1.44±0.37 | 3.19±0.79 |
t值 | -0.85 | -0.92 | -2.50 | 0.91 | -0.69 | -0.44 | 1.49 | -0.31 | |
P值 | 0.394 | 0.359 | 0.014 | 0.366 | 0.493 | 0.658 | 0.137 | 0.761 |
注:1 mmHg=0.133 kPa,年龄差值=公历年龄-生物学年龄。TC为总胆固醇;TG为甘油三酯;HDL-C为高密度脂蛋白胆固醇;LDL-C为低密度脂蛋白胆固醇
在人类和其他哺乳动物中,基于年龄相关DNA甲基化水平的表观遗传学时钟可预测时序或生物学年龄[12,14]。现有的表观遗传学时钟所需甲基化位点过多且未考虑性别差异,最具代表性的Levine等[12]、Horvath[13]和Hannum等[14]分别利用不同的DNA甲基化位点数据来评估与传统年龄相关的“表观遗传学时钟”。Hannum 等[14]70个CpG位点时钟的预测模型R2为0.86,RMSE为7.22年[14],Horvath[13] 353个CpG位点时钟的预测模型决定系数为0.98,预测标准误差为2.7 年[13],Levine等[12]513个CpG位点时钟的预测模型R2为 0.94,RMSE为8.88年[12]。以上时钟模型因检测DNA甲基化位点多而导致成本较高,且未考虑性别和人种差异。本研究将性别纳入参考因素,增加不同性别人群的普适性,基于筛选的5个基因位点DNA甲基化水平和性别构建生物学年龄的预测模型(R2为0.86)。模型对90岁以下对象的RMSE范围为5.02~7.63,但是对90岁及以上对象的RMSE较大,可能是环境和生活方式等因素对高龄老人影响更大[17]。
端粒是保护染色体末端十分必要的组成元件,具有DNA损伤修复活性,有效防止DNA降解,维持染色体稳定[18, 19, 20, 21]。由于末端复制问题[22, 23, 24],细胞分裂伴随着端粒缩短,可将端粒长度视为细胞衰老的分子钟[1,25, 26, 27],是生物学年龄判定的重要依据[6,28]。本研究显示:端粒长度和年龄差值相关,与以上研究结果一致。
血压、血糖和血脂水平均为健康衰老的重要因素。人群流行病学的研究表明:舒张压≥90 或≤70 mmHg均与全因死亡风险增加有关[29]。本研究显示:长寿组年龄差值≥0者舒张压较高且在正常值范围内。动物模型显示:长寿动物中年期常伴有较高的胰岛素敏感性和较低的血糖水平[30],本研究显示:中年组年龄差值≥0者FBG较低,与长寿动物模型的健康特征一致。较低的TC和TG有利于长寿[31],本研究显示:青壮年组年龄差值≥0者TC和TG均较低,符合生物学年龄预测模型对年龄和健康评估的预期。
本研究的局限性在于:样本量较小且部分对象的血压、血糖和血脂资料缺失,结论的真实性和外推受到一定影响,后续研究将扩大不同年龄段的样本量以验证所建立模型的真实性、可靠性和适用性。
广西壮族自治区江滨医院(蓝如束、利荣乔、李重霖、李宁虎、梁大业、梁柳宽、陈映萍、何丽艳、邓新晶、姚映朱、陈姗姗、黄晓、韦巧婵、吴钰婷等)、防城港市东兴市(唐国靖、包春就、李容新等40名工作人员)和南宁市上林地区(蓝文荣、韦卜铭、覃海丽等336名工作人员)对广西壮族自治区长寿队列对象进行面对面调查,收集对象人口学特征(性别和年龄)、家族疾病史(包括慢性支气管炎、高血压、高血脂、糖尿病、心脑血管疾病、肿瘤、痴呆和关节病变)等资料和血样标本
所有作者均声明不存在利益冲突





















