• 设为首页
  • 加入收藏
  • 本科生角度谈生物医学数据的建模心得

    发布时间:2020-06-02 来源:

    摘要:由于生物医学研究领域数据的复杂性,高效的统计建模尤为重要。笔者以肺癌全基因组关联研究为例,结合建立肺癌风险预测模型的切身体会,建议研究者需要重视数据质量控制体系、反复推敲建模方法和策略、培养熟练的软件操作技能。

    关键词:生物医学数据;统计建模;预测模型;心得体会

    随着生物信息技术的飞速发展,生物医学研究领域的数据呈几何级增长。近年来,生物医学大数据受到学者们的广泛关注。生物医学大数据具有典型的“4V”特征:体量巨大(volume)、种类繁多(variety)、实时更新(velocity)、价值隐藏(value)[1];“3H”特点:高维(highdimension)、高度计算复杂性(highcomplexity)、高度不确定性(highuncertainty)[2]。因此,综合利用生物学、医学、数学、流行病学、统计学、计算机学等多个学科的方法和手段,从中挖掘“有价值”的信息,为生物医学研究提供确凿有效的证据,显得尤为重要。笔者以肺癌全基因组关联研究(genome-wideas-sociationstudy,GWAS)为例,结合理论学习和案例实践的切身体会,浅谈利用GWAS数据建立肺癌风险预测模型的心得体会。

    一、严谨的数据质量控制体系不容忽视

    由于存在检测、观察、填#或录入错误,未经数据质控的原始数据极可能含有一些异常,甚至错误的观测值。在研究设计之初,便要尽可能考虑规避产生错误数据。另外,统计建模之前,仍然必须对原始数据再次进行质量控制。在GWAS中,要同时对行(样本)、列(位点)进行质量评价。例如,删除次等位基因频率低于5%、缺失率超过5%或哈代不平衡的位点;删除分型失败率超过5%、问卷性别与遗传性别不一致、存在血缘关系、属于离群值的样本[3]。另外,同时需要对流行病学问卷及临床数据进行核查。只有对数据进行清理后,才能用于后续关联分析、统计建模。

    二、合理的建模方法和策略值得精雕细琢

    对于GWAS高维数据,合理的方法和策略不仅要考虑统计学性能(一类错误、检验效能、预测精度),还需要考虑分析效率(计算速度)。因此,研究者应该要深入思考,为研究项目量身定制一套“合理”的方法和策略。然而,现有的统计学模型和方法往往都有相应的应用条件。实际数据由于其变量结构的复杂性,不一定完全满足所有的应用条件。并且,简单的算法速度快,但统计性能相对低;复杂算法需要牺牲计算速度来提升统计性能。因此,研究者可能需要制定多个备选方案。结合建模步骤,笔者将从以下几个方面,浅谈个人心得体会。1.初始模型:一般拟合logistic回归模型评价肺癌风险。模型中往往需要纳入一些协变量,例如:年龄、性别、吸烟、人群分层等。一般参考以下纳入原则:(a)在模型中有统计学意义(P≤0.05);(b)即便在模型中无统计学意义,但绝大多数同类研究显示其是公认的影响因素。某些协变量可能是位点的混杂因素,例如人群分层。如果GWAS中忽视调整混杂因素的影响,则有可能导致误报噪音位点的一类错误膨胀,或识别致病位点的检验效能降低[4]。此外,研究者还需要考察协变量进入模型的形式。一般而言,无序分类变量以哑变量形式进入模型。当某些类别样本量特别小,需要进行类别合并。有序分类变量、连续性变量则需要考虑是否以非线性的形式进入模型。一种最简单的方式是,将连续性变量转化为有序分类变量,并以哑变量形式进入模型。如果哑变量各组的系数呈现线性递增的趋势,则提示原始变量与结局变量间存在线性关系。否则,可采用哑变量、样条函数等方法处理非线性关系。2.因素筛选:研究者需要从GWAS数据50万位点中筛选出肺癌相关位点,加入初始模型,以提高模型的预测精度。常规做法是,在初始模型中逐个纳入位点,对位点的主效应进行假设检验。因检验次数达50万次,研究者必须要考虑多重比较所致的一类错误膨胀。常见一类错误控制方法有Bonferroni法和FDR法。前者较为严格,后者较为宽松。GWAS识别位点一般采用“宁缺毋滥”的原则,倾向于采用严格的校正方法。除此之外,研究者还要在多个独立的人群中验证初筛的位点。如果位点在多个人群中都显示与结局存在统计学关联,则认为该位点是潜在的影响因素。除基因位点主效应外,研究者还需要关注基因-基因、基因-环境交互作用。复杂疾病往由环境、基因相互影响,共同导致。因此,有必要在模型中对交互作用进行评估。例如,基因-环境交互作用可以显著提高肺癌风险预测模型的预测精度[5]。有效的降维策略能够提高因素筛选的效率。笔者曾采用“信息熵初筛→对数线性模型再筛→多因素lo-gistic回归模型确认”的降维策略进行全基因组基因-基因交互作用分析[6]。信息熵方法计算速度快,且其统计量总是不小于对数线性模型,不会出现漏检的情况。前两步可以检验次数将1011次缩减至105次。检验次数降低6个数量级。最后一步,利用调整协变量的logistic回归模型对关联结果加以确认,防止出现假阳性。当然,研究者也可以根据项目“量体裁衣”,选择其他降维方法,例如:随机森林(randomforest)、多因子降维(multifactordimensionalityreduction,MDR)等。3.预测模型:经过遗传因素筛选步骤后,研究者可通逐步回归、LASSO等方法,建立含有与协变量、遗传位点的主效应项、交互作用项的风险预测模型。根据受试者工作特征曲线(receiveroperatingcharacteristiccurve,ROC)确定一个风险阈值,使得风险预测的灵敏度、特异度同时达到最优。若样本的预测概率≥阈值,则预测该样本为肺癌。4.模型评价:从统计学的角度,可采用ROC曲线下面积(areaunderROC,AUC)来评价模型的优劣[7]。此外,还可以采用交叉验证的方式评价模型,即:训练集拟合的预测模型对测试集的样本进行风险估计,并计算AUC。然而,AUC并非衡量模型的唯一标准。如果预测模型形式简单,应用便捷,即便AUC稍有逊色,也是优秀的模型之一。所以,笔者认为需要综合考虑,权衡利弊。

    三、熟练的软件操作和编程技能令人事半功倍

    扎实的理论基础固然重要,熟练的软件操作亦不可或缺。笔者建议研究者不要拘泥于某一软件,本着“方便原则”利用多个软件进行数据处理、统计建模。根据笔者的经验,一般不太可能一次性完成建模工作,往往需要不断调整分析策略和分析方法。因此,笔者建议研究者适当撰#一些项目相关的通用程序。如果需要重新建模,只需要修改程序参数,微调代码就可以建立新的预测模型。因此,这就要求研究者“功在平时”以培养编程能力。基于肺癌GWAS风险预测模型的建模体会,笔者建议研究者需要重视数据质量控制体系、推敲建模方法和策略、培养熟练软件操作技能。

    参考文献:

    [1]王波,吕筠,李立明.生物医学大数据:现状与展望[J].中华流行病学杂志,2014,35(6):617-620.

    [2]宁康,陈挺.生物医学大数据的现状与展望[J].科学通报,2015,(z1):534-546.

    [3]陈峰,柏建岭,赵杨,荀鹏程.全基因组关联研究中的统计分析方法[J].中华流行病学杂志,2011,32(4):400-404.

    [4]ZhaoY,ChenF,ZhaiR,LinX,WangZ,SuL,ChristianiDC.Correctionforpopulationstratificationinrandomforestanalysis[J].InternationalJournalofEpidemiology,2012,41(6):1798-1806.

    [5]ZhangR,ChuM,ZhaoY,WuC,GuoH,ShiY,DaiJ,WeiY,JinG,MaH,DongJ,YiH,BaiJ,GongJ,SunC,ZhuM,WuT,HuZ,LinD,ShenH,ChenF.Agenome-widegene-environmentinteractionanalysisfortobaccosmokeandlungcancersusceptibility[J].Carcinogenesis,2014,35(7):1528-1535.

    [6]ChuM,ZhangR,ZhaoY,WuC,GuoH,ZhouB,LuJ,ShiY,DaiJ,JinG,MaH,DongJ,WeiY,WangC,GongJ,SunC,ZhuM,QiuY,WuT,HuZ,LinD,ShenH,ChenF.Agenome-widegene-geneinteractionanalysisidentifiesanepistaticgenepairforlungcancersusceptibilityinHanChinese[J].Carcinogenesis,2014,35(3):572-577.

    [7]陈峰.医用多元统计分析方法[M].北京:中国统计出版社,2000.

    作者:陈欣 郁可沁 鲁涵 魏永越 赵杨 于浩 陈峰 张汝阳 单位:南京医科大学公共卫生学院

    123医学期刊网 是一家期刊推荐、学术论文指导专业网站。从2008年至今,始终处于论文发展前沿,致力于论文推荐发表和指导工作,旨在为广大朋友提供便捷的论文发表渠道,帮助广大朋友顺利晋级,从而使学术成果及时得到推广,促使中国学术论文得到广泛交流。经过多年运作,目前我中心积聚了大量的外部人才和资源,可以提供从省级刊物到部分核心期刊的论文推荐发表服务。北大中文核心期 [...查看详细]

    热门期刊
    健康之家杂志 健康之家杂志

    刊名:健康之家 英文名:Care Health 主管单位:南昌日报社 主办单位:家庭医生报社 出版地:北京市 主编:杨洋 IS...[查看详细]

    健康管理杂志 健康管理杂志

    健康管理杂志基础信息: 《健康管理》杂志是由国家新闻出版总署正式批准出版的国家综合性健康管理科学普及期刊...[查看详细]

    武警医学杂志(非官网) 武警医学杂志(非官

    武警医学杂志基础信息: 《武警医学》为武警总部卫生部主办的公开发行的综合性医药卫生月刊,是中国科技论文统...[查看详细]

    航空军医杂志 航空军医杂志

    航空军医杂志基础信息: 本刊由空军后勤部卫生部主管、空军航空医学研究所主办。读者对象为全军航空卫生人员,...[查看详细]

    中华腔镜泌尿外科杂志·电 中华腔镜泌尿外科杂

    中华腔镜泌尿外科杂志电子版基础信息: 本刊是由卫生部主管,中华医学会主办,中山大学附属第三医院承办,中华...[查看详细]

    中华普通外科学文献·电子 中华普通外科学文献

    中华普通外科学文献电子版杂志基础信息: 本刊是一本由中华人民共和国卫生部主管、中华医学会主办、中山大学附...[查看详细]

    • 电话:010-82656213
    • QQ:在线咨询
    • 邮箱:在线咨询
    • 微信号:在线咨询