【#文档大全网# 导语】以下是®文档大全网的小编为您整理的《蛋白质组学质谱平台肽段可检测性性预测研究》,欢迎阅读!
本科毕业设计(论文)开题报告
课题名称:
学员姓名: 培养类型:
蛋白质组学质谱平台肽段可检测性预测研究 王震 工程技术类
学号: 专业:
201003009013
自动化 2010级 教授
所属学院: 机电工程与自动化学院 年级: 指导教员: 所属单位:
谢红卫
职称:
机电工程与自动化学院自动控制系
国防科学技术大学训练部制
一、课题名称、来源、选题依据
(一) 课题名称:
蛋白质组学质谱平台肽段可检测性预测研究 (二) 课题来源:
国家自然科学基金面上项目“肽段检测效率预测及其在定量蛋白质组学中的应用” (三) 选题依据:
自20世纪90年代人类基因组计划(human genome project, HGP)的正式实施以来,人们对基因组序列信息的计算分析方法研究成为生命科学最集中的研究内容之一;;而随着 HGP于2003 年被宣布完成之后,对蛋白质组的全面研究将逐渐成为二十一世纪前期的另一项重要任务。
蛋白质组学(proteomics)是研究细胞或组织内所有表达的蛋白质的一门新兴学科,是继基因组学之后生命科学领域的又一重要分支。其中,质谱技术是蛋白质组学研究的支撑技术之一,可以实现大规模、高通量的蛋白质定性和定量分析。在生物质谱被大规模地应用于蛋白质组分析之初,很多研究小组就已经注意到了肽段鉴定的随机性和实验的可重复性问题。在典型的鸟枪法蛋白质鉴定策略中,肽段鉴定是蛋白质鉴定的基础。但是,由于不同肽段之间的长度,分子量,疏水性等差异,
0
会导致肽段间酶切效率和电离效率以及碎裂图谱质量的不同。这些物理化学属性的差异最终会导致不同肽段在同一质谱平台的可检测性不同。
本课题主要通过考察肽段的各种物理化学性质与肽段可检测性之间的联系,并利用机器学习方法来建立特定质谱平台上肽段可检测性的预测模型。
通过本毕业设计,锻炼了编程能力和数理统计能力,培养了良好的英语阅读能力和数理逻辑思维,为以后研究生阶段打下良好的软、硬件基础。
二、本课题国内外研究现状及发展趋势
(一) 国外研究现状:
1975年,双向凝胶电泳发明,测定一个有机体的基因组所表达的全部蛋白质的设想被提出,1994年Williams正式提出了这个问题;1995年7月,Wilkins首次提出“蛋白质组”的名词,并发表在Electrophoresis杂志上;1996年,澳大利亚建立世界上第一个蛋白质组研究中心;1997年,第一次国际蛋白质组学大会召开;2001年2月,Nature和Science杂志在公布人类基因组序列草图的同时,分别发表了“And now for the proteome”和“Proteomics in enomeland”的述评与展望,对蛋白质组学研究发出了时代性呼唤;2001年,国际人类蛋白质组组织(Human Proteome Organization HUPO)在美国成立,,提出了人类蛋白质组计划。
本课题在蛋白质组学中处于基础核心地位,国外已经有许多研究小组在进行肽段可检测性预测的研究。在LCQ质谱平台上,Liu等通过对酵母样品进行10次重复分析发现,实验重复6次以上,肽段鉴定结果才能达到特定实验条件下的饱和,从此,重复实验成为了研究者的一项共识;Yates实验室利用合成肽段分析了肽段二级图谱信号的变化性,并指出这种变化性会对肽段的鉴定产生很大影响; Mallick等人建立 的典型酶切肽段预测模型,Fusarp等建立的高响应肽段预测 模型,这些模型已经被开发成了工具,可以免费使用,为肽段可检测性预测提供了很大方便。 (二) 国内研究现状:
1997年,国际自然科学基金委员会设立重大项目“蛋白质组学技术体系的建立”;2000年,上
1
海生化所发表第一篇关于蛋白质组学论文,并建立大型蛋白质组数据库;2001—2003年间,国家“973”项目“人类重大疾病的蛋白质组学研究”、国家科技攻关项目“人类重大疾病与重要生理功能相关的蛋白质组学研究”、国家“863”项目“蛋白质组研究技术平台的建立及其在癌症研究中的应用”和“蛋白质组技术平台的建立及其在肿瘤泛素通路研究中的应用”、以及北京市重大科技项目“肝脏及重大肝病的蛋白质组学研究”等项目相继启动。
国内本课题的研究仍在跟随国际研究技术的脚步,主要是对蛋白质的定性研究。 (三) 发展趋势:
目前,尽管不少实验室对蛋白质组学质谱平台中肽段可检测性问题进行了深入地研究,并应用到蛋白质组学研究的一些方面,但是现有的研究还存在很多不足,具体表现在以下三个方面: (1)不同的实验条件和样品复杂程度都会对肽段的可检测性 产生影响,因而构建一个适用性很好的预测模型仍需要大量 的标准数据,即使是针对特定的质谱平台也需要进行不同条件下的重复实验来获取足够的数据。一种可能的思路是将肽段的可检测性进行分解,归结为不同实验环节的可检测性,然后将所有因素综合起来考虑即可得到总体可检测性。这样,根据质谱平台的不同,只要选择合适的组合就可以实现比较好的预测模型,而实验环节是有限数目的,可以穷举建模。
(2)目前不能有效地从实验数据中提取肽段可检测性度量参 数,预测模型仅仅将肽段分为可检测和不可检测两类处理,预测目标仅有0(表示未被检测到)和1(检测到该肽段)二值,与实际中肽段可检测性是有一个浮点数的效率值的情况不符 ,虽然神经网络预测方法可以实现中间结果的“插值”,得到类似于可检测概率的预测结果,但是结果的精度会受到天然的限制。因此有必要从实验设计等方面进行努力,实现能够从实验数据中计算肽段出现的概率值,重复实验是可行策略。
(3)蛋白质组研究中分析的样品是复杂的蛋白质混合物,其 中蛋白质的丰度存在几个数量级的变化范围(可以达到6个数量级),这也必然会造成不同肽段之间存在较大的丰度差异。显然,
2
由于信号抑制效应等因素的存在,高丰度肽段相比低 丰度肽段被检测到的机率更高,肽段丰度必然对其可检测性造成影响,可检测性和肽段丰度存在复杂的非线性关系,而目前对肽段可检测性的研究均没有考虑肽段丰度差异的影 响。考虑实际样品中肽段丰度差异对肽段可检测性的影响将 是未来努力的方向。
三、课题在理论与实践上的意义
蛋白质组学运用“一网打尽”的“组学”研究模式,与以往研究单个蛋白质的“钓鱼”模式有所不同。它采用大规模、高通量、高灵敏度的技术手段,通过全局性研究基因组所表达的所有蛋白质在不同时间与空间的表达谱和功能谱,全景式地揭示生命活动的本质。
在基础研究上,蛋白质组学研究将带来一系列有关生命科学特别是人体科学重大问题的突破。由于几乎所有重要的生命现象,如发育、代谢、信号传导、体内能量转换、神经活动等都关联到众多蛋白质复合体的活动,也即交汇于细胞蛋白质组,因而人类一些重要组织和细胞功能蛋白质组的揭示,将会广泛而深入地推动基础生命科学研究。
在应用研究上,蛋白质组学是发现大量新型生物标志物、药靶和药物的重要途径,已成为生物医药产业及其相关产业发展的新生长点,其发展直接关系到未来整个生物技术产业及其相关产业的发展空间和市场份额,因此日益受到各国的普遍关注。蛋白质组学已经成为世界各国奋力抢占的战略制高点 蛋白质组学已成为重要的前沿领域之一。
因为多数蛋白质的长度较长、分子量较大,远远超过质谱仪的检测范围,所以在典型蛋白质鉴定策略中,肽段鉴定是蛋白质鉴定的基础。蛋白质酶切得到肽段,如能在肽段这一层面解析研究蛋白质,将是一大突破。本课题着重研究酶切后的肽段与理论酶切得到的肽段的区别,通过统计分析,建立模型对特定质谱平台下肽段可检测性进行预测,可应用于蛋白质鉴定和蛋白质定量分析中。
3
四、课题需要解决的关键理论问题和实际问题
(一) 理论问题:
(1)高精度质谱仪的工作原理以及产出数据格式和物理意义。 (2)影响典型质谱平台肽段可检测性的主要因素。 (二) 实际问题:
(1)收集一批典型的高精度质谱数据,完成对肽段的向量表示,构建机器学习训练集和测试集。
(2)利用机器学习方法对典型质谱平台肽段的可检测进行建模,并使用独立测试集和交叉验证方法来对模型的性能进行评估。
五、课题研究的基本方法、实验方案及技术路线可行性论证
(一) 基本方法:
(1) 认真阅读相关英文文献,了解质谱实验原理,理解质谱检测过程。
(2)学习perl/matlab语言,编程实现肽段物理化学特征提取,完成肽段 的向量表示。 (3)掌握预测肽段可检测性的方法:统计打分和机器学习,使用不同的机器学习方法对肽段的可检测性进行建模。
(4)熟悉机器学习方法的参数优化和应用背景,提高所建立的肽段可检测性预测模型的性能。 (二) 实验方案:
如图1所示:
鸟枪法得到实验数据 数据库搜索方法解析图谱 统计打分方法建立预测模型 机器学习方法建立预测模型 评估两种模型效率,选择最优 撰写论文并答辩
图1.实验流程图
4
具体实验步骤如下:
(1)首先采用基于质谱平台的蛋白质组学的典型实验策略——鸟枪法 (Shotgun),得 到包括一级 图谱 (MS spectrum) 和二级图谱 (MS/MS)在内的实验数据。 (2)用数据库搜索方法解析图谱,鉴定出样品中所含有的肽段和蛋白质。
(3)研究肽段的各种物理化学性质(亲水疏水性,分子量,等电位点等)与肽段可检测性之间的联系,采用统计打 分的方法建立质谱平台上肽段可检测性的预测模型。
(4)熟悉机器学习方法的参数优化和应用背景,并尝试使用不同的机器学习方法对肽段的可检测性进行建模。
(5)对比两种方法建立的不同模型,评估其效率,选出特定质谱平台上的最佳预测模型。 (6)与老师学长交流,撰写论文。 (三) 技术路线的可行性论证:
本课题采用了基于质谱平台的蛋白质组学的典型实验方法,从相关的研究进展情况和老师的指导中可知,所选择的研究方案在技术上是切实可行的。
同时,为保证课题按时顺利完成,在课题进行中,要多征询导师的意见,定期向导师汇报课题进展情况;虚心向学长请教,学习别人的先进经验;端正工作态度,克服工作中遇到的各种困难
六、开展研究应具备的条件及已具备的条件,并估计在进行论文工作中可能遇到的困难与问题和解决措施
(一) 应具备的条件:
(1) 对蛋白质组学和质谱平台背景的了解。 (2) Perl/matlab语言的编程能力。 (3) 数据分析和建模能力。 (4) 一定的写作能力。 (二) 已具备的条件:
5
(1) 对蛋白质组学背景的了解。
(2) 一定的数据分析建模能力和写作能力。 (三) 可能遇到的困难:
(1) 初期软件上手有困难。 (2) 大量数据处理有困难。 (3) 阅读英文文献有困难。
(4) 数学建模以前没接触过,可能遇到困难。 (四) 解决措施:
(1)多阅读相关资料,提高英语阅读水平,积极思考,向老师和学长请教,做到有问题及时解决。
(2)对软件操作一有不清楚的地方,立刻查书解决,或向老师请教; (3)对数据进行建模时,沉着耐心,认真分析。
七、论文研究的进展计划
毕业设计(论文)进度安排:
序号 1 2 3 4 5 6 7 8
毕业设计(论文)各阶段内容 阅读参考资料,理解任务要求
撰写开题报告 深入理解质谱检测过程
提取与质谱检测相关的肽段物理化学特征集 对已构建的肽段特征集进行特征优化 利用机器学习方法完成肽段可检测性建模
撰写论文并提交保密审查 毕业论文评阅、答辩
时间安排
2013.11.01~2013.12.15 2013.12.16~2013.01.15 2014.01.16~2014.02.15 2014.02.16~2014.03.10 2014.03.11~2014.04.10 2014.04.11~2014.05.15 2014.05.16~2014.05.31 2014.06.01~2014.06.10
备注 已完成 已完成
八、课题所需器材、设备清单。
计算机及相关软件。
6
指导教员审核意见:
签名: 年 月 日
教研室(研究室、实验室)意见:
领导签名: 年 月 日 系(研究所、重点实验室)意见:
领导签名: 年 月 日 学院教学科研办公室意见:
(公章)
年 月 日
7
本文来源:https://www.wddqxz.cn/af07b7ae80d049649b6648d7c1c708a1284a0a10.html