摘 要蛋白质分子是由许多个氨基酸残基链接而成的一条肽链。在生物体的生命过程 中,蛋白质分子和其它生物分子或金属离子(配体)的相互作用发挥了重要的作用, 这个相互作用的过程被称为绑定。一般情况下,蛋白质的绑定残基只占残基序列的 一小部分,大部分的残基属于不绑定,因此,蛋白质残基分类是一个不平衡的学习 问题。本文基于支持向量回归的算法,结合下采样和分类器集成的技术,消除训练 样本的不平衡性,设计了一种预测方案,预测得到一个残基属于绑定/不绑定残基 的可能性大小,最终通过合理选择阈值的方式完成预测,即大于阈值的残基被认为 属于绑定的,否则预测为不绑定,从而完成蛋白质残基的分类。我们设计并进行了 一系列实验,实验结果验证了该方法的有效性,并讨论了下采样对分类性能的影响。77322

毕业论文关键词:支持向量回归 蛋白质绑定残基 分类 下采样 分类器集成

Abstract The protein molecule is composed of many amino acid residues, which are linked one by one。 The interaction between protein and other biological molecules or metal ions (ligands) plays an important role in the process of the living lives。 In general, protein binding residues only account for a small fraction of all the residues, and most of the residues are not bound。 Therefore, the protein residue classification is an unbalanced learning problem。 In this paper, a prediction strategy is designed, which is based on support vector regression, with the help of both under-sampling and classifier ensemble technology, to eliminate the imbalance of training samples。 In doing so, this prediction strategy is utilized to predict the degree to which a residue belongs to binding or not。 Specifically, a reasonable threshold values is specified to complete the prediction, and the residue whose degree is greater than the threshold value is considered to be the binding one, otherwise the non-binding one。 A series of experiments are designed and carried out, and the experimental results verified the effectiveness of our method。 In addition, the impact of under-sampling strategy on the classification performance is discussed。

Keywords: support vector regression, protein residues banding, classification, under sampling, classifier ensemble

1 绪论 1

1。 1 研究背景 1

1。 2 国内外研究现状 1

1。 3 研究意义 3

1。4 本文组织结构 3

2 关于蛋白质数据处理的方法 5

2。 1 数据集 5

2。 2 特征提取 6

3 支持向量回归的基本算法 8

3。 1 支持向量机 8

3。 1 。 1 线性可分问题 9

3。 1 。 2 松弛约束 10

3。 1 。 3 线性不可分问题 11

3。2 支持向量回归 12

3。 3 SMO 算法 14

4 模型和方法 19

4。1 下采样 19

4。2 参数选择 20

4。3 集成

上一篇:Hog特征复杂环境下交通图像中缺损标示的检测和修复
下一篇:ASP.NET+SQLServer选课系统设计

基于Android的电子拍卖系统设计与开发

基于Web应用的致胜公司企业内部培训系统设计

Matlab基于多旋翼飞行器的飞行控制系统设计

基于字典学习的多视图低维相关表示方法研究

基于android通讯与游戏的手...

基于android的环境信息管理系统设计

基于激光超声检测金属材...

2021年什么行业赚钱,适合...

激光模拟训练器材国内外研究现状

个案管理茬老年糖尿病患...

发酵米粉优势菌株的发酵特性研究

日语论文中日酒文化对比研究

淮安市高校足球运动损伤问卷调查表

肢体语言在小学英语教学中的应用浅谈

新疆农林高校學生昆虫生...

大淘宝网的虚假交易研究

浅谈农村大气环境保护的制度构建【1868字】