生物大分子的数学描述及其应用
2009-2
大连理工大学出版社
李春,钱伟 著
172
无
随着人类和一些模式生物基因组计划的相继完成或全面实施,生物学研究的重点正从积累数据向分析解释这些数据过渡,生物信息学(也称计算分子生物学)便应运而生。这是一门运用数学、信息科学、计算机科学和系统科学的理论与方法研究生命现象、分析和处理呈指数增长的生物学原始数据并进行加工、分析和建立计算模型的一门学科。生物信息学的研究内容十分丰富,例如,序列比较、计算机辅助基因识别、系统发育分析、RNA和蛋白质结构预测、遗传密码及其起源、序列重叠群装配、基于结构的药物设计等等,都是生物信息学中重要的研究领域。其中大多数领域的研究工作都有一个共同的需求,就是常常需要给出生物学数据的数学上的描述,因此,生物大分子的数学描述便成为生物信息学中一个非常基础又十分重要的课题。
《生物大分子的数学描述及其应用》是在编者实际从事的课题基础上形成的,从这个意义上讲,《生物大分子的数学描述及其应用》可以说是一份工作汇报。建立生物学数据以及各种数据间复杂关系的数学模型,然后在此基础上分析和解释相应生物学意义,进而探索其固有的生物学规律并研究相关生物信息学问题,这是《生物大分子的数学描述及其应用》的特色之处。《生物大分子的数学描述及其应用》主要内容包括生物大分子的图形表示;生物序列的数值刻画;序列与结构的粗粒化描述;蛋白质编码基因识别等。
李春,渤海大学数学系副教授。2006年毕业于大连理工大学应用数学系计算数学专业,获理学博士学位。现为辽宁省第四批“百千万人才工程”千人层次人选,应用数学辽宁省重点掌科带头人,辽宁省普通高等学校优秀青年骨干教师,锦州市酋批市级后备学术和技术带头人。渤海大学学术带头人。近年来主要从事组合数掌和生物信息学的教学和科研工作。主持和参与完成国r永自然科学基金项目和辽宁省教育厅项目五项。已出版教材一部,发表论文三十余篇。 钱伟懿,渤海大学数学系教授。2004年毕业于大连理工大掌应用数学系运筹学与控制论专业:获理学博士学位。现为辽宁省数学与应用数学示范专业带头人,应用数学辽宁省重点学科负责人,近年来主要从事最优化理论及应用、生物信息掌中的优化问题研究。主持和参加国家自然科学基金项目、辽宁省教育厅项目七项。已出版专著一部,教材一部,发表论文四十余篇。
第0章 绪论0.1 生物信息学产生的背景0.2 生物信息学的研究对象0.2.1 核酸0.2.2 蛋白质0.2.3 中心法则和遗传密码0.3 生物信息学的主要研究内容0.3.1 序列比较0.3.2 计算机辅助基因识别0.3.3 系统发育分析0.3.4 RNA和蛋白质的结构研究0.4 《生物大分子的数学描述及其应用》的主要内容参考文献第1章 生物大分子的图形表示1.1 引言1.1.1 DNA序列的图形表示1.1.2 RNA二级结构的图形表示1.1.3 蛋白质序列的图形表示1.2 DNA序列的3-D图形表示1.3 DNA序列的2-D图形表1.3.1 特征序列1.3.2 基于特征序列的“双水平线”图11.3.3 基于特征序列的“梯状”图1.4 有向图表示参考文献第2章 生物序列的数值刻画2.1 引言52.2 伪迹2.3 ALE-指标2.3.1 ALE-指标2.3.2 性质2.3.3 应用2.4 上三角矩阵表示2.4.1 序列不变量的相容性2.4.2 有向图及上三角矩阵的应用2.5 正规化相对熵2.5.1 定义2.5.2 应用参考文献第3章 序列与结构的粗粒化描述3.1 DNA序列的逻辑表示3.1.1 逻辑表示同其他表示的比较3.1.2 逻辑序列的S/S矩阵及其压缩矩阵3.2 蛋白质序列的逻辑表示3.2.1 蛋白质序列的逻辑表3.2.2 应用3.3 基于5字母模型的蛋白质序列的图形表示及应用3.3.1 氨基酸的5-字母模型3.3.2 蛋白质序列的2-D图形表3.3.3 蛋白质序列的数值刻画3.3.4 冠状病毒的系统发育分析3.4 LZ复杂度及应用3.4.1 有限序列的LZ复杂度3.4.2 基于LZ复杂度的RNA二级结构相似性分析3.4.3 广义LZ复杂度及应用参考文献第4章 蛋白质编码基因识别4.1 引言4.2 DNA序列基于正规化相对熵的数值刻画4.3 Fisher线性判别法4.4 算法的评估4.4.1 敏感度、特异性和准确度的定义4.4.2 算法的评估4.5 识别酿酒酵母基因组2-6类中的基因参考文献结语
序列两两比对的做法实际上是来自计算机算法中的字符串比较算法,本质上是将两个序列的各个字符(代表核苷酸或氨基酸残基)按照对应等同或者置换等关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述。尽管人们在序列比对方面已经做了大量的工作,但有两个方面的问题一直在困扰着人们:一是没有合适的理论模型能很好地捕述空位问题,因此打分矩阵中空位罚分缺乏理论依据而更多的带有主观色彩。一般的处理方法是用两个罚分值,一个是对插入的第一个空位罚分,另一个是对空位的延伸罚分。对于具体的比对问题,采用不同的罚分方法会有不同的效果。二是比对算法的时间和空间复杂度一直没有达到令人满意的效果,特别是多重序列比对,目前尚缺乏快速而义十分有效的算法。序列比对的这些不足,促使很多人试图寻找其他的方法来比较序列。 法二基于不变量的方法 近年来,Randic等人提出了一种基于序列不变量的序列比较方法,开辟了一条序列比较的新途径。这种方法来源于计算化学中的化学指标计算,是一种间接的序列比较方法。最终,一条序列将南一个四维向量来描述,这个向量常被称为序列的描述子(descrip-tor)。我们可以按如下的步骤来实现序列到向量描述子的转换: Step l 用比如图或曲线等数学对象来表示DNA序列; Step 2从得到的数学对象构造矩阵;
无