|
课程编号: b047
总学时数: 30
主讲教师: 郭政 李霞
教材名称:生物信息挖掘技术讲义
出版时间: 2002年1月
教材名称:知识发现
出版时间: 2002年1月
开课教研室: 医学数学与生物医学工程学教研室
学 分: 1.5
开课学期: 第2学期
出版社: 黑龙江科技出版社
主编: 李霞 郭政
出版社: 清华大学出版社
主编: 史忠植
课程简介:
该课程结合生物信息学领域知识介绍生物信息挖掘技术。
包括:(1)生物数据的预处理
(2)无监督学习方法:聚类分析
(3)几中常见的有监督学习方法:决策树、神经网络、贝叶斯网络、支持向量机
(4)进化和遗传算法
(5)生物信息知识的发现
教学目的: 通过本课程学习,使学生深入掌握数据挖掘基础理论和基本技术,熟悉数据挖掘领域发展趋势,了解数据挖掘技术最新进展和前沿成果,并能做出评价。
教学重点及要求掌握的内容:
重点学习数据挖掘技术:决策树、神经网络、遗传算法、贝叶斯网络及支持向量机等有监督机器学习算法和聚类分析无监督的学习算法。掌握数据挖掘的定义、数据的预处理和数据挖掘的流程。能够利用数据挖掘技术进行大规模的基因表达谱分析、蛋白质功能综合预测等。
实践内容及项目:
1、能够选定一个题目作理论联系实际的研究,如:对基因表达谱数据进行分析,从中发现新颖的、有用的信息。掌握数据挖掘的运用和具体实现,完成相关程序开发,在一定领域知识的指导下对实验结果给予解释。
2、利用聚类分析算法对表达谱数据进行分析,对疾病类别、基因的功能进行预测及发现疾病的亚型。
3、在对数据挖掘能够解决的问题和解决问题思路有清晰的认识后,在众多的数据挖掘研究热点用有监督的学习方法中比较深入地掌握1-2个技术,如决策树、神经网络。能够对给定的数据和数据类型建立合适的数据挖掘模型,对疾病类型和基因功能进行预测。
4、利用internet和生物信息学分析软件进行生物信息数据库查询,序列比对,核酸与蛋白质结构和功能的预测分析,基因组序列信息分析,功能基因组相关信息分析。
参考书目:
1.han jiawei, data mining, concept and techniques.2001
2.王珊等.《数据仓库技术与联机分析处理》.科学出版社,1998.6
3.史忠植.《知识发现》.清华大学出版社,2002.1 |
|