课程简介

得益于现代科学技术的快速发展,目前生物科学家可以在短时间内产生大量的数据。这些生物技术的普及使得生物大数据的分析已经变成了生物学研究及应用的关键。在此课程中,我们将主要讲授在生物数据分析中特别是近年来高通量生物数据分析中常用的统计方法,并基于软件R介绍利用这些方法进行生物数据分析的具体实例。本课程无指定教材,但可参考所列参考资料。本课的视频和文字内容仅用于课程学习,仅允许登陆本慕课的同学观看,未经任课教师本人授权,禁止课程之外的下载和传播。

课程大纲

1.   统计及生物统计概要(2学时)

2.   数据探索性分析、可视化(4学时)

3.   生物统计中常用的假设检验和置信区间估计方法(12学时)

a)    参数假设检验

b)    非参数假设检验

c)    Bootstrap方法、permutation 方法

d)    多重假设检验

4.   生物统计中常用的回归分析方法(12 学时)

a)    线性回归分析

b)    广义线性回归

c)    非线性回归方法、广义非线性回归方法

d)    混合效应回归模型

5.   高维生物统计学方法 (12学时)

a)    模型选择方法

模型衡量准则;传统变量选择方法,如前向选择方法、后向选择方法;罚函数方法

b)    超高维数变量筛选方法

线性模型中的变量筛选、非线性模型中的变量筛选

c)    降维方法

PCA, NMF,LLE,DiffusionMap, tSNE, UMAP等线性、非线性降维方法

6.   生物数据的分类、聚类分析(6学时)

a)    逻辑回归、支持向量机、随机森林等分类方法

b)    K-means、混合正态模型、隐马氏模型等聚类方法


课程说明

有同学反映注册华文慕课时,系统提示该邮箱已注册,这可能是华文慕课系统的问题,可以在登录界面,点击忘记密码,输入邮箱后,按照华文慕课给指定邮箱发送的邮件提示操作,可以找回密码,完成注册。

参考资料

1. Introduction to Data Science: Data Analysis and Prediction with R, Rafael A. Irizarry

2. Generalized Additive Models: an introduction with R, Simon Wood

3. Elements of Statistical Learning by Jerome H. Friedman, Robert Tibshirani, and Trevor Hastie

4. Advanced Data Analysis from an Elementary Point of view, Cosma Rohilla Shalizi

5. Mixed Effects Models and Extensions in Ecology with R,  Alain F. Zuur, Anatoly A. Saveliev, Elena N. Ieno, and Graham M. Smith

6. An Introduction to Statistical Learning with Applications in R,  Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani

7. Bootstrap Methods: A Guide for Practitioners and Researchers, Michael R. Chernick.




拓展阅读

其他

主讲教师

席瑞斌   

席瑞斌,北京大学数学科学学院、统计科学中心、生物统计系研究员。席瑞斌常年从事生物医学大数据、大数据、贝叶斯统计、高维统计等领域的研究,在统计学、生物信息学顶级和权威杂志发表文章40余篇。

课程助教

  • 辛未

相关课程推荐

  • 正在进行
    理论计算机科学基础
    通过这门课程的学习,学生将了解计算理论的基础知识,掌握有效计算的概念。本课程的教学内容包括:形式语言与自动机理论、可计算性理论、计算复杂性理论等三个部分。这些内容分别回答下列问题:(1)有哪些计算装置?它们的能力如何?(2)什么是计算?哪些问题是(不)可计算的?(3)什么是有效计算?哪些问题是(不)可有效计算的?通过这门课程的学习,学生将了解计算理论的基础知识,掌握有效计算的概念。
  • 正在进行
    算法设计与分析
    本课程的内容分成两大部分:算法的基础知识、通用算法设计技术与分析方法。 第一部分是算法基础知识,约占20%,主要介绍算法相关的基本概念和数学基础。比如,什么是算法的伪码描述?什么是算法最坏情况下和平均情况下的时间复杂度?算法时间复杂度函数的主要性质,算法复杂度估计中常用的数学方法,如序列求和及递推方程求解。 第二部分是通用的算法设计技术与分析方法,主要介绍分治策略、动态规划、贪心法、回溯与分支限界。主要介绍这些设计技术的使用条件、分析方法、改进途径,并给出一些重要的应用。
  • 正在进行
    生物学概念与途径
    《生物学概念与途径》课程由饶毅2008年在北京大学设立和主持,面向所有大学生和研究生,目的是让年轻的学生了解生物学历史上,一些重要的概念是如何提出的,一些重要的途径和方法是如何用来解决重要且有深刻意义的生物学问题的。 大部分内容由饶毅讲授,带着大家一起解读1866年孟德尔的遗传学论文,解读1910年摩尔根的果蝇论文,解读1944年Avery、McLeod、McCarty如何提出DNA是遗传物质的论文。这些经典性的工作,让我们从思想上理解科学研究是怎么做的。 北京大学物理系的汤超教授、哈佛大学的谢晓亮教授、北京生命科学研究所的王晓东教授、北京大学化学院何川教授、清华大学的施一公教授、北京大学的植物生物学的邓兴旺教授和顾红雅教授,分别从物理的定量、化学与生物的交叉、生物化学的经典实验、化学角度的生物大分子、结构生物学、现代农业生物技术与种业发展、驱动演化的“力”等多学科,多角度讲授重要的概念和途径。 本课程重思想,重交叉,重培养学生的科学能力;培养科学研究的价值观(比如判断什么是好的科学),力求为未来科学探索树立参照系;老师提供一个起点,能看的多深,发展多远,取决于同学们的天赋和努力。 希望大家通过我们的慕课有所收获。

恭喜,报名成功

进入学习中心

恭喜,报名成功

确定

请进入开课界面预览

确定

X

请去您的邮箱验证

还没收到验证邮件?

1. 试试去广告邮件、垃圾邮件目录看看

2. 再次发送验证邮件

对不起,班次容量已满

请报名下一班次

知道了~!

对不起,您没有操作权限

知道了~!