生命科学的数据分析Data Analysis for the Life Sciences电子书(466页)

  • 生命科学的数据分析Data Analysis for the Life Sciences电子书(466页)

    Rafael A Irizarry and Michael I Love

    R语言进行生物科学的数据分析教程。

     

    介绍
    20世纪下半叶,数字技术史无前例的进步引发了一场测量革命,正在改变科学。在生命科学领域,数据分析实际上已成为每个研究项目的一部分。尤其是基因组学正受到新的测量技术的推动,这些技术使我们能够首次观察某些分子实体。
    这些发现导致了类似于鉴定微生物的发现和显微镜发明所允许的其他突破。这些技术的最佳选择是微阵列和下一代测序。
    传统上依赖简单数据分析技术的科学领域已被这些技术所取代。例如,过去,研究人员会测量单个目标基因的转录水平。如今,可以一次测量所有20,000多种人类基因。诸如此类的进步已经导致了从假设到发现驱动研究的转变。但是,解释从这些庞大而复杂的信息中提取的信息数据集需要复杂的统计技能,因为偶然出现的模式很容易使人迷惑。这极大地提高了生命科学中统计和数据分析的重要性
     
    这本书的封面是什么?
    本书将涵盖成功进行数据驱动的生命科学研究所需的几种统计概念和数据分析技能。我们从与计算p值相关的相对基本的概念出发与分析高通量数据有关的高级主题。
    我们从统计学和生命科学中最重要的主题之一开始:统计推断。推论是利用概率从数据中学习人口特征。一个典型的例子是解密两组(例如,案例与对照组)的平均值是否不同。
    涵盖的特定主题包括t检验,置信区间,关联检验,蒙特卡洛方法,置换检验和统计功效。我们利用可能的近似值通过数学理论(例如,中心极限定理)以及现代计算机技术使之成为可能。我们将学习如何计算p值和置信区间以及如何进行基本数据分析。在整本书中,我们将以统计计算机语言R描述可视化技术,这些技术对于探索新数据集很有用。例如,我们将使用它们来学习何时应用可靠的统计技术。
    然后,我们将继续介绍线性模型和矩阵代数。我们将解释为什么使用线性模型来分析组之间的差异是有益的,以及矩阵为何有用表示并实现线性模型。我们将继续回顾矩阵代数,包括矩阵符号以及如何将矩阵相乘(在纸上和在R中)。然后我们将应用我们在矩阵代数上介绍了线性模型。我们将学习如何在R中拟合线性模型,如何测试差异的显着性以及如何估算差异的标准误差。
    此外,我们将通过拟合线性模型复习一些实际问题,包括共线性和混淆。最后,我们将学习如何拟合复杂的模型,包括交互项,如何对比R中的多个项以及R中的函数实际上用于稳定拟合线性模型的强大技术:QR分解。
    在本书的第三部分中,我们涵盖了与高维数据相关的主题。具体来说,我们描述了多种测试,错误率控制程序,高通量的探索性数据分析数据,p值校正和错误发现率。从这里我们继续进行统计建模。特别是,我们将讨论参数分布,包括二项式和伽马分布。接下来,我们将介绍最大似然估计。最后,我们将讨论层次模型和经验贝叶斯技术以及它们如何在基因组学中应用。
    然后,我们讨论距离和尺寸缩减的概念。我们将介绍数学定义距离,并以此来激发奇异值分解(SVD)以进行降维和多维缩放。一旦了解了这一点,我们将准备介绍分层聚类和k均值聚类。接下来,我们将对机器学习进行基本介绍。
    我们首先了解批处理效果以及如何使用成分和因子分析来应对这一挑战。特别是,我们将研究混淆,显示批处理效果的示例,与因子分析建立联系,并描述替代变量分析。
    这本书有何不同?
    统计教科书侧重于数学,而本书则侧重于使用计算机进行数据分析。本书采用Deborah Nolan和Terry Speed所著的StatLabs¹的方法。

  • 3459.82KB
  • 科研开发
  • 2020-04-27
  • 药品与生物制品;医疗器械;医学检验;计量与测量