足球论坛

首页 » 常识 » 常识 » 随机森林40丨线性回归分析原理科普
TUhjnbcbe - 2020/11/15 5:14:00
白癜风怎么能治好 http://baidianfeng.39.net/qzzt/bdfnzhm/

欢迎来到随机森林第40期

线性回归分析原理科普

在复杂的事物的发展过程中,有许多的矛盾存在,其中必有一种是主要的矛盾,它的存在和发展,规定或影响着其他矛盾的存在和发展。

例如在资本主义社会中,无产阶级和资产阶级这两个力量间的矛盾是主要的矛盾;其他的矛盾力量,例如,残存的封建阶级和资产阶级的矛盾,农民小资产者和资产阶级的矛盾,无产阶级和农民小资产者的矛盾,自由资产阶级和垄断资产阶级的矛盾,资产阶级的民主主义和资产阶级的法西斯主义的矛盾,资本主义国家相互间的矛盾,帝国主义和殖民地的矛盾,以及其他的矛盾,都为这个主要的矛盾力量所规定、所影响......

在各种矛盾之中,矛盾着的两个方面,又是否可以平均看待呢?也是不可以的。无论什么矛盾,矛盾的诸方面,其发展是不平衡的。有时似乎势均力敌,然而这只是暂时的、相对的情形。矛盾着的两方面中,必有一方面是主要的,他方面是次要的。其主要的方面,即矛盾起主导作用的方面。

然而这种情形不是固定的,矛盾的主要和非主要的方面互相转化着,事物的性质也就随着起变化。在矛盾发展的一定过程或一定阶段上,主要方面属于甲方,非主要方面属于乙方;到了另一发展阶段或另一发展过程时,就互易其位置,这是依靠事物发展中矛盾双方斗争的力量的增减程度来决定的......

......由此可见,事物的性质主要地是由取得支配地位的矛盾的主要方面所规定的。取得支配地位的矛盾的主要方面起了变化,事物的性质也就随着起变化。

——《毛泽东选集·矛盾论》

在之前的文章中,我们学习了线性相关与秩相关,这两种研究方法可以用于研究两个定量变量间的关联性。这两种研究方法中,两个变量都是已知的,它们在逻辑上的先后关系是无需区分的。例如,在之前的文章中,Alice医生回顾性地研究“医生发量”和“患者住院天数”间的关系。

然而在实际工作中,我们常常会用已知的、简单易得的变量,去预测未知的、难以测得的变量。比如医生利用孕妇的宫高和腹围预测胎儿体重,利用血清肌酐浓度估计肾小球滤过率;再比如文学家利用“昨夜雨疏风骤”来判断“应是绿肥红瘦”。孕妇的宫高和腹围是随胎儿体重变化而变化的,血清肌酐浓度是随肾小球滤过率变化而变化的。想研究这种“一个变量如何随另一些变量变化而变化”的问题,需要用到回归分析。

在回归分析中,被估计、被预测的变量(如胎儿体重)称为因变量(dependentvariable)或反应变量(responsevariable),常记为Y。Y所依存的变量,也就是能使Y变化的变量,称为自变量(independentvariable),也称解释变量(explanatoryvariable)或预测因子(predictor),常用X表示。

Y依赖于X的线性回归模型可以表示为:

其中α为回归模型的截距,β为回归模型的斜率(又称回归系数regressioncoefficient)。

在实际研究中,我们无法得到上述理想化模型,而只能用样本数据计算出一个具体的表达式,称为线性回归方程,记为:

回归方程中各项参数分别为模型中各项参数的估计值。

最小二乘法

之前,Alice医生已经探究了“医生发量与收治患者平均住院天数有无关联”这一问题,并得出了结论:线性相关系数r=0.,关联程度密切。

现在,Alice医生需要带教一位实习医生,Alice医生测量了实习医生的发量,想预测该实习医生收治患者平均住院天数。

在这一问题中,因变量(Y)为住院天数,自变量(X)为发量。

如何利用下表中的数据估计出各项回归参数,得出回归方程?

需要用到最小二乘法。回归方程事实上是一条直线的表达式,最理想的状态下散点图中的每一个点都在这条直线上,在稍不理想的情况下,我们退而求其次,使散点图中所有点都离这条直线很近。

有一种处理方法是把每个散点的实际值Yi与这条直线上的预测值Yi估的差值(Yi-Yi估)之和作为判断标准,使(Yi-Yi估)之和尽可能小。由于散点可能分布在直线两侧,(Yi-Yi估)有正有负,可能会互相抵消,因此取(Yi-Yi估)的平方和的最小值。这就是最小二乘法的原理。

在这种原理的指导下,统计学家们经过一系列极其复杂的计算得出了估计回归参数的公式:

将表中数据代入其中,得b=0.,a=1.,回归方程为:

回归系数是否为零的假设检验

上述回归方程是依据样本数据产生的,我们还需要判断总体之中上述线性回归方程是否存在。因此我们需要用回归方差分析或回归系数t检验来检验总体回归系数β是否为0。下面以回归方差分析为例来进行讲解。

其原理为,Y的总变异中,可以用X解释的部分越大,说明回归效果越好。

散点图中的任意一点(X,Y)到水平线Y=Y平均值的距离(Y-Y平均值)可以反映Y的总变异,其平方和为Y的离均差平方和,记为SS总。

(Y-Y平均值)可以拆分为以下两部分:

第一部分,(Y-Y平均值),为回归方程得出的估计值和散点图中实际值的差值,称为残差,残差平方和记为SS残。

第二部分,(Y估计值-Y平均值),为回归方程得出的估计值与Y平均值之间的差值,其平方和称为回归平方和,记为SS回。可以理解,β绝对值越大,直线越斜,第二部分越大。

统计学家们又经过一系列极其复杂的计算得出了以下公式:

SS总=SS残+SS回

SS回=SS总-SS残

可以认为,SS总是回归前Y的变异,SS残为回归之后Y仍有的变异,而SS回则是X与Y的线性关系使Y变异减少的部分,该部分越大,说明回归效果越好。

构建统计量:

其中,ν回与ν残分别是SS回和SS残的自由度,ν回=1,ν残=n-2。

Alice医生代入数据,得F=.,查表知F0.05(1,12)=4.75,故发量与住院天数之间的线性回归有统计学意义,总体回归系数β不为0。

线性回归适用范围

第一,线性回归研究的两个变量X与Y应呈线性关系。这一条件可以通过绘制散点图、进行线性相关分析来判断。

第二,每个个体之间观察值应该互相独立,这一条件一般可以通过生活常识和逻辑进行判断。例如,没有必要对两个分别成等差数列的变量进行线性回归分析。

第三,在一定范围内,对于任意给定的X值,其对应的Y值之残差应服从正态分布。

第四,不同的X值,其对应的Y值应呈方差齐性。

由于篇幅限制,我们将在之后讲解如何检验Y值及其残差是否满足正态性与方差齐性。

决定系数

如前所述,SS总是回归前Y的变异,SS回是回归对Y的变异的贡献,因此可构建统计量R2:

二者的比例意义为,Y的总变异中,X对Y的回归关系能解释的比例。其推导过程与相关系数r相似,在数值上等于r的平方。

Alice医生通过计算,得出R2=0.,说明医生收治患者的住院天数,大约有93%可以用医生的发量解释(数据纯属虚构)。

作者介绍

朱家平

北京大学航天临床医学院

级临床医学九班

“不断学习医学知识的过程中,我时常会面对文献中各种统计检验流下不知所措的泪水,每当遇到这种情况,生物统计学老师诚恳的眼神就会浮现在我脑海之中,让我低下头来,悔恨难当。于是,我重新拾起了课本。目前,我正在阅读医学统计相关的入门书籍,希望能为随机森林栏目做出一些贡献。”

指导教师介绍

李琳

北京大学航天临床医学院

消化内科医师

肿瘤学博士

年毕业于北京大学医学部,医院完成住院医师规范化培训。热衷科研工作,从事消化道肿瘤及肠道微生态研究,主持国家自然科学基金1项、院内科研基金2项,作为主要完成人参与科工集团及院内课题4项。以第一作者发表SCI论文3篇,参与发表论文累计影响因子34分,研究结果在IGCC等国际会议中进行口头报告展示。

本期的内容

你们学会了吗?

欢迎后台留言与我们交流

下期,不见不散!

作者:朱家平

编辑:韵文萍

编校:王鼎元

审核:李琳

往期精彩:

随机森林(39)丨说人话系列——分布篇

随机森林(38)丨我今因病魂颠倒,独梦闲人不梦君——线性回归分析历史故事

随机森林(37)丨生而何欢,死而何惧——秩相关原理科普

随机森林(36)丨仙人抚我顶,结发受长生——线性相关原理科普

随机森林(35)丨光脚的不怕穿鞋的——钱包悖论科普

随机森林(34)丨番外(三)本科生与SCI的爱恨情仇

随机森林(33)丨你离顶级期刊或只差一张Nomogram丨听说精神科医生都拿着Nomogram看病?

随机森林(32)丨敢来挑战吗?统计学易错点大集锦

随机森林(31)丨捏住敌人的把柄是否会影响打架斗殴中受伤的概率?——卡方分析实际运用(下)

随机森林(30)丨那两个男人在谁是真英雄这方面到底有没有达成共识?——卡方分析实际运用(中)

随机森林(29)丨那个没有头发的男人和那两条会变成女人的蛇妖,谁的法力更高强?

随机森林(28)丨再谈Logistic回归

论杠精和金牛座的关系

随机森林(27)丨R语言从入门到入(精)坟(通)1

软件界面认识与数据读取

随机森林(26)丨谈C指数

Bob用小学数学推翻TNM分期,再夺诺奖!

随机森林(25)丨金坷垃的好处都有啥?——方差分析科普

随机森林(24)丨会骗人的亚组分析丨科学论证高考报清华还是北大

随机森林(23)丨番外(二)谈本科生科研

随机森林(22)丨绘制人生第一张热图,走向顶级期刊的第一步

随机森林(21)丨生物信息学(二)KEGG通路分析

随机森林(20)丨生物信息学(一)基本图表认识

随机森林(19)丨Meta分析(二)网络Meta分析之校正间接治疗比较法

随机森林(18)丨物理学家和统计学家,谁会在赌场中发财?

随机森林(17)丨Meta分析(一)宏观认识与统计学基础

随机森林(16)丨番外(一)谈临床诊断思维

随机森林(15)丨多元回归特征变量筛选技术(下)

随机森林(14)丨多元回归特征变量筛选技术(上篇)

随机森林(13)丨X2检验——男孩能否穿短裙?

随机森林(12)丨t检验居然不能这样用?网友:知道得太晚了!

随机森林(11)丨“你是不是变胖了,为什么卡在我的心里?”

随机森林(10)丨听说30%的美国肿瘤病例都在这里!

随机森林(9)丨倾向性得分匹配(PSM)

随机森林(8)丨致亲爱的读者们

随机森林(7)丨又爱又恨样本量

随机森林(6)丨t检验——从两个男人的纠葛开始

随机森林(5)丨听说机器学习的模型可以用于找对象!

随机森林(4)丨做对自己出的题远远比不上做对别人出的题!

随机森林(3)丨听说学了机器学习可以入门人工智能!

随机森林(2)丨车祸和肿瘤竟有难解难分的关系?

随机森林(1)丨“押注赔钱”?可能是因为您不会logistic回归!丨JAMAoncology文献分析上篇

Copyright?医学苑

转载事宜请留言

获得授权后方可转载

本平台所使用的视频、语音、图片及音乐等属相关权利人所有。因客观原因部分作品若存在不当使用的情况,请相关权利人随时与我们联系,以协商授权事宜。

欢迎大家后台回复参与讨论!

互动方式

进入

1
查看完整版本: 随机森林40丨线性回归分析原理科普