发布时间:2022-11-03 07:45:03 文章来源:互联网
微博 微信 QQ空间

回归,最初是遗传学中的一个名词,你知道吗?

回归,最初是遗传学中的一个名词,你知道吗?

回归,最初是遗传学中的一个术语,最初是由生物学家和统计学家高尔顿创造的。当他研究人类身高时,他发现高个子回归到人口的平均身高,而矮个子则在另一个方向回归到人口的平均身高。

回归分析是一种研究自变量与因变量之间定量关系的分析方法。它主要通过在因变量Y和影响它的自变量X之间建立回归模型来衡量自变量X对因变量Y的影响。影响能力,进而可以预测因变量Y的发展趋势。例如,销售额对广告费用有依赖性。通过分析这种依赖关系,可以在制定下一期的广告费用时预测将要实现的销售额。

文/黄成佳

相关分析与回归分析的联系与区别

相关分析和回归分析之间的关系是两者都是研究和测量两个或多个变量之间关系的方法。在实际工作中,一般先进行相关分析,计算相关系数,然后建立回归模型,最后利用回归模型进行计算或预测。

相关分析和回归分析的区别在于:

(1)相关分析研究均为随机变量,不区分因变量和自变量;回归分析中研究的变量应定义为自变量和因变量,自变量为确定的公变量,因变量为随机变量。

(2)相关性分析主要描述两个变量之间相关性的紧密程度;回归分析不仅可以揭示变量X对变量Y的影响程度,还可以根据回归模型进行预测。

回归分析模型主要包括线性回归和非线性回归。线性回归又分为简单线性回归和多元线性回归;而非线性回归则需要对数变换等方法将其转化为线性回归进行研究。

线性回归分析的步骤如下:

(1)根据预测目标,确定自变量和因变量

聚焦业务问题,明确预测目标,从经验、常识和以往历史数据研究的角度初步确定自变量和因变量。

(2) 绘制散点图确定回归模型的类型

通过绘制散点图,我们可以从图形的角度初步判断自变量和因变量之间是否存在线性相关,同时进行相关性分析。这决定了回归模型的类型。

(3) 估计模型参数并建立回归模型

采用最小二乘法估计模型参数,建立回归模型。

(4) 检验回归模型

回归模型可能一次无法达到预期的效果。通过对整个模型和各个参数的统计显着性检验,逐步优化回归模型,最终建立。

(5) 使用回归模型进行预测

模型通过测试后,将其应用于新数据以预测因变量的目标值。

简单线性回归分析

简单线性回归,又称单变量线性回归,是指回归模型只包含一个自变量,主要用于处理自变量与因变量之间的线性关系。简单的线性回归模型是:

Y=a+bX+ε

式中,Y:因变量,X:自变量,a:常数项,为回归线在纵坐标轴上的截距;b:回归系数,为回归线的斜率;ε:随机误差,即随机因素对因变量的影响。

常数项a为截距,回归系数b为斜率,表面自变量对因变量的影响程度。那么如何得到最好的a和b,使得尽可能多的(X,Y)数据点落在或者更接近这条拟合直线,最小二乘法是一种比较好的计算方法。

最小二乘法,也称为最小二乘法,通过最小化误差的平方和来找到数据的最佳函数匹配。最小二乘法的名称有两个原因:一是尽量减少误差;另一种是通过最小化误差的平方和来最小化误差。最小二乘法在回归模型中的应用是使观测点与估计点的距离平方和最小化,使尽可能多的(X,Y)个数据点更接近拟合线.

最小二乘

在验证回归模型时,判断系数 R? 也称为拟合优度或决定系数,即相关系数 R 的平方,用于表示因变量的变异百分比可以由拟合模型解释。R?越接近1,表示回归模型拟合效果越好。

简单线性回归主要用R?来衡量模型拟合效果,调整后的R?用来纠正由于自变量个数增加导致模型拟合效果过高的情况。多用于衡量多元线性回归分析模型的拟合效果。.

方差表线性回归分析的主要作用是通过F检验判断回归模型的回归效果,即检验因变量与所有自变量的线性关系是否显着,模型适合描述它们之间的关系。有五个主要指标:平方和(SS)、自由度(df)、均方(MS)、F(F统计量)和显着性(P值)。通常只需要关注F和显着性(P值)这两个指标,其中主要参考显着性(P值),因为要计算F统计量,还需要查统计表(F分布临界值表),并与它进行大小比较得到结果,

显着性(P 值)是 F 在显着性水平 α 处的临界值(通常为 0.01 或 0.05)。通常,我们用它来衡量测试结果是否显着。如果显着性(P值)> 0.05,则结果无统计学意义;if 0.01 y=a+y= a+ b1x1+ b2x2+....+e,对于多个自变量的情况。

在线性方程中,预测误差可以分为两个分量,一个是由于偏差,一个是由于方差。预测错误可能由其中一个或两者引起。在这里,我们将讨论由方差引起的误差。岭回归通过缩小参数 λ (lambda) 来解决多重共线性问题。请参见下面的等式:

在这个等式中,有两个分量。第一个是最小二乘项,另一个是 λ 乘以 β2 的总和(β 平方),其中 β 是相关系数。将 λ 添加到最小二乘项以缩小参数值,从而减小方差值。

岭回归亮点:

1) 除常数项外,岭回归的假设与最小二乘回归的假设相同;

2)缩小了相关系数的值,但没有达到零,说明不具备特征选择功能;

3)这是一种正则化方法,使用L2正则化。

10) 偏最小二乘回归

偏最小二乘回归也可以用来解决自变量之间高相关性的问题。但相对于主成分回归和岭回归的优势在于,偏最小二乘回归可用于案例数量较少的情况,即使案例数量少于自变量数量也是如此。因此,如果自变量高度相关,案例数量很少,自变量很多,则可以使用偏最小二乘回归。它的原理其实有点类似于主成分回归。它还提取了自变量的部分信息,损失了一定的准确性,但保证了模型更加真实。所以,该方法不直接分析因变量和自变量,而是使用新的综合变量,反映因变量和自变量的部分信息,因此不要求事例数必须多于自变量。偏最小二乘回归还有一个很大的优势,就是可以在有多个因变量的情况下使用。普通线性回归只有一个因变量,而偏最小二乘回归可以用于多因变量和多因变量。自变量之间的分析。因为它的原理是同时提取多个因变量和多个自变量的信息,形成一个新的变量进行再分析,

11) 多项式回归

对于一个回归方程,如果自变量的指数大于1,那么它就是一个多项式回归方程。如下式所示:

y=a+b*x^2

在这种回归技术中,最佳拟合线不是直线。相反,它是一条拟合数据点的曲线。

多项式回归的要点:

1)虽然有更高次多项式得到更低误差的趋势,但这可能导致过度拟合。通常需要绘制关系以查看拟合并确保拟合曲线正确捕捉问题的本质。这是一个帮助理解的图例:

2)特别注意尾部的曲线,看看这些形状和趋势是否合理。更高次多项式最终会产生奇怪的推理结果。

12) 逐步回归

在处理多个自变量时可以使用这种回归方法。在这种技术中,自变量的选择需要自动处理程序,无需人工干预。通过观察统计量的值,例如

R-square、t-stats 和 AIC

用于识别重要变量的指标可以达到这一要求。逐步回归通过基于指定标准同时添加/删除协变量来拟合模型。下面列出了一些最常用的逐步回归方法:

1)标准的逐步回归方法需要做两件事,即根据需要为每一步添加和删除预测变量;

2)前向选择方法从模型中最重要的预测变量开始,然后为每一步添加变量;

3) 向后消除从模型中的所有预测变量开始,然后在每一步删除最不重要的变量。

这种建模技术的目的是使用最少数量的预测变量来最大化预测能力。这也是处理高维数据集的方法之一。

13) 套索回归

与岭回归类似,lasso 也对回归系数的绝对值增加了惩罚。此外,它减少了偏差并提高了线性回归模型的准确性。看看下面的等式:

Lasso 回归与岭回归略有不同之处在于它使用绝对值而不是平方值作为惩罚部分。这会导致惩罚(即用于约束估计的绝对值之和)以使某些参数估计等于零。使用的惩罚值越大,估计值越接近于零。这将导致我们从给定的 n 个变量中选择变量。

套索回归要点:

1)除常数项外,该回归的假设与最小二乘回归的假设相似;

2)它将收缩因子降低到零(等于零),这确实有助于特征选择;

3)这是一种使用L1正则化的正则化方法;

4) 如果一组预测变量高度相关,lasso 回归将选择其中一个因子并将其他因子缩小为零。

14) ElasticNet 回归

弹性网

回归是套索回归和岭回归的组合。它预先使用 L1 和 L2 作为正则化矩阵进行训练。当有多个相关特征时,Elastic-net

会有用的。岭回归一般随机选择其中一个特征,而 Elastic-net

将选择其中两个。包含岭回归和套索回归的一个明显优势是,ElasticNet 回归可以继承环状态下岭回归的一些稳定性。

ElasticNet 回归亮点:

1)在变量高度相关的情况下,产生群体效应;

2)选择变量的数量没有限制;

3) 可承受双重收缩。

2.如何选择回归模型

当只知道一种或两种回归技术时,情况往往会更简单。然而,我们在处理问题时拥有??的选项越多,就越难选择正确的选项。类似的情况发生在回归模型中。

在掌握多元回归模型时,重要的是要根据自变量和因变量的类型、数据的维度以及数据的其他基本特征来选择最合适的技术。以下是选择正确的回归模型时要考虑的主要因素:

1) 数据探索是构建预测模型不可或缺的一部分。在选择合适的模型之前应首先执行此步骤,例如识别变量的关系和影响。

2)比较不同模型的拟合优势,可以分析不同的指标参数,如统计显着性参数、R-square、adjustment

R-square、AIC、BIC 和误差项,另一个是 Mallows' Cp

指导方针。这主要是通过将所选模型与所有可能的子模型(或精心挑选的模型集)进行比较来检查可能的偏差。

3) 交叉验证是评估预测模型的最佳方式。使用这种方法,需要将数据集分成两份(一份用于训练,一份用于验证)。使用观察值和预测值之间的均方误差可以快速测量预测精度。

4)如果数据集中有多个混合变量,那么不应该选择自动模型选择方法,因为我们不愿意将所有变量同时放在同一个模型中。

5) 选择的回归技术还取决于您的目的。可能是一个不太强大的模型比一个高度统计显着的模型更容易实现。

6)回归正则化方法(Lasso、Ridge 和 ElasticNet)在高维数据和数据集变量之间存在多重共线性的情况下效果很好。

诊断回归分析结果

为了理解、解释和预测问题,我们进行回归分析。但实际上,选择一组好的自变量并不是那么容易。通常,我们会根据一些常识、理论基础、一些研究、专家意见、参考文献等选择一组自变量,对自变量进行筛选。因此,我们需要诊断回归分析的质量——回归分析的结果诊断。

1. 自变量与因变量是否存在预期关系?

每个自变量都会有一个系数,系数有一个+/-符号来表示自变量和因变量之间的关系。从工具的报告中,我们看到系数有正有负,每个自变量应该是我们期望的关系。如果有一个非常不合逻辑的系数,我们应该考虑去掉它。

当然,有时可能会得出与常识不同的结论。比如我们研究森林火灾,我们通常认为雨量充沛的地区火灾发生率会比较低,也就是所谓的负相关,但是这个地区森林火灾频发的原因可能是雷击,所以降雨量的自变量可能不是常识中的负相关。

因此,除了验证自变量的系数是否与先验知识一致外,我们还继续与其他项目核对以继续诊断,从而得出更可靠的结论。

2. 自变量对模型有帮助吗?

自变量是否对模型有帮助意味着自变量是否显着。那么如何知道这些自变量是否显着呢?

如果自变量的系数为零(或非常接近于零),我们认为自变量对模型没有帮助,使用统计检验计算系数为零的概率。如果统计检验返回一个小概率值(p-value),则说明系数为零的概率很小。如果概率小于 0.05使用回归分析法可以预测销售额,则摘要报告上概率旁边的星号 (*) 表示相关自变量对模型非常重要。换句话说,它的系数在 95% 的置信度下具有统计显着性。

使用空间数据建模的关系在研究区域内存在差异是很常见的,并且这些关系的特点是不稳定。我们需要通过稳健的概率来了解自变量是否具有统计显着性。

3.残差有空间聚类吗?

残差应在空间中随机分布,不应聚集。这个检查我们可以使用空间自相关工具(Spatial Autocorrelation Tool)工具来检查。

4、模型是否有倾向

我们常说,不要看“有色眼镜”的人。同样,回归分析模型不应该有“偏见”,也不应该有倾向性,否则,这不是一个客观合理的模型。

我们都知道,正态分布是一种优秀的分布模型。如果我们正确地构建回归分析模型,模型的残差将符合完美的正态分布,其图形将是一个钟形曲线。

当模型有偏差时,有可能我们看到的图也很奇怪,以至于我们不能完全相信预测的结果。

5、自变量是否存在冗余

在我们的建模过程中,我们应该尽量选择代表不同方面的自变量,即尽量避免自变量传达相同或相似的信息。需要明确的是,引入冗余变量的模型不够可信。

6.评估模型的性能

最后需要做的是评估模型的性能。校正 R2 值是评价因变量建模的自变量的重要度量。

这个检查应该排在最后。一旦我们通过了之前的所有测试,我们就可以继续评估校正后的 R2 值。

R2 值介于 0 和 1 之间,以百分比表示。假设您正在对犯罪率进行建模,并找到一个通过了之前所有五项检查的模型,其已更正

R2 值为 0.65。这表明模型中的自变量表明犯罪率为 65%。在某些科学领域,23%的复杂现象可以被解释

这将是令人兴奋的。在其他领域,R2 值可能需要接近 80% 或 90% 才能引起注意。无论哪种方式,修正 R2 值将有助于我们判断模型的性能。

另一个有助于评估模型性能的重要诊断是修改后的 Akaike 信息准则/Akaike 信息

标准

(AIC)。AIC 值是比较多个模型的有用指标。例如,您可能想尝试使用几组不同的自变量来模拟学生的分数。在一个模型中仅使用人口统计变量,并在另一个模型中选择有关学校和教室的变量,例如每个学生的支出和师生比例。只要被比较的所有模型的因变量(在本例中为学生考试成绩)相同,我们就可以使用

AIC 值决定了哪一个表现更好。模型的 AIC 值越小,越适合观测数据。

回归设计常用软件

目前,有许多统计软件用于回归设计。无论是回归方案的设计,还是实验数据处理和回归设计结果的应用分析,都有相应的软件支持,或者自编自用的专业软件,或者有各种商业统计软件包,每一个有自己的特点。为了便于更好地应用回归设计,这里简单介绍一下选择或评价统计软件的基本思路,以及回归设计常用的几种统计软件,以方便相关人员的选用。

一、统计软件选用原则

在选择或评估统计软件时,应考虑以下几个方面:

1) 可用性

如果一个软件能够为用户提供良好的用户界面、灵活的处理方法和简洁的语句或命令,则称该软件具有高可用性。随着统计软件易用性的不断提高,许多统计软件的语法规则简洁、灵活、易学易用,非常受欢迎。

2) 数据管理

数据录入、验证、修改、转换和选择统称为数据管理。像SAS这样的好软件(

统计分析系统),SPSS(社会统计软件包

Science) 等数据管理功能与流行的数据库软件类似。建立了统计软件和数据库软件的接口,使数据管理不断深化,使用起来非常方便。

3) 文件管理

数据文件、程序文件、结果文件等一些文件的建立、访问、修改和合并统称为文件管理。它的功能越强大,操作就越简单方便。因为操作系统本身具有强大的文件管理功能。因此,直接从统计软件调用操作系统命令可以大大增强其文件管理能力。现在好的统计软件设计了这样的调用指令。

4) 统计分析

统计分析是统计软件的核心。用于统计分析方法的计算机程序的数量和种类决定了数据处理的深度。一些软件,如SAS、BMDP(

生物医学计算机

程序)等。包括的分析过程足以满足科学研究和管理的需要。由于统计量和参数估计方法等的选择,用户往往希望在统计分析过程中提供尽可能多的选项,这样可以提高统计分析的灵活性和深度。

5) 容量

尽管处理的数据量与计算机硬件直接相关,但软件设计和编程技能仍然发挥着重要作用。好的软件可以在一定程度上弥补硬件的不足,而低级的软件则会浪费好的硬件配置。一般来说,统计软件应该能够同时对不少于10个变量的至少数千个数据点进行分析、综合、比较和预测。

2.SAS软件系统

SAS软件系统是美国SAS研究所在1970年代开发的。SAS软件是用于决策支持的大型综合信息系统,但该软件系统最早的功能仅限于统计分析;到目前为止,统计分析功能仍然是其重要的模块和核心功能。SAS已遍布全球,其重要应用领域涵盖政府经济决策和企业决策支持应用等,使用单位在金融、医药卫生、生产、交通、通信、科研、政府和教育;在数据处理和统计分析领域,SAS系统被誉为统计软件领域的巨人。

SAS

它是一个模块化、集成化的大型应用软件系统。它由数十个专业模块组成,功能包括数据访问、数据存储和管理、应用程序开发、图形处理、数据分析、报告准备、运筹学方法、计量经济学和预测等。

SAS系统基本上可以分为四个部分:SAS数据库部分;SAS分析核心;SAS 开发和演示工具;SAS支持分布式处理模式及其数据仓库设计。

SAS系统主要完成四个以数据为中心的任务:数据访问;数据管理; 数据呈现;数据分析。

SAS

它是从大型机系统发展而来的,其核心运行模式是程序驱动。经过多年的发展,现已成为一门完整的计算机语言,其用户界面也充分体现了这一特点:采用MDI

(多文档界面),用户在PGM窗口输入程序,分析结果以文本形式在OUTPUT窗口输出。使用程序化方法,用户可以完成所有需要完成的工作,包括统计分析、预测、建模和模拟抽样。但是,这使得初学者在使用 SAS 时很难学习 SAS 语言。

3.Excel软件

在回归设计的实践中,一些计算机软件可以解决多元回归分析的问题,但往往数据的输入和软件的操作都需要专门的培训。Excel软件为求解回归分析提供了非常方便的操作流程,目前几乎每台电脑上都安装了Excel软件。

Excel 是用于商业、科学和工程计算的数据分析软件。它的主要优点是具有强大的数据分析、计算和汇总功能。除了众多功能外,Excel先进的数据分析工具还提供了更深入、更实用、更有针对性的各种业务和科研分析功能。高级数据分析工具专注于 Excel 中最重要和最有用的部分。它的分析工具集中在Excel主菜单中的“工具”子菜单中,回归分析就是其中之一。

Excel以电子表格的形式管理数据,所有的输入、访问、提取、处理、统计、模型计算和图形分析都是围绕电子表格进行的。

4.Statistica软件

Statistica 是 Statsoft 开发的用于技术和工业统计的大型软件包。除了常规的统计分析功能外,还包括因子分析、质量控制、过程分析、回归设计等模块。使用其回归设计模块,可以进行回归正交设计、正交旋转组合设计、正交多项式回归设计、A最优和D最优设计。该软件包还可以进行统计测试、误差分析、测试水平估计和各种统计图表、曲线和曲面分析计算测试结果。

5.SPSS软件

SPSS是世界上第一个采用图形菜单驱动界面的统计软件。它最大的特点是操作界面极其友好,输出结果美观。它以统一、标准化的界面显示几乎所有功能,使用Windows窗口显示各种管理和数据分析方法的功能,并通过对话框显示各种功能选项。用户只要具备一定的Windows操作技能,精通统计分析原理,即可使用本软件为具体的科研工作服务。SPSS 使用类似的 EXCEL 表来输入和管理数据。数据接口更通用,可以方便地从其他数据库中读取数据。其统计过程包括常用和比较成熟的统计过程,能充分满足非统计专业人士的工作需要。输出结果非常漂亮,并且以专用的SPO格式存储,可以转成HTML格式和文本格式。对于熟悉旧版编程操作的用户,SPSS还专门设计了语法生成窗口。用户只需选择菜单中的每个选项,然后按“粘贴”按钮即可自动生成标准的SPSS程序。对于中高级用户来说非常方便。SPSS还专门设计了一个语法生成窗口。用户只需选择菜单中的每个选项,然后按“粘贴”按钮即可自动生成标准的SPSS程序。对于中高级用户来说非常方便。SPSS还专门设计了一个语法生成窗口。用户只需选择菜单中的每个选项,然后按“粘贴”按钮即可自动生成标准的SPSS程序。对于中高级用户来说非常方便。

6.R软件

R语言被广泛应用于统计领域,它是S语言的一个分支,诞生于1980年左右。R语言是S语言的一种实现。S 语言是由 AT&T 贝尔实验室开发的一种解释语言,用于数据探索、统计分析和绘图。

R 是一套完整的数据处理、计算和绘图软件系统。其功能包括:数据存储和处理系统;数组运算工具(在向量和矩阵运算方面特别强大);完整和连贯的统计分析工具;出色的统计图表功能;简单而强大的编程语言:可以操作数据的输入和输入,可以实现分支、循环、用户自定义功能。

与其说 R 是一个统计软件,不如说 R 是一个数学计算环境,因为 R 不仅提供了许多统计程序,用户只需要指定一个数据库和一些参数即可执行统计分析。R 的想法是它可以提供一些集成的统计工具,但更重要的是它提供了数学和统计计算的各种功能,以便用户可以灵活地分析数据,甚至可以创建满足自己需求的新数据。统计计算方法。

R 是一个免费的免费软件,它有 UNIX、LINUX、MacOS 和 WINDOWS 版本,所有这些版本都可以免费下载和使用。R 安装程序、各种插件和文档可以从 R 主页下载。R 安装程序中仅包含 8 个基本模块,其他外部模块可通过 CRAN 获得。

学习资料

1. 书籍

1)《实用回归分析》(何晓群)

这本书从数据开始,而不是从假设和定理开始;来自归纳,而不是演绎;强调案例分析;强调统计思想的阐述,削弱数学证明的推导。

2)《应用多元统计分析》(高慧轩)

本书介绍了各种常用多元统计分析方法的统计背景和实际意义,阐述了该方法的统计思想、数学原理和解题步骤,并列举了各方面的应用实例。本书将多元统计方法的介绍与在计算机上实现这些方法的统计软件(SAS系统)相结合使用回归分析法可以预测销售额,使您不仅可以学习统计方法的理论知识,还可以知道如何解决实际问题。

另一视角

换一换