不用拟合效果非常差,但似乎这个回归线也尽力了 不做数学分析,肉眼也可以看出,这条回归线的拟合效果很差,但看起来这条回归线是“尽力而为”,也只能拟合到这个程度(根据平方差损失函数)。为了量化这个问题,我们需要引入相关系数R 注意上面提到的决定系数R^2的区分和理解。决定系数用来判断回归方程的拟合程度,表示拟合的直线在多大程度上能反映Y的波动。 统计学中有一个类似的概念,叫做相关系数R(学名是皮尔逊相关系数,因为这不是唯一的相关系数,而是最常见也是最常用的一种),用来表示X和Y为两个随机变量的线性相关程度,取值范围为[-1, 1]。 1. 当R=1,说明X和Y完全正相关,即可以用一条直线,把所有样本点(x,y)都串起来,且斜率为正 2. 当R=-1,说明完全负相关,及可以用一条斜率为负的直线把所有点串起来 3. 如果在R=0,则说明X和Y没有线性关系,注意,是没有线性关系,说不定有其他关系(例如非线性关系) 这告诉我们,如果我们遇到这种情况,也就是我们使用线性回归发现我们无法很好地拟合我们的训练样本。这个时候,其实有两种可能 1. 我们的特征工程有问题,选错了一个和目标值Y不相关或相关性很差的特征X 2. 特征X选对了,但是X和Y是非线性关系,强行用线性回归自然无法得到好的结果 在建模之前,我们需要对自己的业务场景有充分的了解,根据实际业务场景中的数据规律,选择合适的拟合模型 相关链接: http://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html#sphx-glr-auto-examples-linear-model-plot-ols-py http://www.jianshu.com/p/fcd220697182 http://studyai.site/2016/07/22/%E6%96%AF%E5%9D%A6%E7%A6%8F%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E8%AF%BE%E7%A8%8B%20%E7%AC%AC%E4%B8%80%E5%91%A8%20(4)%E4%B8%80%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92/ https://baike.baidu.com/item/%E4%B8%80%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E9%A2%84%E6%B5%8B%E6%B3%95 0x3:对多元线性回归的扩展 将上面的单变量示例扩展到多变量情况。多元线性回归模型 在实际的经济问题中,一个变量往往受到多个变量的影响,有时很难区分几个影响因素的主次因素,或者有些因素是次要的,但它们的作用不容忽视。例如,家庭消费支出除受家庭可支配收入的影响外,还受到家庭财富、物价水平、金融机构存款利息等多种因素的影响。在拟合此类复杂问题时,我们需要使用多元线性函数 多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析 1.多元线性模型的数学公式 假设解释变量 具有多个解释变量 它们之间存在如下线性关系(即对变量X满足如下多元线性函数),则X与Y的关系构成多元线性回归模型 在 是解释变量, 为了 一个解释变量, 为了 未知参数, 是一个随机误差项。可以看出,多元线性函数实际上是许多单变量线性函数的线性组合。 为了 小组观察 ,其方程为: 这是 其矩阵形式为 = + 这是: 在 是被解释变量的观测值向量; 是解释变量的观测值矩阵; 是整体回归参数向量; 是随机误差项向量。 整体回归方程表示为: 2.回归变量的选择和逐步回归——在构建多元线性回归模型之前如何做特征工程 有时,当我们在构建多元线性模型进行预测时,遇到不好的结果时,我们可能会盲目地增加 X 的数量。可能碰巧增加的一些X是与Y高度相关的X特征,所以拟合和预测效果都提高了。我们误以为自己做对了,暗自高兴,但实际上可能会浪费大量的计算资源。实际上,只需添加几个有限的功能 X 即可达到相同的效果。 在建立多元回归模型时,为了保证回归模型具有优良的解释能力和预测效果,首先要注意自变量的选择。标准是: (1) 自变量对因变量必须有显著的影响,并呈密切的线性相关(相关系数R值较大); (2) 自变量与因变量之间的线性相关必须是真实的,而不是形式上的,这就要求我们在建模前对业务场景有充分的了解。这里举一个例子来说明,也许在训练集中,天气的情况和你这个月的收入正好呈现强正相关,但这也许只是样本量不足带来的一种假象,事实上是不符合真实规律的; (3) 自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之因的相关程度,这条准则意思是特征自变量之间最好不要存在太多的冗余关系,当出现冗余时可以考虑降维处理(例如PCA); (4) 自变量应具有完整的统计数据,其预测值容易确定 在实际问题中,影响因变量Y的因素(自变量)很多,我们希望选择影响显着的自变量建立回归关系,这就涉及到自变量选择问题。 如果在回归方程中省略了对 Y 有显着影响的自变量,则建立的回归方程在用于预测时会有很大的偏差。但是,如果回归公式中包含的变量太多,其中一些对Y影响不大,显然这样的回归公式不仅使用不便,而且影响预测的准确性。因此,选择合适的变量来建立“最优”回归方程是非常重要的。 用于选择“最佳”子集的变量(特征)筛选方法包括 1. 逐步回归法(Stepwise) 2. 向前引入法(Forward) 3. 向后剔除法(Backwad) 1.前向介绍 前向引入法从只包含常数项的回归方程开始,将自变量一一引入回归方程。具体来说,首先在m个自变量中选择一个与因变量线性关系最接近的变量(使用X和Y的相关系数R),记为 ,然后在剩下的m-1个自变量中,再选一个 , 以便 组合二元回归效果最好,第三步在剩下的m-2个自变量中选择一个变量 , 以便 组合回归效果最好,依此类推,直到你得到“最佳”回归方程。 前向引入方法中的终止条件是,给定显着性水平 ,当检查要引入的变量的回归系数之一的显着性时,如果 p 值 (即改善幅度小于某个阈值),引入变量的过程结束,得到的方程就是“最优”回归方程。 前向引入法有一个明显的缺点,即后续变量的选择可能会使之前选择的自变量变得不重要,因为各个变量之间可能存在关系。这样最终的“最优”回归方程可以包含一些对Y影响不大的自变量。冗余的可能性 2. 向后剔除 后向消除法与前向引入法正好相反。首先将所有m个自变量引入回归方程,然后将对因变量Y影响不显着的自变量一一剔除。具体来说,从回归公式的m个自变量中,选择一个对Y贡献最小的自变量,比如 ,将其从回归方程中移除;然后重新计算Y的回归方程和剩下的m-1个自变量,然后去掉一个贡献最小的自变量,比如 ,依此类推,直到得到“最优”回归方程。 后向消除法中的终止条件与前向引入法类??似。也就是说,直到减少的幅度小于某个阈值,才指示收敛。 后向剔除法的缺点是,先前剔除的变量可能会因后续剔除变量而成为相对重要的变量,从而在最终的“最优”回归方程中可能遗漏相对重要的变量。 3.逐步回归 前向引入法和后向消除法的缺点原因已经很清楚了。自然,我们会想到找到一种动态对账方法来综合利用这两种技术。逐步回归法应运而生。逐步回归法是上述两种方法的结合。在正向导入中选择的变量将始终保留在方程中。在反向消除方法中消除的变量将始终被排除。在某些情况下,这两个方程都可能给出不合理的结果。因此,可以考虑在引入新变量后,当其作用变得微不足道时,可以将所选变量删除;当引入新变量时,当其角色变得重要时使用回归分析法可以预测销售额,可以删除已删除的变量。, 它也可以重新选择到回归方程中。这种以前向引入法为基础,变量可以进出的筛选变量的方法,称为逐步回归法。 逐个引入自变量。每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中既不漏掉对Y影响显著的变量,又不包含对Y影响不显著的变量 3.根据训练样本(观测数据)推断多元线性模型的参数——最大似然估计的思想 多元线性回归模型包含多个解释变量,多个解释变量同时影响被解释变量。 发生,以检查解释变量之一对 必须假设其他解释变量保持不变来分析效果。因此,多元线性回归模型中的回归系数为偏回归系数,即反映在模型中其他变量不变的情况下,其中一个解释变量对因变量有影响。 均值的影响。 由于参数 是未知的,可以使用样本观察 估计他们。如果计算的参数估计是 ,用参数估计值替换总体回归函数的未知参数 ,则得到多元线性样本回归方程: 。在 是参数估计, 为了 样本回归值或样本拟合值、样本估计值 其矩阵表达式为: 在 是拟合值的列向量; 为了 顺序样本观察矩阵; 为了 阶参数估计的列向量 4、如何评价多元线性模型下的拟合度?1. 残差平方估计 与单变量线性回归一样,最小二乘估计也可用于获得多变量情况下拟合值与实际值之间的差异。 观察 与回归值 残差 为了: 从训练样本估计的参数估计值通过最小二乘法已知 应该做所有的观察 与回归值 残差 平方和最小,即使 得到最小值。根据多元函数的极值原理, 分别 求一阶偏导数并使其等于零,即 这是 化简得到下列方程组 (3.3) 以上 这些方程称为正规方程,它们的矩阵形式为 因为 和 认为 是参数估计的向量 根据上式使用回归分析法可以预测销售额,可以得到正规方程组: 2.决定系数R2 与单变量线性回归中的决定系数r2相对应,在多元线性回归中也存在多个决定系数r2,即回归方程解释的变化量(回归平方和)在总变化量中的比例因变量,R2值越大,每对样本数据点的拟合度越强,所有自变量与因变量的关系越密切。计算公式为: 分母表示实际值与实际均值的残差平方和,分子表示拟合值与实际均值的残差平方和 3. 估计标准误 估计的标准误差,即因变量y的实际值和回归方程得到的估计值 之间的标准误差,估计的标准误差越小,回归方程的拟合越好 其中,k为多元线性回归方程中自变量的个数。除此之外,还有显着性检验、F检验等,性质类似。它们都用于评估拟合值与真实值之间的差异程度。我不会在这里一一列出。 注意多重共线性问题 多重共线性是指在多元线性回归方程中,自变量之间存在很强的线性关系。如果这种关系超过因变量和自变量之间的线性关系,就会破坏回归模型的稳定性,估计回归系数。不准确。需要指出的是,在多元回归模型中,多重共线性是不可避免的,只要多重共线性不太严重即可。为了判断多元线性回归方程中是否存在严重的多重共线性,可以分别计算每两个自变量之间的决定系数r2。如果r2>R2或接近R2,尽量减少多线性的影响 减少多重共线性的主要方法是对自变量的值进行转换,例如 1. 变绝对数为相对数或平均数 2. 或者更换其他的自变量 相关链接: |
另一视角
换一换- 微信客户服务平台(微信诞生于哪一年)
- 北京整体喷砂机械厂家排名并附上它们的简要介绍
- 创业分析和综合分析一样吗?(不同概念的不同场景)
- ppp项目贷款怎么申请和审批?
- 360贷款投诉电话大全(快速解决贷款问题,让你安心借款)
- 2023元旦高速公路有免费吗?
- 现在的取暖煤真的降价了吗?
- 煤炭价格下月能降下来吗?
- 煤炭价格为什么会爆涨?
- 我们这边现在一吨自己烧锅炉的1400—1800元了,你们那里多少钱啊
- 美元在国际贸易中的关键作用及其对全球经济的影响
- 广东又开始限电了,是不是制造业产能过剩了?
- mg通胀连续超记录之后,还会怎么走?
- 欧盟提出应对气候变化一揽子计划,企业和消费者将受到哪些影响?
- 苏伊士运河被堵事件分析
- 苏伊士运河被堵,长荣公司预计赔多少钱?
- 为什么日本作为发达国家,日元却这么不值钱?
- 澳大利亚铜精矿出口暴跌80%,澳企还能顶得住吗?
- 听说在新西兰居住超过10年,到65岁就可以领取退休金对吗?
- 俄罗斯真的有全民免费医疗吗?
- 含税和不含税价格下税款计算方法详解及实例
- 京东白条逾期一天会影响征信吗?如何有效处理?
- 京东金条借款失败原因及解决办法:额度、征信与频繁借贷
- 微信微粒贷详解:不属于传统网贷的数字信贷产品特性与优势
- 共同借款人连带责任与追偿权详解及应对策略
- 父母房屋抵押贷款是否查子女征信,如何确定影响因素与应对策略
- 2024年五大负债高也能通过的网贷平台推荐,快速借款无压力
- 2024年五大不查征信网贷平台推荐,适合征信不良者的贷款选择
- 2024年五大不查征信的网贷平台推荐及快速审核指南
- 五大快速到账的网贷平台推荐,简单申请、秒审核、高通过率借款
- 网贷逾期一年多,没人催收也没被起诉?
- P2P里的借方都可以不还钱了吗?为何不归为“失信”人?
- 如果网贷全面取缔来临,出借人和借款人,哪一个最受益?
- 卢志强从未投资团贷网 22万出借人觉得呢?
- 有多少人受了P2P的亏?有多少人投进去的钱拿不回来的?
- 手机hao被盗用,申请网贷,金融机构找我追款,怎么处理?
- 平台进行协商后要求借款者只还本金,不还征信会受到影响吗?
- 借了网贷钱后,还款也有套路?
- 欠了一大笔网贷,即将全面逾期,应该如何度过这个时期?
- 网贷逾期后,这个还款协议千万不能签!否则这辈子别想还清知道吗
- 创业板市场概述和开通创业板的条件介绍
- 深圳低佣金炒股开户方法
- 十大证券公司,哪个开户佣金费率最低?
- 新手小白玩股票怎么开户?
- 北京证券交易所做市交易业务详解
- 2023年全面注册制交易规则及其影响
- 股票坐轿子与抬轿子解析
- 可转债解析:兼具债权与股权的投资品种
- 招商银行网上银行官网(如何在网上开通招商银行的电子银行)
- 12378网贷协商还款有用吗(12378协商还款技巧)
- 是高市净率好还是低市净率好?
- 为什么最近很多人买基金都亏了?
- 基金都是牛市赚大钱,熊市亏大钱,为什么出现这样的情况?
- 为什么很多新基民喜欢买新基金?
- 首只ETF发行失败,基金募资失败或被清盘,投资者有哪些损失?
- 按照排行榜买基金,为什么总受伤?
- 100万用来买大盘基金,年收益用来当生活费,能不能做到一辈子不
- 投资者买基金时,买的是什么?
- “爆款基金”值得投资吗?
- 基金的表现,会均值回归吗?
- 如何看待那些把人民币兑换成美元现金放在家里的人?
- 今日人民币最新外汇牌价查询(2021年11月12号)
- 今日人民币最新外汇牌价查询(2021年11月11号)
- 今日人民币最新外汇牌价查询(2021年11月9号)
- usa的钱我们叫美元,那人民币走出国门,在国外叫什么?
- 今日人民币最新外汇牌价查询(2021年11月7号)
- 今日人民币最新外汇牌价查询(2021年11月6号)
- 今日人民币最新外汇牌价查询(2021年11月4号)
- 今日人民币最新外汇牌价查询(2021年11月2号)
- 今日人民币最新外汇牌价查询(2021年11月1号)
- 第24届冬奥会铜合金纪念币预约为何没有出现“秒杀”?
- 河南发现50吨特大金矿,对世界金价有影响吗?
- 个人储备较多黄金算违法吗?
- 可以把手里的闲钱买成黄金,来抵御货币贬值?
- 现货黄金行情分析软件下载后怎么做?
- 黄金典当和黄金回收,哪种方式好?
- Taper临近,滞胀担忧来袭,黄金真能翻身吗?
- 黄金现在跌到多少钱一克了?
- 非农数据“爆冷”,金价后续又将有怎样的走势?
- 2021年10月11号金店黄金价格今天多少一克?
- 2024元旦哪天是法定节假日呢英语 2024元旦是星期几
- 2023元旦高速收费吗现在 2023元旦为啥不免高速费
- 2023元旦农历日期 23年元旦时间
- 2023元旦哪天算加班呢视频 2023劳动节哪天算加班
- 2023元旦放假时间表图片大全 23年元旦假期安排
- 2023元旦海报宣传语图片 2023年元旦海报宣传语
- 2023元旦法定节假日是几天休息 2023法定节假日放假安排
- 2023元旦法定节假日是哪几天 2023年1月份国家法定假期几天
- 2023元旦节高速免费几天 2023年元旦免过路费吗
- 2024元旦要补班么 2024跨年是星期几
- 宝马金融贷款操作指南(详解宝马金融贷款流程)
- 夫妻两人每人月薪3000,工作稳定,小县城,能养的起比亚迪汉吗?
- 最近大雪,很多电动汽车都开不了了,电动汽车的发展之路是不是还
- 网友都说小米汽车以后会超越特斯拉,在技术上有实现的可能性吗?
- 特斯拉生产供应链基本都靠中国,为什么我们不能成,特斯拉能成?
- 汽车传感器市场分析,国产机会如何?
- 大家聊聊今年汽车行业市场行业现状与趋势?
- 存一万给一辆电动车,银行为什么那么大方?
- 为什么有那么多人骑电动车上班?
- 你觉得自动驾驶的前景如何?
- 中国城市GDP排名2020年排行榜-2020全国GDP省份排名一览表
- 2020年中国区块链企业百强榜
- 2019年全球银行千强排名,中国包揽前四,总利润3120亿美元
- 华尔街金融巨头有哪些?华尔街十大金融巨头排名排行榜
- 法国各大银行排名排行榜:法国巴黎银行排第二,第一名成立最早
- 德国银行排名排行榜:德国商业银行登榜,第一名德意志银行
- 巴西各大银行排名排行榜:巴西哪家银行最好?巴西银行仅第三
- 加拿大银行排名排行榜:皇家银行第一 历史最悠久的排名第四
- 2020全球500强排名排行榜完整版 世界五百强排名一览表
- 2020福布斯全球最新富豪排名排行榜 杰夫·贝佐斯位居世界首富第
- borrow borrow是什么意思
- 磁力搜索引擎是什么 什么叫“磁力搜索”
- 魔兽怀旧服金币交易平台5173 魔兽世界亚服怎么卖金
- 秋田犬币怎么样 什么是柴犬币
- tokenpocket下载 tokenpocket怎么使用
- 日币换人民币汇率计算器 nt换算rmb计算器
- 美元未来可能一路暴跌2022 2023年金价最便宜是多少
- 比特币最全历史价格明细 比特币历史最高价格是多少美元
- implication 硕士论文中最后一章“implication”是什么意思
- kitty磁力猫 磁力猫手机app