线性最小二乘问题_线性最小二乘法-程序员宅基地

技术标签： c++ 非线性优化

线性最小二乘问题

线性最小二乘是一种求解线性系统参数的方法，即参数估计的方法。它的特点有：

需要已知参数与观察量之间的线性函数关系
存在多余观测

线性最小二乘原理

线性关系

对于一个参数估计问题，我们往往不能直接获得想要的参数值，需要通过间接观测的方式去反向求解。
例如：

为了确定一辆车的平均速度，我们不能直接测量得到，我们是间接的借助单位时间内的路程，以及时间来反算速度。
为了获得我在世界上的GPS位置，我们总是间接的借助卫星的位置，以及卫星到我们的距离来推算我们当前的位置。

可以看到很多很多问题不是我们可以直接测量的，再例如，我们想知道一个相机它的焦距，畸变参数，我们难以直接拿仪器测量，我们总是建立我们想要求解的参数X与我们易于观测量Y之间的函数关系：
$F (X) = Y$
通过已知的Y和已知的函数关系f(x)，反推出X的值。
当我们的已知这个函数关系是线性的时候，我们可以简化为：
$A X = Y$
其中A是参数X与观测Y之间的线性函数关系（线性运算（乘和加）可以由矩阵A表示）。

因此，为了求解我们想要的参数，我们已知观测Y和线性关系A，就可以求解待求参数X啦。

理解多余观测

当我们有了线性关系，在测量足够的情况下，我们就可以求解出参数X。
如：求解一个条直线的参数k和b：

$A X = Y$

$\begin{bmatrix} y_0 \\ y_1 \\ \end{bmatrix} = \begin{bmatrix}x_0 & 1 \\ x_1 & 1\\ \end{bmatrix} * \begin{bmatrix} k \\ b \\ \end{bmatrix}$

其中
$X对应\begin{bmatrix} k \\ b \\ \end{bmatrix}$
$A对应\begin{bmatrix}x_0 & 1 \\ x_1 & 1\\ \end{bmatrix}$
$Y对应\begin{bmatrix} y_0 \\ y_1 \\ \end{bmatrix}$

当然我们知道只需要两组x和y就可以通过矩阵求逆求出k和b了，X = A-1*Y。但这未免也太简陋了，如果我们有3组，4组甚至10组x,y，我们该怎么求解k,b呢？如果我们使用给用更多组的x，y我们求得的k和b是不是更加准确。
我们将“除了能唯一确定某个几何或物理模型的t个必要观测之外的其余观测值”称为多余观测。针对上述问题，多余两组的x，y都是多余观测。

当存在多余观测时，我们就不能像之前那样对矩阵A求逆了，那怎么求更准确的k和b呢？
这时候我们就可以借助最小二乘来求解存在多余观测的问题。

理解残差

在我们利用最小二乘来求解存在多余观测的问题之前，我们先介绍残差，它能更好的帮助我们理解最小二乘的原理。

接着上面的例子将，当我存在多组x,y时，它们并不会乖乖的向我们设想那样，总在一条直线上，它们可能是这种形式：
在这里插入图片描述
即近似的成一条直线，为啥出现近似而非一定呢，这个时候我们就需要介绍更一般（泛）的概念了，我们必须假设我们的到的观测是一个随机变量，例如，（你每次拿勺子喝汤，你能够保证每次摇到的汤重量一致吗，你只能把这个过程建模成一个随机过程，即每一次摇到的汤或多或少，它们呈现某种分布，例如高斯分布），对于上述问题也是一样，我们得到的x和y，可能并不一定服从某个k和b，而是大致服从某个k和b。也就是上述图形。由于随机误差的存在，我们可能永远不能得到准确的k，b。但我们可以基于已有的所有数据（包括多余观测）算出一个最优的，最能符合观测的k，b。这才是我们想要求得的

为了求得所谓的最优，我们先介绍残差的概念。

残差的公式可简写为：
$V = A X - Y$
在理想情况下：
$0 = A X - Y$
但在实际情况中，AX - Y并不等于0，我们定义另一个量V，来代表我们AX估计出的 $\hat Y$ 值与观测值Y之前的差。我们将它画在图上：
在这里插入图片描述
不能发现，观测量到其拟合直线之间的y值之差的绝对值，就是残差V的几何意义。

最小二乘的“最优”准则

在我们了解了残差V的几何意义之后，我们不难想象，如果令V最小，就可以确定一条较为准确的直线，如果令 $V||_2$ 即 $V^2$ ，最小，我们也可以确定一条较为准确的直线。我们将令 $V^2$ 最小作为求解准则的方法，称为最小二乘法（也很好理解，残差的二乘（平方）最小的方法–最小二乘法）。
我们这里介绍的最小二乘，可能看起来比较粗暴，有人会问为啥就不能使用|V|最小作为最优原则呢？
其实最小二乘是符合统计意义上的“最优”的，当我们假设观测量Y（随机变量）是正态分布时，为满足其成正太分布的条件，那它必须满足 $V^TV$ 最小。（即最小二乘估计与极大似然估计等价，详情见：https://blog.csdn.net/u013344884/article/details/79483705）
这时你可能有些模糊了，为了绕开晦涩的概念，你可以简单理解：
我们理论假设是观测值的残差是正太分布的。
为了让残差呈现正太分布，我们只需让 $V^TV$ 最小即可确保残差是呈现正太分布的。
因此，我们可以求使得 $V^TV$ 最小的参数，为符合最小二乘的最优参数。

最小二乘求解

方法1：求解法方程

线性方程组 $A x = b$ 的最小二乘问题一定有解，且求解最小二乘问题与求解线性方程组的法方程组等价。
推导：
$V = A X - Y$
$argmin V^TV$
则
$\frac{\partial^{}V^TV}{\partial X} =0$
（ $A$ 为超定矩阵， $A^TA$ 是方阵）
由二次凸优化的理论可知，当 $A^TA$ 正定 ( $A^TA$ (可逆)，正定一定可逆，可逆不一定正定)时， $V^TV$ 与参数X组成的函数是凸函数，存在全局最小值，其最小值在 $V^TV$ 对X求偏导等于0处。（即 $V^TV$ 组成二次型（y= $X^TAX$ +2βX+c），如果A正定，那么y一定是凸函数，见https://wenku.baidu.com/view/fde33592a76e58fafab003a2.html）
二次凸函数：
在这里插入图片描述

对于线性最小二乘，只要 $A^TA$ 没有秩亏现象，（没有线性相关的情况）那线性最小二乘一定满足二次凸的性质（即其最小值在 $V^TV$ 对X求偏导等于0处）

$\frac{\partial^{}V^TV}{\partial X} =2V^TA=2(AX-Y)^TA=0$
则：
$A^T(AX-Y)=0$
$A^TAX-A^TY=0$
$X = (A^TA)^-A^TY$
当 $A^TA$ 正定 ¹ ( $A^TA$ (可逆))时，X的最小二乘估计值就是 $A^TA)^-A^TY$

这样我们就得到了最小二乘的解

用法方程组来求解最小二乘法可能会引出好多问题，我们提倡用QR分解来求解。

数值求法：QR分解

参考：https://blog.csdn.net/LCCFlccf/article/details/84875534
https://www.cnblogs.com/caimagic/p/12202884.html
在这里插入图片描述
将求解 $X = (A^TA)^-A^TY$ 的问题转化成求解矩阵A的QR分解矩阵的问题。
最终 $X = R^-Q^TY$

方法2：梯度下降

既然线性最小二乘问题是一个二次凸问题，那它一定是凸函数，这时候，梯度下降法就完全适合，通过迭代xi+1 = ▽+xi的方式，也可以求得一个非常好的解。

方法3：线性回归

线性回归也是通过迭代的方式一步步逼近参数最优值，它与梯度下降方式不同在于，梯度下降法的每一次迭代使用到了所有的观测，对所有观测一直迭代，直到最优，而线性回归根据现有观测，分批迭代，甚至是一个观测一个观测的迭代。

直接求逆的造成的损失是QR分解平方倍，见：
https://blog.csdn.net/weixin_46581517/article/details/105178304

只要A的列向量线性无关，则 $A^TA$ 正定则 $A^TA$ 可逆，见https://zhuanlan.zhihu.com/p/84223081 ︎

本文链接：https://blog.csdn.net/fb_help/article/details/108911164

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次，点赞7次，收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案，在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建：添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体，挺好看的。注重颜值的网站都会使用，例如知乎：font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--method将表单中的数据传送给服务器处理，get方式直接显示在url地址中，数据可以被缓存，且长度有限制；而post方式数据隐藏传输，_html表单的处理程序有那些

PHP设置谷歌验证器（Google Authenticator）实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证（即Google Authenticator服务）后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次，点赞5次，收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节，实现了多层数据的堆叠，为用户提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制（CoW）策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的，不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次，点赞27次，收藏13次。网络拓扑结构是指计算机网络中各组件（如计算机、服务器、打印机、路由器、交换机等设备）及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式，也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数，兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次，点赞5次，收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时，通常的做法是：new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的，而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠，也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑，需要做一些额外的特殊处理，笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数，一劳永逸，避免每次ne_date.prototype 将所有 ios