联系我们

AI 101

什么是线性回归?

mm

更新

 on

什么是线性回归?

线性回归是用于预测或可视化 两个不同特征/变量之间的关系 。 在 线性回归 任务中,要检查两种变量: 因变量和自变量。自变量是独立存在的变量,不受其他变量影响。随着自变量的调整,因变量的水平将波动。因变量是正在研究的变量,这是回归模型解决/试图预测的问题。在线性回归任务中,每个观察值/实例均包含因变量值和因变量值。

那是对线性回归的快速解释,但让我们通过查看线性回归的示例并检查其使用的公式,确保对线性回归有更好的了解。

了解线性回归

假设我们有一个涵盖硬盘驱动器大小和这些硬盘驱动器成本的数据集。

假设我们拥有的数据集包含两个不同的功能:内存量和成本。我们为计算机购买的内存越多,购买成本就越高。如果我们在散点图上绘制各个数据点,则可能会得到如下图所示的图形:

确切的内存成本比可能在硬盘制造商和型号之间有所不同,但通常,数据趋势是从左下角开始(硬盘既便宜又容量小)并向右上角(驱动器更昂贵,容量更大)。

如果我们在X轴上有足够的内存量,而在Y轴上有成本,那么捕获X和Y变量之间的关系的线将从左下角开始,然后延伸到右上角。

回归模型的功能是确定X和Y变量之间的线性函数,以最好地描述两个变量之间的关系。在线性回归中,假设可以根据输入变量的某种组合来计算Y。输入变量(X)与目标变量(Y)之间的关系可以通过在图中的点上画一条线来描绘。该行表示最能描述X和Y之间关系的函数(例如,每X增加3,Y增加2)。目的是找到一条最佳的“回归线”或最适合数据的线/函数。

线通常由以下等式表示:Y = m * X + b。 X是因变量,而Y是自变量。同时,m是直线的斜率,由“行程”上的“上升”定义。 机器学习 从业人员表示著名的斜率线方程式稍有不同,改用以下方程式:

y(x)= w0 + w1 * x

在上式中,y是目标变量,而“ w”是模型的参数,输入是“ x”。因此,该方程式表示为:“根据X给出Y的函数等于模型的参数乘以特征”。在训练期间调整模型的参数以获得最佳拟合回归线。

多元线性回归

Photo: Cbaf via Wikimedia Commons, Public Domain (//commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

上述过程适用于简单的线性回归,或仅存在单个特征/独立变量的数据集的回归。但是,也可以使用多个功能进行回归。如果是 ”多元线性回归”,则该方程式被数据集中发现的变量数所扩展。换句话说,虽然常规线性回归方程为y(x)= w0 + w1 * x,但多元线性回归方程为y(x)= w0 + w1x1加上各种特征的权重和输入。如果将权重和特征的总数表示为w(n)x(n),则可以将公式表示为:

y(x)= w0 + w1x1 + w2x2 +…+ w(n)x(n)

建立线性回归公式后,机器学习模型将使用不同的权重值,绘制不同的拟合线。请记住,目标是找到最适合数据的线,以确定哪种可能的权重组合(以及哪条可能的线)最适合数据,并解释变量之间的关系。

成本函数用于测量在给定特定权重值时假设Y值与实际Y值的接近程度。 成本函数 对于线性回归,是均方误差,它仅取数据集中所有各个数据点的预测值和真实值之间的平均(平方)误差。成本函数用于计算成本,该成本捕获预测目标值和真实目标值之间的差异。如果拟合线距离数据点较远,则成本将更高,而成本将随着线越接近捕获变量之间的真实关系而变得越小。然后调整模型的权重,直到找到产生最小误差的权重配置为止。

专门从事以下工作的Blogger和程序员 机器学习 深度学习 话题。 Daniel希望帮助他人将AI的力量用于社会公益。