联系我们

AI 101.

什么是线性回归?

mm

更新

 on

什么是线性回归?

线性回归是用于预测或可视化的算法两个不同特征/变量之间的关系。在线性回归任务中,检测有两种变量:因变量和独立变量。独立变量是由其自身站立的变量,不会受到其他变量的影响。随着调整独立变量,依赖变量的级别将波动。从属变量是正在研究的变量,并且它是回归模型解决的是/尝试预测的。在线性回归任务中,每个观察/实例都包括从属变量值和自变量值。

这是对线性回归的快速解释,但是让我们确保通过查看它的示例并检查它使用的公式来更好地了解线性回归。

了解线性回归

假设我们有一个覆盖硬盘驱动器大小的数据集和那些硬盘的成本。

让我们假设我们拥有的数据集由两个不同的功能组成:内存量和成本。我们为计算机购买的内存越多,购买的成本就越多。如果我们绘制出散点图上的各个数据点,我们可能会获得一个看起来像这样的图形:

硬盘驱动器的制造商和模型之间的确切内存到成本比可能会有所不同,但通常,数据的趋势是左下角的趋势(硬盘驱动器均便宜并且容量较小)并移动右上方(驱动器更昂贵并且容量更高)。

如果我们在x轴上的内存量和y轴上的成本,则捕获x和y变量之间的关系的线将从左下角开始,然后运行到右上角。

回归模型的函数是确定最能描述两个变量之间的关系的X和Y变量之间的线性函数。在线性回归中,假设y可以从输入变量的某种组合计算。通过通过图中的点绘制线来描绘输入变量(x)和目标变量(y)之间的关系。该线表示最能描述X和Y之间的关系的功能(例如,对于每次x增加3,Y增加2)。目标是找到最佳的“回归线”,或最适合数据的线/函数。

线通常由等式表示:y = m * x + b。 x是指y是独立变量的依赖变量。同时,M是线的斜率,由“奔跑”的“崛起”所定义。 机器学习从业者使用这种等式代表着着名的斜线方程,而不是:

y(x)= w0 + w1 * x

在上面的等式中,y是目标变量,而“w”是模型的参数,输入是“x”。因此,等式被读取为:“给出y的函数,根据x,等于模型的参数乘以功能”。在训练期间调整模型的参数以获得最佳拟合回归线。

多元线性回归

Photo: Cbaf via Wikimedia Commons, Public Domain (//commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

上述过程适用于简单的线性回归,或者在仅存在单个特征/独立变量的数据集上的回归。但是,回归也可以用多个特征完成。如果是 ”多元线性回归“,该等式由数据集中的变量数延伸。换句话说,虽然常规线性回归的等式是y(x)= w0 + w1 * x,但是多元线性回归的等式将是y(x)= w0 + w1x1加上各种特征的权重和输入。如果我们代表W(n)x(n)的总重量和特征,那么我们可以代表如下所示:

Y(x)= w0 + w1x1 + w2x2 + ... + w(n)x(n)

在建立线性回归公式后,机器学习模型将对权重使用不同的值,绘制不同的拟合线。请记住,目标是找到最适合数据的线路,以便确定哪个可能的权重组合(以及因此哪种可能的线)最适合数据并解释变量之间的关系。

在给定特定权重值时,使用成本函数来测量假定的y值对实际y值的关闭。成本职能对于线性回归是平均平方误差,它只是在数据集中的所有各种数据点之间的预测值和真实值之间的平均(平方)误差。成本函数用于计算成本,其捕获预测目标值和真正目标值之间的差异。如果拟合线远离数据点,则成本将更高,而成本将变得越小,线路越越突出,以捕获变量之间的真实关系。然后调整模型的权重,直到找到产生最小误差量的权重配置。

Blogger和Programmer有专业的机器学习深度学习话题。丹尼尔希望帮助别人利用AI的力量来社交。