书签分享收藏举报版权申诉 / 57

立即下载加入VIP,免费下载

当前位置：首页 > 总结汇报 > 学习总结 > 数据挖掘-线性回归PPT课件.ppt

数据挖掘-线性回归PPT课件.ppt

文档编号：30839957
上传时间：2024-01-30
格式：PPT
页数：57
大小：1.75MB

数据挖掘-线性回归PPT课件.ppt

《数据挖掘-线性回归PPT课件.ppt》由会员分享，可在线阅读，更多相关《数据挖掘-线性回归PPT课件.ppt（57页珍藏版）》请在冰豆网上搜索。

数据挖掘-线性回归PPT课件.ppt

-,1,数据挖掘:

线性回归,王成（副教授）计算机科学与技术学院,主要内容,线性回归梯度下降算法线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归,有监督的机器学习过程,输出y,（贷款申请人信息）,（是否可以批准?

）,历史数据,学习算法,输出y,（是否可以批准?

）,学习算法,（贷款申请人信息）,不可知,假设（Hypothesis），由学习得到，是f的近似,机器学习的关键因素,1.模式存在2.但无法用数学方式确定下来3.有数据可供学习,有监督的机器学习过程,拟合数据点,拟合,拟合:

指已知某函数的若干离散函数值，通过调整该函数中若干待定系数，使得该函数与已知点集的差别最小如果待定函数是线性，就叫线性拟合或者线性回归,分类与回归,分类问题:

目标变量是离散值回归问题:

目标变量是连续值（数值预测）,“回归”是由达尔文的表兄弟弗朗西斯高尔顿爵士（SirFrancisGalton,1822-1911）发明的。

高尔顿于1877年完成了第一次回归预测，目的是根据上一代豌豆种子（双亲）的尺寸预测下一代豌豆种子的尺寸。

高尔顿在大量对象上应用了回归分析，包括人的身高。

他注意到，如果双亲的高度比平均高度高，他们的子女也倾向于比平均高度高，但尚不及双亲，孩子的高度向着平均高度回退（回归）。

尽管这个单词和数值预测没有任何关系，但这种研究方法仍被称为回归。

给定一套房屋的信息，如何预测其价格？

房屋信息:

（面积=100平,三室,两卫）,预测价格=0.8500*面积+0.0500*卧室数量+0.0015*卫生间数量,线性回归,设x0=1,x1,y,x2,这个方程称为回归方程，i称为回归系数或权重,房屋价格与其面积及卧室数量的统计数据,线性回归,y（i）表示第i个训练实例对应的目标变量值，m为实例数量；常数1/2是为了方便后续计算；,最小二乘（leastsquares）损失函数,线性回归,两条不同的拟合直线,线性回归,计算回归系数,主要内容,线性回归梯度下降算法线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归,梯度下降算法,梯度下降法（Gradientdescent）是一个最优化算法，通常也称为最速下降法。

1847年由著名的数学家柯西给出假设我们爬山，如果想最快上到山顶，那么我们应该从山势最陡的地方上山。

也就是山势变化最快的地方上山同样，如果从任意一点出发，需要最快搜索到函数最大值，那么我们也应该从函数变化最快的方向搜索函数变化最快的方向是函数的梯度方向,梯度下降算法,如果函数为一元函数，梯度就是该函数的导数,如果为二元函数，梯度定义为,梯度下降算法,要搜索极小值C点:

在A点必须向x增加方向搜索，此时与A点梯度方向相反；在B点必须向x减小方向搜索，此时与B点梯度方向相反。

总之，搜索极小值，必须向负梯度方向搜索。

梯度下降算法-步骤,假设函数只有一个极小点。

初始给定参数为。

从这个点如何搜索才能找到原函数的极小值点？

方法：

1.首先设定一个较小的正数，以及迭代次数k;,2.求当前位置处的各个偏导数：

3.修改当前函数的参数值，公式如下：

4.若参数变化量小于或已达迭代次数，退出；否则返回2,梯度下降算法-举例,例:

利用梯度下降法求函数的极小值,

（1）设,

（2）计算导数：

（3）计算当前导数值：

（4）修改当前参数：

（5）计算当前导数值：

（6）修改当前参数：

梯度下降算法-举例,（7）计算当前导数值：

（8）修改当前参数：

（9）计算当前导数值：

（10）修改当前参数：

（11）此时变化量满足终止条件，终止,梯度下降算法,其中称为学习速率，即每次“前进”的步长,梯度下降算法,简单起见，暂假设只有一个训练实例，则,对j求偏导时，仅jxj一项不为常数，因此求偏导的结果为xj,梯度下降算法,梯度下降算法,应用到不只一个训练实例的情况,梯度下降算法举例,0=0,1=0,2=0,h（x（i）=0,x0=1y

（1）=400,y

（2）=330,y（3）=369,y（4）=232,y（5）=540x1

（1）=2104,x1

（2）=1600,x1（3）=2400,x1（4）=1416,x1（5）=3000x2

（1）=3,x2

（2）=3,x2（3）=3,x2（4）=2,x2（5）=40=0+0.01（y

（1）-h（x

（1）x0

（1）+.+（y（5）-h（x（5）x0（5）1=0+0.01（y

（1）-h（x

（1）x1

（1）+.+（y（5）-h（x（5）x1（5）2=0+0.01（y

（1）-h（x

（1）x2

（1）+.+（y（5）-h（x（5）x2（5）,x1,y,x2,随机梯度下降算法,批量梯度下降算法每一步都要考虑整个数据集以计算梯度，这在数据集较大时计算成本很高另一种可选的方案是一次仅用一个样本来更新回归系数，该方法称为随机梯度下降算法（Stochasticgradientdescent）,值的选择,过大容易“越过”极值点，导致不收敛，过小则收敛速度慢随着迭代次数的增加，一般要慢慢减小（直观上，一开始前进快点，然后放慢速度）,梯度下降算法,主要内容,线性回归梯度下降算法线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归,矩阵解法,对于m*n矩阵A，定义关于A的函数f的梯度:

例如，,其中第（i,j）个元素为,矩阵解法,n*n矩阵A的迹（trace）定义为A的主对角上元素之和，记为trA,若a是一实数，即一个1x1矩阵，则tra=a,性质:

迹可理解为一个应用在A上的函数f（A）=tr（A）,矩阵解法,输入矩阵（m*（n+1）维）:

目标变量值向量（m维）:

在房屋价格预测例子中，x1为“面积”属性，x2为“卧室数量”属性，x1

（1）为第1个样本的面积，x2

（1）为第1个样本的卧室数量，x1

（2）为第2个样本的面积，x2

（2）为第2个样本的卧室数量，共m个样本，每个属性有n个属性,在房屋价格预测例子中，y

（1）为第1个样本的报价，y

（2）为第2个样本的报价，共m个样本,假设共有m个训练样本，每个样本有n个属性,矩阵解法,矩阵解法,为最小化J，计算J的梯度,X是m（n+1）维,=一个数,矩阵解法,若a为一实数，则tra=a,矩阵解法,矩阵解法,矩阵解法,主要内容,线性回归梯度下降算法线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归,最小二乘的概率解释,为什么最小二乘代价函数J是一个合理的选择？

最小二乘的概率解释,假设目标变量和输入的关系可表示为：

其中（i）表示线性模型与目标值的误差。

例如样本的某属性和房价预测相关，但却没有被考虑进来；或随机噪音。

最小二乘的概率解释,假设误差（i）独立同分布（IID,IndependentandIdenticalDistribution），并服从正态分布：

中心极限定理:

若一随机变量受大量微小独立的随机因素影响，其中每个个别随机变量对于总和的作用都是微小的，那么作为总和的随机变量的分布就会逼近于正态分布。

因此，（i）的概率密度：

最小二乘的概率解释,给定输入矩阵X（每i行为第i个样本的特征向量）和参数，可得到似然（likelihood）函数:

m为样本总数，（i）上标表示第（i）个样本,最大似然法，也叫极大似然估计,最小二乘的概率解释,最小化,最小二乘的概率解释,基于前面的概率假设（IID，正态分布），最小二乘回归相当于寻找最大化似然函数的。

因此，最小二乘回归可被证明是一种非常自然的选择。

主要内容,线性回归梯度下降算法线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归,局部加权线性回归,使用更多合适的特征，例如y=0+1x+2x2可能可以拟合得更好,考虑对数据集进行线性拟合得到线性模型y=0+1x,数据点不在一条直线上，用线性模型拟合的并不好,局部加权线性回归,但也可能导致过拟合，例如上图为y=0+1x+.+5x5的拟合结果,考虑对数据集进行线性拟合得到线性模型y=0+1x,数据点不在一条直线上，用线性模型拟合的并不好,局部加权线性回归,局部加权线性回归（LWLR,Locallyweightedlinearregression）:

越靠近待预测点的训练样本，对预测结果的影响越大，越远离待预测点的训练样本，对预测结果的影响越小。

只关注位于待预测点附近的样本点（即“局部”的含义）,给每个训练样本赋予一个权重w（i），训练样本点离待预测点越近，w（i）越趋于1训练样本点离待预测点越远，w（i）越趋于0,局部加权线性回归,直观的理解，局部加权线性回归在给定待预测点时，对其附近的点进行训练得到局部线性模型，并用于预测,局部加权线性回归,直观的理解，局部加权线性回归在给定待预测点时，对其附近的点进行训练得到局部线性模型，并用于预测,局部加权线性回归,直观的理解，局部加权线性回归在给定待预测点时，对其附近的点进行训练得到局部线性模型，并用于预测,局部加权线性回归,权重向量,权重的计算,一种合适的权重计算公式为,其中x为待预测点，x（i）为第i个样本点,若x（i）离x较近，则w（i）趋于1若x（i）离x较远，则w（i）趋于0,x,w（i）,x（i）,x（i）,w（i）,为波长参数，值越小，图形越尖,权重的计算,考虑到x为多维特征向量，w（i）的计算公式可改为,局部加权线性回归,优点：

相比线性回归，特征选择的重要性不那么大；每次预测都要重新学习计算权值和参数，对数据的自适应能力更强；,缺点：

每次预测都要重新学习计算权值和参数，计算量大；,谢谢！