饱和样条和特征选择Word文档格式.docx
- 文档编号:13809474
- 上传时间:2022-10-13
- 格式:DOCX
- 页数:25
- 大小:782.89KB
饱和样条和特征选择Word文档格式.docx
《饱和样条和特征选择Word文档格式.docx》由会员分享,可在线阅读,更多相关《饱和样条和特征选择Word文档格式.docx(25页珍藏版)》请在冰豆网上搜索。
在饱和样条坐标函数拟合广义相加模型[6]的背景下,我们还展示了我们方法的一个非常重要的好处:
饱和约束自然导致变量选择。
我们不仅通过结点选择来控制每个坐标函数的复杂性,而且在饱和条件下,变量上没有结点表示变量不在模型中。
对于自适应样条,这是不正确的,因为线性项是未被去除的,因此每个变量总是在模型中。
缺乏特征选择会伤害可解释性,并且在某些情况下会导致泛化。
我们提出的饱和约束排除了线性函数,并且与自适应样条型惩罚配合,鼓励坐标函数相同为零。
因此,广义相加模型适合于饱和样条组件函数通常仅依赖于少数输入特征。
像平滑样条曲线和自适应回归样条一样,饱和样条曲线是解决某些自然函数回归问题的方法。
我们将饱和样条拟合问题作为一个凸空问题上的凸优化问题来解决,粗略地说就是拟合函数的二阶导数。
据我们所知,这种方法是新颖的。
然后,我们将经典的条件梯度方法[7]和[8]应用于这个问题。
在我们算法的每次迭代中,都会产生一个原子量度;
此外,我们可以统一限制样条函数中结点个数对应的原子个数。
(当我们操纵原子测量时,我们在有限总变差的所有测量空间上解决问题。
)与标准坐标下降方法相反,在条件梯度方法的每次迭代中,调整两个结点的权重。
在完全校正步骤中,我们用和简单的线性约束来求解有限维凸优化问题。
数值实验表明该方法在实际中非常有效。
我们的优化方法可以利用热启动,即它可以对拟合函数使用初始猜测。
这使我们能够有效地计算整个正则化路径,其代价通常只是解决正则化参数的一个值的问题的一小部分。
由于我们的算法是基于条件梯度法,我们可以使用[9]的框架来计算一个可证明的次优近似正则化路径。
当拟合广义相加模型时,正则化路径具有吸引人的特征:
在正则化参数的临界值处,新的回归因子被带入(或偶尔出于)模型,或新的结点被添加到(或从中删除)的现有坐标函数,因此我们的方法结合了特征选择和结点选择。
2.单变量函数拟合
我们希望从数据集拟合一个连续的有界函数要做到这一点,我们将选择来最小化数据的不匹配或损失函数,但要受到鼓励中规则性的约束条件以及我们在下面描述的额外约束条件和饱和度的限制。
损失由以下公式给出:
其中是非负的,二次可微的,并且在它的第一个参数中是严格凸的。
典型的损失函数包括(标准回归,),或者(逻辑回归,其中)。
损失是函数的凸函数,仅取决于数据点处的的值。
损失越小,越符合给定的数据。
我们通过限制非负正则化泛函的值来约束函数是简单的。
在本文中,我们将作为的微分的总变化量,
,
一个的凸函数。
对于一个二次可微函数,我们已知,
,
(1)
即正则化是二阶导数的范数。
(正如我们在下一节中所讨论的那样,总变差的现代定义把这种平等扩展到不可微函数。
)我们对施加的总变差限是,其中是我们用来折衷模型的参数拟合度和模型规律。
这种正则化约束隐含地约束几乎无处不在,其导数具有有限的总变差。
我们的模型将受到另一个约束,即它饱和(在区间[0,1]之外),这意味着它是[0,1]之外两个区间上的(可能不同的)常量:
对,;
对,。
换句话说,在[0,1]的标称数据范围外延伸为一个常数。
就导数而言,这相当于要求存在且在[0,1]之外为零。
那么该拟合问题可以描述为
;
满足
(2)
,对,
其中为正则化参数。
要确定的变量是函数,它是连续函数的矢量空间中的有限总变差的导数。
这个拟合问题是一个无限维凸优化问题。
在应用中,问题
(2)解决了一系列值,这产生了正则化路径。
最终模型是使用一个保留集或交叉验证来选择的。
对于,必须是常数,并且问题
(2)减少到适合数据的最佳常数。
随着增加,的约束更小,并且我们的拟合模型变得更复杂;
最终我们期望过度拟合。
例如,在回归的情况下,对于满足的损失函数和具有不同的数据,对于足够大的来说,拟合函数是插值数据的分段线性函数。
3.样条函数和有界变差函数
在本节中,我们探讨拟合问题与一次样条的连接,即分段线性连续函数,其形式如下
,(3)
其中。
我们假设是不同的,并将它们称为结点或简单结。
标量是权重,是偏移量。
我们将映射称为铰链函数,因此一阶样条是铰链函数的有限线性组合加上一个常数。
3.1有界变差函数
一个右连续函数是有界变差的,当且仅当在[0,1]上存在一个有符号的度量,满足
,(4)
其中,对,否则等于0。
度量是唯一的;
我们可以认为它是的导数。
也就是说,(4)基本上是微积分的第二个基本定理,其中被代替。
我们也有。
(这称为度量的总变差。
)我们将使用符号来作为它的记号,以强调与有限维情况的相似性,或者当是可微的情况:
.当度量是原子的时候,函数是分段常数,在的支持下的点处发生跳跃。
3.2样条函数和有界变差导数
现在假设具有有界变差的右连续导数。
从(4),运用以及微积分的基本定理,我们有
(5)
(6)
.(7)
这表明任何这样的函数是铰链函数的一个(可能是无限的)线性组合加上一个常数(即)。
在这种情况下,度量可以被认为是的二阶导数。
当是原子并且在有限集上被支持时,也就是说,
是形式(3)的一阶样条,其中。
因此,一阶样条完全对应于度量(大致二阶导数)具有有限支持的情况。
我们引入记号
(8)
来表示从度量导出的函数。
粗略地说,这是度量的双重积分或与度量μ有关的铰链函数的(可能有无限个的)线性组合。
从到的映射是线性的,那么我们有。
图1显示了一个的简单例子,它的一阶导数和它的(原子度量)二阶导数。
图1:
由原子度量产生的和。
正则化函数就是中尖峰的绝对值之和。
需要特别注意的是,中所有尖峰的(带符号)和为零:
也就是说,,这意味着饱和。
3.3通过优化度量拟合样条
确定,我们可以通过最小化[0,1]上的有界测度和常数来解决拟合问题
(2)。
度量是的二阶导数,常数对应于。
总变差正则化约束对应于。
当时,饱和度条件成立;
为了确保当时,我们需要
换句话说,的饱和度对应于具有总(净)质量零的。
因此
(2)可以改写为
满足,(9)
有界测度在[0,1]上,同时。
这里会稍微多用一些记号:
我们现在(以及本文的其余部分)认为是上的函数。
在上面,是将映射到由(8)给出的向量的线性算子。
显然是线性的,因为它是函数:
对的积分。
我们将直接应用条件梯度法来解决这个问题。
为了获得关于优化问题的直觉(9),我们可以认为它是标准lasso的无限维模拟[10]。
lasso是优化问题
满足(10)
的解决方案。
这里是中的一个向量,是一个矩阵。
忽略常数项,我们看到,(9)看起来非常类似于(10),其中起着的作用;
的确,本质上是一个有行和无限多列的矩阵。
我们对lasso的直觉表明,应该有属于(9)的解是稀疏的,这意味着是原子的。
就而言,稀疏性意味着存在一维样条的原始函数拟合问题
(2)的解。
事实确实如此。
定理1表明存在(9)的原子解,其支持不超过个点;
换句话说,是一个具有的一阶样条。
此外,在实际中(9)的解将会支持远远少于个点。
定理1.固定和,为(右连续)的有界总变差,并且在[0,1]之外为常数。
那么就存在一个一阶饱和样条(最多有个结点),它在上与相匹配,并满足。
证明:
不失一般性,我们假设。
令。
由于约束了总变差,所以在[0,1]上存在一个度量,使得:
也就是说,是一个无限多结的样条。
我们的想法是使用Caratheodory的凸包理论来看到,因为我们只关心在有限数量函数上的作用(基本上,我们只关心在上的值),所以我们可以用一种可在有限的点上支持的度量来替代。
为了使这个想法严谨,请注意矢量
必须位于(凸)组
的凸包中,因为。
凸包的Caratheodory定理确保了可以表示为从选取的最多个点的凸组合。
让这些个点由它们的标记表示,以及它们的权重,我们定义得到:
这里。
因为,我们有。
#
对于本文的其余部分,我们将忽略常数项。
使用我们提供的算法来处理常量项并不难,但这样做确实会增加一些符号复杂性。
也可以最小化,因为它不影响正则化项;
由此产生的问题在中仍然是凸的。
4.拟合样条的条件梯度法
在本节中,我们概述了求解(9)(因此也是
(2))的算法。
为此,我们简要回顾一下经典的条件梯度法[7]和[8]中提出的测量理论版本。
我们需要解决的优化问题(9)(没有常数项c)是:
满足,(11)
.
正如上一节所述,(11)是一个衡量空间的凸优化问题。
我们密切关注[8]中采用的方法,并直接对这个问题应用条件梯度法。
这种方法的主要好处是我们可以将注意力限制在原子度量上,即的形式为
通过简单地存储成对的的列表,这种形式的度量在计算机中很容易表示。
定理1确保我们需要存储的结的数量是绝对有界的,即我们的算法运行在有界存储器中。
当我们操纵原子测量时,我们解决了所有有界测量的问题(11)。
关于有限支持的原子测量值需要注意的一点是我们可以很容易地对结点位置固定的权重进行优化,因为这对应于适用于任何标准算法的有限维凸优化问题。
我们的算法利用了这个事实,并且在每次迭代之间交替添加结对并对权重进行优化。
在后一步骤中,结可以(并且事实上最终必须)被去除。
在附加和可选步骤中,结点可以在[0,1]内连续移动,或者连续移动到相邻的数据点。
理论上的收敛不需要这一步,但可以在实践中改善收敛性和最终解决方案的稀疏性。
4.1条件梯度法
条件梯度法(CGM)解决了形式为
满足,(12)
的约束凸优化问题,变量。
在上面,我们总是假定(凸)函数是可微分的。
在CGM的每次迭代中,我们在当前迭代处形成函数的标准线性逼近:
这里是函数在点方向d上的方向导数,定义为:
我们在这里使用方向导数可能会令人惊讶:
对于上的可微函数,总是等于。
方向导数对度量的凸函数的直接适用性促使我们倾向于使用它。
的凸性意味着是的下界,即:
.(13)
在CGM的下一步中,我们在可行集上最小化这个一阶近似:
点称为的条件梯度。
请注意,在上提供了一个下界:
特别地,我们可以限制点的次优性:
.(14)
图2:
函数在点处的条件梯度法的单次迭代示意图。
集合是由实线表示的区间[-0.25,1.25],一阶近似值绘制为在处与相切的虚线。
条件梯度是点-0.25。
可以看到(如[7]),这个界限减少到零,这意味着它可以用作(非启发式)终止标准。
确定之后,有几个更新的选项。
在本文中,我们将使用CGM的完全校正变体,它选择在的凸包上来最小化。
请注意,随着增长,这最后一步可能会变得计算密集,并且实际上限制了条
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 饱和 特征 选择