基于支持向量机的股市组合预测模型研究_精品文档资料下载.pdf
- 文档编号:16088939
- 上传时间:2022-11-19
- 格式:PDF
- 页数:5
- 大小:331KB
基于支持向量机的股市组合预测模型研究_精品文档资料下载.pdf
《基于支持向量机的股市组合预测模型研究_精品文档资料下载.pdf》由会员分享,可在线阅读,更多相关《基于支持向量机的股市组合预测模型研究_精品文档资料下载.pdf(5页珍藏版)》请在冰豆网上搜索。
目前,对组合预测模型的研究主要集中在两个方面,一是组合模型中子模型的生成,二是各个子模型生成的结果如何组合,生成最终的结论。
子模型的生成以线性回归和非线性回归为主,而组合结论以线性组合为主9。
本文利用四种不同线性回归模型提取股市系统的线性特征,生成一组线性预测个体;
利用四种不同的神经网络算法提取股市系统的非线性特征,生成一组非线性预测个体,进一步把两组预测个体合并,最后利用支持向量机回归组合,时变权重分别赋权生成最终结论。
以此建立基于支持向量机的股市组合预测模型,并对上证指数的日开盘价,收盘价预测,寻求上证指数预测的新途径。
一、基于支持向量机回归组合预测模型的建立股市是一个包含许多不确定因素的复杂系统,它受各种经济的、政治的、社会的因素相互作用、相互影响,其变化有着很强的无序性,很难确切地说它是一个单纯线性或者非线性系统。
股市系统包含一些线性因素的特征,也包含着一些非线性因素的特征,由此需要建立一个包含有线性和非线性特征的模型,传统的回归模型具有提取线性特征,而神经网络模型对非线性有很强映射特性。
为此,首先我们用逐步回归模型、偏最小二乘回归模型、均生函数回归、多层递阶权重分别赋权生成最终的预测输出。
1.逐步回归分析方法。
逐步回归是多元线性回归模型中选择回归变量的一种常用数学方法。
其基本思想是将回归变量逐个选入,选入的条件是其偏回归平方和显著;
每选一个新的变量后,对已选入的各变量逐个进行显著性检验,并剔除不显著变量。
如此反复选入、检验和剔除,直至无法剔除且无法选入变量为止。
逐步回归分前向逐步回归和后向逐步回归两种。
前向逐步回归分析开始时没有任何模型变量,每一步选入待选项中一个显著性最高的项(具有最大的F统计量值或最小的p-值),直至没有待选项为止。
后向逐步回归则首先将模型中的所有项纳入,然后剔除最不显著的变量,直基于支持向量机的股市组合预测模型研究李蓬宁(广西柳州师范高等专科学校财务基建处,广西柳州545004)摘要:
首先利用线性回归模型提取股市系统的线性特征,其次神经网络提取股市系统的非线性特征,共同生成预测个体;
最后利用支持向量机回归组合,时变权重分别赋权生成最终结论。
建立基于支持向量机的股市组合预测模型,并对上证指数的日开盘价,收盘价实例分析,结果表明该方法取得较好的效果。
关键词:
线性回归;
神经网络;
支持向量机;
预测中图分类号:
F830.91文献标志码:
A文章编号:
1673-291X(2009)22-0038-05收稿日期:
2009-04-08基金项目:
广西教育厅面上项目(200807MS098)作者简介:
李蓬宁(1973-),女,广西来宾人,会计师,学士,从事金融工程、智能计算在经济中应用研究。
38至剩余的变量均显著为止。
本文采用前向逐步回归方法作为组合预测的一种子方法。
2.偏最小二乘回归方法。
偏最小二乘回归方法是一种新型的多元统计数据分析方法,它能对系统进行有效降维和特征提取。
该方法已经被广泛应用在工程技术领域,它与主成分分析回归建模方法的基本思路相同,主要区别在信息综合与筛选过程中,它不但考虑自变量的降维与信息综合,而且要考虑新的信息对因变量具有最佳的解释能力。
可以说偏最小二乘回归方法集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体,将数据分析方法和对模型认识分析方法有机结合10,设自变量矩阵为:
X0=(xij,i=1,2,n,j=1,2,m),因变量矩阵为:
Y0=(yi1,i=1,2,n),具体计算步骤如下:
1)标准化自变量矩阵和因变量矩阵,得到标准化数据X*0,Y*0。
2)计算主轴:
i=X*i-1Y*i-1X*i-1Y*i-1i=1,2,T
(1)相应地得到第i个综合变量Fi=X*i-1i,Fi和X*i-1进行普通最小二乘回归估计,回归系数Pi=(X*i-1ti)ti2,并计算残差矩阵X*i=X*i-1-FiPi。
3)检验交叉有效性,若Q2i0.0975,继续计算,否则停止。
4)提取T个成分F1,F2,FT建立X*0和Y*0在其上的回归方程。
由于F1,F2,FT均是X*0的线性组合,故最终可以改写成Y0关于X0的回归方程。
3.均生函数回归方法。
自从魏凤英等20世纪90年代提出均生函数预测模型8以来,在许多科学研究领域中得到了广泛的应用7。
均生函数模型是由时间序列按不同的时间间隔计算均值,生成一组周期函数,然后用原时间序列与这组函数建立回归预测方程。
该模型是基于系统状态前后记忆的基本思想,构造一组周期函数及其延拓序列(包括原序列、一阶差分、二阶差分序列的均生函数延拓序列),通过分析原序列与这组周期函数间的统计关系,建立相应的统计预测模型,其主要的数学原理可归纳为:
设某一时间序列为:
xt=x1,x2,xn,对该时间序列作一阶差分运算xt=xt+1-xt,t=1,2,n-1由此得到一阶差分序列:
x
(1)t=x1,x2,xn-1,同样再对该时间序列作二阶差分运算:
2xt=xt+1-xt,t=1,2,n-2,由此得到二阶差分序列:
x
(2)(t)=2x
(1),2x
(2),2x(n-2),进一步采用以下公式:
xl(i)=1NlNl-1j=0x(i+jl)
(2)对上述原序列、一阶差分和二阶差分序列作均生函数计算,式中i=1,2,l,1lm,Nl=INT(n/l)。
然后利用fl(t)=xlt-l*INT(t-1l)(3)对原序列和各阶差分序列的均生函数作周期性延拓计算,在式(3)中t=1,2,n,l=1,2,m。
这样就可以使各均生函数的定义域扩展到整个需要的同一时间轴上。
在此基础上,就可以建立原序列x(t)与fl(t)均生函数序列之间的回归方程。
x(t)=a0+qi=1aifl(t),qm(4)由式(4)利用均生函数外延值即可对原序列作多步预测。
4.多层递阶回归方法。
动态系统预测的多层递阶方法自从20世纪80年代初发表以来,已引起了国内外专家学者的很大兴趣,并在实际中应用,而最近张晓东11,针对以往多层递阶预报方法存在的问题提出了一种改进模型,该模型的预报输出为:
y(k)=mi=1aia*i(k)xi(k)+(k)(5)式中ai为回归系数,a*i(k)为时变参数,(k)是随机噪声,m为预报因子个数。
将这种多层递阶回归分析方法的计算步骤归结为:
1)按照回归分析方法的计算步骤,分别求得各因子的回归系数a0,a1,am。
2)将回归系数ai与某对应的预报因子x(k)相乘,并看成一个新的因子x*i(k),即x*i(k)=aixi(k)(6)3)将预报对象y(k)减去回归方程的常数项a0得到新的预报对象y*(k),即y*(k)=y(k)-a0(7)将式(16)、(17)代入式(15),可得y*(k)=mi=1a*i(k)x*i(k)+(k)(8)4)应用多层递阶方法的计算步骤对式(17)求解,其时变参数递推公式为:
a赞*i(k)=a赞*i(k-1)+x*i(k)y*(k)-mi=1x*i(k)a赞*i(k-1)mi=1x*i(k)2(9)5)对计算得到的时变参数估值序列a赞*i(k)进行分析,根据不同的变化特点,通过适当的方法,如均值近似法、定常量法、分段周期变量法、多层AR模型递阶法等方法建立时变参数模型,则可得到各时变参数预报值a赞*i(k)。
5.神经网络方法。
神经网络作为一种人工智能技术,具有分布并行处理、非线性映射、自适应学习和鲁棒性和容错性等特点,使得它在模式识别、控制优化、智能信息处理以及故障诊断等方面都有广泛的应用。
神经网络的特点是在对一些复杂的系统我们不知道其内部机理时,只要有输入与输出向量的历史观测数据,它能够通过学习仿真其内在的相互关系,从中寻找观测数据的规律12。
一般的三层前向神经网络包含输入层、隐层、输出层,通过训练算法可以实现复杂的非线性影射。
网络的输入与输出之间的关系如下:
y赞k(t)=pj=1vjkfmi=1wijxi(t)+j+rk(10)其中f(x)=1/1+e-x,k=1,2,n,t=1,2,Nl,xi为网络39的输入,y赞k为网络的输出,wij为输入层i节点到输出层j节点的权值,vjk为隐层j节点到输出k层节点的权值,j为隐层j节点处的阀值,rk输出k节点处的阀值,f为激活函数。
设定网络总的误差小于1,则有:
E1=12Nlt=1nk=1yk(t)-y赞k(t)21(11)一般采用梯度规则,由E对求导数,以E减小的负梯度方向作为权值调整方向,来求解网络参数,目前的神经算法很多,本文训练算法分别采用Matlab神经网络工具箱13中的Powell-Beale共轭梯度反向传播算法(traincgb)、自适应学习速率梯度下降反向传播算法(traingda)、Levenberg-Marquardt反向传播算法(trainlm),弹性反向传播算法(trainrp)、由初始训练集各自训练,这样可以得到四个神经网络组合预测个体。
6.支持向量机回归。
支持向量机是Cortes和Vapnik在1995年提出的14,是近年来机器学习研究的一项重大成果,它是在Vapnik等人提出的小样本统计学习理论基础发展而来,其算法是基于结构风险最小化准则15,与传统的神经网络相比,支持向量机不仅结构简单而且各种技术性能明显优于神经网络,这已被大量的实验证实1617,尤其他在处理非线性问题时,通过非线性核函数,将输入向量映射到高维线性特征空间,在这个空间构造样本最优超平面,以此将非线性问题就转化为高维空间中的线性问题,然后用一个核函数来代替高维空间中内积计算,从而巧妙地解决了复杂计算问题,并且能有效地克服维数灾和有效提高泛化能力。
对于给定的数据集合xi,yi,i=1,2,N,确定回归函数f(x)=(覫(x)+b,采用-不敏感损失函数,并引入上下松弛变量i和*i以描述带外样本数据的拟合损失,其可以转化成求关于变量、b、i和*i的最优化问题。
min122+CNi=1(i+*i)s.t.yi-(覫(x)+b+i(覫(x)+b-yi+*ii,*i0,i=1,2,N(14)式中C为惩罚系数,用于控制对带外样本数据的惩罚程度,并实现函数f(x)的复杂度和拟合精度之间的平衡,上述优化问题二次优化问题,引入数乘因子可得如下对偶表达显示:
max-12Ni=1Nj=1(ai+a*i)(aj+a*j)K(xixj)+Ni=1yi(ai+a*i)-Ni=1(ai+a*i)s.t.Ni=1(ai+a*i)=0ai,a*i0,C,i,j=1,2,L,N(15)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 支持 向量 股市 组合 预测 模型 研究 精品 文档