Exercise04DATA步数据集操作要点Word文件下载.docx
- 文档编号:21828458
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:27
- 大小:26.42KB
Exercise04DATA步数据集操作要点Word文件下载.docx
《Exercise04DATA步数据集操作要点Word文件下载.docx》由会员分享,可在线阅读,更多相关《Exercise04DATA步数据集操作要点Word文件下载.docx(27页珍藏版)》请在冰豆网上搜索。
股票
代码
日期
收盘价
送股
比例
转增
配股
配股价
增发
增发价格
现金
红利
…
.
xxxxxx
0.2
0.1
0
0.5
5.20
0.50
.
注:
…表示有数据值,.表示缺失值。
编程变量名参考:
股票代码Stkcd
日期Date
收盘价Clpr
送股比例Stkdrate
转增比例Capissurate
配股比例Rigoffrate
配股价Rigoffpr
增发比例Snirate
增发价格Snipr
现金红利Dividend
创建样本数据集:
dataa;
inputStkcdDateyymmdd8.ClprStkdrateCapissurateRigoffrateRigoffprSnirateSniprDividend;
formatDatemmddyy8.;
cards;
60000101-01-018.......
60000101-01-02.0.30.300000
60000101-01-039000.50.2000.1
60000201-01-02100000000
60000201-01-03.0.20.30.5000.10.2
60000201-01-04120000.20.30.50.6
;
run;
10.假设股票市场的股数数据如下表,对每支股票,按如下要求设计填充总股数和流通股股数数据的SAS程序:
以该股票前面的股数数据填充后面的缺失值,如果某支股票上市交易时就缺失股数数据,则用该股票上市后的第一个股数数据向前填充。
股票代码
股数变动日
总股数
流通股
000001
.
缺失
20000-10-10
1000000
500000
2003-11-11
1200000
600000
000002
2001-09-08
3200000
1500000
股数变动日CapchgDate
总股数Fullshr
流通股trdshr
/*创建样本数据集*/
datatest;
infiledatalinesmissover;
informatStkcd$6.Dateyymmdd10.Clpr8.2capchgDateyymmdd10.fullshrTrdshr20.;
inputStkcd$DateClprcapchgDatefullshrTrdshr;
formatStkcd$6.Dateyymmdd10.Clpr8.2capchgDateyymmdd10.fullshrTrdshr20.;
6000002003-1-209.942003-1-203915000000900000000
6000002003-1-219.68
6000002003-1-229.66
6000002003-1-239.6
6000002003-1-249.88
6000002003-1-2710.07
6000002003-1-2810.17
6000002003-1-2910.31
6000002003-2-1010.09
6000002003-2-1110.2
6000002003-2-1210.31
6000002003-2-1310.13
6000012000-5-298.132000-5-29
6000012000-5-308.14
6000012000-5-318.65
6000012000-6-18.93
6000012000-6-29.11
6000012000-6-59.022000-6-51486553100490000000
6000012000-6-68.63
6000012000-6-78.52
6000012000-6-88.55
6000012000-6-98.3
6000012000-6-128.34
Run
11.当股票发生分配事件时,可以根据相应的分配和股数数据计算股价的调整因子。
为了检验数据的正确性,有必要根据股价调整因子来计算当天股价的变动是否合理。
如下表所示,可以算得除权日股票涨跌的绝对值为:
|10.00-5.20*2.00|=0.40,相对于当时的股价5.20来说,这个变动值是在合理的范围内的。
设计程序,对于不同的股票,计算分配日股票涨跌(=分配前股票价格–分配日股票价格*股价调整因子)的绝对值。
只要求保留分配日的观测(即股价调整因子不为空的观测),并要求将分配前的价格作为一个新的变量在该观测中体现出来。
永久性代码
股价调整因子
10.00
5.20
2.00
永久性代码:
stkcd
日期:
Date
收盘价:
Clpr
股价调整因子:
Facpr
12.找出股价连续多日相等的情况待分析。
股价每天的上下波动,一般来说会导致第二天的收盘价与第一天不相同,但也有仍有可能经过了涨跌之后,第二天的收盘价仍与第一天相等。
这种情况不太常见,所以对于连续两天以上收盘价相等的股票,很有可能是数据源的记录有误。
例如:
最新股票代码
000032
2005-07-25
4.46
000066
2005-07-05
7.79
2005-07-06
2005-07-07
000078
2005-07-29
3.26
000403
2005-07-19
2.89
2005-07-20
2005-07-21
000416
4.42
000517
2005-07-08
3.33
000547
2005-07-26
5.09
所以,需要将其从数据库中找出来,形成新的数据库,为与其他数据源的数据相比较做好准备。
创建新的数据集,统计每只股票相同收盘价的观测值与相应的重复次数。
dataexample1(label='
找出收盘价相同的股票'
);
inputStkcd$Date:
Clpr;
informatStkcd$6.Dateyymmdd10.Clpr8.2;
formatStkcd$6.Dateyymmdd10.Clpr8.2;
label
Stkcd='
最新股票代码|StockCode'
Date='
日期|Date'
Clpr='
收盘价|ClosePrice'
0000322005-07-254.46
0000662005-07-057.79
0000662005-07-067.79
0000662005-07-077.79
0000782005-07-293.26
0004032005-07-192.89
0004032005-07-202.89
0004032005-07-212.89
0004162005-07-204.42
0005172005-07-083.33
0005472005-07-265.09
0005572005-07-120.86
0005572005-07-130.86
0005572005-07-140.86
0005842005-07-133.69
0006162005-07-052.99
0006652005-07-252.52
0007012005-07-265.22
0007392005-07-083.05
0007782005-07-076.16
0007782005-07-086.16
0007782005-07-116.16
0007892005-07-082.13
0008032005-07-0111.50
0008032005-07-0411.50
0008032005-07-0511.50
0008032005-07-0611.50
0008032005-07-1411.50
0008032005-07-1511.50
0008032005-07-2711.50
0008032005-07-2811.50
0008212005-07-262.59
0008312005-07-122.43
0008312005-07-132.43
0008312005-07-142.43
0008762005-07-046.28
0009112005-07-203.50
0009322005-07-053.84
0009322005-07-063.84
0009322005-07-073.84
0009322005-07-083.84
0009322005-07-113.84
0009512005-07-137.18
0009822005-07-292.24
0009932005-07-262.94
0009932005-07-272.94
0009932005-07-282.94
0020162005-07-076.69
0020162005-07-186.50
0020162005-07-196.50
0020162005-07-206.50
0020472005-07-078.48
2000172005-07-050.50
2000172005-07-060.50
2000172005-07-070.50
2000172005-07-120.50
2000172005-07-130.50
2000182005-07-041.50
2000182005-07-051.50
2000182005-07-061.50
2000182005-07-071.50
2000262005-07-011.71
2000262005-07-041.71
2000262005-07-131.71
2000262005-07-141.71
2000302005-07-270.48
2000302005-07-280.48
2000302005-07-290.48
2000542005-07-081.35
2000542005-07-111.35
2000542005-07-121.35
2001522005-07-271.61
2005122005-07-121.20
2005122005-07-131.20
2005122005-07-141.20
2005122005-07-151.20
2005702005-07-121.77
2005702005-07-131.77
2005702005-07-141.77
2006132005-07-260.33
2006132005-07-270.33
2006132005-07-280.33
2006132005-07-290.33
2009862005-07-181.90
2009922005-07-180.59
2009922005-07-190.59
2009922005-07-260.59
2009922005-07-270.59
2009922005-07-280.59
2009922005-07-290.59
6000092005-07-1516.58
6000092005-07-1816.58
6000092005-07-1916.58
6000222005-07-045.22
6000222005-07-055.22
6000222005-07-065.22
6000352005-07-283.00
6000742005-07-272.66
6001042005-07-084.48
6001192005-07-072.58
6001192005-07-082.58
6001192005-07-222.58
6001192005-07-252.58
6001352005-07-112.99
6001682005-07-192.69
6001682005-07-202.69
6001682005-07-212.69
6001702005-07-134.13
6002012005-07-013.95
6002132005-07-121.82
6002132005-07-131.82
6002132005-07-141.82
6002332005-07-153.03
6002342005-07-181.27
6002342005-07-191.27
6002342005-07-201.27
6002512005-07-184.39
6002512005-07-194.39
6002512005-07-204.39
6002662005-07-115.90
6002752005-07-042.03
6002752005-07-052.03
6002752005-07-062.03
6002962005-07-273.88
6003282005-07-204.78
6003502005-07-124.50
6003502005-07-134.50
6003502005-07-204.50
6003502005-07-214.50
6003562005-07-226.40
6003562005-07-256.40
6003562005-07-286.40
6003562005-07-296.40
6003652005-07-113.74
6003962005-07-284.80
6003992005-07-073.90
6003992005-07-083.90
6004202005-07-187.40
6004202005-07-197.40
6004202005-07-207.40
6004202005-07-217.40
6004442005-07-015.85
6004862005-07-046.98
6005202005-07-213.43
6005552005-07-282.80
6005872005-07-084.22
6006162005-07-199.19
6006262005-07-192.28
6006262005-07-202.28
6006262005-07-212.28
6006492005-07-194.78
6006812005-07-121.01
6007112005-07-295.45
6007402005-07-257.08
6007712005-07-153.97
6007772005-07-013.00
6007772005-07-043.00
6008022005-07-062.08
6008282005-07-073.09
6008282005-07-083.09
6008282005-07-113.09
6008322005-07-0513.39
6008632005-07-053.50
6008932005-07-013.32
6008932005-07-043.32
6008932005-07-053.32
6008942005-07-042.22
6009882005-07-143.83
9009252005-07-040.37
9009552005-07-120.32
9009552005-07-130.32
9009552005-07-140.32
9009572005-07-200.11
13.空格和全半角字符问题的解决方法。
通常从其他数据源得到的数据的格式并不会和我们所要求的一致,而且更严重的问题是,不同的数据源的数据在股票名称的写法上有着很大的差别。
有的把A写成全角的,还有些数据源在股票名称中间加入数量不等的空格,如000002股票中,‘万’字和‘科’字中间有两个空格,而在000006股票中,‘星’和‘源’之间为一个空格。
随着现在股权分置改革的推进,又出现了以G开头的股票,同样面临着全角和半角的G的问题。
为了统一数据库,需要将所有股票名称中间的空格都去除,并且将所有全角的字符换成半角的字符,如000002的‘万科A’需要改成‘万科A’等等。
A股代码
A股名称
B股代码
B股名称
深发展A
万科A
200002
万科B
000003
PT金田A
200003
PT金田B
000004
国农科技
000005
ST星源
000006
深振业A
000007
深达声A
000008
宝利来
000009
深宝安A
000010
深华新
000011
深物业A
200011
深物业B
000012
南玻A
200012
南玻B
dataexample2(label='
例2:
空格和全半角字符问题的解决方法例题'
lengtha_stkcd$6.a_stknm$12.b_stkcd$6.b_stknm$12.;
inputa_stkcd$6.a_stknm$12.b_Stkcd$6.b_stknm$12.;
formata_stkcd$6.a_stknm$12.b_stkcd$6.b_stknm$12.;
A_Stkcd="
A股代码|StockCodeforAShares"
A_Stknm="
A股名称|StockNameforAShares"
B_Stkcd="
B股代码|StockCodeforBShares"
B_Stknm="
B股名称|StockNameforB
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Exercise04DATA 数据 操作 要点
![提示](https://static.bdocx.com/images/bang_tan.gif)