测井曲线自动分层模型的研究.docx
- 文档编号:4343822
- 上传时间:2022-11-30
- 格式:DOCX
- 页数:26
- 大小:220.46KB
测井曲线自动分层模型的研究.docx
《测井曲线自动分层模型的研究.docx》由会员分享,可在线阅读,更多相关《测井曲线自动分层模型的研究.docx(26页珍藏版)》请在冰豆网上搜索。
测井曲线自动分层模型的研究
测井曲线自动分层模型的研究
组长:
卓俊慧
组员:
袁蕴英
组员:
吴天增
测井曲线自动分层模型的研究
摘要
本文利用测井曲线进行了地质分层,我们首先采用了格罗伯斯(Grubps)检验法、滑动平均法、归一化处理等方法对原始测井数据进行了预处理,并利用R型聚类法把变量聚类分成了3类,每类中选取一个离散系数最大的变量作为进一步分析的主动曲线。
选取的三条曲线为GR(自然伽玛测井)、R4.0(4M电阻率)、PW。
其次,我们根据1号井的人工分层结果,将主动曲线在每一层的均值作为其他号井进行快速样本聚类的初始聚心,对2—7号井进行了做K—Means聚类分析,得出分层结果。
用层内误判率和层间误判率为指标对自动分层划分的准确程度进行了评价,分析出分层结果中存在着连续层内数据不连续和层间界面确定准确率不高的问题。
为提高分层的精度,我们结合概率论的知识,采用了层内差异法从上至下,逐个将采样点归类,从而避免了数据跳层的问题。
考虑到这样操作可能会将某些层段划分过细,把原本同一地层分成了若干小层,我们在进行层内差异法分层的基础上再结合聚类分析法将小层聚为大层。
用改进之后的模型,对2—7号井重新进行自动分层,发现其平均层内误判率降为16.39%,平均层间误判率降为22.94%,并以1号井为例,对分层的依据进行了说明。
最后,我们利用改进后的自动分层模型,对8—13号井实现了自动分层。
关键词:
聚类分析、层内差异法、自动分层
1.问题的重述
本题所涉及到的是在地球物理勘探中利用测井曲线进行地质分层的相关问题。
通常,在前期地质研究中,地质工作人员都会通过经验,分析测井数据反映的地层特点,从而进行分层。
这种人工分层法受测井分析人员的经验知识和熟练程度影响程度较大。
题中给出了1—13号井的测井曲线数据,并已知1—7号井的的人工分层结果。
题目一希望我们将1号井作为标准井,依据其分层结果,总结出分层井点数据的变化特点,以此建立起合理的数学模型,实现井位分层人工智能处理。
同时,利用该模型对2号井至7号井进行自动分层,并与其人工分层结果相比较,提高分层精度,并对分层结果做出说明。
题目二希望我们利用完善后的数学模型以及已给的各种测井曲线数据,对第8号井至13号井进行自动分层,并分析分层后的结果。
2.问题的分析
因为部分测井曲线数据中缺失值所占比例较大,对分层的影响不大,我们将缺失值所占比例较大的变量不予考虑。
同时,我们发现数据中含有不少异常点且存在着噪声等问题,采用格罗伯斯(Grubps)检验法、滑动平均法、归一化处理等方法对原始测井数据进行了预处理。
题中共给出了66个变量,为了避免重复考虑性质相似的曲线对分层的影响,我们利用R型聚类法把所有变量聚类分成了3类,再通过比较他们的离散系数,挑选出值最大的作为主动曲线。
然后,我们根据1号井的人工分层结果,将其每一层的均值作为其他井聚类分析的初始聚心,经过验证,发现它能较好得表现出数据的特点。
利用此模型,我们对2—7号井进行了做K—Means聚类分析,得出分层结果,并与人工分层结果进行比较,用层内误判率和层间误判率为指标对自动分层划分的准确程度进行了评价,发现其中的问题,然后对模型进行了优化,在聚类分析前,加入层次分析法,防止数据出现跳层的现象。
最后,我们用新的模型在此对2—7号井进行聚类分析,得出分层结果,仍使用层内误判率和层间误判率对其自动分层划分的准确程度进行了评价,发现结果较为理想。
于是,我们利用该模型对对8—13号井实现了自动分层,并对分层的结果做出了说明。
3.模型的假设
1.假设地层是横向各向同性的。
2.不考虑非地层因素(如测量数据、测量条件等)对分层结果的影响。
4.定义与符号说明
为均方根误差
为该层的某个采样值
为第i层测井均值
为非地层因素引起的允许误差
第i层聚心与其相邻的聚心之间的距离
表示密度DEN在第i层的聚心
表示4M电阻率在第i层的聚心
表示PW在第i层的聚心
第m口井在第i层的层内误判率
第m口井的层间误判率
表示第m口井在第i层中被错误的聚类为非i层的测井曲线数据的个数
表示第m口井在第i层中总的测井曲线数据的个数
表示在第m口井的分层结果中,分层错误的深度
表示第m口井的总深度
5.模型的建立与求解
5.1数据的预处理
首先本题中几乎每条测井曲线数据中都含有无效值,有的测井曲线的无效值甚至占到该曲线总数据量的80%以上的比例(具体数据见附件一)。
无效值比例过高,会使得有效样本所占比例大大减少,损失大量信息。
所以,我们认为缺失值过高的测井曲线数据对分层的贡献不大,不考虑PDRO等11条无效值比例超过80%的曲线,再对剩下的测井曲线数据进行如下处理:
5.1.1异常点处理
异常点指的是严重偏离数据平均值的失真数据。
我们采用格罗伯斯(Grubps)检验法对数据进行处理。
将原始数据集合
按从小到大的顺序排列,得到新的数据集合
。
假设
服从正态分布,可用极值减去均值形式统计量U来校验数据是否为异常点。
(1)
(2)
(3)
当
时,
为异常点。
其中
为不同的显著性水平
在不同的
下的临界值,
可以通过相关手册查到。
由于异常点不但对数据有干扰,而且会影响后面数据处理如归一化等,所以对异常点一般不能随便舍弃,我们选择采用邻近数据平均值代替法处理这些异常点。
5.1.2滑动平均消除毛刺干扰
无论通过什么观测途径所得到的曲线数据,总不免有噪声。
为了了解事物的变化规律,可以通过平滑处理消除噪声的干扰。
观测曲线既有长周期的趋势性变化,也包括短周期的局部变化,在注重趋势性变化时,也需要对曲线进行平滑处理。
在测井资料的预处理中,必须设法把与底层性质无关的统计起伏和毛刺干扰过滤掉,只保留曲线上反映地层特性的有用成分。
我们采用最小二乘滑动平均法消除毛刺干扰。
5.1.3归一化处理
由于不同测井曲线的刻度和量纲各不相同,在采用多种曲线进行自动分层时,有必要将测井曲线分别归一化到[O,1],以消除因刻度和量纲所产生的影响。
归一化公式为:
(4)
表示测井曲线在第i个数据时的取值,
表示该测井曲线所有数据中的最大值,
表示该测井曲线所有数据中的最小值。
5.2代表曲线的选取
5.2.1用R型聚类获得主动曲线
聚类分析能够将一批样本或变量数据根据其诸多特征的亲疏程度,在没有先验知识的情况下进行自动分类,产生多个分类结果。
样品或变量之间的相似性通过距离和相似系数度量来表示。
这里我们采用R型聚类分析,即对变量进行聚类,它使差异性大的变量分离开来,相似性的变量聚集在一起。
我们选择组间平均连接距离和皮尔逊相关系数衡量亲疏程度。
组间平均连接(between-groupslinkage)距离是指该个体与小类中每个个体距离的平均值,在聚类分析中衡量个体与小类之间的亲疏程度,即合并两类的结果使得所有项对之间的平均距离最小项对的两个成员属于不同的类。
其中皮尔逊(Pearson)相关系数的计算公式为
(5)
其中
是第
项值的标准值。
聚类过程使用PASWStatistics18.0完成,软件输出结果如下:
图一
由树状图可以看出,测井曲线聚为3类,聚类效果比较好。
画出碎石图如图二所示:
图二
由图可知,随着类的不断凝聚,类的数目不断减少,类间的距离在逐渐增大。
在聚成2类之前,类间的距离增大幅度较小,形成极为“陡峭的山峰”,但到了2类后,类间的距离迅速增大,形成极为“平坦的碎石路”。
根据类间距离小形成类的相似性大,类间距离大形成类的相似性小的原则,可以找到“山脚”下的“拐点”碎石,以它确定分类数目为3类。
通过碎石图观察到的最优分类组合与开始确定的分类组合相同,验证了我们在进行聚类分析的时候分组是合理的。
然后我们在分出三类中选取了代表性最大的测井曲线,即纵向分辨率较高的曲线。
这里我们用变异系数,即一组数据的标准差与其相应的均值之比,来衡量差异程度。
变异系数
越大说明数据的离散程度越大。
在每一类中选出变异系数最大的曲线作为这一类的代表曲线。
据此,通过计算比较变异系数的大小,我们选出了GR(自然电位),R4.0(4M电阻率),PW这三条曲线。
5.3快速样本聚类分析
由地质分层基本知识可知,统一地层的测井曲线数据相似程度大,不同地层之间的测井曲线相似程度低。
我们根据1号井的分层结果,找到各层主动测井曲线数据的聚心,并以此为控制点,建立数据模型,实现井位分层的人工智能处理。
第i层(共16层)测井曲线数据的聚心为A=(
),其中
表示密度DEN在第i层的聚心,
表示4M电阻率在第i层的聚心,
表示PW在第i层的聚心,计算公式为:
(6)
(7)
(8)
其中,i(1,2,3…16),j(1,2,3…N),由此我们得到了1号井的初始聚心,如表一所示:
表一:
1号井初始聚心
井位
GR
R4.0
PW
长31
-0.57427
0.468698
-0.03019
长32
0.33984
-0.18248
-0.4707
长33
0.177895
-0.48856
-0.28701
长41
0.126527
-0.30858
-0.31604
长42
0.173933
-0.32635
0.048191
长61
-0.11803
-0.11798
0.117943
长62
0.128787
-0.17381
0.24199
长63
-0.35924
-0.1287
0.01419
长71
0.156507
-0.1059
-0.10459
长72
0.124519
-0.24245
0.198651
长73
-0.21245
1.562482
-0.16295
长81
0.38793
-0.16046
0.453656
长82
0.472901
-0.26334
-0.09952
长91
0.219258
-0.50475
0.23289
长92
0.180563
0.041524
0.17243
长92以下
-2.1E-07
-1.7E-07
1.33E-06
由于上述的主动测井曲线的聚心是根据1号井的人工分层结果直接计算出来,不一定与各层的真实聚心完全吻合,接下来我们计算出1号井中主动测井曲线的所有样本数据到各层聚心的欧式距离,按照距聚心距离最短的原则,把所有样本数据分派到各聚心所在的层中,形成一个新的16层分层结果,检验初始分层结果的真实性。
其中欧式距离(EuclideanDistance)的计算公式为:
EUCLID=
i(1,2,3)(9)
其中,k表示共有k个主动曲线,
表示第一个样本数据在第i个变量上的取值,
表示第二个样本数据在第i个变量上的取值。
我们使用PASW实现以上过程,找到新的聚心,如表二所示:
表二:
1号井的聚心
井位
GR
R4.0
PW
长31
-.52864
2.96151
-.73051
长32
.30689
-.30248
-.73051
长33
0.178895
-0.49856
-0.28881
长41
.03335
-.30247
-.73051
长42
0.2200933
-0.32215
0.086691
长61
-0.11803
-0.11798
0.117943
长62
0.128787
-0.17381
0.24199
长63
-.69726
-.28016
-.73051
长71
0.156507
-0.1059
-0.10459
长72
0.124519
-0.24245
0.198651
长73
-0.414423
3.40425
-.73051
长81
.25859
-.30231
1.36653
长82
0.472901
-0.26334
-0.09952
长91
0.219258
-0.50475
0.23289
长92
0.180563
0.041524
0.17243
长92以下
-1.9E-07
-2.2E-07
0.99E-06
我们计算出第i层的初始聚心与经过聚类后的聚心之间的偏移距离平方和
与相邻层聚心之间的距离之比
,来反映其聚心的偏移程度,其计算公式为
(10)
)(11)
(12)
其中
表示第i层聚点与其相邻层的聚点之间的距离,经过计算,我们发现
={1.5%、0.2%、1.2%、2%、2.1%、0.92%、0.67%、2.2%、3.6%、4%、11%、7.1%、3.9%、1.92%、6.6%、3.34%},由此可见聚心可以较好地反映出各层数据的特点。
我们利用上述得到的聚心作为2至7号井的初始聚心集,计算出各测井曲线数据到聚心的欧式距离,以距聚心距离最短为原则,把样本分派到各聚心所在的层中,经过多次迭代(经过试验发现6次迭代效果最佳),得到最终的分类结果。
利用PASW实现对2至7号井的快速聚类。
由于数据庞大,显示结果较为复杂,我们对数据进行了简单的处理,分层后各层的底深结果如表三所示,以井深为标记量,划分在每一层的测井曲线数据总个数与该层误判错误的数据个数如表四所示。
表三:
分层底深结果
井号
井位
2号井
3号井
4号井
5号井
6号井
7号井
人工
自动
人工
自动
人工
自动
人工
自动
人工
自动
人工
自动
长31
257
193
213
201
276
260
450.4
467
334
319.6
长32
290
330
251
293.3
311
306
492
521
368
354.7
长33
326
380.5
297.4
330
355.7
340.2
535.4
554.7
261.7
234
410
417.6
长41
369
430
340.5
382
398
387.9
479.8
506.8
310
305.7
454
435
长42
414
461
377.9
410.9
438
460
618
634
350
345.8
495
476
长61
458
500.3
422
436.7
483
496.8
661.7
653.8
396
380
528
541
长62
497.5
519
455
450.6
518
534
698
720.4
433.6
420
576
583
长63
545.1
560
502
530
560.3
570
741
735
478
465.6
615
620
长71
582
588.5
540.5
570.3
599.7
612.2
780
778
514.5
521
652
653
长72
612
630
578
607
643.5
667
821.9
834
558
543
690
687
长73
644.3
676
621
627.2
680
698.7
860.4
879.7
602
607
733
745.6
长81
682
714.1
663
653
720
736.5
900.4
921
641.2
657
770
790.1
长82
717
740
700
721
760
749
934
954
682.1
708.9
810
818
长91
765
799
740
769
803
857
972
963.6
717.6
732
860.6
877.6
长92
811
932
788.9
803
846
879
1010.7
992
763
773
901
912.3
长92以下
1020
1020
980
980
900
900
1070
1070
863.4
863.4
965.475
965.475
5.4模型的检验
我们以人工分层的结果为标准,将利用模型自动分层后的结果与之进行比较分析。
我们计算出在自动分层结果中的第m口井在第i层的层内误判率
与第m口井的层间误判率
。
(13)
(14)
其中,
表示第m口井在第i层中被错误的聚类为非i层的测井曲线数据的个数,
表示第m口井在第i层中总的测井曲线数据的个数;
表示在第m口井的分层结果中,分层错误的深度,
表示第m口井的总深度。
经过计算,我们得到其2至7号井的层内误判率
结果如表三所示,层间误判率
结果如表四所示。
表四:
层内误判率统计表
井号
井位
2号井
3号井
4号井
5号井
6号井
7号井
长31
8.11%
24.32%
15.32%
23.67%
11.13%
23.41%
长32
15.01%
16.11%
16.73%
22.34%
13.5%
28.31%
长33
16.76%
15.01%
21.56%
16.70%
23.45%
17.34%
长41
19.77%
22.14%
14.54%
34.71%
25.56%
16.91%
长42
26.18%
25.02%
16.79%
11.62%
18.34%
23.41%
长61
24.59%
10.24%
18.34%
18.34%
26.34%
25.69%
长62
22.65%
11.81%
26.71%
27.34%
21.16%
22.81%
长63
31.04%
23.23%
13.87%
25.67%
15.14%
32.71%
长71
26.93%
34.56%
25.98%
19.82%
24.78%
25.61%
长72
12.68%
32.12%
32.52%
33.45%
31.71%
33.17%
长73
33.99%
27.10%
19.64%
12.65%
16.81%
22.45%
长81
38.64%
34.60%
21.98%
29.71%
19.12%
15.18%
长82
32.39%
21.27%
17.52%
13.45%
23.37%
19.13%
长91
29.19%
32.24%
15.73%
29.12%
21.45%
26.91%
长92
34.91%
13.6%
27.40%
30.12%
25.51%
30.11%
长92以下
28.32%
24.31%
18.37%
14.51%
19.13%
21.61%
表五:
层间误判率统计表
井号
层间误判率
2号井
38.10%
3号井
35.70%
4号井
34.70%
5号井
33.90%
6号井
45.30%
7号井
32.80%
综合以上数据,我们计算出第i层的平均误判率层内误判率
分别为{27.66%、18.67%、28.47%、32.27%、30.23%、30.59%、22.08%、23.61%、36.28%、29.28%、22.11%、26.54%、31.13%、25.77%、36.94%、31.04%},i{1,2,3…16},平均误判率
=36.75%,由次我们不难发现虽然此模型能将大部分的地层区分出来,但是存在着不小的误差,并且出现跳层的现象,如深度为280和290的聚在一层中,285和295的聚在一层中。
为避免这种现象我们改进方法,建立了模型二。
5.5模型的优化
5.5.1层内差异法与聚类分析相结合
根据一号井已有的分层数据,我们得出层内差异小,层间差异大的分层规律。
为了避免数据跳层现象的出现,我们先利用层内差异法将测井曲线数据进行细分层,再对分好的层进行聚类分析。
同一层内的测井值相对稳定,其值得变化不超过某一允许误差(即由非地层因素引起的测井值误差),并认为每一层内的采样值的均值代表该层得测井的真实测井值。
若某一相邻的采样点的均值与该均值的差异在允许误差范围内,则认为该采样点属于这一层,否则,便属于下一层。
假设已确定出相邻的几个采样值
均属于第
层,该该层的允许误差为均值为
,方差为
,其中,
(15)
(16)
现在想要判断随后的第n+1个采样值,是否同属第i层。
判定规则如下:
若
,则认为
属于第i层,并计算这n+1个采样点的处理。
若
,则认为
点不属于第i层,该层划分完毕,把前n个采样点的测井均值及第n个采样点对应的深度输出。
如此进行下去,直至处理完整个井段为止。
为确定
,我们结合概率论的知识,从概率统计角度讲,可以认为测井值
是一个具有有限方差的随机变量。
同一层内个采样值的差异反映了地层因素引起的随机误差,并且满足切比雪夫不等式:
(17)
式中:
为均方根误差,
为该层的某个采样值,
为第i层测井均值,
为非地层因素引起的允许误差。
又均方根误差为:
(18)
并且
(19)
式中,B为待定参数,其大小的选取应视实际所分层的详细程度而定。
B值越小,允许误差越小,分层就越细;反之,分层就越粗。
通过实际操作,我们发现B取3时分层效果较为理想。
5.5.2模型的求解
我们用C++语言编程实现内层差异法的算法(程序代码见附件),再使用SPAW实现小层之间的聚类分析。
利用优化后的模型再对2—7层的测井曲线数据进行分层,分层的底深结果如表六所示。
表六:
分层底深结果
井号
井位
2号井
3号井
4号井
5号井
6号井
7号井
人工
自动
人工
自动
人工
自动
人工
自动
人工
自动
人工
自动
长31
257
190
213
212
276
267
450.4
443.3
334
339.3
长32
290
330
251
243.4
311
321
492
482
368
377
长33
326
380
297.4
285
355.7
346
535.4
551
261.7
269
410
418.3
长41
369
430
340.5
330
398
410.2
479.8
481
310
318.7
454
468
长42
414
460
377.9
362.1
438
437
618
621
350
355
495
501.1
长61
458
500
422
412
483
492
661.7
679
396
402
528
530.2
长62
497.5
510
455
444.5
518
517.2
698
723
433.6
440.8
576
589
长63
545.1
560
502
489
560.3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 测井 曲线 自动 分层 模型 研究
![提示](https://static.bdocx.com/images/bang_tan.gif)