基于图嵌入技术的岩性识别研究

(整期优先)网络出版时间:2022-06-06
/ 3

基于图嵌入技术的岩性识别研究

侯明雨 杨建钦 李为冲

中海油研究总院有限责任公司 邮编: 100028

摘要:岩性识别是储层测井解释的关键问题,但是由于取芯资料较少,应用传统机器学习方法很难达到理想的效果。本文基于知识图谱,应用图嵌入技术建立神经网络模型,综合考虑影响岩性的各个指标及识别规则,针对不同性质特点的目标层段智能识别地层岩性。通过对实际井数据的应用取得了非常理想的效果,证明了将知识图谱技术应用于岩性识别的可靠性。

关键词:岩性识别;测井;知识图谱;机器学习;图嵌入;神经网络

引言

岩性识别是地质研究的基础,是测井储层评价的重要工作之一。准确高效的测井资料岩性识别能为油气资源勘探开发提供有力保障。随着人工智能和油气勘探技术的不断发展,机器学习已经成为岩性识别的重要手段之一,一些算法模型在岩性识别中取得了较好的效果。马陇飞等[1]基于梯度提升决策数算法实现了的岩性智能分类,证实了方法的有效性;单敬福等[2]利用BP神经网络算法对致密砂岩储层进行识别,为致密砂岩储层岩性识别提供了新的解决途径;金明霞等[3]利用快速BP算法训练了神经网络,并用训练后的神经网络对某地区的测井资料进行岩性识别,取得了相当好的效果;罗德江等[4]考虑到BP神经网络的不足,结合小波变换,将小波神经网络应用到致密砂岩储层参数的预测中,较为准确地预测储层孔隙度,为储层参数预测提供了新思路;怀海宁等[5]利用神经网络模型对镇原区块储层的物性参数进行了预测,又一次证实了BP神经网络在测井参数预测应用中的优势和潜力;胡嘉良[6]等在BP神经网络算法的基础上,结合PCA算法对非常规储层岩性进行识别,进一步提升了岩性识别的准确率;武中原等[7]考虑导常规机器学习方法无法充分利用沉积岩石在深度域序列上的潜在信息,基于LSTM循环神经网络构建了能够提取和学习岩性沉积序列特征的岩性识别模型,为复杂碳酸盐岩储层的表征和评价提供了保障。

在岩性识别中无论是应用机器学习还是深度学习,仅仅是从单井的数据特征出发,都没有充分考虑邻井地质特征更为相似等理论和专家经验,其输出结果的可解释性和泛化能力较差。基于知识图谱技术,将区块中的井与井之间的关联,井与储层之间的关联,储层之间的关联关系通过图嵌入技术(Graph Embedding)进行知识表示学习,结合神经网络模型构建综合岩性识别模型。通过对实际井数据的应用取得了非常理想的效果,提升了模型的泛化能力和可解释性。

1方法介绍

1.1知识图谱

知识图谱(Knowledge Graph)是一种新兴的知识管理方法,2012年由谷歌公司正式提出,是基于本体论和语义网络建立起知识领域的关键概念及其关系的知识体系,是用可扩展的结构表征了关键参数及其相互关系,知识图谱的构建旨在描述客观世界的概念、实体、事件及其之间的关系。

629d6e4c212fc_html_aa9ea2c5a4fe1160.png

图1 知识图谱构建过程

知识图谱的构建包括知识提取、知识表示、知识融合和知识推理等几个过程(参见图1),知识提取是从一些非结构数据、结构化数据中提取概念、实体、关系、属性等知识要素;知识表示则是通过一定有效的手段对知识要素进行表示,便于进一步处理使用;知识融合是消除来自不同数据源的实体、关系、属性等指标项与事实对象的歧义,提高知识库数据的质量;知识推理则是在已有的知识库基础上进一步发掘隐含的知识,丰富和扩展知识库。知识图谱的构建需要自然语言处理、图像识别、音频识别技术等技术,需要建立机器学习算法库、完成对数据的识别、标注和抽取。

知识图谱的逻辑结构可分为本体(Ontology)层和数据层,本体层是描述抽象知识和知识之间的关系,每个本体指代现实中的一类事物;数据层是指现实中的实体(Entity)及实体间的关系;知识图谱的关键在于本体层的设计,体现本领域的知识体系,与实体结合构成知识图谱。

知识图谱的表现形式应用三元组来表示,如“实体1-关系-实体2”或者“实体-属性-属性值”的方式,其中属性值可以以图形方式表示。在多种知识图谱的存储方式中,图数据库存储方式更加重视高效的图查询和搜索。

张钹院士[8]提出了第三代人工智能的理念,指出了第三代人工智能的发展路径是融合第一代的知识驱动和第二代的数据驱动的人工智能,同时利用知识、数据、算法和算力4个要素建立新的可解释和鲁棒的人工智能理论与方法。知识图谱在人工智能的发展过程中发挥着越来越重要的作用,一些研究开始重视将知识图谱引入到深度学习或者浅层机器学习任务中,例如在深度学习过程中引入先验知识,以建立更具解释性的深度学习模型;在浅层机器学习任务中,结合知识图谱进行特征提取,提高模型的准确性和可解释性。

1.2图嵌入

图嵌入(Graph Embedding,也叫Network Embedding)是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程,能够很好地解决图数据难以高效输入机器学习算法的问题。

图嵌入是将属性图转换为向量或向量集。嵌入应该捕获图的拓扑结构、顶点到顶点的关系以及关于图、子图和顶点的其他相关信息。更多的属性嵌入编码可以在以后的任务中获得更好的结果。总的来说图嵌入技术大致可以分为两种:节点嵌入和图嵌入。当需要对节点进行分类,节点相似度预测,节点分布可视化时一般采用节点的嵌入;当需要在图级别(graph-level)上进行预测或者整个图结构越策,需要将整个图表示为一个向量进行嵌入表示。

知识图谱的表示学习即将知识图谱构建成一个(头实体,关系,尾实体)的三元组形式,通过目标函数将实体和关系分别以低维的向量来表示。Trans系列的知识图谱表示方法均采用同样的函数思想,即|h + r| ≈ t,其中h, t分别表示知识图谱中的头实体和尾实体的向量表示,r表示为关系的向量表示。Trans方法主要有TransE、TransH、TransR、CtransR、TransD、TransA以及TransG等。

本文采用TransR[9]方法对知识图谱进行分布式表征训练,TransR 的基本思想如图2所示。对于每个元组(h,r,t),首先将实体空间内的实体通过 Mr 矩阵投影到关系 r 所在的空间内,得到 hr 和 tr ,然后使 hr+t≈tr。特定的关系投影(彩色的圆圈表示)能够使得头/尾实体在这个关系下靠近彼此,使得不具有此关系(彩色的三角形表示)的实体彼此远离。

629d6e4c212fc_html_44247a70e599efa6.png

图2 TransR示意图

此外,仅仅通过单个的关系向量还不足以建立从头实体到尾实体的所有转移,即对于同一条关系 r 来讲,r 具有多种语义上的表示。本文提出对不同的头尾实体进行聚类和并且学习到关系在不同聚类簇的表示。

1.3基于图嵌入的神经网络

基于知识图谱的岩性识别模型首先通过卷积神经网络和长短时记忆神经网络对测井曲线及其特征进行提取;然后选取研究区块中各井、层关系等专家知识,采用图谱分布式表征算法将相邻井的类比特征进行表征,最后,通过注意力机制将两者融合,实现对岩性的定性评价。

629d6e4c212fc_html_b4a71c85f51ea843.png

图3 神经网络结构图

本文通过深度神经网络、深度卷积神经网络、长短时记忆神经网络(图4)等手段对测井曲线进行多维度、多变量的特征提取,将测井曲线数值特征以及之前构建的特征数据结合该井的图谱分布式表征向量一起输入到混合神经网络中,同时对测井曲线特征与图谱关系特征进行混合学习,最后通过一个输出层得到目标的岩性识别结果。该模型通过一个联合学习的方法,在得到领域知识图谱嵌入关系的同时,对神经网络模型进行训练,这样不仅提升了模型对于领域知识的理解和利用的能力,同时也让模型预测结果具有一定的可解释性。与传统的KNN、支持向量机、随机森林以及神经网络等机器学习和深度学习算法相比较[10][11],模型的泛化能力更强。

2.应用实例分析

2.1岩性识别模型评估

1)混淆矩阵

通过混淆矩阵(图4)对模型识别结果进行评估,矩阵的列分别表示某种岩性实际类别,行表示识别结果。矩阵对角线上的数据代表被正确分类的样本个数,非对角线上的数据代表被混分的样本个数;从图看出,泥岩、砂质泥岩、细砂岩、泥质砂岩,被正确识别的样本个数分别为68、46、58和32。以泥岩为例,第1行中的“68”代表有68个样本被识别为泥岩,“3”代表有3个砂质泥岩样本被混淆识别为泥岩,“1”代表有1个泥质砂岩样本被混淆识别为泥岩。即在识别结果中有被正确识别为泥岩的68个样本和被错误识别的4个样本,其识别结果的准确率(被正确识别样本数占该类别识别结果总样本数的比)为94.4%,第1列代表实际有70个泥岩样本,其中2个被误判为砂质泥岩,其识别结果的召回率(被正确识别样本数占该类别实际样本数的比)为97.1%。砂质泥岩的识别结果准确率为93.9%、细砂岩为98.3%、泥质砂岩为91.4%、总学习结果准确率为94.9%。泥质砂岩和细砂岩出现混淆,识别准确率较低,这是因为泥质砂岩与细砂岩岩性特征相近,不利于识别。

629d6e4c212fc_html_e453b4d6f424ce0a.png

图4 混淆矩阵

2)网络训练收敛图

神经网络训练收敛图(图5)表示网络的训练精度和误差,随着训练步数的增加,误差越来越小,准确率越来越高。

629d6e4c212fc_html_c0ec3199e6096e49.png

图5 网络训练收敛图

2.2应用实例

本文所采用的样本数据为H区14口井的岩心数据、录井数据、测井数据,根据测井响应识别的原则,把该区岩性分为泥岩、砂质泥岩、细砂岩、泥质砂岩四类。,优选出AC、DEN、CNL、GR、SP、COND六条测井曲线。

为了确定标签对识别结果的影响,首先对既有录井又有岩心的5口井进行同井同深度段的岩性识别结果对比,结果显示标签来源录井或岩心样本对岩性识别准确率影响不大。本次建模选用数据量大的录井数据作为标签数据,模型共选取13874个样本点,其中11099个为训练集,2775个为验证集,模型准确率达到94.9%。对待识别井应用模型进行岩性识别,识别结果如下。

629d6e4c212fc_html_2c052ba362bd9104.jpg

图6 H1井岩性识别成果图

3.结论

以H区块的数据为研究对象建立的基于图嵌入技术的神经网络模型岩性识别准确率为94.9%。基于该模型可以对未取芯段的井进行岩性识别。基于图嵌入技术的神经网络模型可以极大提高测井岩性的智能识别准确性,这必将大大减少人工交互的工作量,提高地质研究工作的效率,可以作为非常规油气资源开发领域中实用的技术手段。

参考文献

  1. 马陇飞,萧汉敏,陶敬伟,等.基于梯度提升决策树算法的岩性智能分类方法[J].油气地质与采收率,2022,29(1):21-29.DOI:10.13673/j.cnki.cn37-1359/te.2022.01.003.

  2. 单敬福,陈欣欣,赵忠军,等.利用BP神经网络法对致密砂岩气藏储集层复杂岩性的识别[J].地球物理学进展,2015,30(3):1257-1263.DOI:10.6038/pg20150335.

  3. 金明霞,张超谟,刘小梅.基于MATLAB神经网络的岩性识别[J].江汉石油学院学报,2003,25(4):81-83.DOI:10.3969/j.issn.1000-9752.2003.04.030.

  4. 罗德江,郭科.小波神经网络在致密砂岩储层参数预测中的应用[J].内蒙古石油工,2007,27(12):119-122.

  5. 怀海宁,刘建英.BP神经网络在储层物性预测中的应用——以鄂尔多斯南部镇原区块为例[J].内蒙古石油化工,2008,34(8):12-14.DOI:10.3969/j.issn.1006-7981.2008.08.005.

  6. 胡嘉良,高玉超,余继峰,等.基于PCA-BP神经网络的非常规储层岩性识别研究[J].山东科技大学学报(自然科学版),2016,35(5):9-16.DOI:10.3969/j.issn.1672-3767.2016.05.002.

  7. 武中原,张欣,张春雷,等.基于LSTM循环神经网络的岩性识别方法[J].岩性油气藏,2021,33(3):120-128.DOI:10.12108/yxyqc.20210312.

  8. 张钹,朱军,苏航.迈向第三代人工智能[J].中国科学:信息科学,2020,50(09):1281-1302.

  9. YankaiLin,ZhiyuanLiu,MaosongSun,YangLiu,XuanZhuLearningEntityandRelationEmbeddingsforKnowledgeGraphCompletion[J].ProceedingsoftheTwenty-NinthAAAIConferenceonArtificialIntelligence

  10. 宋延杰,张剑风,闫伟林,等.2007.基于支持向量机的复杂岩性测井识别方法[J].大庆石油学院学报,31(5):18-20.

  11. 张翔,肖小玲,严良俊,等.2009.基于模糊支持向量机方法的岩性识别[J].石油天然气学报,31(6):115-118.