精神卫生专科领域人工智能数据集的建设思路与展望

(整期优先)网络出版时间:2021-08-03
/ 3

精神卫生专科领域人工智能数据集的建设思路与展望

邓成生 吴玲玉 王利军 赵鑫 靳金

江苏省镇江市精神卫生中心,江苏 镇江 212000

摘要:目前生活节奏加快,心理障碍患者增多,精神卫生专业医院护工和专科医生面临短缺。随着科技的发展,人工智能登上历史的舞台,并开始下沉到各个行业和产业。人工智能的基础就是大数据,大数据归集后的标注数据为行业发展提供了重要驱动和基础保障,标准数据集可以作为验证或构建更优良解决办法的良好起点,在医疗辅助技术领域开展数据集建设,为将来智慧医疗打下先期基础,缓解精神卫生专科医院现有困局,是我们当下要研究的重要课题。

关键词:精神卫生;人工智能;数据集;大数据;智慧医疗

Abstract: At present, the pace of life is speeding up, and the number of patients with psychological disorders is increasing, there is a shortage of nurses and specialists in mental health hospitals. With the development of science and technology, artificial intelligence has stepped onto the stage of history and began to sink into various industries and industries. The basis of artificial intelligence is big data. The annotated data after big data collection provides an important driving force and basic guarantee for the development of the industry. The standard data set can be used as a good starting point to verify or build better solutions. It is necessary to carry out data set construction in the field of medical auxiliary technology to lay an early foundation for future smart medicine and alleviate the current dilemma of mental health hospitals We need to study the important topic now.

Key words: mental health; artificial intelligence; data set; big data; wisdom medicine


引言

自进入二十一世纪以来,生活节奏加快,竞争压力加剧,诱发精神疾病的社会环境外部因素不断增多,导致心理行为异常和精神障碍患者逐渐增多,抑郁症、焦虑症也呈明显上升趋势[1]。尤其是随着人口老龄化的加剧,老年痴呆患者也逐年增加。精神疾病易反复发作,治疗周期较长,病人需要长期的住院护理服务,而目前精神卫生专科医院医疗服务水平的提升速度赶不上目前人民群众的精神卫生需求。就目前社会发展形势而言,人工智能(artificial intelligence,简称为AI)[2]成为解决现有困境的关键。人工智能的核心基础就是数据——许多标注或未标注的数据。构建一个新人工智能解决方案或产品最困难的部分不是人工智能本身或算法,通常最困难的地方是数据收集和标注。标准数据集可以作为验证或构建更优良解决办法的良好起点,也是加快“强人工智能”(strong artificial intelligence; strong AI) [3]的必要步骤。为了有效解决精神卫生领域目前的种种困难,以下将围绕精神卫生领域人工智能数据集的建设思路展开论述,并就未来人工智能在精神卫生专科医院的应用做出合理的预测。

1 精神卫生专科领域人工智能数据集建设思路分析

1.1 培养跨行业人才,树立全新的数据集理念

精神卫生也称心理卫生,它是关于保护与增强人的心理健康的心理学原则与方法。精神卫生不仅能预防心理疾病的发生,而且可以培养人的性格,陶冶人的情操,促进人的心理健康。现阶段我国大多数精神卫生专科医院科室设置不完善,分类不健全,大多数医院科室分类不全,极其不利于医院对各类患者进行分类管理治疗,服务能力存在很多突出问题,随着我国精神疾病患者数量不断增加,年龄段逐渐降低,且大部分医院普遍面临着专业医师和护工不足的困局,加强各医院服务能力将成为各地区未来工作的重中之重

[4]。人工智能是研究、开发能够模拟和扩展人类智能的理论、方法、技术及应用系统的一门全新技术科学[2]。AI的本质是对人类智能的模拟与扩展,赋予机器人类的思考能力,并以此产生工作能力可以替代人类的绝大部分行业工作。两个领域的知识交互会产生新的学科分支,可以有效缓解当下乃至未来精神专科医院长期的人手不足问题,替代收费、发药、问询、护理等工作。目前人工智能都是限于“弱人工智能”(weak artificial intelligence; weak AI) [3],且尚未下沉到精神卫生专科领域。数据集对人工智能的实现具有重要意义[5],为人工智能学习算法训练提供数据采集、标注等服务,已经成为近年来人工智能研究的热点之一。因此在精神卫生领域培养跨领域人才并开展数据集建设有着重要的务实意义。

1.2 确定精神卫生专业人工智能方向的数据集获取边界

根据精神卫生专科医院的实际业务和衍生业务,划分边界和分类。首先对精神卫生专科领域业务进行有效分类,按照宏观方向可以分为医院数据、区域数据和专科联盟数据,按照数据性质,可以分为个人数据、医疗数据和行为数据。根据数据类型可大致分为机构化数据和非机构化数据。在此分类基础上,在精神卫生领域多部门协同展开实际业务调查,设定数据集的定位和收集范围,数据维度包括公共精神学、生命体征、行为特征、实验室测试、药物等,囊括医疗设备、环境卫生、药物使用、精神健康、慢病指标等等。数据来源包括 X 射线、超声、CT、量表以及各种生化仪器检测结果,数据集也不仅仅限于实时治疗数据,还包括治疗过程中的辅助集、验证集、测试子集的标准数据集,即可以在不同角度得到同一病症的多模态数据、组学数据的融合分析[6]

1.3 规范人工智能数据集的处理办法

在数据获取边界确定后,需要对数据集如何获取及获取过程中的清洗过程加以研究,并遵循相关原则。首先要保证数据的完整性,由于大量的数据分散在不同的系统中,如个人数据包含了从出生到死亡,从行为延伸到病症候群,因此要做好数据的分级分层概念。

在分级分层的泛基础上,数据规范重要的原则之一就是要对元数据[7]做好标准定义,达到专科联盟内部的一致认定,达到可理解、可视化以及相关知识图谱的融合度,元数据应记录数据集名称、标识符、数据集语种、数据集分类类目名称、数据集发布方、数据集摘要等基本信息。另外有必要时,数据集制造的责任方应记录每个数据集的版本、与上一个版本的差异改动、注册机构、分类模式和主管机构。数据字段需要信息科和临床医生的有效协同,并获得多次细化和确认。因此每一样数据在采集过程中应该有无二义的数据定义,并且在开始采集时先行做好命名规范,说明其拓展应用范围。

在数据集定义领域的数据规范达成一致后,数据集采集方法应当遵循自动采集原则,即减少人力资源成本,力求数据的来源客观且减少人为干预。在采集过程中应当参考开源数据,不仅仅是专科领域,也不仅限于国内,数据集的建设应兼容并包,充分参考相关的各行各业以及国内外的优秀数据集建设方案。在基因图谱和知识型行为数据方面要充分考虑多维矩阵单元等多种存储机制的数据集建设,以便应用于将来的人工智能算法。

对于业务过程中衍生的数据集,如测试集,需要和关联的主数据集做到低耦合状态,即既相互独立,又不失关联。对训练集则需要关注数据洗牌,在交叉验证时,保证其循序敏感度的一致。在数据集较大时,可以使用分类器进行有效分类,分类后的子集可以进行独立处理,这就需要对数据集做好多标签分类,在统计学意义上符合分层抽样结果不变原则。

1.4 对建设中的数据集进行质量管控

数据质量在数据集的建设过程乃至运维阶段都至关重要,迄今为止,虽然很多领域做到了数据共享,但是很多历史数据无法使用,需要重新划分数据集以及补充修正数据,因此在数据收集的过程中需要做好质量监控工作,及时进行数据修正,并在患者隐私数据分级展示过程中进行按权限脱敏。另外专科联盟之间可以使用区块链技术[8]确立数据集来源并共享,防止篡改。

在数据质量监控中,要引入量级和标准度两个维度概念,不同的量级下,监控的标准度是不一样的,在技术上要充分考虑其存储分布、字段拓展、管控方案、脱敏工具和使用效率。在存储分布和字段拓展方面要充分考虑数据碎片问题,即在建设方案过程中要对编码和标识进行严格的标准化。管控方案中需要及时关注已经产生的数据碎片即孤立数据,及时进行消除或修正。在数据修正的过程中,应当秉持减少手动干预原则,并在需要手工干预的情况下,做好维护标准制定和审核流程规范。数据脱敏时要选择合适的脱敏工具,在不改变业务流程的前提下快速部署实施,有效的降低脱敏的复杂度和风险等级,且不影响数据集的使用效率。

1.5 对建成的数据集做体系评估

各领域的数据集建好后,根据数据管理成熟度模型(DMM),并依据现有的大数据成熟度模型(BDMM)

[9]的五个阶段进行关联选择,确定有关的能力项并根据精神卫生专科行业数据集的独有特征进行补充,重新建立全新的数据集体系评估标准,并以此标准进行分级改进。

体系评估中需要重点关注性能考核,可以使用交叉验证测量精度。因为分层交叉验证和随机交叉验证保持高度的一致性对建设深度学习式神经网络模型起决定作用,因此获得可靠稳定的模型显得至关重要。同样体系化评估也不能遗漏测试集等辅助应用,需要从全局考虑体系的成败。

2 精神卫生专科医院人工智能领域未来发展态势预测

未来的世界是人工智能的世界。实现强人工智能必然要构建多维矩阵实现,目前多维矩阵还是一个概念上的产物,从渐进角度和实现步骤,人工智能的发展可以分为3+1步骤,即从语音智能(聊天机器人)发展到视频智能(虚拟现实)再到肢体智能(陪护机器人),最后达到拥有独立思维的精神智能(思想者机器人),独立智能体甚至可以自行思考出更好的医疗技术和治疗方法[10]。强大而完善的数据集恰恰是前三个维度的基础。

在精神专科医院的实际工作中,比如护士需要每天观察患者的状态和行为并记录到护理信息系统[11]和移动护理管理系统[12]中,这些记录或多或少带有主观认定,且在各医院数据量不大的情况下,很难得出公允的行为推理。在定义好数据集后,并且采集范围扩大到整个地域乃至全国范围,辅助以综合穿戴设备以及外部捕捉设备,综合一系列数据得出较为公允的结果集乃至推论,为精神医学做出更多有效的参考,进而推动精神学科进步。

3 结论

本文主要讨论了AI的数据集理念、获取边界、处理办法、质量管控和体系评估,以及人工智能领域未来的发展态势预测。随着人工智能的深入发展,算法及计算能力已不是制约人工智能发展的主要因素,数据集的理念建立、收集、处理和管控同样重要。精神卫生领域是实现健康中国的重要一环,在其专科领域实现人工智能的深层次应用离不开高质量数据集的建设,为了快速促进精神专科测试模型的形成,研究者可以考虑使用开源的数据集或者对精神卫生专科领域数据进行自我采集,并借助如图像标注和知识标注等方法,将采集的数据转换为合格的数据集,便于后续大规模标准化数据集建设工作的进一步开展。


参考文献:

[1]江雨桐,韩洋,于新民等.浅谈精神卫生专科医院服务能力现状[J].饮食科学,2018(6X):190-190.

[2]钱立富.5G+AI:人类社会变革的下一次巨浪[J].全球商业经典,2020(7):20-24.

[3]王聪,王文方.为什么计算型的弱人工智能不可能成功--彭罗斯论战罗素和诺维格[J].科学技术哲学研究,2021,38(2):46-52.

[4]江雨桐,韩洋,于新民等.浅谈精神卫生专科医院服务能力现状[J].饮食科学,2018(6X):190-190.

[5]高宏旭,曹大军.人工智能中数据集的分类、获取与处理[J].科学大众,2020(5):62-63,83.

[6]中华医学会放射学分会,中国食品药品检定研究院,国家卫生健康委能力建设与继续教育中心等.胸部CT肺结节数据集构建及质量控制专家共识[J].中华放射学杂志,2021,55(2):104-110.

[7]阮彤,邱加辉,张知行等.医疗数据治理 ——构建高质量医疗大数据智能分析数据基础[J].大数据,2019,5(1):12-24.

[8]白健,董贵山,安红章等.基于区块链的数据共享解决方案[J].信息安全与通信保密,2021(1):21-31.

[9]杨阳.西藏自治区政府大数据智慧治理量化模型的选择——基于大数据成熟度模型[J].内蒙古煤炭经济,2018(6):16-16.

[10]步宏.人工智能推动精准病理诊断的发展[J].四川大学学报:医学版,2021,52(2):153-155.

[11]林姝恬,胡少芹.护理信息系统在护理管理中的应用现状及发展趋势[J].家庭生活指南,2021,37(3):74-75.

[12]尚红艳.移动护理信息系统应用现状探析[J].IT经理世界,2020,23(12):179-179.