在线股票论坛评论与科创板股价走向的相关性研究——基于NLP技术和网络大数据分析

/ 4

在线股票论坛评论与科创板股价走向的相关性研究——基于NLP技术和网络大数据分析

孙婧雯 魏诗静 贾静 王雪煜

上海立信会计金融学院

摘要:

科创板作为我国金融市场制度变革的产物,与主板市场在投资者构成等很多方面都很大的不同,具有独具特色的系统风险特性。而随着金融市场的发展,人的行为和情绪在股市的发展中也起到了越来越重要的作用,人的情绪会受到自身和外界等各个方面因素的影响,进而影响到股票的价格和市盈率。然而,由于学者们对股票论坛对股市发展影响的研究相对较少等因素,股市的突破和发展方面依然存在着一些问题。本文基于大数据迅速发展的时代,首先对相关研究进行了广泛的搜集和整理,并在此基础上运用了自然语言分析技术(NLP)、Word2vec转化词向量和CEEMDAN-LSTM等方法,对股票的发展和在线股票论坛的相关性进行了研究,希望能够利用投资者的情绪在不同尺度下对股市的发展进行预测。经过多方面分析之后,我们发现投资者情绪对股票的收益率有很大的影响,可以作为相关部门制定政策的一个重要依据。

关键字:科创板;市盈率;投资者情绪;股票在线论坛;收盘价

1.引言

1.1 研究对象的选取及发展动态

科创板于2019年6月设立,主要服务于符合国家战略、突破核心关键技术、市场认可度高的科技创新企业,重点支持新一代信息技术、高端装备等高新技术产业和战略新兴产业。相比于主板市场,科创板在企业上市退市、并购重组、股权激励等方面具有一定优势。中国股市设立科创板是落实创新驱动和科技强国战略、推动高质量发展、支持上海国际金融中心和科技创新中心建设的重大改革举措,将对中国资本市场产生深远的影响,有利于推动新经济企业发展,加速中国技术创新。科创板能够帮助中国发现并支持最具成长性的企业,并将成为支撑中国高新技术产业未来发展的重要支柱之一。科创板引领了中国经济的未来方向,培育了一批具有国际竞争力的科技创新企业,推动了实体经济的高质量发展;科创板提升资本市场效率,采取注册制改革,简化了企业上市审核程序,提高了市场运行效率。科创板对市场监管的要求更加精细化,有利于提升市场的透明度和规范性,增强了投资者的信心和保护。因此,综合这些因素,我们选取最具代表性的科创50作为课题的研究对象。

1.2 研究意义

股票在社会经济发展中起着非常重要的作用,随着科技的发展,股吧评论对股市涨跌的影响也越来越大,将大数据技术应用到股市发展中,深度研究科创板股市市盈率发展将有利于促进股市迅速发展,有利于推动新经济企业发展,加速中国技术创新,进而促进中国经济的增长。

复旦大学泛海国际金融学院金融学客座教授、上海证券交易所资本市场研究所所长施东辉教授从对经济和金融市场的影响情况分析,中国经济目前正面临转型升级的发展阶段,未来的增长,未来的发展,更多需要依靠科技创新来驱动。

2.1 基于网络爬虫技术,测算股吧评论对于科创板股价涨跌的长期与短期经济效应。

2.1.1 股吧评论对股价涨跌影响的原理

一般情况下,影响股票价格变动的最主要因素是股票的供求关系。在股票市场上,当股票供不应求时,其股票价格就可能上涨到价值以上;而当股票供过于求时,其股票价格就会下降到价值以下。一个股票的上涨,是需要资金来推动的,当有很多人都去购买同一支股票,就会造成股票供不应求,买的力度越大,股价的上涨也就越厉害,股价涨停就是由于买盘力量过于强大所导致的。一支股票的下跌,也是由资金推动的,当购买这支股票的机构和散户认为这支股票已经不能带来很大的利益,就会将股票卖出,而卖出的股票多了就会造成股票供大于求,股价就会下跌,股票的跌停就是由于卖盘太多买盘太少而造成的。有学者通过研究发现我国上市公司存在着融资行为的窗口时机效应,上市公司的管理者会依凭当前市场中的投资者情绪来选择合适的时机进行股权融资,如果管理者发现当前市场股票的股吧评论比较积极,管理者就会发行更多的股票。

我国科创板诞生于2019年7月22日,网络发展已经比较先进,而且这些企业基本都处于初步发展阶段,需要更多的融资机会,因此股吧的评论对于投资者情绪的影响会更加剧烈,投资机构或个人投资者会更加看重其他股民对于一支股票的评价。而无论从长期还是短期来看,投资者的情绪都会对股票的经济效应产生比较大影响。因此我们以“科创 50 zssh000688”股票为研究对象,研究股吧评论对股价涨跌的长期与短期经济效应。

2.1.2 股吧评论对股价涨跌的长期与短期经济影响

一方面,从短期来看,投资者的情绪与公司股票短期的收益呈现正相关关系,股票的涨或跌会随着股吧评论的积极或消极而浮动。Polk等人发现了上市公司管理层由于其个人收入与短期股价挂钩,因此其采取了迎合投资者情绪的公司决策而不是有利于公司长期发展经营的决策,这导致公司在短期内得到了更多的投资,让公司能够顺利运营。因此,随着投资者情绪的变化,造成股吧评论在积极和消极之间变化,进而造成公司股票收益的变化。

另一方面,从长期来看,影响科创50股票价格的重要因素之一是个股自身的盈利情况,即每股收益的大小。投资者都是追逐利益的人,在看到预期收益较高的股票时,对其的评论就会相对更加偏向正向,因此股票受到追捧的程度必然越高,股价自然就会上涨。股票投资者有投资机构和个人投资者,投资机构相对于个人投资者而言,会显得更加专业,在做出判断时,会有专业的人进行调研,做出更加理性的判断,从而推动了股票市场的正向进行,称为“智钱效应”,而绝大多数个人投资者都不能做出相对理性且不受外界人或物的干扰的投资决策行为,这种没有理论依据的投资操作往往导致股票价格不能真实的反映出市场的价值,所以有时候个人投资者的评论会成为股票市场的一种噪声,称为“愚钱效应”。科创50股票股吧中的评论中有大部分的评论都是个人投资者发表的,这对股票未来发展的影响是不言而喻的,如果股吧的评论长期的偏向于一种消极的状态,会间接对股票产生不利的影响,股票的每股收益就会长期处于下降的趋势。

2.2基于Word2vec转化词向量,剖析科创板市盈率的发展走势与股票投资者看法的相关性

2.2.1研究市盈率的重要意义

市盈率是一种常用的估值指标。P/E比率可以反映市场的情绪和信心水平。当市场乐观时,P/E比率可能较高,反之亦然。这有助于投资者了解市场的情绪,但也需要谨慎,因为情绪波动可能导致股价的过度波动。这也是本文中要研究的重点内容。

2.2.2股评数据预处理

2.2.2.1数据清洗

一般情况下,所获得的原始文本中的数据会存在很多无效内容、重复内容和噪声,为了便于后续对于评论情感的分析,因此需要先进行数据预处理。数据预处理技术可以改进数据的质量,提高之后的决策过程的精度和性能。

下图是经过数据预处理后得到的结果:

图2-1 部分散户股评文本内容预处理后的结果

2.2.2.2数据分词

现如今有许多中文分词系统,本文中使用jieba分词库对清洗过后的评论文本进行分词处理,将一些没有用处的信息过滤同时提取出关键词,便于进一步的分析。

1690251125969

图2-2 部分散户股评分词后的结果

2.2.2.3文本向量化

本文选用word2vec方法来训练词向量。Word2Vec模型的核心思想是基于大规模文本语料库来学习词语的分布式表示,使得具有相似语境的词语在向量空间中距离较近。Word2Vec有两种主要的模型架构,分别是CBOW和Skip-gram,它们分别用于从上下文预测目标词语(CBOW)或从目标词语预测上下文词语(Skip-gram)。

1、CBOW模型:

CBOW模型的目标是通过给定上下文窗口内的词语来预测目标词语。具体来说,它通过上下文窗口内的词语的平均向量来预测目标词语的向量。CBOW适用于大规模文本数据和频繁出现的词语,因为它可以捕捉上下文信息来更好地估计目标词语。

2、Skip-gram模型:

Skip-gram模型的目标是通过给定目标词语来预测上下文窗口内的词语。它与CBOW相反,通过目标词语生成上下文窗口内的词语的向量。Skip-gram适用于稀有词汇和小规模语料库,因为它可以更好地捕捉每个词语的上下文信息。

2.2.3股评文本情感分析

2.2.3.1训练词向量

本文通过python中的Word2vec方法,对预处理后的散户评论进行训练。经过预处理后的文本,在经过分词和去除停用词后得到的中文分词组成列表,列表中的中文分词数量越多,训练出来的效果越好。

   本文中通过对同义词的检验来评估模型的训练效果,比如找与“大涨”、“大跌”相似度高的词,如:

图2-3 相似度实例词

通过相似度检验的结果来看,有些词并不是同义词,例如“个股”、“人工智能”、“下午”等。被误认为是同义词的原因可能是空间位置较近,所以结果中的相似度较高。

2.2.3.2股评情感分析

对于股吧评论内容的具体分析以确定其中包含的情感倾向,例如积极、消极或中性情感。这种分析可以结合市盈率,判断预测市盈率的发展走势与股票投资者看法的相关性。

通过SnowNLP库,对股吧评论文本数据随机抽样进行情感得分计算。得到情绪得分后,则需要将投资者的情感进行分类,将情感得分大于0.5的视为积极情绪,将情感得分小于0.5的视为消极情绪。

在将所有散户的评论都按照上述方法得到情感得分后,通过分类方法能够明确知晓散户评论的积极、消极占比。经过代码运算可知,积极与消极各占比0.433和0.567。

分析后的结果表示,对于科创50这一指数,超过56%的散户抱着看涨的积极心态,而也有43%的散户认为未来的股价点位会下跌,持看空的消极态度,但总体的趋势是积极的。

2.2.4市盈率发展走势与股评间的关系检验

2.2.4.1整体描述性分析

下图是2022年10月24日至2023年7月24日科创50指数的市盈率走势图。在图中可以看出在2022年较于稳定,在12月23日下跌到最低,其余时间则是在45至50这个区间之内波动。而在2023年,指数的波动情况较为剧烈且不稳定,一共有两次的骤升分别在2023年初和2023年的三月中旬 ,同时也有两次骤降在2023年4月20日和5月29日,之后的市盈率总体呈现一个下降的趋势。

1dce812dfc85fd032a5c216edb956ae

图2-4 科创50市盈率走势图

在获取到的一万多条投资者情感得分的结果后,将同一天的投资者情感得分取均值,代表当日的投资者情感得分数,如下图所示。对比市盈率的走势图我们可以发现,在股票投资者情绪起伏较大的一段时间里,市盈率的走势也有较大的波动,如2023年 1月23日和2023年3至4月,能够证明投资者的情绪变化对于股票市盈率的走势是有一定的影响性的。

图2-5 投资者评论情感走势图

2.2.4.2相关性分析

基于Stata软件对股票投资者的情绪指数和市盈率的涨跌情况进行相关性检验,由于评论的数据量庞大,所以筛选了一部分的评论进行检验。从结果可以看出投资者的情绪和科创50指数的走势有着明显的正相关关系,相关值高达0.88。说明在科创50的市盈率较高的情况下,市场的大体趋势也是乐观的,投资者的情绪购买情绪和预期上涨,反之也能得到证明。

3a44749d6964ea33f3f17b591870bbe

图2-6 相关性分析

2.3 基于CEEMDAN-LSTM方法,分析不同时间尺度下情绪指数对股票发展趋势预测能力。

2.3.1 CEEMDAN-LIST模型的理论基础

CEEMAND-LSTM是一种融合了一维卷积层和LSTM长短期记忆网络的融合神经网络模型,用于预测数据。CEEMDAN将自适应噪声完备集合经验模态分解引入到科创板股价指数预测建模中,结合LSTM长短期记忆网络,对复杂序列中长期依赖关系有高效的建模能力。

完全自适应噪声集合经验模态分解(Complete EEMD with Adaptive Noise,CEEMDAN),在得到的第一阶 IMF分量后就进行总体平均计算,得到最终的第一阶 IMF分量,然后对残余部分进行重复操作。

长短时记忆( long-short term memory,LSTM) 神经网络是 Hochreiter 等提出的一种改进后的循环式神经网络,可有效解决循环式神经网络存在的梯度爆炸和阶段性梯度消失的问题。在传统循环式神经网络基础上,在隐含层增设记忆模块,可使信息较长时间地储存和遗传,其结构如图 3-1所示。

         

图3-1 长短时记忆网路LSTM结构

CEEMDAN原理:设(·)为经过EMD分解后得到的第i个本征模态分量,CEEMDAN分解得到的第i个本征模态分量为为满足标准正态分布的高斯白噪声信号,j=1,2,...,N为加入白噪声的次数,ε为白噪声的标准表,y(t)为待分解信号。

2.3.2 CEEMDAN-LIST模型的构建基本步骤

  1. 数据收集:收集情绪指数和股票收盘价格的时间序列数据。情绪指数来自社交媒体、新闻情感分析等,股票收盘价格自东方财富网获取。
  2. 数据预处理:对收集到的数据进行预处理,包括数据清洗、缺失值处理、异常值处理等。确保数据的质量和一致性。
  3. CEEMDAN分解:使用CEEMDAN方法对收盘价格和情绪指数进行分解。
  4. 特征提取:从分解后的IMFs中提取特征。
  5. LSTM建模:使用LSTM(Long Short-Term Memory)神经网络模型进行建模。将提取的特征作为LSTM的输入序列,股票发展趋势作为目标变量。通过训练LSTM模型,学习到情绪指数与股票发展趋势之间的关系。
  6. 模型评估与预测:使用评估指标(如均方误差、准确率等)对LSTM模型进行评估。利用训练好的模型进行未来股票发展趋势的预测。根据情绪指数的不同时间尺度,分析其对不同时间尺度下股票发展趋势的预测能力。

3-2  CEEMDAN-LSTM预测建模的流程

2.3.3不同时间尺度下情绪指数对股票发展趋势的预测能力。

股票的走势波动不仅由市场因素决定,投资者的情感因素也对其产生重要的影响。因此,想要了解股市的走势,除了掌握相关的知识和技术,情感分析也同样是关键。股民的情绪往往会左右股票市场的走势,因此,股票市场情绪指数具有深远的研究意义和应用价值。

本文选择主成分分析法得到不同时间段的情绪指数。本文选取多个含情绪表现的指标,通过降维提取公公共因子的方式完成对投资者情绪的构建。主成分分析法化繁为简,利用降维的思想,提取出原始变量中不同信息,同时对重复的部分删除,重新建立起尽可能少的新变量,且新变量之间互不重复,互不影响,还能够反映研究课题所需的信息。下面是利用主成分分析法得到的不同时间段的情绪指数。

本文通过对得到的数据及相关文献的分析,发现股市的走势与情绪指数之间存在着一定的相关关系。

图3-3 科创50(周线)走势

研究发现,投资者情绪指数与科创50指数之间的走势基本一致,总体上看,投资者情绪指数与科创50走势高度相关,具有显著影响。投资者情绪是影响股市收益率的一个重要因素,它可以用来解释股票市场中发生的异常现象,所以,本文对于股市收益率与投资者情绪之间的关系进行研究,首先,有助于完善和丰富目前行为金融学理论的相关内容以及相关体系;其次,有助于研究个人投资者投资行为的心理理论,从而使得有关部门在制定相关政策时充分考虑到投资者情绪,从而制定更加科学合理的政策。

    四、结论及启示

科创板作为中国资本市场改革的试验田,自设立起便吸引着各方目光,代表中国新兴产业未来发展方向,承载着中国资本市场未来改革方向,指引着中国资本市场未来的改革方向,勾画了中国产业发展新蓝图,助力了中国经济发展模式的转变。科创板的设立,有利于推动新经济企业发展,加速中国技术创新。市盈率是能够反映股价水平是否合理的最基本、最重要的指标之一,因此科学地预测我国科创板股票市盈率的指标走势具有一定的前瞻性。

本文基于NLP技术中的word2vec转化词向量,以股吧投资者的相关评论为参考点,将评论中的关键词转化为词向量,再引入CEEMDAN-LSTM模型,对时序数据进行滚动预测,同时对股票指数进行“分解-重组-预测”,进而结合预测结果深入分析了不同时间尺度下股民情绪指数对股票发展趋势的预测能力。研究结果表明,投资者情绪是影响股市收益率的一项重要因素,它可以解释股票市场发生的异常现象,同时也可以帮助相关部门制定更加科学合理的政策。

参考文献:

[1]贺毅岳,李萍,韩进博.基于CEEMDAN-LSTM的股票市场指数预测建模研究[J].统计与信息论

坛,2020, 35(6):12.

[2]计承杰.投资者情绪与我国股票市场收益率的关系研究[D].导师:郑华;张福银.安徽农业大

学,2023.

[3]孙国伟.宏观经济状况、投资者情绪与股票市场收益率的关系研究[D].导师:王刚贞.安徽财经

大学,2022.

[4]郭全芳. 基于股吧评论的投资者情绪对我国创业板公司股票收益率的影响[D].河北师范大

学,2020.

      该文章受到上海立信会计金融学院大学生创新创业训练计划项目赞助+X202311047347

    作者简介:

孙婧雯(2002.12-),女,汉族,上海立信会计金融学院本科在读;

魏诗静(2003.2-),女,汉族,上海立信会计金融学院本科在读;

贾静(2004.2-),女,汉族,上海立信会计金融学院本科在读;

王雪煜(2003.4-),女,汉族,上海立信会计金融学院本科在读。