简介:传统针对文本数据的分析,往往基于词频、词频逆文本统计量作为文本的表示特征.这类方法往往只反映了文本的部分信息,忽略了文本的内在语义特征.本文研究了中文词语衔接的概率语言模型,其基本思想在于根据文本中词语出现的先后顺序进行建模分析,该模型在短文本数据挖掘中能够很好地针对文本语义进行量化分析.主要解决两类问题:一、如何合理地将中文词转化为数字向量,并且保证中文近义词在数字空间特征上的相似性;二、如何建立恰当的向量空间,将中文文本的语义和结构特征等信息保留在向量空间中.最后结合某城市房屋管理部门留言板的实际留言文本数据,利用BP神经网络和RNN网络两种算法,实现概率语言模型的求解.与传统文本处理方法的对比说明,本文的模型方法针对短文本语义挖掘问题具有一定的优势性.
简介:今天是大数据的时代,更是一个要求精准的时代,在工作和生活中总会遇到类似在线影片租赁公司Netflix对若干电影进行人气排名的问题.他们试图通过回收影迷打分的问卷调查来解决,可惜许多影迷并没有观看全部电影,因此如何通过这份不完整的问卷调查数据来对电影人气进行排序,就引起了人们的高度关注,其关键点在于矩阵缺失元素的填充.近几年来,数学家们发明了一种崭新的方法——矩阵填充方法,建立数学模型,较好地解决了该问题.类似问题在机器学习、图像和视频处理等领域也会遇到,涉及面较广.本文基于矩阵填充方法,处理2017年12月28日教育部发布的第4轮学科评估数据,建立核范数最小化模型,选取SVT算法,对参评的所有490所高校未参评或未设置学科的得分进行预测,进而计算高校的学科平均得分,得到高校综合排名.同时,由填充后的学科得分也能回答一所高校如果想扩大学科数量,下一个最应该设置的学科是哪一个,从而达到学科优化布局的效果.
简介:本文讨论了强G-半预不变凸函数,它是强预不变凸函数与强G-预不变凸函数的真推广.首先,举例说明了强G-半预不变凸函数的存在性;然后,借助集合稠密性原理,获得了强G-半预不变凸函数的一个充要条件;最后,得到强G-半预不变凸函数在一定假设(在闭半连通集上)下的下确界就是函数在此集合上的最小值,所得结果推广并改进了相应文献中的结果.
简介:利用平方凸函数与凸函数的关系,证明了平方凸函数单侧导数的存在性和单调性,建立了平方凸函数与其单侧导数的不等式关系.在此基础上,给出平方凸函数定积分已有下界的改进和新的下界.给出由平方凸函数Hermite-Hadamard型不等式生成的差值的估计.
简介:ATM交易故障的监测与解决是商业银行运营中的难题,研究ATM数据中交易成功率的检异报警机制与ATM选址,对于解决上述问题具有重要意义.基于上述考虑,首先建立基于中心极限定理的方差标准化数据校正模型,消除交易量对成功率的平均效应;其次,将处理后的成功率数据导入孤立森林算法,输出数据的异常度;之后,引入K-means算法对异常程度进行分级,提取异常点;最后,引入衰变连续函数报警系统,得到报警结果.本文又从资源利用率最大化的角度出发,结合移动电子支付对于ATM需求的影响,建立ATM全局分布最优模型,选择合理的ATM分布方案;并将选址结果与运营状况良好的ATM实际地址进行比较,验证模型的合理性及优越性.