大象金服

欢迎来到我的金融界博客

博文 字体:

NLPIR汉语分词数据挖掘升级智能语义技术

  [2018-07-27 10:46:29] 

  随着Internet上文档信息的迅猛发展,文本挖掘成为处理和组织大量文档数据的关键技术。对海量文本数据进行分析和挖掘,从中获取有用的知识,成为关注热点。

  数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短.传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的.

  我国学术界正式引入文本挖掘的概念并开展针对中文的文本挖掘研究是从最近几年才开始的。从公开发表的有代表性的研究成果来看,目前我国文本挖掘研究还处在消化吸收国外相关的理论和技术与小规模实验阶段,还存在如下不足和问题:

  ? 1)没有形成完整的适合中文信息处理的文本挖掘理论与技术框架。目前的中文文本挖掘研究只是在某些方面和某些狭窄的应用领域展开。在技术手段方面主要是借用国外针对英文语料的挖掘技术,没有针对汉语本身的特点,没有充分利用当前的中文信息处理与分析技术来构建针对中文文本的文本挖掘模型,限制了中文文本挖掘的进一步发展。

  ? 2)中文文本的特征提取与表示大多数采用“词袋”法,“词袋”法即提取文本高频词构成特征向量来表达文本特征。这样忽略了词在文本(句子)中担当的语法和语义角色,同样也忽略了词与词之间的顺序,致使大量有用信息丢失。而且用“词袋”法处理真实中文文本数据时,特征向量的维数往往是高维的,这将使挖掘算法效率大大降低。

  ? 3)知识挖掘的种类和深度有限,一般只是进行文本的分类、聚类或者信息抽取,而且针对开放语料的实验结果也不是很理想。

  文本挖掘最大的动机是来自于潜藏于电子形式中的大量的文本数据.利用数据挖掘技术处理公司大量的文本数据,将给企业带来巨大的商业价值.另外人们对于文本挖掘的感兴趣的原因还在于:人们有时候并不知道他们到底要找什么,而挖掘能够从数据库中抽取出许多有用的信息.尽管对于文本挖掘的需求是非常强烈的,国内外学者也都在进行积极的研究 。而NLPIR大语义智能中文信息处理技术的出现已成为中文信息技术研究、发展、应用和产业的提供了重要的帮助,在互联网日益成长的今天,NLPIR大语义智能中文信息处理技术将会更加成熟并创新。

微信朋友圈 生成长微博
阅读(83)收藏(0)
网友评论 已有0条评论
500/500

个人资料

博客等级:3

博客积分:2680

总访问量:10173

文章总数:67

实盘直播

网站导航| 关于金融界| 广告服务| 产品与服务| 合作伙伴| 法律声明| 人员招聘| 征稿启事| 意见征集| 联系我们| About Us

Copyright © JRJ.COM Inc. All Rights Reserved. 版权声明