大象金服

欢迎来到我的金融界博客

博文 字体:

NLPIR智能语义:信息抽取是数据挖掘首要任务

  [2018-08-13 11:17:18] 

  随着计算机的普及与互联网的高速发展,信息也是爆炸式地增长。信息的过量增长带来一定负面影响:面对巨量的信息,难以发现真正需要的信息。如何将大量无序的信息及时准确地进行提取、整理、组织成便于查询检索的形式,已成为研究开发的焦点。

   信息抽取是以一个以未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据的过程。这些数据可以直接向用户显示,也可作为原文信息检索的索引,或存储到数据库、电子表格中,以便于以后的进一步分析。从广义上讲,信息抽取的处理对象可以是文本、图像、语音、视频等多种媒体。

  ?信息抽取首先是自然语言理解技术和实际应用相折衷的产物。自然语言处理有着从根本上解决人机对话问题的良好前景。然而,目前的自然语言处理水平尚不能对任意的文本进行深入的分析,不具备深入理解自然语言的能力。与自然语言理解不同,信息抽取一般不对文本作深入的全面分析,它的主要功能是根据预先设定的任务,抽取特定类型的信息。例如,一个用于从新闻报道中抽取恐怖主义事件的信息抽取系统,只需提取诸如受害者、加害者、事件中使用的武器等信息即可达到要求。信息抽取的优势在于简化了自然语言处理的过程,只关注相关的信息,而忽略无关的内容。

  另一方面,信息抽取技术可视为信息检索技术的一个深化。信息检索从文档的集合中寻找与用户要求相关的文本或段落。信息抽取则是在相关文本或段落的基础上,发现用户需要的信息。信息检索一般对文本的语义不进行分析,而由用户对文本的语义做出解释。信息抽取则由系统分析文本的语义,在此基础上,给出用户需要的信息。在实际的应用中,信息抽取和信息检索可互补使用。如,由信息检索系统寻找相关文档,而后由信息抽取系统在相关文档中抽取所需信息;反之,也可在信息抽取的基础上,进行高精度的信息检索。

  21世纪是一个信息时代,信息来源渠道和信息产生的方式越来越多,及时、高效、低耗地处理信息资源,为国民经济、社会文明、科学技术以及国防建设和发展服务,就必须在信息的获取、加工处理、传输、存取、决策和利用方面寻求新的突破性的信息处理技术。

  NLPIR大语义智能中文信息处理技术的出现已成为中文信息技术研究、发展、应用和产业的提供了重要的帮助,在互联网日益成长的今天,NLPIR大数据语义智能中文信息处理技术将会更加成熟并创新。

微信朋友圈 生成长微博
阅读(98)收藏(0)
网友评论 已有0条评论
500/500

个人资料

博客等级:3

博客积分:2680

总访问量:10173

文章总数:67

实盘直播

网站导航| 关于金融界| 广告服务| 产品与服务| 合作伙伴| 法律声明| 人员招聘| 征稿启事| 意见征集| 联系我们| About Us

Copyright © JRJ.COM Inc. All Rights Reserved. 版权声明