大象金服

欢迎来到我的金融界博客

博文 字体:

智能语义分析:NLPIR大数据搜索与挖掘平台

  [2017-02-27 16:34:48] 

 网络信息资源的海量无序、难以有效利用与人们日益增长的信息需求之间的矛盾,成为目前信息化社会急需解决的难题。传统基于关键词匹配的信息检索方式虽然能够在一定程度上缓解这一矛盾,但由于其不能完全表征文档和查询语句中蕴含的语义,造成文档的误检和漏检;过分依赖用户的检索式,缺乏语义分析能力和语义扩展能力,难以保证较好的查准率和查全率,无法有效满足新一代语义Web环境下用户对海量网络信息资源语义分类、语义导航与语义检索的需求问题。对此,灵玖软件研发了智能语义分析系统-NLPIR大数据搜索与挖掘平台。

  NLPIR大数据搜索与挖掘平台是一个集实时数据采集和存储、语义分析、专业知识库的大数据处理平台,可在智能分析的基础上实现数据集成、自动分析和知识服务。基于业内领先的智能语义分析技术,系统将海量信息排重去杂等初步处理后,将所关注信息按设定类别进行自动归类,并自动统计出最新热点。

  NLPIR文本搜索与挖掘平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。

  1、全文精准检索

  支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。

  2、汉语智能分析

  汉语智能分析能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。

  3、新词发现:

  新词自动发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语,是语言文献分析方面的一把利器。新词发现脱胎于语言自动分词技术,又是对分词技术的有效提升和补充。

  4、统计分析与术语翻译

  针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。

  5、文本聚类中间件

  文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。

  6、敏感词扫描

  敏感词实时扫描系统可以导入大批量用户业务敏感的关键词列表,实现对内存与文件的实时智能扫描,生成命中的敏感关键词、敏感类别与权重等信息。

  7、文本分类过滤中间件

  文本分类中间件能够根据文献内容进行类别的划分,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。

  NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了十余种中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具,使用效果是非常不错的,得到了服务业内专家的高度认可和肯定。

微信朋友圈 生成长微博
阅读(80)收藏(0)
网友评论 已有0条评论
500/500

个人资料

博客等级:3

博客积分:2680

总访问量:10173

文章总数:67

实盘直播

网站导航| 关于金融界| 广告服务| 产品与服务| 合作伙伴| 法律声明| 人员招聘| 征稿启事| 意见征集| 联系我们| About Us

Copyright © JRJ.COM Inc. All Rights Reserved. 版权声明