大象金服

欢迎来到我的金融界博客

博文 字体:

Nlpir Parser大数据智能平台汉语分词系统

  [2017-04-24 15:10:13] 

  分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。

  智能分词就要提到智能计算技术。智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说,智能计算就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要让机器理解人类的语言,只有机器理解了人类的语言文字,才使得人与机器的交流成为可能。再反观我们人类的语言中,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文来讲,将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能象英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现人类的梦想。

Nlpir Parser大数据智能平台汉语分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,调整命名为NLPIR分词系统。张华平博士先后倾力打造十余年,内核升级十余次,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。全球用户突破30万,包括中国移动、华为、中搜、3721、NEC、中华商务网、硅谷动力、云南日报等企业,清华大学、新疆大学、华南理工、麻省大学等机构。

Nlpir Parser大数据智能平台汉语分词系统主要功能介绍

  1)中英文混合分词功能

  自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能

  2)关键词提取功能

  采用交叉信息熵的算法自动计算关键词,包括新词与已知词。

  3)新词识别与自适应分词功能

  从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。

  4)用户专业词典功能

  可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信 敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。

  5)微博分词功能

  对博主ID进行nr标示,对转发的会话进行自动分割标示,URL以及Email进行自动标引。

微信朋友圈 生成长微博
阅读(93)收藏(0)
网友评论 已有0条评论
500/500

个人资料

博客等级:3

博客积分:2680

总访问量:10179

文章总数:67

实盘直播

网站导航| 关于金融界| 广告服务| 产品与服务| 合作伙伴| 法律声明| 人员招聘| 征稿启事| 意见征集| 联系我们| About Us

Copyright © JRJ.COM Inc. All Rights Reserved. 版权声明