畅享博客 > ljrj-数据人生 > 灵玖软件Nlpir Parser平台新词智能发现系统
2017/4/20 15:39:14

灵玖软件Nlpir Parser平台新词智能发现系统

随着大数据时代的到来,互联网正深刻地影响着人们的学习、工作、生活娱乐等各个方面,也改变了人们日常的沟通表达方式,网络新词的不断涌现就是一个很好的证明。但是新词的涌现会让中文分词后的结果产生很多不好辨别的“字符串碎片”,而这些“字符串碎片”会对分词结果的准确率造成了很大的影响。有学者做过研究统计,导致中文分词错误的大部分原因是由新词引起的。假如我们能够迅速地识别网络新词并将识别到的新词及时加入到中文词典进行更新,这对于提高中文分词系统的准确率和效率将有非常大的帮助。因此对新词识别的研究现已成为了中文自然语言处理中一个非常重要的问题。

近年来,很多学者和研究机构在新词识别这一领域做了许多研究工作,也取得了一些成果,但是新词识别的准确率还不够高。为了解决这个问题,灵玖软件基于文本文档的特点提出了一种新词识别方法。

灵玖采用基于语义的统计语言模型,所处理的文档不受行业领域限制,能够有效地挖掘出新出现的特征词汇,所输出的词汇可以配以权重。

灵玖软件Nlpir Parser平台新词智能发现系统的主要特色在于:

1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少60万篇文档;

2、处理精准:Top N的分析结果往往能反映出当时的时事流行语和热点实体,适合于舆情热点计算;与国际上著名厂商的技术相比,各项指标远远领先,或许是灵玖更懂中文吧;

3、精准排序:新词汇按照影响权重排序,可以输出权重值;

5、开放式接口:新词发现组件作为LJParser的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。

新词发现组件可以应用于文本挖掘、知识管理、词典编辑、舆情监测等多种应用中。

新词智能发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语,是语言文献分析方面的一把利器。新词发现脱胎于语言智能分词技术,又是对分词技术的有效提升和补充。

 



评论

您还未登录,不能对文章发表评论!请先登录