机器,学习,算法,分析,中常,用的,分词技术机器,学习,算法,分析,中常,用的,分词技术
免费注册
183-6029-3059
网站运营

建网站,做推广,找百度

提供全行业全场景一站式网站推广解决方案

免费注册
机器学习与算法分析中常用的分词技术整理
发布时间:2024-10-31来源:百度推广公司阅读量:217

机器学习与算法分析中常用的分词技术整理

中文分词技术,在各大领域都属于最基础,但是最核心的一块技术。尤其是SEO应用中,合理使用分词技术,可以极大提高内容相关性和页面关键词标签的准确性。

 

中文分词与英文分词有极大的差点,英文分词更简单容易一些,中文分词在有些情况下还需要根据语境进行词切分。

 

常用的分词引擎有如下几种:

Paoding

mmseg4j(切分速度、准确率较高)

Imdict-chinese-analyzer

Ansj

Httpcws

https://github.com/nltk/nltk NLTK自然语言处理包

http://www.ltp-cloud.com/document 哈工大LTP语言云

http://bosonnlp.com/dev/center BosonNLP

http://www.oschina.net/p/ikanalyzer IKAnalyzer

http://ictclas.nlpir.org/docs NLPIR

http://www.xunsearch.com/scws/docs.php SCWS中文分词

https://github.com/fxsjy/jieba 结巴分词

http://pangusegment.codeplex.com/ 盘古分词

https://code.google.com/p/paoding/ 庖丁解牛(准确率、分词速度、新词识别等,最棒)

http://www.sogou.com/labs/webservice/ 搜狗分词

http://www.qcloud.com/wiki/API%E8%AF%B4%E6%98%8E%E6%96%87%E6%A1%A3 腾讯文智

http://www.sinacloud.com/doc/sae/python/segment.html 新浪云

https://github.com/thunlp/THULAC 清华大学THULAC

http://hanlp.hankcs.com/ HanLP

 

在Python领域,应用最广的是结巴分词,有很多有意思的特性。在使用全文检索引擎领域,Solr和ElasticSearch普遍使用IKAnalyzer分词。其余的,以哈工大、清华和HanLP在应用性上比较广泛。

 

以前分享为一段代码,使用Python开发结巴分词,配合自定义分词,快速提取文章标签。核心逻辑就是加载自定义词典,在自定义词典中设置自定义的词性。通过jieba.load_userdict('user.txt')加载自定义词典。分词之后,通过过滤词性。将自己的词拿出来,达到快速匹配标签的功能。在内存加载完词典之后,每秒可处理上千文章的标签提取。

 

公司项目BrandInsights,原WI-ORM系统,核心技术,就是使用Elasticsearch做海量数据的检索。里面核心基础的部份就是分词技术的应用。我们在IK分词器的基础上,做了代码升级迭代及优化。以支持更高效的分词和数据处理。

 

在分词的基础上,还可以进行情感正负面分析和语义分析,关键词提取,摘要提取等诸多功能 。有兴趣的同事可以进一步交流。

 

本文TAG:

机器学习

最新文章

客户案例

热门标签

宿迁百度推广运营中心
宿迁百度致力于宿迁地区百度推广产品的运营和发展,是宿迁百度营销运营中心。全面负责宿迁百度推广业务服务,主要产品包括:百度搜索推广、百度爱采购、百度信息流、网站建设等。
我们的服务
宿迁搜索推广
宿迁百度信息流
宿迁百度爱采购
宿迁网站建设
新闻资讯
百度竞价
百度信息流
百度爱采购
网站建设
网站运营
解决方案
手机网站建设方案
企业网站解决方案
外贸网站方案
教育培训网站解决方案
搜索引擎优化方案
门户网站搭建方案
联系我们
手机:183-6029-3059
电子邮箱:baidujs@foxmail.com
宿迁百度微信二维码
关闭
现在预约 专属营销顾问立即为您服务
联系宿迁百度
请直接添加微信联系或者拨打电话咨询 183-6029-3059

网站首页

业务热线

免费开户

sqbaidu01

官方微信