浅谈python常见四款分词工具,哪个更好用你了解吗?
发布时间:2022-04-07 15:53:16 所属栏目:语言 来源:互联网
导读:分词工具在Python中,会经常使用到,而比较常的分词工具有jieba 分词、pkuseg 分词、FoolNLTK 分词和THULAC,这四种,那么究竟哪个更好用呢? 分词在自然语言处理中有着常见的场景,比如从一篇文章自动提取关键词就需要用到分词工具,中文搜索领域同样离不开
分词工具在Python中,会经常使用到,而比较常的分词工具有jieba 分词、pkuseg 分词、FoolNLTK 分词和THULAC,这四种,那么究竟哪个更好用呢? 分词在自然语言处理中有着常见的场景,比如从一篇文章自动提取关键词就需要用到分词工具,中文搜索领域同样离不开分词。Python 中有很多开源的分词工具,下面给大家介绍几款常见的分词依赖库 1. jieba 分词 “结巴” 分词,GitHub 最受欢迎的分词工具,立志做最好的 Python 中文分词组件,支持多种分词模式,支持自定义词典 github star:26k 代码示例 import jieba strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"] 输出: 【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学 【精确模式】: 我/ 来到/ 北京/ 清华大学 【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了) 【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造 2. pkuseg 分词 pkuseg 是北大语言计算与机器学习研究组开源的一款分词工具。它的特点是支持多领域分词,目前支持新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型,用户可以自由地选择不同的模型。相比通用分词工具,它的分词准确率更高 ['python', '是', '一', '门', '很', '棒', '的', '语言'] 3. FoolNLTK 分词 基于 BiLSTM 模型训练而成,据说可能是最准的开源中文分词,同样支持用户自定义词典 GitHub star: 1.6k 代码示例 import fool text = "一个傻子在北京" print(fool.cut(text)) # ['一个', '傻子', '在', '北京'] 4. THULAC THULAC 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包。具有词性标注功能,能分析出某个词是名词还是动词或者形容词 (编辑:开发网_开封站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |