安装:pip install pkuseg
(1)多领域分词。新闻、科研、网络、医药、旅游、金融、工业。
(2)跟高的分词准确率
(3)支持用户自训练模型。支持用户使用全新的标注数据进行训练。
缺点,进行文件分词的时候速度略慢,内存CPU占用较高
#-*- coding:utf-8 -*-
import pkuseg
seg = pkuseg.pkuseg()
text = seg.cut('这是一段测试用的文本')
print(text)
seg_med = pkuseg.pkuseg(model_name='medicine')
text2 = seg_med.cut('我想买点杜仲和枸杞子以及苹果皮,还有菟丝子')
print('医药领域',text2)   #
# 词性标注
seg_med = pkuseg.pkuseg(model_name='medicine',postag=True)
text2 = seg_med.cut('我想买点杜仲和枸杞子以及苹果皮,还有菟丝子')
print('词性标注',text2)   #
# 文件分词
inpath = r"D:\win7远程\NLP 大数据人工智能自然语言处理\0630-中文标注-BIOES\day4\input.txt"
outpath = 'ddd.txt'
pkuseg.test(inpath,outpath)   # 有个坑,容易死机,CPU100%,内存飙升6个G
