安装:pip install pkuseg
(1)多领域分词。新闻、科研、网络、医药、旅游、金融、工业。
(2)跟高的分词准确率
(3)支持用户自训练模型。支持用户使用全新的标注数据进行训练。
缺点,进行文件分词的时候速度略慢,内存CPU占用较高
#-*- coding:utf-8 -*- import pkuseg seg = pkuseg.pkuseg() text = seg.cut('这是一段测试用的文本') print(text) seg_med = pkuseg.pkuseg(model_name='medicine') text2 = seg_med.cut('我想买点杜仲和枸杞子以及苹果皮,还有菟丝子') print('医药领域',text2) # # 词性标注 seg_med = pkuseg.pkuseg(model_name='medicine',postag=True) text2 = seg_med.cut('我想买点杜仲和枸杞子以及苹果皮,还有菟丝子') print('词性标注',text2) # # 文件分词 inpath = r"D:\win7远程\NLP 大数据人工智能自然语言处理\0630-中文标注-BIOES\day4\input.txt" outpath = 'ddd.txt' pkuseg.test(inpath,outpath) # 有个坑,容易死机,CPU100%,内存飙升6个G