和北大处理工具差不多 SPacy商业开源软件,速度最快,但是不支持中文 8、Gensim文本的向量表示 特征提取。 TF-IDF、word2vec。Bag of Words BOW 磁带模型 pip ...
初步——PKUseg
安装:pip install pkuseg 北大的分词工具。 (1)多领域分词。新闻、科研、网络、医药、旅游、金融、工业。 (2)跟高的分词准确率 (3)支持用户自训练模型。支持用户使用全新的标注数据...
NLP初步——jieba
pip install jieba jieba有一定识别新词的能力 #-*- coding:utf-8 -*- import jieba import jieba.analyse as ...
NLP初步——SnowNLP
pip install snownlp 个人感觉还是比较low的,可以仅作了解 (1)支持中文,受Textblob,没有用NLTK 特征、中文分词、词性标注、情感分析(买卖东西评价)、文本分类、拼音转...
NLP初步——TextBlob
安装 pip install textblob (1)处理文本数据的python库、功能:词性标注、名词短语抽取、情感分析、分类、翻译。 <pre>#-*- coding:utf-8 -*...
FRP实操备份
注意,服务器和客户机版本相差不能太大,否则会出现坏连接 https://github.com/fatedier/frp/releases/tag/v0.34.0 Linux 版本下载链接: https...
spark算子初步
秉承归零心态是学习编程必备态度的原则,这次scala也使用python的方法,把代码敲一遍,所以,就有了下面的....同样保留了试错的内容。 scala> var rdd1 = s...
spark 配置和Word Count jar包
配置:解压,配置文件: 配置文件:conf/spark-env.sh export JAVA_HOME=/opt/module/jdk1.8.0_144 export SPARK_MASTER_HOS...
spark wordcount 初步
package wordcount import org.apache.spark.{SparkConf, SparkContext} object wordCountScala extends Ap...
scala 循环
object test1 { def main(args: Array): Unit = { val s1 = List("DDD","99990","...