package day0108 import java.text.SimpleDateFormat import org.apache.log4j.{Level, Logger} import org...
spark IDEA代码初步
IDEA通过DS+Row查询数据 package day0106 import java.util.Properties import org.apache.spark.sql.{Row, Spark...
spark表缓存
实测可以从1s降低到76ms scala> val df1 = spark.read.json("/testdata/emp.json") //需要上传到hdfs df1: org.apache...
spark-SQL连接Hive
server端(biddata166主机hive/conf目录下hive-site.xml): <configuration> <property> <name>h...
scala 日志统计代码 自定义分区 数据库连接
package customPartition0103 package customPartition0103 import org.apache.spark.rdd.RDD impor...
集群网关设置
重新检查并尝试备份一下网络配置顺便配置一下Linux和win7以及主机互通,结果忘了网关当时是怎么设置的了。。。后来找到了
记录一个bug
spark cache checkpoints mapPartitionsWithIndex aggregate
scala> var rdd1 = sc.textFile("hdfs://bigdata111:9000/spark/test_Cache.txt&quo...
scala两种环境备忘
IDEA环境: package wordcount import org.apache.spark.{SparkConf, SparkContext} object wordCountScala ex...
CDH部署
安装分布式,标准:各机器能ping通各机器,且都能ssh对方,见hadoop分布式 小坑:快照还原不统一导致证书无法识别也无法覆盖,使用-f命令即可: ssh-copy-id -f bigdata16...