未分类 高级sql记录: package day0108 import java.text.SimpleDateFormat import org.apache.log4j.{Level, Logger} import org... 06月19日 3,008 views 发表评论 阅读全文
未分类 spark IDEA代码初步 IDEA通过DS+Row查询数据 package day0106 import java.util.Properties import org.apache.spark.sql.{Row, Spark... 06月19日 3,199 views 发表评论 阅读全文
未分类 spark表缓存 实测可以从1s降低到76ms scala> val df1 = spark.read.json("/testdata/emp.json") //需要上传到hdfs df1: org.apache... 06月19日 457 views 发表评论 阅读全文
未分类 spark-SQL连接Hive server端(biddata166主机hive/conf目录下hive-site.xml): <configuration> <property> <name>h... 06月19日 2,877 views 发表评论 阅读全文
未分类 scala 日志统计代码 自定义分区 数据库连接 package customPartition0103 package customPartition0103 import org.apache.spark.rdd.RDD impor... 06月16日 845 views 发表评论 阅读全文
大数据 spark cache checkpoints mapPartitionsWithIndex aggregate scala> var rdd1 = sc.textFile("hdfs://bigdata111:9000/spark/test_Cache.txt&quo... 06月15日 2,494 views 发表评论 阅读全文
未分类 scala两种环境备忘 IDEA环境: package wordcount import org.apache.spark.{SparkConf, SparkContext} object wordCountScala ex... 06月15日 442 views 发表评论 阅读全文
大数据 CDH部署 安装分布式,标准:各机器能ping通各机器,且都能ssh对方,见hadoop分布式 小坑:快照还原不统一导致证书无法识别也无法覆盖,使用-f命令即可: ssh-copy-id -f bigdata16... 06月14日 688 views 发表评论 阅读全文