hadoop学习

spark

定义:基于内存计算大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。

spark-shell使用

scala> val textFile = spark.read.textFile("hdfs://c1:9000/redis.conf")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]
scala> textFile.count()
res4: Long = 1372
scala> val wordsRdd=textFile.flatMap(line=>line.split(" ")) ##统计字数