使用Spark进行搜狗日志分析实例——map join的使用

map join相对reduce join来说，可以减少在shuff阶段的网络传输，从而提高效率，所以大表与小表关联时，尽量将小表数据先用广播变量导入内存，后面各个executor都可以直接使用

package sogolog

import org.apache.hadoop.io.{LongWritable, Text}

import org.apache.hadoop.mapred.TextInputFormat

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

class RddFile {

  def readFileToRdd(path: String): RDD[String] = {

    val conf = new SparkConf().setMaster("local").setAppName("sougoDemo")

    val sc = new SparkContext(conf);

    //使用这种方法能够避免中文乱码

   readFileToRdd(path,sc)

  }

  def readFileToRdd(path: String,sc :SparkContext): RDD[String] = {

    //使用这种方法能够避免中文乱码

    sc.hadoopFile(path,classOf[TextInputFormat], classOf[LongWritable], classOf[Text]).map{

      pair =>  new String(pair._2.getBytes, 0, pair._2.getLength, "GBK")}

  }

}

package sogolog

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

import scala.collection.mutable.ArrayBuffer

object MapSideJoin {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("sougoDemo")

    val sc = new SparkContext(conf);

    val userRdd = new RddFile().readFileToRdd("J:\\scala\\workspace\\first-spark-demo\\sougofile\\user",sc)

    //解析用户信息

    val userMapRDD:RDD[(String,String)] = userRdd.map(line=>(line.split("\t")(0),line.split("\t")(1)))

    //将用户信息设置为广播变量，方便各个任务引用

    val userMapBroadCast =sc.broadcast(userMapRDD.collectAsMap())

    val searchLogRdd = new RddFile().readFileToRdd("J:\\scala\\workspace\\first-spark-demo\\sougofile\\SogouQ.reduced",sc)

    val joinResult = searchLogRdd.mapPartitionsWithIndex((index,f)=>{

      val userMap = userMapBroadCast.value

      var result = ArrayBuffer[String]()

      var count = 0

      //搜索日志表join用户表

      //原来日志列为：时间 用户ID 关键词 排名 URL

      //新的日志列为：时间 用户ID 用户名 关键词 排名 URL

      f.foreach( log=>{

        count=count+1;

        val lineArrs = log.split("\t")

        val uid = lineArrs(1)

        val newLine:StringBuilder = new StringBuilder()

        if(userMap.contains(uid)){

          newLine.append(lineArrs(0)).append("\t")

          newLine.append(lineArrs(1)).append("\t")

          newLine.append(userMap.get(uid).get).append("\t") //从广播变量中根据用户ID获取用户名

          for (i<- 2 to lineArrs.length-1){

            newLine.append(lineArrs(i)).append("\t")

          }

          result .+= (newLine.toString())

        }

      })

      println("partition_"+index+"处理的行数为："+count)

      result.iterator

    })

    //打印结果

    joinResult.collect().foreach(println)

  }

}

结果展示：

使用Spark进行搜狗日志分析 实例——map join的使用的相关教程结束。

《使用Spark进行搜狗日志分析实例——map join的使用.doc》

下载本文的Word格式文档，以方便收藏与打印。

使用Spark进行搜狗日志分析实例——map join的使用

使用Spark进行搜狗日志分析 实例——map join的使用的相关教程结束。

相关推荐

Sourcetrail 代码分析工具的使用

C 语言实例 - 判断数字为几位数

PHPCMS v9构建模块 - 实例之企业服务模块

数据分析05-matplotlib基本绘图、高级绘图

鸿蒙内核源码分析(索引节点篇) | 谁是文件系统最重要的概念 | 百篇博客分析OpenHarmony源码 | v64.01

关于ObservableCollection的更新与不更新分析

记一次 .NET 某药材管理系统卡死分析

IO流学习笔记（二）之BufferedWriter与BufferedReader及实例Demo

使用Spark进行搜狗日志分析实例——map join的使用

使用Spark进行搜狗日志分析实例——map join的使用的相关教程结束。

相关推荐

Sourcetrail 代码分析工具的使用

C 语言实例 - 判断数字为几位数

PHPCMS v9构建模块 - 实例之企业服务模块

数据分析05-matplotlib基本绘图、高级绘图

鸿蒙内核源码分析(索引节点篇) | 谁是文件系统最重要的概念 | 百篇博客分析OpenHarmony源码 | v64.01

关于ObservableCollection的更新与不更新分析

记一次 .NET 某药材管理系统 卡死分析

IO流学习笔记（二）之BufferedWriter与BufferedReader及实例Demo

记一次 .NET 某药材管理系统卡死分析