Scala Spark 连接 HBase （ IDEA）调试Spark Standalone，scalahbase

和通数据库htsjk.Com2019-07-04 18:19 来源:未知阅读:4322 评论 479 热度3

标签：

Scala Spark 连接 HBase （ IDEA）调试Spark Standalone，scalahbase

0.下载安装IDEA

IDEA主页

1.安装Scala插件

2.新建工程

打开新工程后，在src文件夹下新建一个文件夹，名为qyTest2，在里面新建一个scala class，把class的类型改为object。

3.设置Project Structure

打开File-》Project Structure -》Libraries
加入新的lib（new project lib->java）,选择Spark目录下的lib文件夹，
选择spark-assembly…..jar
再添加hbase目录下的lib文件夹
在File-》Project Structure-》Artifacts下添加jar包

完成了。
接下来写好代码后只要Build Artifacts

然后 run
run的时候要先配置edit configuration

部分代码：

## 但是我用的时候报错了
hrdd.map(tuple => tuple._2).map(result => (result.getRow, result.getColumn("course".getBytes(), "art".getBytes()))).map(row => {  
(  
  row._1.map(_.toChar).mkString,  
  row._2.asScala.reduceLeft {  
    (a, b) => if (a.getTimestamp > b.getTimestamp) a else b  
  }.getValue.map(_.toChar).mkString  
)  
}).take(10)

2016.01.09更新:
在打jar包的时候，默认由几个部分组成：

左侧是打入jar包的部分，右侧是可以增加进去的(???)。
左侧又分为：程序的complie output文件和系统的jar包，如Hbase，Spark，Scala
Spark和Scala可以删除，Hbasejar包可以在配置完Spark的classpath后删除。
我的Spark的classpath是在$SPARK_HOME/conf/spark-env.sh下配置的。

export SPARK_CLASSPATH=/usr/local/cluster/hbase/lib/*

参考：

Windows下IntelliJ IDEA中调试Spark Standalone
Spark操作hbase
Spark：用Scala和Java实现WordCount