Spark

读取数据

ORC文件

val orcfile = "hdfs:///ORC_FILE_PATH"
val df = sqlContext.read.format("orc").load(orcfile)
df.show

提交集群

命令行

spark-submit --class niffler.query.xxx --master yarn --deploy-mode cluster --num-executors 60 --driver-java-options "-XX:MaxPermSize=256M" sparkTest-assembly-0.1.jar

Java提交

需要设置环境变量HADOOP_CONF_DIRYARN_CONF_DIR

资料

Mastering Apache Spark 2.3.2