博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[Spark SQL_1] Spark SQL 配置
阅读量:5836 次
发布时间:2019-06-18

本文共 1433 字,大约阅读时间需要 4 分钟。


0. 说明

  Spark SQL 的配置基于   && 

 


 

1. 简介

  Spark SQL 是构建在 Spark Core 模块之上的四大模块之一,提供 DataFrame 等丰富 API,可以采用传统的 SQL 语句进行数学计算。运行期间,会通过 Spark 查询优化器翻译产物理执行计划,并行计算后输出结果。底层计算原理仍然采用 RDD 计算实现。

 


2. Spark 与 Hive 集成

  2.1 在 Spark 配置目录下创建指向 [hive-site.xml ] 文件的同名符号链接

cd /soft/spark/confln -s /soft/hive/conf/hive-site.xml hive-site.xml

 

  2.2 复制 Hive 元数据库使用的驱动程序到 Spark 的 jars 目录下,比如 MySQL

cd /soft/hive/lib/cp mysql-connector-java-5.1.44.jar /soft/spark/jars

 

  2.3 关闭 Hive 配置文件 [hive-site.xml] 文件中版本检查,否则会报版本不一致异常

[centos@s101 ~]$ cd /soft/hive/conf/[centos@s101 /soft/hive/conf]$ sudo vi hive-site.xml

 

hive.metastore.schema.verification
false

 


 

3. 在 Spark shell 中访问 Hive

  3.0 开启 ZooKeeper & HDFS & Spark 集群

  略

 

  3.1 启动 spark-shell,观察输出内容,打印 Hive 配置信息

spark-shell --master spark://s101:7077

  

  若成功则如下图所示

  

 

  3.2 在 Scala 命令行执行如下命令

# 显示所有数据库spark.sql("show databases").show() # 使用指定数据库spark.sql("use mydb").show() # 显示当前数据库中的数据表spark.sql("show tables").show() # 查询 customers 表数据spark.sql("select * from customers").show(1000,false)# 构造 RDDval rdd1= sc.parallelize(Array((1,"tom1",12) ,(2,"tom2",13) ,(2,"tom3",14) ))# 转换 RDD 成DataFrameval df = rdd1.toDF("id" , "name" , "age")# 通过 DataFrame select API 实现 SQL 中的 select 语句df.select("id").show()# 注册临时表df.registerTempTable("_cust")# 通过临时表进行数据操纵spark.sql("select * from _cust").show(1000 ,false) ;

 

 

 


 

转载于:https://www.cnblogs.com/share23/p/9800500.html

你可能感兴趣的文章
String类
查看>>
西门子_TDC_数据耦合小经验
查看>>
接口测试与postman
查看>>
mac zsh选择到行首的快捷键
查看>>
LINQ To XML的一些方法
查看>>
[LeetCode] Copy List with Random Pointer
查看>>
openstack部署之nova
查看>>
JS组件系列——表格组件神器:bootstrap table
查看>>
存储过程Oracle(一)
查看>>
log4j日志归档
查看>>
Java笔记01——IO流
查看>>
mysql遇见error,1049
查看>>
NYOJ311 完全背包
查看>>
codevs——2822 爱在心中
查看>>
Python基础班---第一部分(基础)---Python基础知识---认识Python
查看>>
JAVA MAC 配置
查看>>
1134 最长上升子序列 (序列型 DP)
查看>>
js冒泡排序
查看>>
第一次作业 4班卢炳武
查看>>
const int * 与 int *const
查看>>