成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

spark sql基本內(nèi)容

IT那活兒 / 2317人閱讀
spark sql基本內(nèi)容


點(diǎn)擊上方“IT那活兒”,關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了!??!



01


簡(jiǎn)   介


Spark SQL是spark中處理結(jié)構(gòu)化數(shù)據(jù)的模塊,區(qū)別于RDD接口,Spark SQL接口提供了更多關(guān)于數(shù)據(jù)結(jié)構(gòu)和執(zhí)行計(jì)算的信息,Spark SQL使用這些額外的信息進(jìn)行額外的優(yōu)化,Spark SQL有兩種交互方式,SQL和DataSet API方式,但是這兩種方式使用的相同的執(zhí)行引擎。

Spark SQL可以從Hive中讀取數(shù)據(jù),也可以通過編程語言與Spark SQL交互,這將返回DataSet/DataFrame數(shù)據(jù)集,也可以通過命令行或JDBC/ODBC與Spark SQL進(jìn)行交互。

DataSet是分布式數(shù)據(jù)集,是Spark 1.6版本新增接口,其支持java、scala語言。DataFrame相當(dāng)于關(guān)系型數(shù)據(jù)庫的表,其支持的數(shù)據(jù)源有結(jié)構(gòu)化文件、配置單元中的表、外部數(shù)據(jù)庫或RDD,其支持java、scala、python和R語言。


02


使用步驟

Spark功能入口是sparkSession,創(chuàng)建sparkSession:


03


支持的數(shù)據(jù)源

3.1 文件

3.2 hive表

spark支持對(duì)hive的讀寫,但是需要增加hive依賴,自spark2.0.0版本以后,可以使用spark.sql.warehouse.dir來配置默認(rèn)數(shù)據(jù)倉庫的位置。

方法如下:

3.3 關(guān)系型數(shù)據(jù)庫

spark也可以方便的與關(guān)系型數(shù)據(jù)庫進(jìn)行集成,可以對(duì)關(guān)系型數(shù)據(jù)庫進(jìn)行讀寫,由于關(guān)系型數(shù)據(jù)庫都是結(jié)構(gòu)化數(shù)據(jù)庫,使用spark sql也可方便的進(jìn)行分析。

下面以mysql為例進(jìn)行說明:

1)首先需要添加驅(qū)動(dòng)依賴:

2)讀取數(shù)據(jù)

3)寫入數(shù)據(jù)

創(chuàng)建user實(shí)體


04


總   結(jié)


Spark SQL可以很方便的讀取結(jié)構(gòu)化數(shù)據(jù),不僅支持文件的讀寫操作,還支持?jǐn)?shù)據(jù)庫的讀寫,而且還支持多種語言,例如常用的java、scala、python、R語言,在實(shí)際工作中我們可以使用Spark SQL對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行清洗裝載等工作。
en

end




本文作者:潘宗昊

本文來源:IT那活兒(上海新炬王翦團(tuán)隊(duì))

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/129643.html

相關(guān)文章

  • 大數(shù)據(jù)入門指南(GitHub開源項(xiàng)目)

    摘要:項(xiàng)目地址前言大數(shù)據(jù)技術(shù)棧思維導(dǎo)圖大數(shù)據(jù)常用軟件安裝指南一分布式文件存儲(chǔ)系統(tǒng)分布式計(jì)算框架集群資源管理器單機(jī)偽集群環(huán)境搭建集群環(huán)境搭建常用命令的使用基于搭建高可用集群二簡(jiǎn)介及核心概念環(huán)境下的安裝部署和命令行的基本使用常用操作分區(qū)表和分桶表視圖 項(xiàng)目GitHub地址:https://github.com/heibaiying... 前 言 大數(shù)據(jù)技術(shù)棧思維導(dǎo)圖 大數(shù)據(jù)常用軟件安裝指...

    guyan0319 評(píng)論0 收藏0
  • Spark 』1. spark 簡(jiǎn)介

    摘要:原文鏈接簡(jiǎn)介寫在前面本系列是綜合了自己在學(xué)習(xí)過程中的理解記錄對(duì)參考文章中的一些理解個(gè)人實(shí)踐過程中的一些心得而來。其次,本系列是基于目前最新的系列開始的,目前的更新速度很快,記錄一下版本好還是必要的。 原文鏈接:『 Spark 』1. spark 簡(jiǎn)介 寫在前面 本系列是綜合了自己在學(xué)習(xí)spark過程中的理解記錄 + 對(duì)參考文章中的一些理解 + 個(gè)人實(shí)踐spark過程中的一些心得而來。寫...

    G9YH 評(píng)論0 收藏0
  • 大數(shù)據(jù)時(shí)代數(shù)據(jù)庫-云HBase架構(gòu)&生態(tài)&實(shí)踐

    摘要:摘要第九屆中國數(shù)據(jù)庫技術(shù)大會(huì),阿里云高級(jí)技術(shù)專家架構(gòu)師封神曹龍帶來題為大數(shù)據(jù)時(shí)代數(shù)據(jù)庫云架構(gòu)生態(tài)實(shí)踐的演講。主要內(nèi)容有三個(gè)方面首先介紹了業(yè)務(wù)挑戰(zhàn)帶來的架構(gòu)演進(jìn),其次分析了及生態(tài),最后分享了大數(shù)據(jù)數(shù)據(jù)庫的實(shí)際案例。數(shù)據(jù)備份及恢復(fù)。 摘要: 2018第九屆中國數(shù)據(jù)庫技術(shù)大會(huì),阿里云高級(jí)技術(shù)專家、架構(gòu)師封神(曹龍)帶來題為大數(shù)據(jù)時(shí)代數(shù)據(jù)庫-云HBase架構(gòu)&生態(tài)&實(shí)踐的演講。主要內(nèi)容有三個(gè)方...

    econi 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<