這篇博客主要講解如何在Google Cloud上使用Hive.
這篇博客使用的資料是movies_few.csv.
部分截圖如下:

步驟一:創建Google Cloud Project:
首先進入Google Cloud Console的界面:

點擊"New Project"

進入到這個界面,必須有Billing account, 不然是不能使用Google Cloud的

步驟二:創建Google Cloud Storage bucket來存盤要使用的資料
進入Storage -> Browser

創建一個storage bucket:




步驟三:創建好bucket之后,就創建一個folder來存盤要做實驗的資料:


步驟四:上傳需要做實驗的資料到創建好的folder:
有兩種辦法上傳:
- 跟下面的截圖一樣做法
- 可以直接把檔案拖拽進來

步驟五: 創建一個Dataproc Cluster
必須得將Cloud Dataproc API enabled了,不然是用不了的







步驟六:點擊SSH進入master node:



步驟七:可以查看dataset in cloud storage
# 命令
gsutil ls gs://hive-test-example/example-data

步驟八:使用jdbc hive 來運行Beeline shell
# 命令
beeline -u jdbc:hive2://localhost:10000/default -n
[myusername@clustername-m] -d
org.apache.hive.jdbc.HiveDriver

這時就可以使用HIVE 命令來做練習了
步驟九:創建一個table

這樣就代表成功了
Note:
- CREATE TABLE命令中的EXTERNAL子句將把源資料檔案留在云檔案存盤(CFS)中,使用這種方法,原始資料將保持在原來的位置(在本例中是gs: bucket),但是可以操作新創建的表,
- 另一方面,你可以使用CREATE TABLE,不帶EXTERNAL子句,將資料從CFS (gs:在這種情況下)以表的形式移動到HIVE檔案系統中,一旦資料被移動到HIVE表中,檔案就會從常規CFS中洗掉,
步驟十:數table里一共有多少行:

步驟十一:從table里選擇10行:

步驟十二:退出HIVE terminal

步驟十三: 洗掉cluster, cloud storage bucket:



如果覺得不錯,就點贊或者關注或者留言~~
謝謝~ ~
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/242857.html
標籤:其他
