Google Cloud + Hive 講解-有解無憂

這篇博客主要講解如何在Google Cloud上使用Hive.

這篇博客使用的資料是movies_few.csv.
部分截圖如下：
在這里插入圖片描述
步驟一：創建Google Cloud Project:
首先進入Google Cloud Console的界面：

點擊"New Project"

進入到這個界面，必須有Billing account, 不然是不能使用Google Cloud的

步驟二：創建Google Cloud Storage bucket來存盤要使用的資料
進入Storage -> Browser
在這里插入圖片描述
創建一個storage bucket:

步驟三：創建好bucket之后，就創建一個folder來存盤要做實驗的資料：

步驟四：上傳需要做實驗的資料到創建好的folder：
有兩種辦法上傳：

跟下面的截圖一樣做法
可以直接把檔案拖拽進來

步驟五: 創建一個Dataproc Cluster
必須得將Cloud Dataproc API enabled了，不然是用不了的

在這里插入圖片描述

步驟六：點擊SSH進入master node:

步驟七：可以查看dataset in cloud storage

# 命令
gsutil ls gs://hive-test-example/example-data

在這里插入圖片描述
步驟八：使用jdbc hive 來運行Beeline shell

# 命令
beeline -u jdbc:hive2://localhost:10000/default -n
       [myusername@clustername-m] -d
       org.apache.hive.jdbc.HiveDriver

在這里插入圖片描述
這時就可以使用HIVE 命令來做練習了

步驟九：創建一個table

在這里插入圖片描述
這樣就代表成功了
Note:

CREATE TABLE命令中的EXTERNAL子句將把源資料檔案留在云檔案存盤(CFS)中，使用這種方法，原始資料將保持在原來的位置(在本例中是gs: bucket)，但是可以操作新創建的表，
另一方面，你可以使用CREATE TABLE，不帶EXTERNAL子句，將資料從CFS (gs:在這種情況下)以表的形式移動到HIVE檔案系統中，一旦資料被移動到HIVE表中，檔案就會從常規CFS中洗掉，

步驟十：數table里一共有多少行：
在這里插入圖片描述
步驟十一：從table里選擇10行：

步驟十二：退出HIVE terminal
在這里插入圖片描述

步驟十三: 洗掉cluster, cloud storage bucket:
在這里插入圖片描述

如果覺得不錯，就點贊或者關注或者留言~~
謝謝~ ~

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/242857.html

標籤：其他

上一篇：2020年總結：資料里有你、我、他，關鍵還是自己

下一篇：阿里云服務器（Centos 7）上部署自己在Windows下開發的Vue專案（Docker版，超簡單！）