主頁 > 資料庫 > Hbase入門(二)——安裝與配置

Hbase入門(二)——安裝與配置

2020-09-15 22:39:33 資料庫

file

本文講述如何安裝,部署,啟停HBase集群,如何通過命令列對Hbase進行基本操作,

并介紹Hbase的組態檔,

在安裝前需要將所有先決條件安裝完成,

file

一、先決條件

1、JDK

和Hadoop一樣,Hbase需要JDK1.6或者更高的版本,所以請安裝好JDK并配置環境變數,

Hbase版本與JDK版本

HBase Version JDK 7 JDK 8 JDK 9 (Non-LTS) JDK 10 (Non-LTS) JDK 11
2.0+ HBASE-20264 HBASE-20264 HBASE-21110
1.2+ HBASE-20264 HBASE-20264 HBASE-21110

2、Zookeeper

zookeeper是Hbase集群的協調器,負責解決HMaster的單點問題,所以必須先安裝好一個zookeeper,

3、Hadoop

集群模式下,我們需要Hadoop環境

Hadoop 版本支持

  • T = 支持
  • F = 不支持
  • N = 未測驗
HBase-1.2.x, HBase-1.3.x HBase-1.4.x HBase-2.0.x HBase-2.1.x
Hadoop-2.4.x T F F F
Hadoop-2.5.x T F F F
Hadoop-2.6.0 F F F F
Hadoop-2.6.1+ T F T F
Hadoop-2.7.0 F F F F
Hadoop-2.7.1+ T T T T
Hadoop-2.8.[0-1] F F F F
Hadoop-2.8.2 N N N N
Hadoop-2.8.3+ N N T T
Hadoop-2.9.0 F F F F
Hadoop-2.9.1+ N N N N
Hadoop-3.0.[0-2] F F F F
Hadoop-3.0.3+ F F T T
Hadoop-3.1.0 F F F F
Hadoop-3.1.1+ F F T T

二、安裝與部署

Hbase有兩種運行模式,單機模式和分布式模式,

1、單機模式

下載

首先在這里下載Hbase的一個穩定版本,https://www.apache.org/dyn/closer.lua/hbase/

建議點擊頂部鏈接,進入 HBase Releases 點擊 stable 的檔案夾,然后下載將以 tar.gz 結尾的二進制檔案到本地,暫時不要下載以 src.tar.gz 結尾的檔案,

file

解壓

進入到那個要解壓的目錄

$ tar xzvf hbase-1.3.5-bin.tar.gz
$ cd hbase-1.3.5/
JAVA_HOME

在啟動 HBase 之前,您需要設定JAVA_HOME環境變數,您可以通過作業系統的常用設定來設定變數,HBase 也提供了一個中心機制 conf/hbase-env.sh,編輯此檔案,取消注釋以JAVA_HOME開頭的行,并將其設定為適合您的作業系統的路徑,

JAVA_HOME=/usr
hbase-site.xml

編輯 HBase 主組態檔 conf/hbase-site.xml.

您需要在本地檔案系統上指定 HBase 和 ZooKeeper 資料存盤目錄.

<configuration>
  <property>
    <name>hbase.rootdir</name>
    <value>file:///home/testuser/hbase</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/home/testuser/zookeeper</value>
  </property>
  <property>
    <name>hbase.unsafe.stream.capability.enforce</name>
    <value>false</value>
    <description>
      Controls whether HBase will check for stream capabilities (hflush/hsync).

      Disable this if you intend to run on LocalFileSystem, denoted by a rootdir
      with the 'file://' scheme, but be mindful of the NOTE below.

      WARNING: Setting this to false blinds you to potential data loss and
      inconsistent system state in the event of process and/or node failures. If
      HBase is complaining of an inability to use hsync or hflush it's most
      likely not a false positive.
    </description>
  </property>
</configuration>
啟停

bin/start-hbase.sh 為啟動 HBase

bin/start-hbase.sh為停止 HBase

可以使用 jps 確認 HMaster 和 HRegionServer 行程是否開啟關閉,

2、集群模式

2.1 偽分布式模式

偽分布模式意味著 HBase 仍然在單個主機上完全運行,但是每個 HBase 守護行程(HMaster,HRegionServer 和 ZooKeeper)作為一個單獨的行程運行.

使用集群模式前,要保證HDFS可以正常運行,

hbase-site.xml

編輯 HBase 主組態檔 conf/hbase-site.xml.

需要將分布式模式開啟 指定hdfs的URI

<property>
  <name>hbase.cluster.distributed</name>
  <value>true</value>
</property>

<property>
  <name>hbase.rootdir</name>
  <value>hdfs://localhost:8020/hbase</value>
</property>

使用 bin/start-hbase.sh 啟動 HBase. 如果您的系統配置正確,該jps命令應顯示 HMaster 和 HRegionServer 行程正在運行,

啟動和停止備份 HBase 主(HMaster)服務器

你可以啟動最多 9 個備份 HMaster 服務器,這個服務器總共有 10 個 HMaster 計算主服務器,

$ ./bin/local-master-backup.sh start 2 3 5

啟動和停止其他 RegionServers

$ .bin/local-regionservers.sh start 2 3 4 5

2.2 完全分布式

實際上,您需要一個完全分布式的配置來全面測驗 HBase,并將其用于實際場景中,在分布式配置中,集群包含多個節點,每個節點運行一個或多個 HBase 守護行程,這些包括主要和備份主實體,多個 ZooKeeper 節點和多個 RegionServer 節點,

架構如下:

Node Name Master ZooKeeper RegionServer
node-a.example.com yes yes no
node-b.example.com backup yes yes
node-c.example.com no yes yes

要保證節點有通訊權限,比如配置ssh免密和防火墻權限,并將zookeeper配置好啟動,

將Hbase下載并解壓,將組態檔同步到各個機器上,

啟動集群
$ bin/start-hbase.sh
node-c.example.com: starting zookeeper, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-zookeeper-node-c.example.com.out
node-a.example.com: starting zookeeper, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-zookeeper-node-a.example.com.out
node-b.example.com: starting zookeeper, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-zookeeper-node-b.example.com.out
starting master, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-master-node-a.example.com.out
node-c.example.com: starting regionserver, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-regionserver-node-c.example.com.out
node-b.example.com: starting regionserver, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-regionserver-node-b.example.com.out
node-b.example.com: starting master, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-master-nodeb.example.com.out

3、Web UI

在 HBase 0.98.x 以上, HBase Web UI 的埠從主節點的 60010 和 RegionServer 的 60030 變化為 16010 和 16030

在Hbase啟動以后可以通過頁面查看,

file

三、Hbase Shell

在 HBase 安裝目錄 bin/ 目錄下使用hbase shell命令連接正在運行的 HBase 實體,

$ ./bin/hbase shell
hbase(main):001:0>
預覽 HBase Shell 的幫助文本

輸入help并回車, 可以看到 HBase Shell 的基本資訊和一些示例命令.

創建表

使用 create創建一個表 必須指定一個表名和列族名

hbase(main):001:0> create 'test', 'cf'
0 row(s) in 0.4170 seconds

=> Hbase::Table - test
表資訊

使用 list 查看存在表

hbase(main):002:0> list 'test'
TABLE
test
1 row(s) in 0.0180 seconds

=> ["test"]
使用 describe 查看表細節及配置
hbase(main):003:0> describe 'test'
Table test is ENABLED
test
COLUMN FAMILIES DESCRIPTION
{NAME => 'cf', VERSIONS => '1', EVICT_BLOCKS_ON_CLOSE => 'false', NEW_VERSION_BEHAVIOR => 'false', KEEP_DELETED_CELLS => 'FALSE', CACHE_DATA_ON_WRITE =>
'false', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', MIN_VERSIONS => '0', REPLICATION_SCOPE => '0', BLOOMFILTER => 'ROW', CACHE_INDEX_ON_WRITE => 'f
alse', IN_MEMORY => 'false', CACHE_BLOOMS_ON_WRITE => 'false', PREFETCH_BLOCKS_ON_OPEN => 'false', COMPRESSION => 'NONE', BLOCKCACHE => 'true', BLOCKSIZE
 => '65536'}
1 row(s)
Took 0.9998 seconds
插入資料

使用 put 插入資料

hbase(main):003:0> put 'test', 'row1', 'cf:a', 'value1'
0 row(s) in 0.0850 seconds

hbase(main):004:0> put 'test', 'row2', 'cf:b', 'value2'
0 row(s) in 0.0110 seconds

hbase(main):005:0> put 'test', 'row3', 'cf:c', 'value3'
0 row(s) in 0.0100 seconds
掃描全部資料

從 HBase 獲取資料的途徑之一就是 scan ,使用 scan 命令掃描表資料,你可以對掃描做限制,

hbase(main):006:0> scan 'test'
ROW                                      COLUMN+CELL
 row1                                    column=cf:a, timestamp=1421762485768, value=https://www.cnblogs.com/tree1123/p/value1
 row2                                    column=cf:b, timestamp=1421762491785, value=value2
 row3                                    column=cf:c, timestamp=1421762496210, value=value3
3 row(s) in 0.0230 seconds
獲取一條資料

使用 get 命令一次獲取一條資料

hbase(main):007:0> get 'test', 'row1'
COLUMN                                   CELL
 cf:a                                    timestamp=1421762485768, value=https://www.cnblogs.com/tree1123/p/value1
1 row(s) in 0.0350 seconds
禁用表

使用 disable 命令禁用表

hbase(main):008:0> disable 'test'
0 row(s) in 1.1820 seconds

hbase(main):009:0> enable 'test'
0 row(s) in 0.1770 seconds

使用 enable 命令啟用表

hbase(main):010:0> disable 'test'
0 row(s) in 1.1820 seconds
洗掉表
hbase(main):011:0> drop 'test'
0 row(s) in 0.1370 seconds
退出 HBase Shell

使用quit命令退出命令列并從集群斷開連接,

四、組態檔詳解

Apache HBase 使用與 Apache Hadoop 相同的配置系統,所有組態檔都位于 conf/ 目錄中,需要保持群集中每個節點的同步,

backup-masters
默認情況下不存在,這是一個純文本檔案,其中列出了主服務器應在其上啟動備份主行程的主機,每行一臺主機,
hadoop-metrics2-hbase.properties
用于連接 HBase Hadoop 的 Metrics2 框架,默認情況下只包含注釋出的示例,
hbase-env.cmd and hbase-env.sh
用于 Windows 和 Linux/Unix 環境的腳本,以設定 HBase 的作業環境,包括 Java、Java 選項和其他環境變數的位置,該檔案包含許多注釋示例來提供指導,
hbase-policy.xml
RPC 服務器使用默認策略組態檔對客戶端請求進行授權決策,僅在啟用 HBase安全模式下使用,
hbase-site.xml
主要的 HBase 組態檔,該檔案指定覆寫 HBase 的默認配置的配置選項,您可以在 docs/hbase-default.xml 中查看(但不要編輯)默認組態檔,您還可以在 HBase Web UI 的 HBase 配置選項卡中查看群集的整個有效配置(默認和覆寫),
log4j.properties
通過log4j進行 HBase 日志記錄的組態檔,
regionservers
包含應該在 HBase 集群中運行 RegionServer 的主機串列的純文本檔案,默認情況下,這個檔案包含單個條目localhostt,它應該包含主機名或 IP 地址串列,每行一個,如果集群中的每個節點將在其localhost介面上運行 RegionServer 的話,則只應包含localhost

更多實時計算,Hbase,Flink,Kafka等相關技術博文,歡迎關注實時流式計算

file

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/50635.html

標籤:大數據

上一篇:idea中flink啟動報錯org.apache.flink.api.common.ExecutionConfig$GlobalJobParameters

下一篇:刷臉支付襲來,WeChat Pay & AliPay爭寵,究竟誰能笑到最后?

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more