主頁 > 資料庫 > 通俗語言解釋資料倉庫、資料湖、資料中臺

通俗語言解釋資料倉庫、資料湖、資料中臺

2020-09-12 05:41:58 資料庫

資料倉庫

  如何理解資料倉庫?舉個簡單的例子, 我現在打算學習大資料的內容,所以我看了CSDN,博客園,微信的大資料公眾號,一些物體書等等,并且我在看某些這些東西的時候,有些不錯的文章我都收藏了,儲存在這些論壇的賬號中,物體書我也做了很多標記,來標出那些對我有用的部分,   看了好幾個月之后,我打算來一次整體的復習,結果這個時候遇到了困難:我收藏的文章太多了,我完全記不得到底哪些文章在哪里了,如果我要找某一篇文章,我可能要從頭開始一個一個的翻找這些論壇的收藏夾,看看我要找的東西到底在哪里,況且還要物體書呢!也要翻一遍!   這作業量也太大了,而且我每找一次東西都要幾乎從頭開始找一次,太麻煩了,此時我想到,我為什么不把我收藏夾的那些東西都放到一個地方呢?這樣我也不用登錄很多賬號找了,此時我就想到,我是不是可以用Word軟體呢?把收藏夾里面的文章都復制到Word里不就可以了嗎?而且Word軟體還有查找功能,比這樣翻找的快太多了!立馬行動,我開始把一篇文章從標題到內容全都復制到Word檔案里,物體書上的我也打字打進來,花了好幾天時間,我終于把所有的東西都搬到Word檔案上了,真是累死了!     這個時候我又有了新的麻煩:雖然我按照一篇檔案一個檔案來分開,但是這些檔案非常多,而且標題都不明確,單從檔案名字上來看根本就不知道內容是什么,如果要知道是什么內容,還是需要一個一個打開來看,     這樣并不比之前的操作要輕松啊?我花了這么多的時間,結果也就省了一個打開網頁的操作,反而又增加了一個打開Word檔案的操作,這樣似乎比之前更麻煩了,畢竟我的電腦打開網頁還好,打開Word可慢多了,這要怎么辦呢? 這時候我又想到了一個辦法:把這些檔案全部打開看看,然后把檔案名字改好,改成我一眼就能看得懂的名字,這樣就很便于查找了吧,畢竟看一眼名字就知道這個檔案是不是我想要的,于是我又花了好幾天的時間,把這些檔案按照文章的內容,概括出來一個主題,把它當作檔案的名字,當我完成之后我覺得目前就可以很輕松的通過Wrod自帶的查找功能來找到我想要的檔案來看了,我覺得我的整理作業以及結束了     可是當我開始復習這些資料的時候,又發現了一個問題:這些檔案讀起來很冗余,很多的地方都是重復的,而且有的幾乎都全部重復了僅僅有一小部分才是不同的,比如什么Hadoop的定義啥的,這些很多檔案都寫了,而且都是一模一樣的,每次打開檔案都要看一遍,而且還很占用我的磁盤空間,而另外一些,比如Hadoop的版本解讀,我搜集的這些檔案,從1.0.x到3.0.x的版本解讀都有,但是我想要從1.0到3.0的版本變化,這樣的話的得把這些檔案全部都打開,然后一個檔案一個檔案的看,每次這樣翻我也很煩躁,我只想更懶一點,為什么沒有一個檔案整理了從1.0到3.0所有的版本變化呢?我在網上也沒找到,哎,靠人不如靠自己,我還是自己來吧!     這個時候我經過了前兩次的整理經歷之后我學聰明了,我沒有一開始就著手整理,我想了一下,我現在到底需要整理成什么樣子? 1.不變的東西整理到一個檔案里面去,上面寫上xxxx定義  2.會變的東西,比如版本解讀啥的,每個版本都會有一個檔案,這些我也整理到一個檔案里面去,這樣我就不用到處翻來翻去了 3.但是之前的這些東西我不能刪掉,我自己合并的東西可能有的不全,或者是合并的有問題,我需要找原來的檔案對比一下,如果我把之前的刪掉,一旦我打錯了字,我可能就會一直學了錯的知識了     好吧,我目前就想到這么多,那我就開始整理吧!于是我又花了好幾天的時間,把原來的檔案中的東西提取出來,重復的定義都合并到一起并且只留一份,不同的版本解讀我放到一個檔案里面去,然后我要保存之前的那些原始的檔案,這倆東西不能都在一個都放在一個檔案夾里面吧,這樣也太亂了,于是我又打算吧這兩個放在兩個檔案夾里面,我創建了兩個檔案夾,一個存放原始的檔案,一個存放我整理好的檔案,然后把這倆檔案夾都放到 一個叫知識庫的檔案夾里面,這樣我的整理作業貌似真的已經完成了, 現在,我想看Hadoop相關的版本解讀的話,我就打開版本解讀檔案就可以了,如果我想看Hadoop的定義和版本解讀呢?我就打開這兩個檔案,一個放在螢屏左邊,一個放在右邊,這樣看起來也很舒服,至此,我的整理作業真的算完成了,     然后我突然想到,我X,我不就是在搭建資料倉庫嗎???     是的,大家看到這里,如果對資料倉庫有了一些了解的話已經知道了資料倉庫的一般流程了,把上文的一些名詞換成資料倉庫的名詞:     各個論壇和物體書的文章 ->搭建數倉之前各個系統的資料源,比如MySQL,Oracle等傳統關系型資料,還要一些業務日志和埋點日志(比如說你在某寶點擊某個商品啊,瀏覽了某些商品啊,這些都是有記錄的,也叫做埋點資料,前端已經在你點擊進入這個商品的詳情頁的時候做了埋點,你點進去就會產生了一條資料,會記錄你點擊的商品記錄和你這個用戶的一般資訊,這就叫做埋點日志)       把這些不在同一個論壇,甚至在物體書上的文章,都統一放到Word檔案上,并且稍微改個檔案名 --->利用一些資料匯入工具,比如Sqoop,Flume,DataX(阿里云的產品,但已開源),把這些不同系統上面的資料,都匯入到同一個框架里,這里大部分都是匯入到Hive里,它利用HDFS存盤,具有天然的容災性,查詢的引擎是MR(也可以使用Spark),對于這么大的資料量是再適合不過了,這種遷移資料的行為已經是搭建數倉的一部分了,這些遷移過來的資料作為資料倉庫的ODS層(資料準備層),這一層是為加下來的資料層提供原始資料,我們盡量不做什么變動,只做一些資料按日期分表存盤,把這些資料按照主題和邏輯劃分好,       把文章去重,把版本解讀放到一起 --->對應資料倉庫的DW層,這一層的主要任務就是把原始資料進行ETL,把原始資料分為維度表和事實表(這種方法稱為維度建模),把細粒度的資料聚合成粗粒的表,把一些維度退化,形成業務寬表等等       使用檔案  --->對應數據倉庫的ADS層(也叫ST層),ST層面向用戶應用和分析需求,包括前端報表、分析圖表、KPI、儀表盤、OLAP、專題等分析,面向最終結果用戶       這樣,我們就完成了一個簡單的資料倉庫(三層),其中DW層還可以細分為DWD,DM等,這個就看實際情況了,靈活分層    

資料湖與資料中臺

  至于資料湖和資料中臺呢?   我是這樣理解資料湖的,上面的例子里,我們在把各種不同論壇的文章匯入到Word檔案中的時候,其實已經丟失掉了一層資訊:來源 放到Word檔案之后,你就無法知道某篇文章到底來自于哪個論壇的了 ,而資料湖呢?資料湖是盡力保持所有資料的原始面貌,不丟失任何資訊,同樣,也不會做任何的處理(因為你處理資料多多少少會丟失掉一部分資訊),盡力保持資料的原汁原味,因為誰也不知道以后某些資料又擁有多達的價值,所以我們需要保持資料的原封原貌,而這個時候我們可以把資料倉庫想象成一個在湖邊的礦泉水加工廠,一邊抽取湖中的水(資料),進行各種清洗消毒加工,最后生產出各種各樣包裝的礦泉水來,這就是這兩個概念我自己理解,     下面是維基百科上關于資料湖的定義:資料湖(Data Lake)是一個存盤企業的各種各樣原始資料的大型倉庫,其中的資料可供存取、處理、分析及傳輸,資料湖是以其自然格式存盤的資料的系統或存盤庫,通常是物件blob或檔案,資料湖通常是企業所有資料的單一存盤,包括源系統資料的原始副本,以及用于報告、可視化、分析和機器學習等任務的轉換資料,資料湖可以包括來自關系資料庫(行和列)的結構化資料,半結構化資料(CSV,日志,XML,JSON),非結構化資料(電子郵件,檔案,PDF)和二進制資料(影像,音頻,視頻)   至于資料中臺呢?我們先來看下資料中臺的定義:   資料中臺是指通過企業內外部多源異構的資料采集、治理、建模、分析,應用,使資料對內優化管理提高業務,對外可以資料合作價值釋放,成為企業資料資產管理中樞,資料中臺建立后,會形成資料API,為企業和客戶提供高效各種資料服務,(這個概念最早由阿里提出,實際上阿里云的一些云產品就是一個大的資料中臺)   又回到之前說的礦泉水加工廠的例子,如果我們只有一個加工廠,那肯定是僅僅不夠的,因為我們不僅要喝水,還要喝的是安全健康的水,這個檢測如果工廠內自己做,大家還是不太相信的,那么還是需要別人來檢測,監管加工廠的質量和水質等安全問題,這些的監管檢測機制,而且還有一個問題就是,加工廠缺少一個管賬的,內部的財務狀況很混亂, 因此,加工廠又請了另一家公司來為他們做財務管理,如此,再加上加工廠內部的更新換代,又增加了新技術來加工礦泉水(機器學習,資料挖掘等),加工廠是越來越大了,而包含兼管人員,財務管理和整個加工廠在內的,就是大家常說的資料中臺了,         以上就是我自己理解的資料倉庫、資料湖和資料中臺的概念了,如果有錯誤,歡迎在評論區指正!

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/11219.html

標籤:大數據

上一篇:redis 主從+ 哨兵,哨兵A下線之后,程式訪問埠是否也要改?

下一篇:MySQL學習筆記十三:使用Navicat進行資料庫的匯出匯入

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more