主頁 > 資料庫 > 大資料存盤技識訓礎

大資料存盤技識訓礎

2020-09-13 08:48:11 資料庫

一、緒論

1.存盤的本質

資訊跨越空間的傳遞——通訊 

資訊跨越時間的傳遞——存盤

通訊:利用具有跨越空間特性的物理現象 ---聲音、光、電

存盤:利用具有時間穩態的物理現象 ---物理穩態、磁穩態、半導體穩態

什么是存盤?

存盤:

·它是資料臨時或長期駐留的物理媒介;
·它是保證資料完整安全存放的方式或行為,

計算機存盤系統:

指計算機中由存放程式和資料的各種存盤設備(介質)、控制部件與介面及管理資訊調度的設備(硬體)和演算法(軟體)所組成的系統,

存盤的主要指標:

容量:可以存下多少東西

速度:讀寫帶寬、讀寫次數/秒(IOPS)

持久性:資料能夠保存多久 ?大小:體積是多少

方便性:是否方便移動和攜帶

功耗:消耗能耗高低

性價比:單位價格下主要指標如何,例如速度 、容量等指標; 

1.1存盤介質的發展歷程

(1)存盤的歷史

象形文字、石刻楔形文字、竹簡、紙質印刷

現在進入“磁器時代”,大部分資料都是用硬碟保存,磁盤稱為當今世界資料存盤的主流技術

存盤器設備:計算機系統中的記憶設備,用來存放程 序和資料

 (2)存盤器的發展

存盤器類別:打孔紙卡、穿孔紙帶、威廉管、磁鼓、汞延遲線、超聲波存盤器、鐵電存盤磁芯、相變存盤、可擦除可編程只讀存盤器、Flash、磁阻式隨機存取記憶體

磁芯存盤器:核心使用微小的磁環(環),核心通過執行緒來寫入和讀取資訊, 每個核心代表一點資訊, 磁芯可以以兩種不同的方式(順時針或逆時針)磁化,存盤在磁芯中的位為零或一,取決于磁芯的磁化方向, 布線被布置成允許單個芯被設定為1或0,并且通過向所選擇的導線發送適當的電流脈沖來改變其磁化, 讀取內核的程序會導致內核重置為零,從而將其擦除, 這稱為破壞性讀數, 在不進行讀寫操作時,即使關閉電源,內核也會保持最后的值, 這使它們成為非易失性的,

 1955-1975:磁芯存盤器統治了計算機隨機存盤器(RAM)

1964年:靜態隨機存取存盤器(SRAM)

1969年:英特爾公司開發了第一個256位靜態RAM

1966年:IBM公司發明了動態隨機存取記憶體(DRAM)

各代DDR的主要改進:

1.SDRAM:(同步動態隨機存盤器)

Synchronous Dynamic Random Access Memory,一個時鐘 周期內只傳輸一次資料,它是在時鐘的上升期進行資料傳輸;

Memory作業需要同步時鐘,內部的命令的發送與資料的傳 輸都以它為基準;

動態是指存盤陣列需要不斷的重繪來保證資料不丟失; 

2.DDR:Double Data Rate SDRAM

一個時鐘周期內傳輸兩次資料,它能夠在時鐘的上升期和 下降期各傳輸一次資料,稱為雙倍速率SDRAM ;

更先進的同步電路,使指定地址、資料的輸送和輸出主要 步驟既獨立執行,又保持與CPU完全同步;

 

 

 

 

 3.DDR2:

在同等核心頻率下,DDR2的實際作業頻率是DDR的兩倍,這得益于 DDR2記憶體擁有兩倍于標準DDR記憶體的4BIT預讀取能力 ;

在采用更低發熱量、更低功耗的情況下,DDR2可以獲得更快的頻率 提升,突破標準DDR的400MHZ限制 ;

DDR2記憶體通常采用FBGA芯片封裝形式,功耗和發熱量更小,

4.DDR3:

突發長度(Burst Length,BL),DDR3增加了一個4bit Burst Chop(突發突變)模式;

新增重置(Reset)功能,當Reset命令有效時,DDR3記憶體將停止所 有操作,并切換至少量活動狀態,以節約電力 ;

尋址時序(Timing),DDR2的CL(CAS Latency)范圍一般在2~5 之間,而DDR3則在5~11之間,  

5.DDR4:

相比DDR3大的區別有三點:16bit預取機制(DDR3為8bit),同樣內核頻率下理論速度是DDR3的兩倍;更可靠的傳輸規范,資料可 靠性進一步提升;作業電壓降為1.2V,更節能,

相變存盤

在1969年Charles Sie的論文中提出這項存盤技術 ;

三星公司成為第一個成為開發出PCRAM的公司, 美光公司則已經生產出容量為1Gb的芯片;

相變記憶體具有高速存取和非易失的特性

磁阻式隨機存取記憶體MRAM 

1989年:磁阻式隨機存取記憶體MRAM (MagnetoresistiveRandom Access Memory)

MRAM接近靜態隨機存盤器(SRAM)的高速讀 取寫入能力,以及動態隨機存盤器(DRAM)的 高集成度 

IBM在上世紀八九十年代最早開始研發,但其商業 化的步伐依然沒有取得進展,目前仍處于研發階段

(3)輔存盤器的變遷

磁帶、 磁盤、軟盤、 光碟、固態盤

閃存的主要優點:非易失、體積小、重量輕、低能耗、無噪聲、抗震動

我們平時用的固態硬碟(SSD)就是flash組成的磁盤陣列,

 

 

(2018年3月,100TB固態硬碟上 市:Nimbus Data公司的 ExaDriveDC100系列固態硬碟) 

 

注:記憶體條一般是用DRAM技術做成的,而Cache一般是用SRAM做成的

1.2 硬體存盤介面技術的發展

 

 

 

總線技術:

 

 

 System Bus :連接CPU 和Memory ;

Local (I/O) Bus :從外部設備搬運資料 ;

Bus 指標: 

  BUS width measured in bits ;

  Bus speed measured in MHz ;

  Throughput measured in MB/S;

 

連接協議

1.存盤總線介面:IDE/ATA 

 

· IDE:Integrated Device Electronics
  · ATA指令集(Advanced Technology Attachment:1986 年)
  · CalledPATA:并行的ATA80芯資料線

·上世紀90年代最流行的現代硬碟介面之一

·最大:133 Mbps,低價格上的好性能

·Desktop 和laptop系統

·Inexpensive 存盤鏈接interconnect

 

2.SCSI:Small Computer System Interface

SCSI:服務器最流行的硬碟介面,1986標準化

  ·高速資料傳輸、帶寬大、熱插拔:320MB/S;連接設備8-16個

  ·支持多個資料的同時訪問

較IDE/ATA價格昂貴

并行模式SCSI

主用在“高端計算” 環境中

 

 

 

3.存盤總線介面:SATA/ATA 

 

SATA協議:Serial串行ATA(IDE:并行ATA)
  ·ATA指令集,串行線路傳輸資料,2000年
  ·傳輸率高、可靠性強、針腳少(6-8)
  ·目前最高速率600MB/S
  ·桌面系統和服務器,稍貴的存盤鏈接:相對IDE

SAS(Serial Attached SCSI):串行模式SCSI介面
  ·3.0 Gbps-6Gbps
  ·高端服務器

4.Internal DAS Connectivity Examples

主機外連存盤設備的構件Components

 

 

 

 

 

 

FibreChannel:光纖通道FC

 

 

外部存盤介面SCSI與FC比較

FibreChannel:可支持SCSI 指令集  

  高帶寬:2-8Gbps

  傳輸距離遠:長達150m ~ 50km

  確定性低延遲:微秒級端到端 延遲;

  低誤碼率:小于10-12 ;

  抗干擾能力強:對電磁干擾有 天然的免疫力

  Dual-ported drives

SCSI :

  320MB/S

  有限的距離

  有限的設備數目: 大8-16

  Usually limited to single initiator

  Single-ported drives

 

Fibre Channel Connectivity

 

 

Bus 技術-PCI

PCI:Peripheral Component Interconnect(外設 部件互連)

  計算機內的區域并行總線標準

  廣泛用于當前高檔微機和便攜式微機,主要用于連接顯示 卡、網卡、聲卡,主板帶有多數量的插槽型別

  高速鏈接微處理器和外部設備

  即插即用功能

  32/64 bit;133 MB/sec

Bus 技術-PCIe 

PCI Express: Evolved from PCI and PCI-X? architectures 

  高速串行替換協議for PCI and PCI-X;

  高8GB/s總 線帶寬

  PCI Express鏈路是兩個設備之間(PCI Express埠) 的點對點通信通道

  Implements packet based protocol for information transfer

  在物理層面上,一條鏈路由一潭訓多條通道組成,包含1 個到32個通道,更精確地包括1,2,4,8,12,16或32個通道 

    ?例如,低速外設(例如802.11 Wi-Fi卡)使用單通道(×1) 鏈路,而圖形配接器通常使用更寬更快的16通道鏈路,

PCI vs PCIe的速度比較

 

 SCSI協議結構

 

 

 

1.3 存盤系統基本結構形式

存盤系統:

  1)存盤資源組合:提供大容量、高性能、低價格、 高可用、高安全的存盤系統為目的

    ·?存盤資源單元:暫存器、SRAM、DRAM、Flash、硬碟、磁 帶、光碟 

  2)各種層次和規模的組合:大/快/便宜的存盤器 

    經典的組合---Cache和VM(虛擬記憶體)

       ?Cache-:SRAM與DRAM的組合

       ?VM:DRAM 與DISK的組合(看起來又大又快又便宜 的存盤器)

存盤層次–速度和開銷:

 

 

 

 磁盤陣列 

集成大量廉價的小型磁盤存盤器構造出磁盤陣列: 

    “分塊”、“交叉存取”以及冗余容錯等技術

    容量大、可靠性高、性能高

(個人認為磁盤陣列一般都要附加一個陣列控制器 例如RAID Controller)

 

直接附加存盤Direct  Access Storage

  以服務器為中心:存盤設備通過總線(SCIS線等) 直接連接到主機上,受控于主機

    ·存盤設備內部利用SCSI總線通道或FC通道、IDE介面連接多個磁盤,實作RAID技術,形成一個磁盤陣列,從而解決了資料容錯、大存盤空間的問題

  優點:簡單、便宜、易于安裝部署管理

 

 

 

存盤的邏輯卷和檔案系統概念

1.塊設備

  (1)以Block為基本讀寫單位的設備

     ?磁盤:“Block”指Sector

     ?閃存:“Block”指Page或Subpage

     ?RAID:“Block”指Stride

  (2)鍵盤、滑鼠不是塊設備,它們以位元組流的形式讀寫

  (3)網卡不是塊設備,但通過網卡連接的iSCSI存盤設備是塊設備 

2.物理卷(Physical Volume) 

  將一個塊設備劃分成幾個部分,每部分稱作一個物理卷(也稱“磁區”)

  物理卷的引入使大容量塊設備的管理更容易

  每個物理卷被劃分成許多大小一致的Physical Extents(物理塊)

3.卷組(Volume Group)

  大量的物理卷組成一個存盤池,叫卷組

    ?卷組可包含多個塊設備上的物理卷

    ?一個塊設備上的物理卷可處于多個卷組中

  卷組的引入為可伸縮的存盤空間管理提供基礎 

4.邏輯卷(Logical Volume) 

  卷組包含多個物理卷,每個物理卷包含大量Physical Extents,邏輯卷管理器從這些Physical Extents拿出一部分組成邏輯卷

     ?邏輯卷由大量Logical Extents組成

     ?邏輯卷的每個Logical Extent對應物理卷的一個Physical Extent

     ?同一邏輯卷的Logical Extents可來自不同的物理卷,同一物理卷的 Physical Extents可處于不同的邏輯卷中

  每個邏輯卷上安裝一個檔案系統,邏輯卷通過增加和減少Logical Extent調整大小,導致檔案系統的容量是可伸縮的

 

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/22755.html

標籤:大數據

上一篇:MSSQL維護計劃洗掉資料庫備份檔案失敗

下一篇:查詢只選修了1號課程和3號課程的學生學號

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more