在一個千萬級的資料庫查尋中，如何提高查詢效率？？？？-有解無憂

摸清資料產生量如何，如果是1鈔鐘1條記錄，則一臺車一天就有86400條記錄，則建議如下：

1、每臺車使用單獨的表，程式內部使用CreateTable，動態創建表，銷毀表，這樣車與車之間不會產生聯系，
前提：系統管理的車應該不會經常變來變去，沒有很多關聯查詢出多臺車軌跡的需求，

2、建立當前表、歷史表、統計表
當前表：僅存盤當天的記錄，表的個數為=車數量，記錄條數小于10萬條，
這樣不管條數有多少，系統的插入等作業的正常運行不會受到任何影響，
歷史表：有12個歷史表，每個表存盤一個月的歷史資訊，也即最多保留一年的明細記錄，表的個數=車數量 * 12
每天凌晨可以進行當前表的過期記錄的轉移、洗掉作業，這樣每個表的條數約250萬條，使用好點的服務器，還免強能接受了，
統計表：將明細記錄按一定的周期（如每半小時一條）進行壓縮統計，存盤進入統計表，供查詢統計使用，
根據你們的具體需求，可以將資料按以上三種方法組合，如可以建立統計周期為分鐘、10分鐘、1小時、1天等等的各種表，
統計周期越短，保存的時期越短，查詢得越清晰，也即查詢時越靠近當前查詢得越清晰，

=====================================================================================================================================

1）資料庫設計方面：
a. 對查詢進行優化，應盡量避免全表掃描，首先應考慮在 where 及 order by 涉及的列上建立索引，
b. 應盡量避免在 where 子句中對欄位進行 null 值判斷，否則將導致引擎放棄使用索引而進行全表掃描，如： select id from t where num is null 可以在num上設定默認值0，確保表中num列沒有null值，然后這樣查詢： select id from t where num=0

c. 并不是所有索引對查詢都有效，SQL是根據表中資料來進行查詢優化的，當索引列有大量資料重復時,查詢可能不會去利用索引，如一表中有欄位sex，male、female幾乎各一半，那么即使在sex上建了索引也對查詢效率起不了作用，

d. 索引并不是越多越好，索引固然可以提高相應的 select 的效率，但同時也降低了 insert 及 update 的效率，因為 insert 或 update 時有可能會重建索引，所以怎樣建索引需要慎重考慮，視具體情況而定，一個表的索引數最好不要超過6個，若太多則應考慮一些不常使用到的列上建的索引是否有必要，

e. 應盡可能的避免更新索引資料列，因為索引資料列的順序就是表記錄的物理存盤順序，一旦該列值改變將導致整個表記錄的順序的調整，會耗費相當大的資源，若應用系統需要頻繁更新索引資料列，那么需要考慮是否應將該索引建為索引，

f. 盡量使用數字型欄位，若只含數值資訊的欄位盡量不要設計為字符型，這會降低查詢和連接的性能，并會增加存盤開銷，這是因為引擎在處理查詢和連接時會逐個比較字串中每一個字符，而對于數字型而言只需要比較一次就夠了，

g. 盡可能的使用 varchar/nvarchar 代替 char/nchar ，因為首先變長欄位存盤空間小，可以節省存盤空間，其次對于查詢來說，在一個相對較小的欄位內搜索效率顯然要高些，

h. 盡量使用表變數來代替臨時表，如果表變數包含大量資料，請注意索引非常有限（只有主鍵索引），

i. 避免頻繁創建和洗掉臨時表，以減少系統表資源的消耗，

j. 臨時表并不是不可使用，適當地使用它們可以使某些例程更有效，例如，當需要重復參考大型表或常用表中的某個資料集時，但是，對于一次性事件，最好使用匯出表，

k. 在新建臨時表時，如果一次性插入資料量很大，那么可以使用 select into 代替 create table，避免造成大量 log ，以提高速度；如果資料量不大，為了緩和系統表的資源，應先create table，然后insert，

l. 如果使用到了臨時表，在存盤程序的最后務必將所有的臨時表顯式洗掉，先 truncate table ，然后 drop table ，這樣可以避免系統表的較長時間鎖定，

2)SQL陳述句方面：

a. 應盡量避免在 where 子句中使用!=或<>運算子，否則將引擎放棄使用索引而進行全表掃描，

b. 應盡量避免在 where 子句中使用 or 來連接條件，否則將導致引擎放棄使用索引而進行全表掃描，如：

select id from t where num=10 or num=20

可以這樣查詢：

select id from t where num=10 union all select id from t where num=20

c. in 和 not in 也要慎用，否則會導致全表掃描，如：

select id from t where num in(1,2,3)

對于連續的數值，能用 between 就不要用 in 了：

select id from t where num between 1 and 3

d. 下面的查詢也將導致全表掃描：

select id from t where name like ‘%abc%’

e. 如果在 where 子句中使用引數，也會導致全表掃描，因為SQL只有在運行時才會決議區域變數，但優化程式不能將訪問計劃的選擇推遲到運行時；它必須在編譯時進行選擇，

然而，如果在編譯時建立訪問計劃，變數的值還是未知的，因而無法作為索引選擇的輸入項，如下面陳述句將進行全表掃描：

select id from t where num=@num

可以改為強制查詢使用索引：

select id from t with(index(索引名)) where num=@num

f. 應盡量避免在 where 子句中對欄位進行運算式操作，這將導致引擎放棄使用索引而進行全表掃描，如：

select id from t where num/2=100

應改為:

select id from t where num=100*2

g. 應盡量避免在where子句中對欄位進行函式操作，這將導致引擎放棄使用索引而進行全表掃描，如：

select id from t where substring(name,1,3)=’abc’

–name以abc開頭的id

select id from t where datediff(day,createdate,’2005-11-30′)=0

–‘2005-11-30’生成的id

應改為:

select id from t where name like ‘abc%’ select id from t where createdate>=’2005-11-30′ and createdate<’2005-12-1′

h. 不要在 where 子句中的“=”左邊進行函式、算術運算或其他運算式運算，否則系統將可能無法正確使用索引，

i. 不要寫一些沒有意義的查詢，如需要生成一個空表結構：

select col1,col2 into #t from t where 1=0

這類代碼不會回傳任何結果集，但是會消耗系統資源的，應改成這樣：

create table #t(…)

j. 很多時候用 exists 代替 in 是一個好的選擇：

select num from a where num in(select num from b)

用下面的陳述句替換：

select num from a where exists(select 1 from b where num=a.num)

k. 任何地方都不要使用 select * from t ，用具體的欄位串列代替“*”，不要回傳用不到的任何欄位，

l. 盡量避免使用游標，因為游標的效率較差，如果游標操作的資料超過1萬行，那么就應該考慮改寫，

m. 盡量避免向客戶端回傳大資料量，若資料量過大，應該考慮相應需求是否合理，

n. 盡量避免大事務操作，提高系統并發能力，

3)java方面：重點內容

a.盡可能的少造物件，

b.合理擺正系統設計的位置，大量資料操作，和少量資料操作一定是分開的，大量的資料操作，肯定不是ORM框架搞定的，，

c.使用jDBC鏈接資料庫操作資料

d.控制好記憶體，讓資料流起來，而不是全部讀到記憶體再處理，而是邊讀取邊處理；

e.合理利用記憶體，有的資料要快取

如何優化資料庫，如何提高資料庫的性能?

1）硬體調整性能

最有可能影響性能的是磁盤和網路吞吐量,解決辦法擴大虛擬記憶體，并保證有足夠可以擴充的空間；把資料庫服務器上的不必要服務關閉掉；把資料庫服務器和主域服務器分開；把SQL資料庫服務器的吞吐量調為最大；在具有一個以上處理器的機器上運行SQL，

2）調整資料庫

若對該表的查詢頻率比較高，則建立索引；建立索引時，想盡對該表的所有查詢搜索操作，按照where選擇條件建立索引，盡量為整型鍵建立為有且只有一個簇集索引，資料在物理上按順序在資料頁上，縮短查找范圍，為在查詢經常使用的全部列建立非簇集索引，能最大地覆寫查詢；但是索引不可太多，執行UPDATE DELETE INSERT陳述句需要用于維護這些索引的開銷量急劇增加；避免在索引中有太多的索引鍵；避免使用大型資料型別的列為索引；保證每個索引鍵值有少數行，

3）使用存盤程序

應用程式的實作程序中，能夠采用存盤程序實作的對資料庫的操作盡量通過存盤程序來實作，因為存盤程序是存放在資料庫服務器上的一次性被設計、編碼、測驗，并被再次使用，需要執行該任務的應用可以簡單地執行存盤程序，并且只回傳結果集或者數值，這樣不僅可以使程式模塊化，同時提高回應速度，減少網路流量，并且通過輸入引數接受輸入，使得在應用中完成邏輯的一致性實作，

4）應用程式結構和演算法

建立查詢條件索引僅僅是提高速度的前提條件，回應速度的提高還依賴于對索引的使用，因為人們在使用SQL時往往會陷入一個誤區，即太關注于所得的結果是否正確，特別是對資料量不是特別大的資料庫操作時，是否建立索引和使用索引的好壞對程式的回應速度并不大，因此程式員在書寫程式時就忽略了不同的實作方法之間可能存在的性能差異，這種性能差異在資料量特別大時或者大型的或是復雜的資料庫環境中（如聯機事務處理OLTP或決策支持系統DSS）中表現得尤為明顯，在作業實踐中發現，不良的SQL往往來自于不恰當的索引設計、不充份的連接條件和不可優化的where子句，在對它們進行適當的優化后，其運行速度有了明顯地提高！

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/12642.html

標籤：大數據

上一篇：Spark高級算子aggregate所遇到的坑

下一篇：Spark中Broadcast的理解