我有一個每小時運行一次的查詢,我正在處理這個查詢中的某個資料集。在處理這個資料集時,我需要忽略一些 ID,我目前正在使用NOT IN,但我需要忽略的 ID 數量約為 50。
我想知道的問題是,我正在使用我正在處理的資料以某種模式創建一個文本檔案,我應該直接在查詢中還是在 foreach 模式中使用這個忽略操作以獲得更好的性能?
查詢在包含 10M 記錄的資料集中回傳大約 5000-7000 條資料,我需要從結果集中忽略大約 50 個 ID。
讓我們說;
$blacklist_arr = array(1,10,20,30,40,50,60,70,80,90,100); //around 50 element in array~
我現在用的;
...QUERY...
resultSet.ID NOT IN (\'' . implode( "', '" , $blacklist_arr ) . '\')
我打算使用什么;
foreach ($final_dataset as $final_data) {
...
if (!in_array($final_data, $blacklist_arr )) {
//write to file
...
編輯* 查詢結構如下;
SELECT *
FROM
(
(
SELECT DISTINCT a.col1, a.col2, a.col3, a.col4,..., a.coln
FROM
`a`
INNER JOIN ( SELECT MAX( b.col4 ) AS X, b.col2 FROM `a` AS `b` GROUP BY b.col2 ORDER BY NULL ) sub ON ( sub.X = a.col4 )
WHERE
( a.someColumn > NOW( ) - INTERVAL 2 HOUR )
AND ( a.col3 < DATE_HERE )
) UNION
(
SELECT a.col1, a.col2, a.col3, a.col4,..., a.coln
FROM
`a`
WHERE
( a.someColumn >= DATE_SUB( NOW( ), INTERVAL 3 MONTH ) AND a.col4 IS NULL )
AND ( a.col3 < DATE_HERE )
)
) AS resultSet
WHERE
resultSet.col1 NOT IN ( 1,10,20,30,40,50,60,70,80,90,100 )
ORDER BY
resultSet.col3 ASC,
resultSet.col2 ASC,
resultSet.col4 ASC,
resultSet.col1 DESC
uj5u.com熱心網友回復:
各種點:
我有一個“經驗法則”:“如果可能的優化估計使事情改進不到 10%,請繼續前進。也就是說,不要在上面花費額外的精力。相反,尋找更好的作業。 ” 根據您的數字,優化僅將結果集減少了約 1%。
有一個標準的編程規則:“KISS”。哪個更容易撰寫代碼 -
NOT IN還是 PHP 過濾?一個變體:“哪種方法更少擊鍵?” 這來自“程式員的時間比計算機時間更有價值。移動
NOT IN到每個子查詢中可能會稍微加快速度。這是因為它會(略微)減少查詢中涉及的中間表。(但是,這不符合 10% 和 KISS 規則。)另一方面,它可以消除最外面的 Select。注意:這有效:(SELECT ...) UNION (SELECT ...) ORDER BY...。潛在錯誤:最里面的 Select 可能正在從排除的 col1 之一中選擇日期和時間。
UNION默認為UNION DISTINCT,它比 慢UNION ALL。將此視為更大的優化。ON ( sub.X = a.col4)大概需要提一下col2。DATE_HERE與有某種關系NOW()嗎?也許你需要TIMESTAMP而不是DATETIME反之亦然?我懷疑
DISTINCT不需要。無論如何,它是多余的UNION。考慮“黑名單”是否應該是表格,而不是組態檔。作為表,
NOT EXISTS(..)或者LEFT JOIN .. IS NOT NULL需要添加到查詢中。這將比您現在擁有的要慢,但可能會“更干凈”。WHERE 1=1是懶惰編程的產物;這不是優化;優化器將簡單地扔掉它。通常,更好的索引提供最大的改進。 也許以下會有所幫助。注意:單獨的單列索引不是那么好。此外,在添加時
INDEX(a,b),洗掉INDEX(a).a (as b): INDEX(col2, col4) -- this order a: INDEX(col4, col3, someColumn) -- col4 first
uj5u.com熱心網友回復:
如果您的 t.col_black_elem 是通過另一個查詢獲得的,您可以嘗試使用左連接檢查不匹配的值
SELECT a.col1,..., a.coln
from table1 a
LEFT JOIN (
select col_black_elem from tablex
) t on t.col_black_elem = a.colx
WHERE t.col_black_elem is null
和你的代碼
SELECT *
FROM
(
(
SELECT DISTINCT a.col1, a.col2, a.col3, a.col4,..., a.coln
FROM
`a`
INNER JOIN ( SELECT MAX( b.col4 ) AS X, b.col2 FROM `a` AS `b` GROUP BY b.col2 ORDER BY NULL ) sub ON ( sub.X = a.col4 )
WHERE
( a.someColumn > NOW( ) - INTERVAL 2 HOUR )
AND ( a.col3 < DATE_HERE )
) UNION
(
SELECT a.col1, a.col2, a.col3, a.col4,..., a.coln
FROM
`a`
WHERE
( a.someColumn >= DATE_SUB( NOW( ), INTERVAL 3 MONTH ) AND a.col4 IS NULL )
AND ( a.col3 < DATE_HERE )
)
) AS resultSet
LEFT JOIN (
select col_black_elem from tablex
) t on t.col_black_elem = resultSet.col1
WHERE t.col_black_elem is null
ORDER BY
resultSet.col3 ASC,
resultSet.col2 ASC,
resultSet.col4 ASC,
resultSet.col1 DESC
否則,如果您的 t.col_black_elem 不是通過其他查詢獲得的,您可以使用多個選擇聯合填充臨時表或 buld dinamycally 臨時表
uj5u.com熱心網友回復:
從性能來看,我建議您:
- 在第一個子查詢中洗掉 DISTINCT。一種排序優于兩種排序。
- 在子查詢中過濾您的行,而不是在組合行集中,這將減少要按 UNION 排序的行數。
SELECT *
FROM
(
(
SELECT a.col1, a.col2, a.col3, a.col4,..., a.coln
FROM
`a`
INNER JOIN ( SELECT MAX( b.col4 ) AS X, b.col2 FROM `a` AS `b` GROUP BY b.col2 ORDER BY NULL ) sub ON ( sub.X = a.col4 )
WHERE
( a.someColumn > NOW( ) - INTERVAL 2 HOUR )
AND ( a.col3 < DATE_HERE )
AND a.col1 NOT IN ( 1,10,20,30,40,50,60,70,80,90,100 )
) UNION
(
SELECT a.col1, a.col2, a.col3, a.col4,..., a.coln
FROM
`a`
WHERE
( a.someColumn >= DATE_SUB( NOW( ), INTERVAL 3 MONTH ) AND a.col4 IS NULL )
AND ( a.col3 < DATE_HERE )
AND a.col1 NOT IN ( 1,10,20,30,40,50,60,70,80,90,100 )
)
) AS resultSet
ORDER BY
resultSet.col3 ASC,
resultSet.col2 ASC,
resultSet.col4 ASC,
resultSet.col1 DESC
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/400246.html
