計數不同的布林值-有解無憂

是否有更好（更漂亮、更慣用，甚至更高效）的方式來執行以下操作？

目標：通過另一個布爾列計算一列的不同值。

樣本資料：

id  | metadata_streaming_date | cols_exist |
--- | ----------------------- | -----------|
 1  | 2022-02-20              | true       |
 1  | 2022-02-20              | true       |
 2  | 2022-02-20              | true       |
 2  | 2022-02-20              | true       |
 3  | 2022-02-20              | false      |
 1  | 2022-02-19              | true       |
 2  | 2022-02-19              | false      |
 3  | 2022-02-19              | false      |
 4  | 2022-02-19              | false      |
 4  | 2022-02-19              | false      |

預期結果是count distinct id按metadata_streaming_date希望 ( where cols_exist = false) 和整體（每個日期的此 id 的所有行）拆分分組。

預期結果表：

| metadata_streaming_date | wanted | overall |
| ----------------------- | -------| --------|
| 2022-02-20              | 1      | 3       |
| 2022-02-19              | 3      | 4       |

我可以通過兩個子查詢和內部連接來實作它metadata_streaming_date：

select
  t1.metadata_streaming_date,
  overall,
  wanted,
  wanted / overall as perc
from
  (
    select
      metadata_streaming_date,
      count(distinct id) as overall
    from
      non_needed_fields_view
    where
      metadata_streaming_date >= '2022-02-19'
    group by
      metadata_streaming_date
  ) as t1
  inner join (
    select
      metadata_streaming_date,
      count(distinct id) as wanted
    from
      non_needed_fields_view
    where
      cols_exist is false
      and metadata_streaming_date >= '2022-02-19'
    group by
      metadata_streaming_date
  ) as t2 on t1.metadata_streaming_date = t2.metadata_streaming_date

uj5u.com熱心網友回復：

聚合函式有一種很酷的FILTER語法，目前一些 RDBMS / SQL 引擎支持，包括 Spark SQL、PostgreSQL 和 SQLite。據我所知，它是 SQL ISO 標準的一部分。
SQL 中日期的 ISO 語法是DATE 'yyyy-MM-dd'

select   metadata_streaming_date 
        ,count(distinct id) filter (where cols_exist = false) as wanted
        ,count(distinct id)                                   as overall
from     non_needed_fields_view
where    metadata_streaming_date >= date '2022-02-19'
group by metadata_streaming_date

 ----------------------- ------ ------- 
|metadata_streaming_date|wanted|overall|
 ----------------------- ------ ------- 
|             2022-02-19|     3|      4|
|             2022-02-20|     1|      3|
 ----------------------- ------ -------

uj5u.com熱心網友回復：

您可以嘗試將聚合條件函式與一起使用DISTINCT，讓您的邏輯CASE WHEN表達出來。

SELECT metadata_streaming_date,
       COUNT(DISTINCT CASE WHEN cols_exist = false THEN id END) wanted ,
       COUNT(DISTINCT id) overall 
FROM non_needed_fields_view
WHERE metadata_streaming_date >= '2022-02-19'
GROUP BY metadata_streaming_date

轉載請註明出處，本文鏈接：https://www.uj5u.com/net/429914.html

標籤：sql 数据库阿帕奇火花 apache-spark-sql

上一篇：python-如何在更改匹配列值的同時在條件下加入python中的兩個pyspark資料框？

下一篇：如何在apachespark中按鍵分組