在我們的用例中,我們必須從 scylladb 中獲取資料并放入 Elasticsearch。如果我們一一記錄,肯定要花太多時間。
我發現 scylladb 沒有二進制日志,對吧?
所以,你有更好的建議嗎?
uj5u.com熱心網友回復:
您可能希望在 Scylla 中使用 Change Data Capture,然后使用 CDC 表來提供將填充 Elasticsearch 的 Kafka 主題。
用于 Kafka 的 ScyllaDB CDC 連接器建立在 Debezium 上。你可以在這里讀更多關于它的內容。
https://debezium.io/blog/2021/09/22/deep-dive-into-a-debezium-community-connector-scylla-cdc-source-connector/
uj5u.com熱心網友回復:
如果您想使用 CDC 閱讀實時添加的所有內容,您只需撰寫一個示例 scala spark 應用程式,它只會加載需要從 Scylla 到 Elastic 進行全文搜索的所有內容(示例應用程式在互聯網上或查看系列圍繞 Scylla 遷移器的博客,其中解釋了如何正確利用資料幀)。
Fwiw,Scylla 支持運算子 LIKE,以防簡單的搜索會為您削減它(并假設您的磁區不是很大),而不是 Elastic 使用的 lucene 查詢語言和倒排索引。
鏈接:
https://docs.scylladb.com/getting-started/dml/#like-operator
https://www.scylladb.com/2018/07/31/spark-scylla/
https://www.scylladb.com/2019/03/12/deep-dive-into-the-scylla-spark-migrator/
https://github.com/scylladb/scylla-code-samples/tree/master/spark3-scylla4-demo
https://www.elastic.co/guide/en/elasticsearch/hadoop/master/spark.html
不知道這會有多大用處:
https://www.youtube.com/watch?v=9pfEVQ9te5E
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/320940.html
