宣布 Apache Arrow DataFusion Comet
已發布 2024年03月06日
作者 Apache Arrow PMC (pmc)
簡介
Apache Arrow PMC 很高興宣布捐贈 Comet 專案,這是一個基於 Apache Arrow DataFusion 建構的原生 Spark SQL 加速器。
Comet 是一個 Apache Spark 外掛程式,它使用 Apache Arrow DataFusion 來加速 Spark 工作負載。它被設計為 Spark 基於 JVM 的 SQL 執行引擎的直接替換方案,並為某些工作負載提供顯著的效能提升,如下所示。

Comet 是一系列旨在透過原生 columnar 引擎加速 Spark 的專案之一,這些專案包括專有的 Databricks Photon Engine 和開源專案 Gluten、Spark RAPIDS 和 Blaze(同樣是使用 DataFusion 建構)。
Comet 最初是在 Apple 實作的,參與該專案的工程師也是 Arrow 和 DataFusion 的重要貢獻者。將 Comet 引入 Apache 軟體基金會將加速其開發並擴大其貢獻者和使用者社群。
參與貢獻
Comet 仍處於早期開發階段,我們非常歡迎您加入我們,一同塑造這個專案。我們正在進行初始版本的發布工作,並預計屆時會發布另一次更新,提供更多詳細資訊。
在那之前,以下是一些參與方式