宣布 Apache Arrow DataFusion Comet


已發布 2024年03月06日
作者 Apache Arrow PMC (pmc)

簡介

Apache Arrow PMC 很高興宣布捐贈 Comet 專案,這是一個基於 Apache Arrow DataFusion 建構的原生 Spark SQL 加速器。

Comet 是一個 Apache Spark 外掛程式,它使用 Apache Arrow DataFusion 來加速 Spark 工作負載。它被設計為 Spark 基於 JVM 的 SQL 執行引擎的直接替換方案,並為某些工作負載提供顯著的效能提升,如下所示。

Fig 1: Adaptive Arrow schema architecture overview.
圖 1:透過 Comet,使用者可以與相同的 Spark 生態系統、工具和 API(例如 Spark SQL)互動。查詢仍然透過 Spark 的查詢最佳化器和計畫器執行。然而,執行會委派給 Comet,Comet 比基於 JVM 的實作方案更快且更有效率。

Comet 是一系列旨在透過原生 columnar 引擎加速 Spark 的專案之一,這些專案包括專有的 Databricks Photon Engine 和開源專案 GlutenSpark RAPIDSBlaze(同樣是使用 DataFusion 建構)。

Comet 最初是在 Apple 實作的,參與該專案的工程師也是 Arrow 和 DataFusion 的重要貢獻者。將 Comet 引入 Apache 軟體基金會將加速其開發並擴大其貢獻者和使用者社群。

參與貢獻

Comet 仍處於早期開發階段,我們非常歡迎您加入我們,一同塑造這個專案。我們正在進行初始版本的發布工作,並預計屆時會發布另一次更新,提供更多詳細資訊。

在那之前,以下是一些參與方式

  • 造訪 Comet 專案頁面,並閱讀關於初始捐贈的郵件列表討論,以了解更多資訊。

  • 協助我們規劃 roadmap

  • 試用該專案並提供意見回饋、提交 issue 以及貢獻程式碼。