跳到內容

arrow 套件包含 37 個 dplyr 表格函數的方法,其中許多是「動詞」,用於對一個或多個表格進行轉換。該套件還具有 212 個 R 函數到 Arrow 計算函式庫中對應函數的映射。這些映射讓您可以在 dplyr 方法內部編寫呼叫 R 函數的程式碼,包括 stringrlubridate 等套件中的許多函數,它們將被翻譯成 Arrow 並在 Arrow 查詢引擎 (Acero) 上執行。本文檔列出了所有已映射的函數。

dplyr 動詞

大多數動詞函數返回一個 arrow_dplyr_query 物件,在精神上類似於 dbplyr::tbl_lazy。這表示這些動詞不會在資料上急切地評估查詢。若要執行查詢,請呼叫 compute() (它會傳回一個 arrow Table) 或 collect() (它會將結果 Table 拉取到 R tibble 中)。

函數映射

在下面的列表中,列出了 Acero 和 R 函數之間在行為或支援方面的任何差異。如果函數名稱後沒有註解,則您可以假設該函數在 Acero 中的運作方式與在 R 中相同。

函數可以呼叫為 pkg::fun() 或僅 fun(),即 str_sub()stringr::str_sub() 都可以使用。

除了這些函數之外,您還可以**直接**呼叫 Arrow 的任何 262 個計算函數。Arrow 有許多函數沒有映射到現有的 R 函數。在其他有 R 函數映射的情況下,如果您不想要 R 映射所做的使 Acero 行為類似於 R 的調整,您仍然可以直接呼叫 Arrow 函數。這些函數列在 C++ 文件中,並且在 R 中的函數註冊表中,它們以 arrow_ 字首命名,例如 arrow_ascii_is_decimal

base

lubridate

methods

stats

stringi

stringr

任何函數都不支援模式修飾符 coll()boundary()

tibble