跳至內容

讀取資料集

將多檔案資料集開啟為 Arrow Dataset 物件。

open_dataset()
開啟多檔案資料集
open_delim_dataset() open_csv_dataset() open_tsv_dataset()
開啟 CSV 或其他分隔符號格式的多檔案資料集
csv_read_options()
CSV 讀取選項
csv_parse_options()
CSV 解析選項
csv_convert_options()
CSV 轉換選項

寫入資料集

將多檔案資料集寫入磁碟。

write_dataset()
寫入資料集
write_delim_dataset() write_csv_dataset() write_tsv_dataset()
將資料集寫入分割的平面檔案。
csv_write_options()
CSV 寫入選項

讀取檔案

以多種格式讀取檔案為 tibbles 或 Arrow Tables。

read_delim_arrow() read_csv_arrow() read_csv2_arrow() read_tsv_arrow()
使用 Arrow 讀取 CSV 或其他分隔符號檔案
read_parquet()
讀取 Parquet 檔案
read_feather() read_ipc_file()
讀取 Feather 檔案 (Arrow IPC 檔案)
read_ipc_stream()
讀取 Arrow IPC 串流格式
read_json_arrow()
讀取 JSON 檔案

寫入檔案

以多種格式寫入檔案。

write_csv_arrow()
將 CSV 檔案寫入磁碟
write_parquet()
將 Parquet 檔案寫入磁碟
write_feather() write_ipc_file()
寫入 Feather 檔案 (Arrow IPC 檔案)
write_ipc_stream()
寫入 Arrow IPC 串流格式
write_to_raw()
將 Arrow 資料寫入原始向量

建立 Arrow 資料容器

用於建立 Arrow 資料容器的類別和函數。

scalar()
建立 Arrow Scalar
arrow_array()
建立 Arrow Array
chunked_array()
建立 Chunked Array
record_batch()
建立 RecordBatch
arrow_table()
建立 Arrow Table
buffer()
建立 Buffer
vctrs_extension_array() vctrs_extension_type()
用於通用類型向量的擴展類型

使用 Arrow 資料容器

用於將 R 物件轉換為 Arrow 資料容器和合併 Arrow 資料容器的函數。

as_arrow_array()
將物件轉換為 Arrow Array
as_chunked_array()
將物件轉換為 Arrow ChunkedArray
as_record_batch()
將物件轉換為 Arrow RecordBatch
as_arrow_table()
將物件轉換為 Arrow Table
concat_arrays() c(<Array>)
串聯零或多個 Array
concat_tables()
串聯一個或多個 Table

Arrow 資料類型

欄位和結構描述

field()
建立 Field
schema()
建立結構描述或從物件中提取一個。
unify_schemas()
合併和協調結構描述
as_schema()
將物件轉換為 Arrow Schema
infer_schema()
從物件中提取結構描述
read_schema()
從串流讀取 Schema

計算

用於計算 Arrow 資料物件值的函數。

acero arrow-functions arrow-verbs arrow-dplyr
Arrow dplyr 查詢中可用的函數
call_function()
調用 Arrow 計算函數
match_arrow() is_in()
Arrow 物件的值比對
value_counts()
Arrow 物件的 table
list_compute_functions()
列出可用的 Arrow C++ 計算函數
register_scalar_function()
註冊使用者定義的函數
show_exec_plan()
顯示 Arrow Execution Plan 的詳細資訊

DuckDB

在 DuckDB 之間傳遞資料

to_arrow()
從 DuckDB 連線建立 Arrow 物件
to_duckdb()
從 Arrow 物件建立 (虛擬) DuckDB 表格

檔案系統

用於處理 S3 和 GCS 上的檔案的函數

s3_bucket()
連接到 AWS S3 bucket
gs_bucket()
連接到 Google Cloud Storage (GCS) bucket
copy_files()
在 FileSystems 之間複製檔案

Flight

load_flight_server()
載入 Python Flight 伺服器
flight_connect()
連接到 Flight 伺服器
flight_disconnect()
顯式關閉 Flight 用戶端
flight_get()
從 Flight 伺服器取得資料
flight_put()
將資料傳送到 Flight 伺服器
list_flights() flight_path_exists()
查看 Flight 伺服器上的可用資源

Arrow 設定

arrow_info() arrow_available() arrow_with_acero() arrow_with_dataset() arrow_with_substrait() arrow_with_parquet() arrow_with_s3() arrow_with_gcs() arrow_with_json()
報告套件功能的相關資訊
cpu_count() set_cpu_count()
管理 libarrow 中的全域 CPU 執行緒池
io_thread_count() set_io_thread_count()
管理 libarrow 中的全域 I/O 執行緒池
install_arrow()
安裝或升級 Arrow 程式庫
install_pyarrow()
安裝 pyarrow 以搭配 reticulate 使用
create_package_with_all_dependencies()
建立包含所有第三方依賴項的原始碼套件

輸入/輸出

InputStream RandomAccessFile MemoryMappedFile ReadableFile BufferReader
InputStream 類別
read_message()
從串流讀取 Message
mmap_open()
開啟記憶體對應檔案
mmap_create()
建立指定大小的新讀寫記憶體對應檔案
OutputStream FileOutputStream BufferOutputStream
OutputStream 類別
Message
Message 類別
MessageReader
MessageReader 類別
compression CompressedOutputStream CompressedInputStream
壓縮串流類別
Codec
壓縮 Codec 類別
codec_is_available()
檢查壓縮編解碼器是否可用

檔案讀取/寫入器介面

ParquetFileReader
ParquetFileReader 類別
ParquetReaderProperties
ParquetReaderProperties 類別
ParquetArrowReaderProperties
ParquetArrowReaderProperties 類別
ParquetFileWriter
ParquetFileWriter 類別
ParquetWriterProperties
ParquetWriterProperties 類別
FeatherReader
FeatherReader 類別
CsvTableReader JsonTableReader
Arrow CSV 和 JSON 表格讀取器類別
CsvReadOptions CsvWriteOptions CsvParseOptions TimestampParser CsvConvertOptions JsonReadOptions JsonParseOptions
檔案讀取器選項
RecordBatchReader RecordBatchStreamReader RecordBatchFileReader
RecordBatchReader 類別
RecordBatchWriter RecordBatchStreamWriter RecordBatchFileWriter
RecordBatchWriter 類別
as_record_batch_reader()
將物件轉換為 Arrow RecordBatchReader

低階 C++ 包裝函式

Arrow C++ 物件的低階 R6 類別表示,適用於進階使用者。

Buffer
Buffer 類別
Scalar
Arrow scalars
Array DictionaryArray StructArray ListArray LargeListArray FixedSizeListArray MapArray
Array 類別
ChunkedArray
ChunkedArray 類別
RecordBatch
RecordBatch 類別
Schema
Schema 類別
Field
Field 類別
Table
Table 類別
DataType
DataType 類別
ArrayData
ArrayData 類別
DictionaryType
DictionaryType 類別
FixedWidthType
FixedWidthType 類別
ExtensionType
ExtensionType 類別
ExtensionArray
ExtensionArray 類別

Dataset 和 Filesystem R6 類別與輔助函數

用於在 Arrow 中處理多檔案資料集的 R6 類別和輔助函數。

Dataset FileSystemDataset UnionDataset InMemoryDataset DatasetFactory FileSystemDatasetFactory
多檔案資料集
dataset_factory()
建立 DatasetFactory
Partitioning DirectoryPartitioning HivePartitioning DirectoryPartitioningFactory HivePartitioningFactory
定義 Dataset 的 Partitioning
Expression
Arrow 表達式
Scanner ScannerBuilder
掃描資料集的內容
FileFormat ParquetFileFormat IpcFileFormat
資料集檔案格式
CsvFileFormat
CSV 資料集檔案格式
JsonFileFormat
JSON 資料集檔案格式
FileWriteOptions
格式特定的寫入選項
FragmentScanOptions CsvFragmentScanOptions ParquetFragmentScanOptions JsonFragmentScanOptions
格式特定的掃描選項
hive_partition()
建構 Hive 分割
map_batches()
將函數應用於 RecordBatches 串流
FileSystem LocalFileSystem S3FileSystem GcsFileSystem SubTreeFileSystem
FileSystem 類別
FileInfo
FileSystem 項目資訊
FileSelector
檔案選擇器