跳到內容

FragmentScanOptions 包含特定於 FileFormat 和掃描操作的選項。

Factory

FragmentScanOptions$create() 接受以下參數

  • format:檔案格式的字串識別符。目前支援的值

    • "parquet"

    • "csv"/"text",相同格式的別名。

  • ...:其他格式特定的選項

    format = "parquet":

    • use_buffered_stream:透過緩衝輸入流讀取檔案,而不是一次載入整個列組。啟用此選項可以減少記憶體開銷。預設為停用。

    • buffer_size:緩衝流的大小(如果已啟用)。預設值為 8KB。

    • pre_buffer:預先緩衝原始 Parquet 資料。這可以提高高延遲檔案系統上的效能。預設為停用。

    • thrift_string_size_limit:為解碼 thrift 字串分配的最大字串大小。為了讀取具有特別大標頭的檔案,可能需要增加此值。預設值為 100000000。

    • thrift_container_size_limit:thrift 容器的最大大小。為了讀取具有特別大標頭的檔案,可能需要增加此值。預設值為 1000000。format = "text":請參閱 CsvConvertOptions。請注意,選項只能使用 Arrow C++ 程式庫命名來指定。此外,也可以給定來自 CsvReadOptions 的 "block_size"。

它會傳回 FragmentScanOptions 的適當子類別(例如 CsvFragmentScanOptions)。