FragmentScanOptions
包含特定於 FileFormat
和掃描操作的選項。
Factory
FragmentScanOptions$create()
接受以下參數
format
:檔案格式的字串識別符。目前支援的值"parquet"
"csv"/"text",相同格式的別名。
...
:其他格式特定的選項format = "parquet"
:use_buffered_stream
:透過緩衝輸入流讀取檔案,而不是一次載入整個列組。啟用此選項可以減少記憶體開銷。預設為停用。buffer_size
:緩衝流的大小(如果已啟用)。預設值為 8KB。pre_buffer
:預先緩衝原始 Parquet 資料。這可以提高高延遲檔案系統上的效能。預設為停用。thrift_string_size_limit
:為解碼 thrift 字串分配的最大字串大小。為了讀取具有特別大標頭的檔案,可能需要增加此值。預設值為 100000000。thrift_container_size_limit
:thrift 容器的最大大小。為了讀取具有特別大標頭的檔案,可能需要增加此值。預設值為 1000000。format = "text"
:請參閱 CsvConvertOptions。請注意,選項只能使用 Arrow C++ 程式庫命名來指定。此外,也可以給定來自 CsvReadOptions 的 "block_size"。
它會傳回 FragmentScanOptions
的適當子類別(例如 CsvFragmentScanOptions
)。