跳到內容

此類別包含控制 ParquetFileWriter 如何讀取 Parquet 檔案的設定。

詳細資訊

參數 compressioncompression_leveluse_dictionary 和 write_statistics` 支援各種模式

  • 預設值 NULL 使參數保持未指定狀態,C++ 函式庫會為每個欄位使用適當的預設值(預設值如上所列)

  • 單個未命名的值(例如,compression 的單個字串)適用於所有欄位

  • 未命名的向量,大小與欄位數量相同,用於依位置順序為每個欄位指定值

  • 命名的向量,用於為命名的欄位指定值,當未提供設定時,會使用該設定的預設值

與高階 write_parquet 不同,ParquetWriterProperties 引數使用 C++ 預設值。目前這表示 compression 引數使用 "uncompressed" 而非 "snappy"。

工廠方法

ParquetWriterProperties$create() 工廠方法實例化物件並接受以下引數

  • table:要寫入的表格(必填)

  • version:Parquet 版本,"1.0" 或 "2.0"。預設 "1.0"

  • compression:壓縮類型,演算法 "uncompressed"

  • compression_level:壓縮等級;意義取決於壓縮演算法

  • use_dictionary:指定是否應使用字典編碼。預設值 TRUE

  • write_statistics:指定是否應寫入統計資訊。預設值 TRUE

  • data_page_size:設定欄位區塊內資料頁面大約編碼大小的目標閾值(以位元組為單位)。預設值 1 MiB。

另請參閱

write_parquet

Schema 以取得關於結構描述和元數據處理的資訊。