Apache Arrow 1.0.0 (2020 年 7 月 24 日)
這是一個主要版本,涵蓋超過 3 個月的開發。
下載
貢獻者
此版本包含來自 100 位不同貢獻者的 771 次提交。
$ git shortlog -sn apache-arrow-0.17.0..apache-arrow-1.0.0
125 Wes McKinney
72 Neal Richardson
61 Antoine Pitrou
56 Sutou Kouhei
55 Krisztián Szűcs
30 Joris Van den Bossche
24 Benjamin Kietzman
23 David Li
21 Kazuaki Ishizaki
19 Qingping Hou
18 Andy Grove
18 François Saint-Jacques
17 Neville Dipale
16 Yibo Cai
16 liyafan82
15 Ryan Murray
14 Micah Kornfield
10 Uwe L. Korn
9 Paddy Horan
8 Jorge C. Leitao
8 Projjal Chanda
7 Frank Du
7 Romain Francois
6 Kenta Murata
6 Maarten A. Breddels
6 Max Burke
5 Mahmut Bulut
4 Mark Hildreth
4 Yuan Zhou
3 Adam Szmigin
3 Raphael Taylor-Davies
3 Zhuo Peng
3 rdettai
2 Bobby Wagner
2 Eric Erhardt
2 Prudhvi Porandla
2 R. Tyler Croy
2 Sagnik Chakraborty
2 Vamsi
2 Yordan Pavlov
2 c-jamie
2 dota17
2 mayuropensource
2 tianchen
2 tianchen92
1 Alex Baden
1 Ben Kimock
1 Bryan Cutler
1 Chad Dougherty
1 Christian Hudon
1 Cuong Nguyen
1 David Anthoff
1 Dmitry Kalinkin
1 Drazen Urch
1 Erin Ryan
1 Eyal Leshem
1 Frank Smith
1 German I Ramirez-Espinoza
1 Hongze Zhang
1 Ilija Puaca
1 Itamar Turner-Trauring
1 Jacek Pliszka
1 Jens Glaser
1 Ji Liu
1 Jörn Horstmann
1 Kyle Brandt
1 Kyle McCarthy
1 Laurent Goujon
1 Li, Jiajia
1 Maarten Breddels
1 Masaki Kozuki
1 Mohamed Zenadi
1 Nick Poorman
1 Pand9
1 Paul Dix
1 Paul Taylor
1 Praveen
1 Robert Borkowski
1 Rok
1 Sergey Fedoseev
1 Shuai Zhang
1 Simon Watts
1 Stéphane Campinas
1 Suvayu Ali
1 Sven Wagner-Boysen
1 TP Boudreau
1 Takuya Kato
1 Tobias Mayer
1 Wakahisa
1 Weston Steimel
1 Yuqi Gu
1 Zachary Gramana
1 Ze'ev Maor
1 alamb
1 alimcmaster1
1 amol
1 chenguoping
1 ritchie46
1 rvernica
1 xuyiming
修補程式提交者
以下 Apache 提交者合併了貢獻的修補程式到儲存庫。
$ git shortlog -csn apache-arrow-0.17.0..apache-arrow-1.0.0
231 Wes McKinney
85 Antoine Pitrou
74 Krisztián Szűcs
68 Neal Richardson
67 Sutou Kouhei
44 François Saint-Jacques
35 Andy Grove
34 Neville Dipale
21 Benjamin Kietzman
17 GitHub
17 Micah Kornfield
12 Chao Sun
12 Paddy Horan
8 David Li
8 Praveen
7 Joris Van den Bossche
5 Bryan Cutler
5 Eric Erhardt
5 Uwe L. Korn
4 Yosuke Shiro
3 Jacques Nadeau
3 Pindikura Ravindra
3 Sebastien Binet
2 liyafan82
1 Kenta Murata
變更日誌
Apache Arrow 1.0.0 (2020-07-24)
錯誤修正
- ARROW-1692 - [Python, Java] UnionArray 來回行程無法運作
- ARROW-3329 - [Python] 將 decimal(38, 4) 轉換為 int64 時發生錯誤
- ARROW-3861 - [Python] ParquetDataset().read columns 參數總是回傳分割區欄位
- ARROW-4018 - [C++] RLE 解碼器可能與大端序不相容
- ARROW-4309 - [文件] 新增一個 docker-compose 條目,以建置啟用 CUDA 的文件
- ARROW-4600 - [Ruby] Arrow::DictionaryArray#[] 應回傳 indices 陣列中的項目
- ARROW-5158 - [封裝][Wheel] 在 wheels 中符號連結程式庫
- ARROW-5310 - [Python] 從空目錄建立 ParquetDataset 時,提供更佳的錯誤訊息
- ARROW-5359 - [Python] 在 pyarrow 中 pa.Table.to_pandas 支援 timestamp_as_object
- ARROW-5572 - [Python] 在 parquet 讀取時傳遞無效的篩選器時,引發錯誤訊息
- ARROW-5666 - [Python] 讀取資料集時,分割區 (字串) 值中的底線會被刪除
- ARROW-5744 - [C++] 對於溢出 2GB 限制的 BinaryArray 類型,Table::CombineChunks 中不要發生錯誤
- ARROW-5875 - [FlightRPC] 在整合測試中測試 RPC 功能
- ARROW-6235 - [R] 未實作從 arrow::BinaryArray 轉換為 R 字元向量
- ARROW-6523 - [C++][Dataset] arrow_dataset 目標不依賴任何項目
- ARROW-6848 - [C++] 建置時指定 -std=c++11 而不是 -std=gnu++11
- ARROW-7018 - [R] Arrow <–> R 轉換中的非 UTF-8 資料
- ARROW-7028 - [R] Date 來回行程導致不同的 R 儲存模式
- ARROW-7084 - [C++] ArrayRangeEquals 應檢查完整的類型相等性嗎?
- ARROW-7173 - [整合] 新增測試以驗證 Map 欄位名稱可以是任意的
- ARROW-7208 - [Python] 將目錄傳遞給 ParquetFile 類別會產生令人困惑的錯誤訊息
- ARROW-7273 - [Python] 允許非可空值 null 欄位/寫入 parquet 時崩潰
- ARROW-7480 - [Rust] [DataFusion] 當聚合 + 分組欄與選取的欄不符時,查詢失敗/不正確
- ARROW-7610 - [Java] 完成對 64 位元整數配置的支援
- ARROW-7654 - [Python] 在 csv.ConvertOptions 中將 column_types 設定為 Schema 的能力未記載
- ARROW-7681 - [Rust] 明確尋找 BufReader 會捨棄內部緩衝區
- ARROW-7702 - [C++][Dataset] 提供批次的(可選)確定性順序
- ARROW-7782 - [Python] 使用 partition_cols 與 write_to_dataset 時遺失索引資訊
- ARROW-7840 - [Java] [整合] Java 可執行檔失敗
- ARROW-7925 - [C++][文件] 關於在 cpp/development.rst 中執行 IWYU 和其他任務的指示已過時
- ARROW-7939 - [Python] 讀取使用 snappy 壓縮的 parquet 檔案時崩潰
- ARROW-7967 - [CI][Crossbow] 在 autobrew 工作中釘選 macOS 版本以符合 CRAN
- ARROW-8050 - [Python][封裝] 不要在 wheel 套件中包含產生的 Cython 原始檔
- ARROW-8078 - [Python] 關於欄位和 schema DataTypes 的文件中缺少連結
- ARROW-8115 - [Python] 混合 NaT 和 datetime 物件時轉換無法運作
- ARROW-8251 - [Python] pandas.ExtensionDtype 無法在 write_to_dataset 的來回行程中倖存
- ARROW-8344 - [C#] StringArray.Builder.Clear() 會損壞後續建置的陣列內容
- ARROW-8360 - [C++][Gandiva] 修正 date/time 函數的 date32 支援
- ARROW-8374 - [R] 當 Arrays 沒有每個陣列相同的 Dictionary 時,Table 到 DictonaryType 向量會發生錯誤
- ARROW-8392 - [Java] 修正向量值比較的溢位相關邊緣案例
- ARROW-8448 - [套件] 無法使用 ubuntu-focal 建置 apt 套件
- ARROW-8455 - [Rust] [Parquet] 在部分相容檔案上讀取 Arrow 欄位
- ARROW-8455 - [Rust] [Parquet] 在部分相容檔案上讀取 Arrow 欄位
- ARROW-8471 - [C++][整合] 回歸到 /u?int64/ 作為 JSON::number
- ARROW-8472 - [Go][整合] 將 64 位元整數表示為 JSON::string
- ARROW-8473 - [Rust] rust/parquet readme 中的 “統計資料支援” 不正確
- ARROW-8480 - [Rust] 沒有配置失敗的檢查
- ARROW-8503 - [封裝][deb] 無法為 RC 建置 apache-arrow-archive-keyring
- ARROW-8505 - [發佈][C#] “sourcelink test” 因 Apache.Arrow.AssemblyInfo.cs 而失敗
- ARROW-8508 - [Rust] FixedSizeListBuilder 的 ListBuilder 建立錯誤的偏移量
- ARROW-8510 - [C++] arrow/dataset/file_base.cc 無法使用 “Visual Studio 15 2017 Win64” 產生器編譯,並出現內部編譯器錯誤
- ARROW-8511 - [開發者][發佈] 如果 C++ 編譯失敗,Windows 發佈驗證腳本不會停止
- ARROW-8514 - [開發者] Windows wheel 驗證腳本未檢查 Python 3.5
- ARROW-8529 - [C++] 修正 GetBatchWithDict[Spaced] 中 NextCounts() 的用法
- ARROW-8535 - [Rust] Arrow crate 未指定 arrow-flight 版本
- ARROW-8536 - [Rust] 無法在任何父目錄中找到 format/Flight.proto
- ARROW-8537 - [C++] 來自 ARROW-8523 的效能回歸
- ARROW-8539 - [CI] “AMD64 MacOS 10.15 GLib & Ruby” 失敗
- ARROW-8554 - [C++][基準測試] 修正建置錯誤 “cannot bind lvalue”
- ARROW-8556 - [R] 如果有多個 zstd 安裝,則找不到 zstd 符號
- ARROW-8566 - [R] 將 POSIXct 寫入 spark 時發生錯誤
- ARROW-8568 - [C++][Python] 在偵錯模式下 decimal 轉換時崩潰
- ARROW-8577 - [Plasma] 在沒有 CUDA 裝置的機器上,CUDA 啟用的建置的 PlasmaClient::Connect() 總是失敗
- ARROW-8583 - [C++][文件] Dataset 命名空間中未記載的參數
- ARROW-8584 - [封裝][C++] deb 建置中的 Protobuf 連結錯誤
- ARROW-8585 - [封裝][Python] Windows wheels 因連結錯誤而無法建置
- ARROW-8586 - [R] 在 CentOS 7 上安裝失敗
- ARROW-8587 - [C++] 連結 arrow-flight-perf-server 時發生編譯錯誤
- ARROW-8592 - [C++] 文件仍然將 LLVM 7 列為使用的編譯器
- ARROW-8593 - [C++] Parquet file_serialize_test.cc 無法使用 musl libc 建置
- ARROW-8598 - [Rust] 當項目計數不是 T::lanes() 的倍數時,simd_compare_op 會建立長度不正確的緩衝區
- ARROW-8602 - [CMake] 修正在 Linux 上交叉編譯時的 ws2_32 連結問題
- ARROW-8603 - [文件] 修正 Sphinx doxygen 註解
- ARROW-8604 - [R][CI] 更新 CI 以使用 R 4.0
- ARROW-8608 - [C++] 更新供應商 mpark/variant.h 到最新版本以修正 NVCC 編譯問題
- ARROW-8609 - [C++] ORC JNI bridge 在 null arrow 緩衝區上崩潰
- ARROW-8610 - [Rust] 當停用 simd 功能時,執行 arrow crate 會發生 DivideByZero
- ARROW-8613 - [C++][Dataset] 為無法剖析的分割區值引發錯誤
- ARROW-8615 - [R] 改善錯誤並堅持在 read_feather 中使用 RandomAccessFile
- ARROW-8617 - [Rust] simd_load_set_invalid 在 aarch64 上不存在
- ARROW-8632 - [C++] 修正 array_union_test.cc 中的轉換錯誤警告
- ARROW-8641 - [Python] feather 中的回歸:不再支援欄位選擇中的排列
- ARROW-8643 - [Python] 由於 freq 斷言,使用 pandas master 的測試失敗
- ARROW-8644 - [Python] 由於變更為不包含分割區欄位,Dask 整合測試失敗
- ARROW-8646 - [Java] 允許 UnionListWriter 寫入 null 值
- ARROW-8649 - [Java] [網站] 網站上的 Java 文件被隱藏
- ARROW-8657 - [Python][C++][Parquet] 使用 version='2.0' 時,從 0.16 到 0.17 的向前相容性問題
- ARROW-8663 - [文件] building.rst 的小修正
- ARROW-8680 - [Rust] ComplexObjectArrayReader 不正確的 null 值洗牌
- ARROW-8684 - [Python] 在 macOS 上使用 pyarrow wheel 時,Python 3.7.7 中出現 “SystemError: Bad call flags in _PyMethodDef_RawFastCallDict”
- ARROW-8689 - [C++] S3 基準測試連結失敗
- ARROW-8693 - [Python] 過濾時 Dataset.get_fragments 遺失隱含轉換
- ARROW-8694 - [Python][Parquet] 從 Pandas DataFrame 載入寬表格時,parquet.read_schema() 失敗
- ARROW-8701 - [Rust] 在 Raspberry Pi 上未解析的匯入 `crate::compute::util::simd_load_set_invalid`
- ARROW-8704 - [C++] 修正 Parquet 在無效輸入上的崩潰 (OSS-Fuzz)
- ARROW-8705 - [Java] ComplexCopier 正在跳過 null 值
- ARROW-8706 - [C++][Parquet] 追蹤 PARQUET-1857 的 JIRA (未加密的 INT16_MAX Parquet 列群組限制)
- ARROW-8710 - [Rust] 在 IPC writer 中未正確寫入延續標記,且未刷新串流
- ARROW-8722 - [Dev] “archery docker run -e” 無法運作
- ARROW-8726 - [C++][Dataset] 錯誤指定的 DirectoryPartitioning 不正確地使用檔案名稱作為值
- ARROW-8728 - [C++] Bitmap 操作可能會導致緩衝區溢位
- ARROW-8729 - [C++][Dataset] 僅選取分割區欄位會導致空表格
- ARROW-8734 - [R] 改善每晚建置安裝
- ARROW-8741 - [Python][封裝] 為 windows wheels 保留 VS2015
- ARROW-8750 - [Python] 如果 lz4 可用,pyarrow.feather.write_feather 不會預設為 lz4 壓縮
- ARROW-8768 - [R][CI] 修正每晚 as-cran 虛假失敗
- ARROW-8775 - [C++][FlightRPC] 整合用戶端未執行整合測試
- ARROW-8776 - [FlightRPC][C++] Flight/C++ 中介軟體未在對 Java 伺服器的失敗呼叫中接收標頭
- ARROW-8798 - [C++] 修正 Parquet 在無效輸入上的崩潰 (OSS-Fuzz)
- ARROW-8799 - [C++][Dataset] 將清單欄位讀取為巢狀字典會導致區段錯誤
- ARROW-8801 - [Python] 使用 pandas 從具有 UTC 時間戳記的 parquet 檔案讀取時發生記憶體洩漏
- ARROW-8802 - [C++][Dataset] 讀取欄位的子集時,Schema metadata 會遺失
- ARROW-8803 - [Java] 應在 VectorLoader 中載入緩衝區之前設定列計數
- ARROW-8808 - [Rust] arrays/builder.rs 中的除以零錯誤
- ARROW-8809 - [Rust] 整合測試中的 schema 不符
- ARROW-8811 - [Java] 修正 master 上的建置
- ARROW-8820 - [C++][Gandiva] 修正 date_trunc 函數以回傳日期類型
- ARROW-8821 - [Rust] 具有 Like、NotLike 和 Not 運算子的巢狀二元運算式會導致類型轉換錯誤
- ARROW-8825 - [C++] 無法使用 Wunused-parameter 旗標編譯通過
- ARROW-8826 - [Crossbow] 遠端 URL 應始終具有 .git
- ARROW-8832 - [Python] AttributeError: module ‘pyarrow.fs’ has no attribute ‘S3FileSystem’
- ARROW-8848 - [CI][C/Glib] MinGW 建置錯誤
- ARROW-8848 - [CI][C/Glib] MinGW 建置錯誤
- ARROW-8858 - [FlightRPC] 確保標頭統一公開
- ARROW-8860 - [C++] 巢狀陣列的 IPC/Feather 解壓縮已損壞
- ARROW-8862 - [C++] NumericBuilder 未使用傳遞給 CTOR 的 MemoryPool
- ARROW-8863 - [C++] 當沒有有效性點陣圖時,Array 子類別建構函式必須將 ArrayData::null_count 設定為 0
- ARROW-8869 - [Rust] [DataFusion] 類型強制轉換最佳化器規則不支援新的掃描節點
- ARROW-8871 - [C++] Gandiva 建置失敗
- ARROW-8872 - [CI] Travis-CI 工作失敗 (無法開啟檔案 ‘ci/detect-changes.py’)
- ARROW-8874 - [C++][Dataset] 當 ScanTask 因錯誤提早結束時,Scanner::ToTable 競爭
- ARROW-8878 - [R] 當 download.file.method 不是預設值時,try_download 會感到困惑
- ARROW-8882 - [C#] 將 .editorconfig 新增至 C# 程式碼
- ARROW-8888 - [Python] dataframe_to_arrays 中決定多執行緒轉換的啟發式方法導致轉換速度緩慢
- ARROW-8889 - [Python] 將 RecordBatch 與 None 比較時,Python 3.7 SIGSEGV
- ARROW-8892 - [C++][CI] MSVC 的 CI 建置未建置基準測試
- ARROW-8909 - [Java] 使用 setSafe 進行亂序寫入
- ARROW-8911 - [C++] 切割具有零區塊的 ChunkedArray 會導致區段錯誤
- ARROW-8924 - [C++][Gandiva] castDATE_date32() 可能會導致溢位
- ARROW-8925 - [Rust] [DataFusion] CsvExec::schema() 回傳不正確的結果
- ARROW-8930 - [C++] libz.so 與 liborc.a 的連結錯誤
- ARROW-8932 - [C++] liborc.a 的符號解析失敗
- ARROW-8946 - [Python] 為 parquet.write_metadata metadata_collector 新增測試
- ARROW-8948 - [Java][整合] 啟用重複欄位名稱整合測試
- ARROW-8951 - [C++] 修正 compute/kernels/scalar_cast_temporal.cc 中的編譯器警告
- ARROW-8954 - [網站] ca-certificates 應列在安裝指示中
- ARROW-8957 - [FlightRPC][C++] 因 IpcOptions 而建置失敗
- ARROW-8959 - [Rust] 由於新的基準測試 crate 使用舊的 API,建置已損壞
- ARROW-8962 - [C++] 使用 clang-4.0 連結失敗
- ARROW-8968 - [C++][Gandiva] 在 s390x 上顯示連結警告訊息
- ARROW-8975 - [FlightRPC][C++] 修正不穩定的 MacOS 測試
- ARROW-8977 - [R] 使用 schema 建立 Table$create 會在某些字典索引類型上崩潰
- ARROW-8978 - [C++][Compute] “條件跳躍或移動取決於未初始化的值” Valgrind 警告
- ARROW-8980 - [Python] 當使用來自磁碟的 schema 時,Metadata 會呈指數成長
- ARROW-8982 - [CI] 移除 TravisCI 中 s390x 的 allow_failures
- ARROW-8986 - [Archery][ursabot] 修正 origin/master 的基準測試差異簽出
- ARROW-9000 - [Java] 使用 JDK14 建置崩潰
- ARROW-9009 - [C++][Dataset] 從 Parquet 檔案讀取時,應從 schema 的 metadata 中移除 ARROW:schema
- ARROW-9013 - [C++] 驗證列舉樣式的 CMake 選項
- ARROW-9020 - [Python] read_json 不會遵守 parse_options 中的 explicit_schema
- ARROW-9024 - [C++/Python] 在 conda-clean 工作中安裝 anaconda-client
- ARROW-9026 - [C++/Python] 強制從 arrow-nightlies conda 儲存庫中移除套件
- ARROW-9037 - [C++][C] 無法匯入 null count == -1 的陣列 (可能已匯出)
- ARROW-9057 - [Rust] Projection 應在 InMemoryScan 上運作而不會發生錯誤
- ARROW-9059 - [Rust] 切割陣列資料的文件具有錯誤的符號
- ARROW-9066 - [Python] 在 isnull() 中引發正確的錯誤
- ARROW-9071 - [C++] MakeArrayOfNull 建立無效的 ListArray
- ARROW-9077 - [C++] 修正 aggregate/scalar-compare 基準測試 null_percent 計算
- ARROW-9080 - [C++] arrow::AllocateBuffer 回傳 Result<unique_ptr<Buffer>>
- ARROW-9082 - [Rust] - 當串流未以(可選)0xFFFFFFFF 0x00000000 結尾時,串流讀取器失敗”
- ARROW-9084 - [C++] 當 ZSTD_SOURCE=SYSTEM 時,CMake 無法找到 zstd 目標
- ARROW-9085 - [C++][CI] Appveyor CI 測試失敗
- ARROW-9087 - [C++] 遺失 HDFS 選項剖析
- ARROW-9098 - RecordBatch::ToStructArray 無法處理具有 0 欄的 record batch
- ARROW-9105 - [C++] ParquetFileFragment 掃描不處理分割區欄位上的篩選器
- ARROW-9120 - [C++] 使用檔案名稱中包含 “codegen” 的 Lint 和 Format C++ 檔案
- ARROW-9121 - [C++] 當路徑為空時,不要清除檔案系統
- ARROW-9122 - [C++] 適應 ascii_lower/ascii_upper 大量轉換以在切割陣列上運作
- ARROW-9126 - [C++] Trimmed Boost bundle 無法在 Windows 上建置
- ARROW-9127 - [Rust] 更新 thrift 程式庫相依性
- ARROW-9134 - [Python] Parquet 分割區將 Int32 降級為 float64
- ARROW-9141 - [R] 更新跨套件文件連結
- ARROW-9142 - [C++] random::RandomArrayGenerator::Boolean “probability” 文件錯誤/不正確
- ARROW-9143 - [C++] RecordBatch::Slice 錯誤地將非可空值欄位的內部 null_count 設定為未知
- ARROW-9146 - [C++][Dataset] 掃描具有篩選器 + 不符 schema 的 Fragment 不應中止
- ARROW-9151 - [R][CI] 修正 Rtools 4.0 建置:pacman sync
- ARROW-9160 - [C++] 實作字串/二進位包含以進行精確比對
- ARROW-9174 - [Go] 測試在 386 (x86) 建置中 panic
- ARROW-9183 - [C++] 無法使用 gcc 4.9.2 建置 arrow-cpp
- ARROW-9184 - [Rust][Datafusion] 沒有 projection 的表格掃描應回傳所有欄位
- ARROW-9194 - [C++] 未針對 decimal 類型實作 Array::GetScalar
- ARROW-9195 - [Java] ByteFunctionsHelper 類別中來自 bytearray 的 Unsafe.get 錯誤用法
- ARROW-9209 - [C++] 基準測試無法建置 ARROW_IPC=OFF 和 ARROW_BUILD_TESTS=OFF
- ARROW-9219 - [R] Parquet 寫入選項中的 coerce_timestamps 無法運作
- ARROW-9221 - ArrowBuf#setBytes(int, ByteBuffer) 未檢查位元組緩衝區的位元組順序
- ARROW-9223 - [Python] 修正 structs 中時間戳記的 to_pandas() 匯出
- ARROW-9230 - [FlightRPC][Python] flight.connect() 未傳遞所有參數
- ARROW-9233 - [C++] NullArray 上的 is_null 應對所有值都為 true
- ARROW-9236 - [Rust] CSV WriterBuilder 永遠不會寫入標頭
- ARROW-9237 - [R] 在 Arch Linux 上安裝 0.17
- ARROW-9238 - [C++][CI] ipc 和 flight 中循環配置的幾個測試覆蓋率
- ARROW-9252 - [整合] GitHub Actions 整合測試工作未針對 apache/arrow-testing 中的 “gold” 0.14.1 檔案進行測試
- ARROW-9260 - [CI] “ARM64v8 Ubuntu 20.04 C++” 失敗
- ARROW-9260 - [CI] “ARM64v8 Ubuntu 20.04 C++” 失敗
- ARROW-9261 - [Python][封裝] manylinux wheels 中的 S3FileSystem curl 錯誤
- ARROW-9274 - [Rust] [整合測試] 從 json 檔案中讀取 i64 作為字串
- ARROW-9282 - [R] 移除 _EXTPTR_PTR 的用法
- ARROW-9284 - [Java] getMinorTypeForArrowType 為密集 union 類型回傳稀疏 minor 類型
- ARROW-9288 - [C++][Dataset] 使用 HivePartitioning 時,將分割區欄位探索為字典類型會導致區段錯誤
- ARROW-9297 - [C++][Dataset] Dataset scanner 無法處理大型二進位欄位 (> 2 GB)
- ARROW-9298 - [C++] 修正無效輸入上的崩潰 (OSS-Fuzz)
- ARROW-9303 - [R] Linux 靜態建置應始終捆綁相依性
- ARROW-9305 - [Python] Windows wheel 建置中的相依性載入失敗
- ARROW-9315 - [Java] 修正 testAllocationManagerType 的失敗
- ARROW-9317 - [Java] arrow-memory 的一些測試案例
- ARROW-9326 - [Python] Setuptools 49.1.0 似乎會破壞我們的 Python 3.6 建置
- ARROW-9326 - [Python] Setuptools 49.1.0 似乎會破壞我們的 Python 3.6 建置
- ARROW-9326 - [Python] Setuptools 49.1.0 似乎會破壞我們的 Python 3.6 建置
- ARROW-9330 - [C++] 修正損壞的 IPC 輸入上的崩潰 (OSS-Fuzz)
- ARROW-9334 - [Dev][Archery] 推送祖先 docker 映像檔
- ARROW-9336 - [Ruby] 使用缺少金鑰的 structs 建立 RecordBatch 會導致格式錯誤的表格
- ARROW-9343 - [C++][Gandiva] 來自字串的 CastINT/Float 函數應處理前導/尾隨空白字元
- ARROW-9347 - [Python] 測試在最新的 fsspec 中失敗
- ARROW-9350 - [C++][CI] 每晚 valgrind 工作失敗
- ARROW-9351 - [C++][CI] 每晚 test-ubuntu-18.04-cpp-cmake32 失敗
- ARROW-9353 - [Python][CI] 每晚 dask 整合工作失敗
- ARROW-9354 - [C++] Turbodbc latest 無法在整合測試中建置
- ARROW-9355 - [R] 修正 -Wimplicit-int-float-conversion
- ARROW-9360 - [CI][Crossbow] 每晚 homebrew-cpp 工作逾時
- ARROW-9363 - [C++][Dataset] ParquetDatasetFactory 結構描述:pandas metadata 遺失
- ARROW-9368 - [Python] 在 split_by_row_group() 中將 predicate 引數重新命名為 filter
- ARROW-9373 - [C++] 修復 Parquet 在無效輸入時崩潰 (OSS-Fuzz)
- ARROW-9380 - [C++] compute::CallFunction 中的 Segfaults
- ARROW-9384 - [C++] 無效 IPC 輸入時記憶體不足 (OSS-Fuzz)
- ARROW-9385 - [Python] [CI] jpype 整合失敗
- ARROW-9389 - [C++] 無法透過 CallFunction 呼叫 isin/match
- ARROW-9397 - [R] 在 Linux 建置中建置 libarrow 時將 CC/CXX 傳遞給 cmake
- ARROW-9408 - [Integration] 由於 numpy 64 位元錯誤,測試未在 Windows 中執行
- ARROW-9409 - [CI][Crossbow] Nightly conda-r 失敗
- ARROW-9410 - [CI][Crossbow] 再次修復 homebrew-cpp
- ARROW-9413 - [Rust] 修復 master 上的 clippy lint
- ARROW-9415 - [C++] Arrow 無法在 Power9 上編譯
- ARROW-9416 - [Go] 為某些資料類型新增測試案例
- ARROW-9417 - [C++][IPC] 以原生位元組序寫入訊息中的大小
- ARROW-9418 - [R] nyc-taxi Parquet 檔案未在 Windows 上以二進制模式下載
- ARROW-9419 - [C++] 測試 “fill_null” 函數是否適用於切片輸入,擴展測試
- ARROW-9428 - [C++] 更新緩衝區分配函數的文件
- ARROW-9436 - [C++][CI] fill_null 核心測試中的 Valgrind 錯誤
- ARROW-9438 - [CI] Spark 整合測試失敗
- ARROW-9439 - [C++] 修復無效 IPC 輸入時崩潰 (OSS-Fuzz)
- ARROW-9440 - [Python] 在 PyArrow 中公開 Fill Null Compute Kernel
- ARROW-9443 - [C++] 捆綁的 bz2 建置應僅建置 libbz2
- ARROW-9448 - [Java] ArrowBuf 和 BaseAllocator 之間的循環初始化導致空緩衝區的 HistoricalLog 為 null
- ARROW-9449 - [R] Strip arrow.so
- ARROW-9450 - [Python] “pytest pyarrow” 花費超過 10 秒來收集測試並開始執行
- ARROW-9456 - [Python] 未匯入 pyarrow.parquet 時 Dataset 發生 segfault
- ARROW-9458 - [Python] Dataset Scanner 僅為單執行緒
- ARROW-9460 - [C++] BinaryContainsExact 無法處理模式中的雙字元
- ARROW-9461 - [Rust] 讀取 Date32 和 Date64 錯誤 - 它們被錯誤地轉換為 RecordBatch
- ARROW-9476 - [C++][Dataset] 具有字典類型的 HivePartitioning 探索對於多個欄位失敗
- ARROW-9486 - [C++][Dataset] 支援隱式轉換 InExpression::set_ 為 dict
- ARROW-9497 - [C++][Parquet] 修復由格式錯誤的重複/定義級別引起的故障
- ARROW-9499 - [C++] AdaptiveIntBuilder::AppendNull 未遞增 null 計數
- ARROW-9500 - [C++] 修復 gcc 7.5.0 上 -O3 建置中 std::to_string 的 segfault
- ARROW-9501 - [C++][Gandiva] 當結束日期為某個月的最後一天時,在 timestampdiff() 中新增邏輯
- ARROW-9503 - [Rust] 比較切片陣列錯誤
- ARROW-9504 - [Python] ChunkedArray.take 上的 Segmentation fault
- ARROW-9506 - [Packaging][Python] 修復 macOS wheel 建置失敗
- ARROW-9512 - [C++] lambda 內部的 Variadic template unpack 無法使用 gcc 編譯
- ARROW-9524 - [CI][Gandiva] C++ 單元測試 arrow-ipc-read-write 在 gandiva nightly 建置中失敗
- ARROW-9527 - [Rust] 移除不需要的 dev-dependencies
- PARQUET-1839 - [C++] values_read 未在 ReadBatchSpaced 中更新
- PARQUET-1857 - [C++][Parquet] ParquetFileReader 無法讀取超過 32767 個 row group 的檔案
- PARQUET-1865 - [C++] parquet/encoding_benchmark.cc 中使用的 C++17 功能發生故障
- PARQUET-1877 - [C++] 協調容器大小與字串大小以解決記憶體問題
- PARQUET-1882 - [C++] 寫入全 null 欄位,然後使用 buffered_stream 讀取它會中止程序
新功能與改進
- ARROW-300 - [Format] 將 body buffer 壓縮選項新增至使用 LZ4 或 ZSTD 的 IPC 訊息協定
- ARROW-842 - [Python] 處理來自 pandas 0.x 的更多種類的 null sentinel 物件
- ARROW-971 - [C++/Python] 將 Array.isvalid/notnull/isnull 實作為純量函數
- ARROW-974 - [Website] 將「使用案例」章節新增至網站
- ARROW-1277 - 完成主要已實作資料類型的整合測試
- ARROW-1567 - [C++] 實作 “fill null” 核心,將 null 值替換為某些純量替換值
- ARROW-1570 - [C++] 定義 API,用於從具有特定簽章的純量輸入和輸出的函數建立核心實例
- ARROW-1682 - [Python] 新增文件/範例,說明如何在 S3 上讀取 Parquet 檔案目錄
- ARROW-1796 - [Python] 檔案層級的 RowGroup 篩選
- ARROW-2260 - [C++][Plasma] plasma_store 應顯示使用量
- ARROW-2444 - [Python][C++] 更好處理讀取空的 parquet 檔案
- ARROW-2702 - [Python] 檢查 numpy_to_arrow.cc 中 Invalid 和 TypeError 錯誤的使用情況,以查看我們在每個實例中是否使用了正確的錯誤類型
- ARROW-2714 - [C++/Python] 陣列的可變步長切片
- ARROW-2912 - [Website] 建置更詳細的社群登陸頁面,類似 Apache Spark
- ARROW-3089 - [Rust] 為不同的 Arrow 陣列新增 ArrayBuilder
- ARROW-3134 - [C++] 為可能具有不同分塊佈局的區塊陣列集合實作 n 元迭代器
- ARROW-3154 - [Python][C++] 記錄如何使用 Parquet 資料集寫入 _metadata、_common_metadata 檔案
- ARROW-3244 - [Python] 無掃描的多檔案 parquet 載入
- ARROW-3275 - [Python] 新增有關檢查 Parquet 檔案 metadata 的文件
- ARROW-3308 - [R] 將資料超過 2GB 的 R 字元向量轉換為 Large 類型
- ARROW-3317 - [R] 測試/支援從 data.frame 進行轉換,其中單一字元欄位超過 BinaryArray 的 2GB 容量
- ARROW-3446 - [R] 記錄 Arrow <-> R 類型的對應
- ARROW-3509 - [C++] 不一致的子項存取器命名
- ARROW-3520 - [C++] 實作 List Flatten 核心
- ARROW-3688 - [Rust] 實作 PrimitiveArrayBuilder<T>.push_values
- ARROW-3827 - [Rust] 實作 UnionArray
- ARROW-4022 - [C++] 從 compute 命名空間提升 Datum variant
- ARROW-4221 - [Format] 在 COO sparse index 中新增 canonical flag
- ARROW-4390 - [R] 在 Feather 檔案、IPC 訊息中序列化 “labeled” metadata
- ARROW-4412 - [DOCUMENTATION] 在 arrow 規範文件中新增明確的版本號碼。
- ARROW-4427 - [Doc] 將 Confluence Wiki 頁面移至 Sphinx 文件
- ARROW-4429 - [Doc] 將 git rebase 提示新增至開發人員文件中的 ‘Contributing’ 頁面
- ARROW-5035 - [C#] ArrowBuffer.Builder<bool> 損壞
- ARROW-5082 - [Python][Packaging] 縮減 macOS 和 manylinux1 wheel 的大小
- ARROW-5143 - [Flight] 啟用具有字典的批次的整合測試
- ARROW-5279 - [C++] 支援在 IPC 串流中讀取 delta 字典
- ARROW-5377 - [C++] 將 IpcPayload 公開並新增 GetPayloadSize
- ARROW-5489 - [C++] 正規化核心和 ChunkedArray 行為
- ARROW-5548 - [Documentation] https://arrow.dev.org.tw/docs/latest/ 不是最新的
- ARROW-5649 - [Integration][C++] 為擴充類型建立往返整合測試
- ARROW-5708 - [C#] BooleanArray 的 Null 支援
- ARROW-5760 - [C++] 最佳化 Take 實作
- ARROW-5854 - [Python] 在 Array 類別上公開 compare 核心
- ARROW-6052 - [C++] 將 arrow/array.h,cc 分成 arrow/array/ 中的檔案,類似於 builder 檔案
- ARROW-6110 - [Java] 支援 LargeList Type 並新增與 C++ 的整合測試
- ARROW-6111 - [Java] 支援 LargeVarChar 和 LargeBinary 類型,並新增與 C++ 的整合測試
- ARROW-6439 - [R] 在 R 中實作 S3 檔案系統介面
- ARROW-6456 - [C++] 是否有可能減少在 compute/kernels/take.cc 中產生的物件程式碼?
- ARROW-6501 - [C++] 從 SparseIndex 移除 non_zero_length 欄位
- ARROW-6521 - [C++] 將傳回目前 ABI 版本的函數新增至 arrow:: 命名空間
- ARROW-6543 - [R] 支援 LargeBinary 和 LargeString 類型
- ARROW-6602 - [Doc] 新增功能/實作矩陣
- ARROW-6603 - [C#] ArrayBuilder API 以支援寫入 null 值
- ARROW-6645 - [Python] 在轉換為 Categorical 時,更快地進行字典索引的邊界檢查
- ARROW-6689 - [Rust] [DataFusion] 1.0.0 版本的查詢執行增強功能
- ARROW-6691 - [Rust] [DataFusion] 使用 tokio 和 Futures 而不是產生執行緒
- ARROW-6775 - [C++] [Python] 數個 Array 实用函数的提案
- ARROW-6776 - [Python] 需要 pyarrow 的輕量版本
- ARROW-6800 - [C++] 新增 CMake 選項以建置以 C++14 或 C++17 工具鏈環境為目標的程式庫
- ARROW-6839 - [Java] 新增 API 以讀取和寫入 IPC 檔案頁尾的 “custom_metadata” 欄位
- ARROW-6856 - [C++] 將 ArrayData 用於 ArrayData::dictionary,而不是 Array
- ARROW-6917 - ARROW-6917: [Archery][Release] 為維護版本新增對 JIRA curation、changelog 產生和 commit cherry-picking 的支援
- ARROW-6945 - [Rust] 啟用整合測試
- ARROW-6959 - [C++] 釐清計算核心的首選簽章是什麼
- ARROW-6978 - [R] 為 sum 和 mean 計算核心新增綁定
- ARROW-6979 - [R] 在 autobrew 公式中啟用 jemalloc
- ARROW-6982 - [R] 為 compare 和 boolean 核心新增綁定
- ARROW-7009 - [C++] 重構 filter/take 核心以使用 Datum 而不是多載
- ARROW-7010 - [C++] 支援從 decimal128 到 float32 和 float64/double 的有損轉換
- ARROW-7011 - [C++] 實作從 float/double 到 decimal128 的轉換
- ARROW-7012 - [C++] 釐清 ChunkedArray 分塊策略和原則
- ARROW-7068 - [C++] 公開 ListArray 的偏移量作為 Int32Array
- ARROW-7075 - [C++] Boolean 核心不應在 Call() 中分配
- ARROW-7175 - [Website] 新增安全性頁面以追蹤何時修補漏洞
- ARROW-7229 - [C++] 統一 ConcatenateTables API
- ARROW-7230 - [C++] 在 Gandiva 中使用 vendored std::optional 而不是 boost::optional
- ARROW-7237 - [C++] 將 Result<T> 新增至 arrow/json 的 API
- ARROW-7243 - [Docs] 將常見的 “實作狀態” 表格新增至每個原生語言實作的 README,以及頂層 README
- ARROW-7285 - [C++] 確保 C++ 實作符合已釐清的字典規範
- ARROW-7300 - [C++][Gandiva] 實作從字串轉換為整數/浮點數的函數
- ARROW-7313 - [C++] 新增從陣列槽擷取純量的函數
- ARROW-7371 - [GLib] 新增 Datasets 綁定
- ARROW-7375 - [Python] 公開 C++ MakeArrayOfNull
- ARROW-7391 - [Python] 從綁定層移除不必要的類別
- ARROW-7495 - [Java] 從 ArrowBuf 移除 “empty” 概念,替換為自訂 referencemanager
- ARROW-7605 - [C++] 建立並安裝包含 Arrow 建置的所有相依性的靜態程式庫
- ARROW-7607 - [C++] 新增至 cpp/examples,使用 Arrow 作為另一個 CMake 專案的相依性的最小範例
- ARROW-7673 - [C++][Dataset] 重新檢視檔案探索失敗模式
- ARROW-7676 - [Packaging][Python] 確保靜態程式庫未在 wheel 腳本中建置
- ARROW-7699 - [Java] 支援在批次中串連密集 union 向量
- ARROW-7705 - [Rust] 初始排序實作
- ARROW-7717 - [CI] 針對 Spark 的最新版本進行 nightly 整合測試
- ARROW-7759 - [C++][Dataset] 為 CSV 支援新增 CsvFileFormat
- ARROW-7778 - [C++] 支援 JSON 整合格式中的巢狀字典
- ARROW-7784 - [C++] diff.cc 編譯速度極慢
- ARROW-7801 - [Developer] 新增 issue_comment 工作流程以修復 lint/style/codegen
- ARROW-7803 - [R][CI] Autobrew/homebrew 測試不應始終從 master 安裝
- ARROW-7831 - [Java] 在 variable width vectors 上呼叫 splitAndTransferTo 時,不必要的緩衝區分配
- ARROW-7831 - [Java] 在 variable width vectors 上呼叫 splitAndTransferTo 時,不必要的緩衝區分配
- ARROW-7902 - [Integration] 取消略過巢狀字典整合測試
- ARROW-7910 - [C++] 提供函數以可移植方式查詢頁面大小
- ARROW-7924 - [Rust] 為 float 類型新增排序
- ARROW-7950 - [Python] 在初始化 pandas API shim 時,告知使用者他們安裝的 pandas 版本是否過舊
- ARROW-7955 - [Java] 支援 file/stream IPC 的大型緩衝區
- ARROW-8020 - [Java] 實作向量驗證功能
- ARROW-8023 - [Website] 撰寫一篇關於 C 資料介面的部落格文章
- ARROW-8025 - [C++] 實作轉換為 Binary 和 FixedSizeBinary
- ARROW-8025 - [C++] 實作轉換為 Binary 和 FixedSizeBinary
- ARROW-8046 - [Developer][Integration] Makefile.docker 的目標名稱損壞
- ARROW-8062 - [C++][Dataset] 來自 _metadata/_common_metadata 檔案的 Parquet Dataset factory
- ARROW-8065 - [C++][Dataset] 解開 Dataset、Fragment 和 ScanOptions
- ARROW-8074 - [C++][Dataset] FileSystemDataset 中是否支援類檔案物件 (緩衝區)?
- ARROW-8108 - [Java] 擷取字典編碼器的通用介面
- ARROW-8111 - [C++][CSV] 支援 MM/DD/YYYY 日期格式
- ARROW-8114 - [Java][Integration] 啟用 custom_metadata 整合測試
- ARROW-8121 - [Java] 增強 Java 程式碼的程式碼樣式檢查 (在逗號、分號和類型轉換後新增空格)
- ARROW-8149 - [C++/Python] 在 conda recipes 中啟用 CUDA 支援
- ARROW-8157 - [C++][Gandiva] 支援使用 LLVM 9 建置
- ARROW-8162 - [Format][Python] 為 CSF sparse tensors 新增序列化
- ARROW-8169 - [Java] 透過主動分配記憶體來改善 JDBC adapter 的效能
- ARROW-8171 - 考慮在 Avro adapter 迭代器中預先分配 fix-width vector 的記憶體
- ARROW-8190 - [C++][Flight] 允許在 Flight IPC 訊息讀取器和寫入器類別中設定 IpcWriteOptions 和 IpcReadOptions
- ARROW-8229 - [Java] 將 ArrowBuf 移至 Arrow 套件中
- ARROW-8230 - [Java] 將 Netty 記憶體管理器移至個別模組
- ARROW-8261 - [Rust] [DataFusion] LogicalPlanBuilder.limit() 應採用文字引數
- ARROW-8263 - [Rust] [DataFusion] 為支援的 SQL 函數新增文件
- ARROW-8281 - [R] Windows conda 上 arrow.dll 的名稱衝突
- ARROW-8283 - [Python][Dataset] 不存在的檔案在 pa.dataset.FileSystemDataset 中被靜默丟棄
- ARROW-8287 - [Rust] Arrow 範例應使用公用程式列印結果
- ARROW-8293 - [Python] 也對 python/examples 執行 flake8
- ARROW-8297 - [FlightRPC][C++] 為 C++ 實作 Flight DoExchange
- ARROW-8301 - [R] 在 C 資料介面中處理 ChunkedArray 和 Table
- ARROW-8312 - [Java][Gandiva] 改善 IN 運算式支援
- ARROW-8314 - [Python] 提供一種方法來選取 Table 的欄位子集
- ARROW-8318 - [C++][Dataset] Dataset 應實例化 Fragment
- ARROW-8399 - [Rust] 擴展記憶體對齊以包含其他架構
- ARROW-8413 - [C++] 重構 DefLevelsToBitmap
- ARROW-8422 - [Rust] [Parquet] 實作將 Arrow 結構描述轉換為 Parquet 結構描述的函數
- ARROW-8430 - [CI] 為 Github Actions 設定自我託管執行器
- ARROW-8434 - [C++] Ipc RecordBatchFileReader 多次還原序列化 Schema
- ARROW-8440 - [C++] 優化 simd 標頭檔
- ARROW-8443 - [Gandiva][C++] 修復 round/truncate 在特殊情況下無效的問題
- ARROW-8447 - [C++][Dataset] 確保 Scanner::ToTable 保留 ScanTasks 的順序
- ARROW-8467 - [C++] 使用 ArrayFromJSON 的測試案例僅假設為小端平台
- ARROW-8474 - [CI][Crossbow] 略過一些我們不需要執行的 nightly
- ARROW-8477 - [C++] 啟用 Windows 的長檔名讀寫
- ARROW-8481 - [Java] 提供基於 Unsafe API 的分配管理器
- ARROW-8483 - [Ruby] Arrow::Table 文件改進
- ARROW-8485 - [Integration][Java] 實作擴充類型整合
- ARROW-8486 - [C++] arrow-utility-test 在大端平台上導致失敗
- ARROW-8487 - [FlightRPC][C++] 使針對特定 payload 大小成為可能
- ARROW-8488 - [R] 將 VALUE_OR_STOP 替換為 ValueOrStop
- ARROW-8496 - [C++] 優化 ByteStreamSplitDecodeScalar
- ARROW-8497 - [Archery] 將遺失的元件新增至建置
- ARROW-8499 - [C++][Dataset] 在 ScannerBuilder 中,如果 projecter 不為空,batch_size 將無法運作
- ARROW-8500 - [C++] 在 Record Batch 和 Table 的 Filter 實作中使用選取向量
- ARROW-8501 - [Packaging][RPM] 在 CentOS 6 上將 devtoolset 升級到 8
- ARROW-8502 - [Release][APT][Yum] 忽略所有 arm64 驗證
- ARROW-8504 - [C++] 新增 Run Length Reader
- ARROW-8506 - [c++] 缺少測試來驗證 RLE 中 bit_width > 8 的 expected_buffer
- ARROW-8507 - [Release] 在 changelog.py 中自動偵測 .git 目錄
- ARROW-8509 - [GLib] 新增低階 record batch 讀/寫函數
- ARROW-8512 - [C++] 刪除未使用的 compute expr prototype 程式碼
- ARROW-8513 - [Python] 在 Python 中公開具有 Table 輸入的 Take
- ARROW-8515 - [C++] Bitmap ToString 應具有依位元組分組的選項
- ARROW-8516 - [Rust] Slow BufferBuilder<BooleanType> 在 PrimitiveBuilder::append_slice 內插入速度緩慢
- ARROW-8517 - [Developer][Release] 更新 Crossbow RC 驗證設定,以適應自 0.16.0 以來的變更
- ARROW-8520 - [Developer] 使用 .asf.yaml 將 GitHub 通知導向電子郵件列表和 JIRA
- ARROW-8521 - [Developer] 在 Changelog 中將 Sub-task、Task、Test 和 Wish issue 類型分組為 “Improvement”
- ARROW-8522 - [Developer] 新增環境變數選項以切換是否在發佈驗證腳本中安裝 ephemeral NodeJS
- ARROW-8524 - [CI] 釋放 github actions 上的空間
- ARROW-8526 - [Python] 修復資料集測試中非決定性的列順序失敗
- ARROW-8531 - [C++] 棄用 ARROW_USE_SIMD CMake 選項
- ARROW-8538 - [Packaging] 從 homebrew 公式中移除 boost
- ARROW-8540 - [C++] 建立記憶體分配基準測試
- ARROW-8541 - [Release] 請勿自動移除先前的原始碼版本
- ARROW-8542 - [Release] 修復網站發佈後腳本中的 checksum url
- ARROW-8543 - [C++] IO:單次合併演算法
- ARROW-8544 - [CI][Crossbow] 將 status.json 新增至 nightly 建置的 gh-pages 摘要,以繞過速率限制
- ARROW-8548 - [Website] 0.17 發佈文章
- ARROW-8549 - [R] 各種 0.17 發佈後清理
- ARROW-8550 - [CI] 請勿在 forks 上執行 cron GHA 工作
- ARROW-8551 - [CI][Gandiva] 使用 LLVM 8 建置 gandiva linux jar
- ARROW-8552 - [Rust] 支援 parquet 列的欄位迭代
- ARROW-8553 - [C++] 最佳化未對齊的 bitmap 運算
- ARROW-8555 - [FlightRPC][Java] 為 Java 實作 Flight DoExchange
- ARROW-8558 - [Rust] GitHub Actions 缺少 rustfmt
- ARROW-8559 - [Rust] 在主要 arrow crate 中合併 Record Batch reader traits
- ARROW-8560 - [Rust] MutableBuffer resize 的文件不正確
- ARROW-8561 - [C++][Gandiva] 停止使用已棄用的 google::protobuf::MessageLite::ByteSize()
- ARROW-8562 - [C++] IO:使用 S3 儲存指標參數化 I/O 合併
- ARROW-8563 - [Go] 讓 newBuilder 公開的小變更
- ARROW-8564 - [Website] 將 Ubuntu 20.04 LTS 新增至支援的套件清單
- ARROW-8569 - [CI] 升級 xcode 版本以測試 homebrew 公式
- ARROW-8571 - [C++] 將 AppVeyor 映像切換為 VS 2017
- ARROW-8572 - [Python] 公開 UnionArray.array 和其他欄位
- ARROW-8573 - [Rust] 升級至 Rust 1.44 nightly
- ARROW-8574 - [Rust] 為所有 plain 類型實作 Debug
- ARROW-8575 - [Developer] 新增 issue_comment 工作流程以 rebase PR
- ARROW-8590 - [Rust] 在 DataFusion 中使用 Arrow pretty print 公用程式
- ARROW-8591 - [Rust] 字典陣列中 key 的反向查閱
- ARROW-8597 - [Rust] arrow crate lint 和可讀性改進
- ARROW-8606 - [CI] 請勿在變更 ci/ 中的任何檔案時觸發所有建置
- ARROW-8607 - [R][CI] 在 R 4.0 發佈後取消中斷建置
- ARROW-8611 - [R] 無法在 Ubuntu 18.04 R 3.6.3 上安裝 arrow 0.17
- ARROW-8612 - [GLib] 新增 GArrowReadOptions 和 GArrowWriteOptions
- ARROW-8616 - [Rust] 預設關閉顯式 SIMD
- ARROW-8619 - [C++] 為 interval 類型使用不同的 Type::type 值
- ARROW-8622 - [Rust] Parquet crate 無法在 aarch64 上編譯
- ARROW-8623 - [C++][Gandiva] 減少 Boost 的使用,從標頭檔中移除 Boost 標頭
- ARROW-8624 - [Website] 安裝頁面應提及 arrow-dataset 套件
- ARROW-8628 - [CI][Dev] 使用 archery 包裝 docker-compose 命令
- ARROW-8629 - [Rust] 消除 ZST 分配的間接性
- ARROW-8633 - [C++] 新增 ValidateAscii 函數
- ARROW-8634 - [Java] 建立範例
- ARROW-8639 - [C++][Plasma] 需要 gflags
- ARROW-8645 - [C++] plasma 缺少 gflags 相依性
- ARROW-8647 - [C++][Dataset] 可選地將分割區欄位值編碼為字典類型
- ARROW-8648 - [Rust] 最佳化 Rust CI 建置時間
- ARROW-8650 - [Rust] [Website] 將文件新增至 Arrow 網站
- ARROW-8651 - [Python][Dataset] 支援 Dataset 物件的 pickling
- ARROW-8655 - [C++][Dataset][Python][R] 保留已探索 Dataset 的分割資訊
- ARROW-8656 - [Python] 在 windows wheel 建置中切換到 VS2017
- ARROW-8659 - [Rust] ListBuilder 和 FixedSizeListBuilder 容量
- ARROW-8660 - [C++][Gandiva] 減少對 Boost 的依賴
- ARROW-8662 - [CI] 合併 appveyor 腳本
- ARROW-8664 - [Java] 為所有 Vector 類型新增 skip null 檢查
- ARROW-8668 - [Packaging][APT][Yum][ARM] 使用 Travis CI 的 ARM 機器來建置套件
- ARROW-8669 - [C++] 將 IpcWriteOptions 引數新增至 GetRecordBatchSize()
- ARROW-8671 - [C++] 使用 ARROW-300 中批准的 IPC body 壓縮 metadata
- ARROW-8671 - [C++] 使用 ARROW-300 中批准的 IPC body 壓縮 metadata
- ARROW-8682 - [Ruby][Parquet] 新增對欄位層級壓縮的支援
- ARROW-8687 - [Java] 完成 io.netty.buffer.ArrowBuf 的移動
- ARROW-8690 - [Python] 清理 dataset+parquet 測試,現在順序是決定性的
- ARROW-8692 - [C++] 避免從 S3 下載時進行記憶體複製
- ARROW-8695 - [Java] 移除 memory 模組中對 PlatformDependent 的參考
- ARROW-8696 - [Java] 將測試轉換為整合測試
- ARROW-8699 - [R] 修復自動 r_to_py 轉換
- ARROW-8702 - [Packaging][C#] 在發佈過程中建置 NuGet 套件
- ARROW-8703 - [R] schema$metadata 應正確輸入類型
- ARROW-8707 - [CI] Docker push 由於錯誤的 dockerhub 憑證而失敗
- ARROW-8708 - [CI] 為 docker-compose volumes 利用 github actions 快取
- ARROW-8711 - [Python] 在 read_csv 轉換選項中公開 strptime timestamp parsing
- ARROW-8717 - [CI][Packaging] 將 boost 的建置相依性新增至 homebrew
- ARROW-8720 - [C++] 修復 checked_pointer_cast
- ARROW-8721 - [CI] 修復 R 建置矩陣
- ARROW-8723 - [Rust] 移除 SIMD 特定基準測試程式碼
- ARROW-8724 - [Packaging][deb][RPM] 使用主機中的目錄作為建置目錄
- ARROW-8725 - [Rust] rust parquet 資料來源程式碼中多餘的目錄遍歷
- ARROW-8727 - [C++] 不要求 StringConverter<T> 的 struct-initialization 將字串剖析為其他類型
- ARROW-8730 - [Rust] 使用 slice 而不是 &Vec 作為函數引數
- ARROW-8733 - [C++][Dataset][Python] ParquetFileFragment 應提供對 parquet FileMetadata 的存取權
- ARROW-8736 - [Rust] [DataFusion] Table API 應提供 schema() 方法
- ARROW-8740 - [CI] 修復 pandas master cron 測試中的 archery 選項
- ARROW-8742 - [C++][Python] 為 Mutual TLS 新增 flight client 支援
- ARROW-8743 - [C++][CI] 在 s390x 上新增測試工作
- ARROW-8744 - [Rust] ParquetIterator 的 next 方法即使在達到迭代結束後也應安全地呼叫
- ARROW-8745 - [C++] Bitmap.ToString 在大端平台造成失敗
- ARROW-8747 - [C++] 使用壓縮的 Feather 測試在大端平台造成失敗
- ARROW-8751 - [Rust] ParquetFileArrowReader 應該能夠讀取空的 parquet 檔案而不會出錯
- ARROW-8752 - [Rust] 移除未使用的 hashmap
- ARROW-8753 - [C++][CI] 在 ARM 上新增測試任務
- ARROW-8754 - [C++][CI] 在大端平台上啟用額外部件的測試
- ARROW-8756 - [C++] Bitmap word 測試在大端平台造成失敗
- ARROW-8757 - [C++] Plasma 標頭以原生位元組順序寫入
- ARROW-8758 - [R] 更新以相容於 dplyr 1.0
- ARROW-8759 - [C++] TestPlasmaSerialization.DeleteReply 測試在大端平台失敗
- ARROW-8762 - [C++][Gandiva] 將 Gandiva 的 BitmapAnd 替換為通用實作
- ARROW-8763 - [C++] 建立類似 RandomAccessFile::WillNeed 的 API
- ARROW-8764 - [C++] 在 ReadRangeCache 中使 ThreadPool 可配置
- ARROW-8766 - [Python] 基於 Python 回呼的 FileSystem 實作
- ARROW-8769 - [C++] 新增便利方法以依名稱存取 StructScalar 中的欄位
- ARROW-8770 - [C++][CI] 在 s390x 上啟用 arrow-csv-test
- ARROW-8772 - [C++] 將 SumKernel 基準測試擴展到更多類型
- ARROW-8777 - [Rust] Parquet.rs 不支援讀取固定大小的二進位欄位。
- ARROW-8778 - [C++][Gandiva] SelectionVector 相關測試在大端平台失敗
- ARROW-8779 - [R] 實作轉換為 List<Struct>
- ARROW-8781 - [CI][C++] 在 GHA MinGW 任務上啟用 ccache
- ARROW-8782 - [Rust] [DataFusion] 新增基於 NYC Taxi 資料集的基準測試
- ARROW-8783 - [Rust] [DataFusion] 邏輯計畫應具有 ParquetScan 和 CsvScan 條目
- ARROW-8784 - [Rust] [DataFusion] 從 LogicalPlan 移除 Arc 的使用
- ARROW-8785 - [Python][Packaging] 使用 MIMALLOC 啟用建置 windows wheels
- ARROW-8786 - [Packaging][rpm] 在 CentOS 8 建置中使用捆綁的 zstd
- ARROW-8788 - [C#] 陣列建構器使用位元組封裝緩衝區建構器,而非布林陣列建構器來作為有效性映射
- ARROW-8789 - [Rust] 為整合測試二進位檔新增獨立的 crate
- ARROW-8790 - [C++][CI] 在 s390x 上啟用 arrow-flight-test
- ARROW-8791 - [Rust] 使用現有字典值建立 StringDictionaryBuilder
- ARROW-8792 - [C++] 改進宣告式計算函數 / 核心開發框架,標準化呼叫慣例
- ARROW-8793 - [C++] BitUtil::SetBitsTo 可能不需要是 inline
- ARROW-8794 - [C++] 擴展從 parquet 讀取 arrow 的基準測試覆蓋率
- ARROW-8795 - [C++] 有限的 iOS 支援
- ARROW-8800 - [C++] 將 arrow::ChunkedArray 分割到 arrow/chunked_array.h 中
- ARROW-8804 - [R][CI] Rtools40 升級的後續
- ARROW-8814 - [Dev][Release] 二進位上傳腳本持續引發 locale 警告
- ARROW-8815 - [Dev][Release] 二進位上傳腳本應在發生意外的 bintray 請求錯誤時重試
- ARROW-8818 - [Rust] 由於 Flatbuffers/Union 問題,在 master 分支上建置失敗
- ARROW-8822 - [Rust] [DataFusion] 將 MemoryScan 變體新增至 LogicalPlan
- ARROW-8827 - [Integration Testing] Rust 整合測試的初始骨架
- ARROW-8830 - [GLib] 再次針對不可搜尋的 GIO 輸出流新增 Tell 支援
- ARROW-8831 - [Rust] simd_compare_op 中不完整的 SIMD 實作
- ARROW-8833 - [Rust] 在整合測試二進位檔中實作 VALIDATE 模式
- ARROW-8834 - [Rust] 為整合測試實作 arrow-file-to-stream
- ARROW-8835 - [Rust] 為整合測試實作 arrow-stream-to-file
- ARROW-8836 - [Website] 自動更新版權結束年份
- ARROW-8837 - [Rust] 新增 Null 類型
- ARROW-8838 - [Rust] 檔案讀取器無法從有效的檔案讀取標頭
- ARROW-8839 - [Rust] datafusion 邏輯計畫應支援掃描未提供 schema 的 csv
- ARROW-8840 - [Rust] datafusion ExecutionError 應實作 std::error:Error trait
- ARROW-8841 - [C++] 為 PLAIN spaced 新增基準測試和單元測試
- ARROW-8843 - [C++] 優化 BitmapEquals 未對齊的情況
- ARROW-8844 - [C++] 優化 TransferBitmap 未對齊的情況
- ARROW-8846 - [Dev][Python] 使用 Archery 自動格式化 Python 原始碼
- ARROW-8847 - [C++] 在 Executor API 中傳遞任務大小 / 指標
- ARROW-8851 - [Python][Documentation] 修正在 Python Plasma 文件中的 FutureWarnings
- ARROW-8852 - [R] 0.17.1 版本後的調整
- ARROW-8854 - [Rust] [Integration Testing] 顯示來自 arrow-json-integration-test 的輸出
- ARROW-8855 - [Rust] [Integration Testing] 不支援資料類型 Date32(Day)
- ARROW-8856 - [Rust] [Integration Testing] 如果 MessageHeader 為 NONE,則傳回空的 batch
- ARROW-8864 - [R] 為 Table/RecordBatch 新增方法以與 data.frame 保持一致性
- ARROW-8866 - [C++] 將 Type::UNION 分割為 Type::SPARSE_UNION 和 Type::DENSE_UNION
- ARROW-8867 - [R] 支援轉換 POSIXlt 類型
- ARROW-8875 - [C++] 使用 AWS SDK SetResponseStreamFactory 以避免複製位元組
- ARROW-8877 - [Rust] 新增 CSV 讀取選項結構以簡化 datafusion 介面
- ARROW-8880 - [R][Linux] 使 R 二進位安裝更友善
- ARROW-8881 - [Rust] 新增大列表和二進位支援
- ARROW-8885 - [R] 不要到處都包含所有內容
- ARROW-8886 - [C#] 決定並實作陣列建構器調整大小為負數的適當行為
- ARROW-8887 - [Java] 複雜向量的緩衝區大小在 clear/write 迴圈的情況下快速增加
- ARROW-8890 - [R] 修正 C++ lint 問題
- ARROW-8895 - [C++] 為時間類型輸入(包括時間戳記)的 filter 和 take 函數新增 C++ 單元測試
- ARROW-8896 - [C++] 使用 Take 在 Cast 核心中重新實作字典解封裝
- ARROW-8899 - [R] 為往返保真度新增 R metadata,例如 pandas metadata
- ARROW-8901 - [C++] 減少 take 核心的數量
- ARROW-8903 - [C++] 實作最佳化的「unsafe take」,以與用於核心執行的選擇向量一起使用
- ARROW-8904 - [Python] 修正與 child/field 相關的已棄用 C++ API 的用法
- ARROW-8906 - [Rust] 支援讀取多個 CSV 檔案以進行 schema 推斷
- ARROW-8907 - [Rust] 實作純量比較運算
- ARROW-8912 - [Ruby] 保留 Arrow::Buffer 資料的參考以進行 GC
- ARROW-8913 - [Ruby] 使用 “field” 而不是 “child”
- ARROW-8914 - [C++][Gandiva] Decimal128 相關測試在大端平台失敗
- ARROW-8915 - [Dev][Archery] 需要 Click 7
- ARROW-8917 - [C++][Compute] 正規化「metafunction」概念
- ARROW-8918 - [C++] 將 cast 「metafunction」新增至 FunctionRegistry,以處理分派到適當的類型特定 CastFunction
- ARROW-8922 - [C++] 實作範例字串純量核心函數,以協助根據 ARROW-555 建立字串核心
- ARROW-8923 - [C++] 透過將 ExecContext* 引數移至結尾並新增預設值,來改進 arrow::compute::CallFunction 的可用性
- ARROW-8926 - [C++] 改進 arrow/compute 中新公共 API 中的文件字串,並修正其他錯字
- ARROW-8927 - [C++] 在使用 cuda IPC 讀取/寫入 record batch 時支援字典備忘錄
- ARROW-8929 - [C++] 將 compute::Arity:VarArgs min_args 預設值變更為 0
- ARROW-8931 - [Rust] 在 arrow compute kernel 中支援詞彙排序
- ARROW-8933 - [C++] 減少 vector_hash.cc 中的產生程式碼
- ARROW-8934 - [C++] 新增時間戳記減法核心,別名為 int64 減法實作
- ARROW-8937 - [C++] 為使用核心框架的字串到時間戳記轉換新增 “parse_strptime” 函數
- ARROW-8938 - [R] 為 arrow::compute::CallFunction 提供綁定
- ARROW-8940 - [Java] 修正整合測試的效能下降問題
- ARROW-8941 - [C++/Python] arrow-nightlies conda 儲存庫已滿
- ARROW-8942 - [R] 偵測讀取 CSV/JSON 中的壓縮
- ARROW-8943 - [C++][Dataset] 為 ParquetDatasetFactory 新增 Partitioning 支援
- ARROW-8950 - [C++] 在 s3fs 中使 head 成為可選
- ARROW-8958 - [FlightRPC][Python] 為 Python 實作 Flight DoExchange
- ARROW-8960 - [MINOR] [FORMAT] 修正註解中的錯字
- ARROW-8961 - [C++] 將 utf8proc 函式庫新增至工具鏈
- ARROW-8963 - [C++][Parquet] Parquet cpp 優化分配記憶體
- ARROW-8965 - [Python][Documentation] Pyarrow pip nightlies 文件參考 404’d 位置
- ARROW-8966 - [C++] 將 arrow::ArrayData 移至獨立的標頭檔
- ARROW-8969 - [C++] 減少 compute/kernels/scalar_compare.cc 中的產生程式碼
- ARROW-8970 - [C++] 減少共用函式庫 / 二進位碼大小(總括問題)
- ARROW-8972 - [Java] 支援大型 varchar/varbinary 向量的範圍值比較
- ARROW-8973 - [Java] 支援大型 varchar/varbinary 向量的批次值附加
- ARROW-8974 - [C++] 精簡 TransferBitmap 範本參數
- ARROW-8976 - [C++] compute::CallFunction 無法使用 ChunkedArray 進行 Filter/Take
- ARROW-8979 - [C++] 實作 bitmap word 讀取器和寫入器
- ARROW-8984 - [R] 修訂安裝指南,因為現在存在 Windows conda 套件
- ARROW-8985 - [Format] 為 Decimal Flatbuffers 類型新增預設值為 16 的 “byte width” 欄位,以實現向前相容性
- ARROW-8989 - [C++] 記錄 compute::FunctionRegistry 中可用的函數
- ARROW-8993 - [Rust] 支援在文字讀取器中讀取不可搜尋的來源
- ARROW-8994 - [C++] 停用 include-what-you-use cpplint 檢查
- ARROW-8996 - [C++] Aggregate Sum/Mean 核心的執行期 SIMD 路徑
- ARROW-8997 - [Archery] 基準測試格式器應具有友善的單位
- ARROW-9004 - [C++][Gandiva] 支援使用 LLVM 10 建置
- ARROW-9005 - [Rust] [DataFusion] 支援排序表達式
- ARROW-9007 - [Rust] 支援透過合併陣列資料來附加陣列
- ARROW-9014 - [Packaging] 增加 crossbow 中自動產生的版本號碼的次要部分
- ARROW-9015 - [Java] 將 BaseAllocator 設定為 package private
- ARROW-9016 - [Java] 移除對 Netty/Unsafe Allocators 的直接參考
- ARROW-9017 - [Python] 重構 Scalar 類別
- ARROW-9018 - [C++] 移除在 0.17.x 及更早版本中已棄用的 API
- ARROW-9021 - [Python] parquet.read_table 中的 filesystem 關鍵字未記錄
- ARROW-9022 - [C++] 新增具有溢位檢查的 Add/Sub/Mul 算術核心
- ARROW-9029 - [C++] 為有效性 bitmap 的區塊式 popcount 實作 BitBlockCounter 介面
- ARROW-9030 - [Python] 清理 pyarrow.compat 的一些用法,將一些通用函數/符號移至 lib.pyx
- ARROW-9031 - [R] 實作從 Type::UINT64 轉換為 R 向量
- ARROW-9032 - [C++] 將 arrow/util/bit_util.h 分割為多個標頭檔
- ARROW-9034 - [C++] 實作 BitBlockCounter 的二進位(兩個 bitmap)版本
- ARROW-9042 - [C++] 新增具有環繞行為的 Subtract 和 Multiply 算術核心
- ARROW-9043 - [Go] 暫時將 LICENSE.txt 複製到 go/
- ARROW-9043 - [Go] 暫時將 LICENSE.txt 複製到 go/
- ARROW-9045 - [C++] 改進和擴展 Take/Filter 基準測試
- ARROW-9046 - [C++][R] 將更多內容放入 type_fwds
- ARROW-9047 - [Rust] 將 0 長度位元組集的 0 位元設定為 segfaults
- ARROW-9050 - [Release] 使用 1.0.0 作為下一個版本
- ARROW-9051 - [GLib] 從 Array 參考 Array 相關物件
- ARROW-9052 - [CI][MinGW] 啟用 Gandiva
- ARROW-9055 - [C++] 為布林類型新增 sum/mean 核心
- ARROW-9058 - [Packaging][wheel] Boost 下載失敗
- ARROW-9060 - [GLib] 新增支援以使用未安裝的 Apache Arrow Datasets 建置 Apache Arrow Datasets GLib
- ARROW-9061 - [Packaging][APT][Yum][GLib] 新增 Apache Arrow Datasets GLib
- ARROW-9062 - [Rust] 支援將 JSON 讀取到字典類型
- ARROW-9067 - [C++] 建立可重複使用的無分支 / 向量化索引邊界檢查函數
- ARROW-9070 - [C++] StructScalar 需要欄位存取器方法
- ARROW-9073 - [C++] RapidJSON 包含目錄偵測無法與 RapidJSONConfig.cmake 搭配運作
- ARROW-9074 - [GLib] 新增遺失的 arrow-json 檢查
- ARROW-9075 - [C++] 優化 Filter 實作
- ARROW-9079 - [C++] 為算術核心寫入基準測試
- ARROW-9083 - [R] 如果未超出範圍,則將 int64、uint32、uint64 作為 R 整數類型收集
- ARROW-9086 - [CI][Homebrew] 啟用 Gandiva
- ARROW-9088 - [Rust] 最新版本的 arrow crate 無法編譯成 wasm 目標
- ARROW-9089 - [Python] 用於基於 fsspec 的檔案系統的 PyFileSystem 處理常式
- ARROW-9090 - [C++] 提升捆綁函式庫的版本
- ARROW-9091 - [C++] 在呼叫需要預設選項的函數的 CallFunction 時,利用函數的預設選項
- ARROW-9093 - [FlightRPC][C++][Python] 允許設定 gRPC 用戶端選項
- ARROW-9094 - [Python] 提升 manylinux wheels 中編譯相依性的版本
- ARROW-9095 - [Rust] 修正 NullArray 以符合規範
- ARROW-9099 - [C++][Gandiva] 為字串新增 TRIM 函數
- ARROW-9100 - [C++] 新增 ascii_lower 核心
- ARROW-9101 - [Doc][C++][Python] 記錄 CSV 和 JSON 讀取器預期的編碼
- ARROW-9102 - [Packaging] 上傳建置的 manylinux docker 映像檔
- ARROW-9106 - [C++] 新增 C++ 基礎以簡化檔案轉碼
- ARROW-9108 - [C++][Dataset] 為時間戳記欄位新增 Parquet 統計資料轉換
- ARROW-9109 - [Python][Packaging] 在 manylinux wheels 中啟用 S3 支援
- ARROW-9110 - [C++] 修正 macOS 上的 CPU 快取大小偵測
- ARROW-9112 - [R] 更新 autobrew 腳本位置
- ARROW-9115 - [C++] 在 ascii_lower / ascii_upper 核心中以批次處理資料緩衝區,而不是使用 string_view 值迭代
- ARROW-9116 - [C++] 新增 BinaryArray::total_values_length()
- ARROW-9116 - [C++] 新增 BinaryArray::total_values_length()
- ARROW-9118 - [C++] 新增更通用的 BoundsCheck 函數,該函數也檢查整數陣列中任意的下限
- ARROW-9119 - [C++] 新增使用系統靜態 gRPC 建置的支援
- ARROW-9123 - [Python][wheel] 明確使用 libzstd.a
- ARROW-9124 - [Rust][Datafusion] DFParser 應使用 &str 而非 String 作為 sql 查詢
- ARROW-9125 - [C++] 為 Valgrind 新增 arrow::internal::ZeroMemory() 的遺失 include
- ARROW-9129 - [Python][JPype] 使用 JPype 0.7.5 時測試失敗
- ARROW-9130 - [Python] 為 1.0.0 在 pyarrow/compat.py 模組中新增已棄用的包裝函式,稍後將移除
- ARROW-9131 - [C++] 更快的 ascii_lower 和 ascii_upper
- ARROW-9132 - [C++] 為具有常數字典的字典資料實作雜湊核心
- ARROW-9133 - [C++] 新增 utf8_upper 和 utf8_lower
- ARROW-9137 - [GLib][Ruby] 允許以區塊(依 RowGroup)讀取 Parquet 檔案
- ARROW-9138 - [Docs][Format] 確保格式版本在文件中硬編碼
- ARROW-9139 - [Python] parquet read_table 不應使用 use_legacy_dataset
- ARROW-9144 - [CI] OSS-Fuzz 建置由於 google 儲存庫中的最新變更而失敗
- ARROW-9145 - [C++] 為 BooleanArray 新增 true_count / false_count 方法
- ARROW-9152 - [C++] 為 varbinary 類型建立專門的 filter 實作
- ARROW-9153 - [Python] 為 StructScalar 新增綁定
- ARROW-9154 - [Developer] 更好使用 GitHub issue 範本
- ARROW-9155 - [Archery] “archery benchmark diff” 的預設設定應較不精確但速度更快
- ARROW-9156 - [C++] 減少 tensor 模組的程式碼大小
- ARROW-9157 - [Rust][Datafusion] execution context 的 create_physical_plan 應將 self 作為不可變參考
- ARROW-9158 - [Rust][Datafusion] Projection physical plan 編譯應保留可空性
- ARROW-9159 - [Python] 公開 isnull/isvalid 核心
- ARROW-9162 - [Python] 公開 Add/Subtract/Multiply 算術核心
- ARROW-9163 - [C++] 為 StringArray、LargeStringArray 新增方法,以驗證其值是否全部為 UTF-8
- ARROW-9166 - [Website] 新增概觀頁面
- ARROW-9167 - [Doc][Website] /docs/c_glib/index.html 被覆寫
- ARROW-9168 - [C++][Flight] 允許 flight 基準測試使用分離的 TCP 連線
- ARROW-9173 - [C++] 記錄如何從第三方 CMake 專案使用 Arrow
- ARROW-9175 - [FlightRPC][C++][Python] 公開已連線的 peer
- ARROW-9176 - [Rust] 修正 Arrow allocator 中的記憶體洩漏
- ARROW-9178 - [R] 改進關於 CSV 讀取器的文件
- ARROW-9179 - [R] 在測試中替換 iris 資料集的使用
- ARROW-9180 - [Developer] 移除 whitelist、blacklist、slave 等的使用
- ARROW-9181 - [C++] 在 Cast 核心實作中實例化更少的範本
- ARROW-9182 - [C++] 為核心運算子到核心函子的「applicator」命名空間,簡化引數拆箱
- ARROW-9185 - [C++] [Java][Gandiva] 使 llvm 建置最佳化可從 java 配置
- ARROW-9188 - [C++] 不要總是靜態連結 Brotli 函式庫
- ARROW-9189 - [Website] 改進貢獻者指南
- ARROW-9190 - [Website][C++] 新增關於使建置更輕量且更容易的部落格文章
- ARROW-9191 - [Rust] 當 int96 毫秒為負數時,不要 panic
- ARROW-9192 - [CI][Rust] 新增執行 clippy 的支援
- ARROW-9193 - [C++] 新增從 null 終止字串剖析日期的方法
- ARROW-9197 - [C++] 修訂數值轉換:更快的效能和更小的二進位大小
- ARROW-9201 - [Archery] 使用 “archery benchmark diff” 時呈現人類可讀取的表格
- ARROW-9202 - [GLib] 新增 GArrowDatum
- ARROW-9203 - [Packaging][deb] 新增遺失的 gir1.2-arrow-dataset-1.0.install
- ARROW-9204 - [C++][Flight] 在 flight 基準測試中將 records_per_stream 變更為 int64
- ARROW-9205 - [Documentation] 修正 Columnar.rst 中的錯字
- ARROW-9206 - [C++][Flight] 在 flight 基準測試中測量延遲
- ARROW-9207 - [Python][Dataset] 清理內部 FileSource 類別
- ARROW-9210 - [C++] 在 ArrayDataInlineVisitor 中使用 OptionalBitBlockCounter
- ARROW-9214 - [C++] 在 arrow/visitor_inline.h 中避免使用 util::optional,而改用獨立的可內聯函數
- ARROW-9216 - [C++][Parquet] 為 plain spaced 編碼/解碼使用 BitBlockCounter
- ARROW-9217 - [C++][Parquet] 涵蓋 plain spaced 編碼/解碼基準測試的 0.01% null
- ARROW-9220 - [C++] 如果 ARROW_WITH_UTF8PROC=OFF,則停用相關的 compute 核心
- ARROW-9222 - [Format][Proposal] 從 Union 類型移除有效性 bitmap
- ARROW-9224 - [Dev][Archery] 在 clone 失敗時複製本機儲存庫
- ARROW-9225 - [C++][Compute] 改進計數排序
- ARROW-9231 - [Format] 將 MetadataVersion 從 V4 遞增至 V5
- ARROW-9234 - [GLib][CUDA] 新增從緩衝區讀取 record batch 時的字典備忘錄支援
- ARROW-9241 - [C++] 為 Decimal::bitWidth 新增向前相容性檢查
- ARROW-9242 - [Java] 為 Decimal::bitWidth 新增向前相容性檢查
- ARROW-9247 - [Python] 在綁定中公開 BinaryArray::total_values_length
- ARROW-9248 - [C++] 新增 “list_size” 函數,該函數傳回提供列表單元大小的 Int32Array/Int64Array
- ARROW-9249 - [C++] 實作 “list_parent_indices” 向量函數
- ARROW-9250 - [C++] 使用與 vector_hash.cc 相同的方法,壓縮 compute/kernels/scalar_set_lookup.cc 中的產生程式碼
- ARROW-9251 - [C++] 將用於整合測試的 JSON 測試程式碼移至 libarrow_testing
- ARROW-9254 - [C++] 分解一些整數轉換內部結構,以便可以與時間轉換重複使用
- ARROW-9255 - [C++] 使用 CMake 建置捆綁的 Protobuf,搭配 CMake >= 3.7
- ARROW-9256 - [C++] 不正確的變數名稱 ARROW_CXX_FLAGS
- ARROW-9258 - [Format] 新增 V5 MetadataVersion
- ARROW-9259 - [Format] 允許 Columnar.rst 中使用未簽名的字典索引
- ARROW-9262 - [Packaging][Linux][CI] 使用 Ubuntu 18.04 在 Travis CI 上建置 ARM64 套件
- ARROW-9263 - [C++] 基準測試:將 RegressionSetArgs 大小提升至 L2
- ARROW-9264 - [C++] 清理 Parquet Arrow Schema 程式碼
- ARROW-9265 - [C++] 新增支援以寫入與程式庫版本 <= 0.17.1 相容的 MetadataVersion::V4 相容 IPC 訊息
- ARROW-9268 - [C++] 為字串新增 is{alnum,alpha,…} 核心
- ARROW-9272 - [C++][Python] 降低 python 到 arrow 轉換的複雜性
- ARROW-9276 - [Dev] 在產生 API 文件時啟用 ARROW_CUDA
- ARROW-9277 - [C++] 修正讀取 CSV 檔案的文件
- ARROW-9278 - [C++] 實作來自 ARROW-9222 的 Union 有效性 bitmap 變更
- ARROW-9280 - [Rust] 將統計資料寫入 Parquet 檔案
- ARROW-9281 - [R] 在 R 建置中關閉 utf8proc
- ARROW-9283 - [Python] 公開 C++ 建置資訊
- ARROW-9287 - [C++] 實作未簽名字典索引的支援
- ARROW-9289 - [R] 移除已棄用的函數
- ARROW-9290 - [Rust] [Parquet] 新增功能以允許選擇退出相依性
- ARROW-9291 - [R] 支援固定大小的二進位/列表類型
- ARROW-9292 - [Rust] 使用通過測試更新功能矩陣
- ARROW-9294 - [GLib] 新增 GArrowFunction
- ARROW-9300 - [Java] 將 Netty Memory 分隔到其自己的模組
- ARROW-9306 - [Ruby] 新增 Arrow::RecordBatch.new(raw_table) 的支援
- ARROW-9307 - [Ruby] 新增 Arrow::RecordBatchIterator#to_a
- ARROW-9308 - [Format] 將 Feature enum 新增至 schema.fbs 以實現向前相容性
- ARROW-9316 - [C++] 使用 “Dataset” 而不是 “Datasets”
- ARROW-9321 - [C++][Dataset] 如果未從 _metadata 建構,則允許為 ParquetFragment row groups “收集” 統計資料
- ARROW-9322 - [R] Dataset 文件潤飾
- ARROW-9323 - [Ruby] 新增 Red Arrow Dataset
- ARROW-9327 - 修正 arrow crate 的所有 clippy 錯誤
- ARROW-9328 - [C++][Gandiva] 為字串新增 LTRIM、RTRIM、BTRIM 函數
- ARROW-9329 - [C++][Gandiva] 實作 castTimestampToDate 函數
- ARROW-9331 - [C++] 提高 Tensor-to-SparseTensor 轉換的效能
- ARROW-9333 - [Python] 在 Python 中公開更多 IPC 寫入選項
- ARROW-9335 - [Website] 為 1.0 更新網站
- ARROW-9337 - [R] 在 C++ 程式庫建置失敗時,提供明確的訊息
- ARROW-9339 - [Rust] Arrow README 中關於 SIMD 的註解不正確
- ARROW-9340 - [R] 使用 decor 套件的 CRAN 版本
- ARROW-9341 - [GLib] 使用 arrow::Datum 版本的 Take()
- ARROW-9345 - [C++][Dataset] 具有字典類型的表達式應可與值類型的運算元搭配運作
- ARROW-9346 - [C++][Python][Dataset] 將 total_byte_size metadata 新增至 RowGroupInfo
- ARROW-9362 - [Java] 新增支援寫入與 MetadataVersion::V4 相容的 IPC 訊息,以與版本 <= 0.17.1 的程式庫相容
- ARROW-9365 - [Go] 在 NewBuilder 中實作其餘的類型化陣列建構器
- ARROW-9370 - [Java] 提升 Netty 版本
- ARROW-9374 - [C++][Python] 公開 MakeArrayFromScalar
- ARROW-9379 - [Rust] 支援無符號字典索引
- ARROW-9383 - [Python] 透過 fs handler 在 Dataset API 中支援 fsspec 檔案系統
- ARROW-9386 - [Rust] RecordBatch.schema() 不應傳回 &Arc<Schema>
- ARROW-9390 - [C++] 檢閱運算函數名稱
- ARROW-9390 - [C++] 檢閱運算函數名稱
- ARROW-9390 - [C++] 檢閱運算函數名稱
- ARROW-9391 - [Rust] 當 record batch 只有一列時,Float32 值會被解譯為零
- ARROW-9393 - [Doc] 更新 Java 支援類型文件
- ARROW-9395 - [Python] 在 IPC API 中提供可配置的 MetadataVersion 和環境變數,以便在需要時將預設值設定為 V4
- ARROW-9399 - [C++] 為無法辨識的未來 MetadataVersion 新增向前相容性檢查
- ARROW-9403 - [Python] 新增 .tolist 作為 .to_pylist 的別名
- ARROW-9407 - [Python] 在陣列建構子中接受 pd.NA 作為遺失值
- ARROW-9411 - [Rust] 更新相依性
- ARROW-9424 - [C++][Parquet] 停用使用 LZ4 編解碼器寫入檔案
- ARROW-9425 - [Rust][DataFusion] 使 ExecutionContext 可在執行緒之間共用
- ARROW-9427 - [Rust][DataFusion] 新增 pub fn ExecutionContext.tables()
- ARROW-9437 - [Python][Packaging] Homebrew 無法在 macOS wheel 建置中安裝建置相依性
- ARROW-9442 - [Python] 請勿強制在 pyarrow_wrap_table 中呼叫 Validate()
- ARROW-9445 - [Python] 還原 Array.equals 變更 + 在運算中公開比較運算子
- ARROW-9446 - [C++] 在 BuildInfo 中匯出編譯器資訊
- ARROW-9447 - [Rust][DataFusion] 允許 closures 作為 ScalarUDF
- ARROW-9452 - [Rust] [DateFusion] 提升 parquet 掃描效能
- ARROW-9470 - [CI][Java] 平行執行 Maven
- ARROW-9472 - [R] 在 IPC API 中提供可配置的 MetadataVersion 和環境變數,以便在需要時將預設值設定為 V4
- ARROW-9473 - [Doc] 潤飾 1.0 版本
- ARROW-9478 - [C++] 改善關於不支援的轉換類型的錯誤訊息
- ARROW-9484 - [Docs] 在運算文件中將 is* 函數更新為 is_*
- ARROW-9485 - [R] 更好的共用程式庫剝離
- ARROW-9493 - [Python][Dataset] 預設以字典編碼字串分割區欄
- ARROW-9508 - [Release][APT][Yum] 啟用 arm64 二進位檔的驗證
- ARROW-9509 - [Release] 請勿在 windows wheel 驗證腳本中測試 Gandiva
- ARROW-9511 - [Packaging][Release] 將 conda 套件的建置編號設定為 0
- ARROW-9519 - [Rust] 改善從 schema 依名稱取得欄位時的錯誤訊息
- ARROW-9529 - [Dev][Release] 改善發行驗證腳本
- ARROW-9531 - [Packaging][Release] 更新 conda forge 相依性釘選
- ARROW-9534 - [Rust] [DataFusion] 實作函數以建立所有類型的常值表達式
- PARQUET-1820 - [C++] 使用欄篩選提示來通知 Arrow 讀取中的讀取預取
- PARQUET-1843 - [C++] DictDecoderImpl::Decode 中不必要的指派
- PARQUET-1855 - [C++] 改善關於 MetaData 所有權的文件
- PARQUET-1861 - [Documentation][C++] 解釋 ReaderProperters.buffer_stream*