Apache Arrow 3.0.0 (2021年1月26日)
這是一個主要版本發布,涵蓋超過 3 個月的開發成果。
下載
貢獻者
此版本包含來自 106 位不同貢獻者的 648 個提交。
$ git shortlog -sn apache-arrow-2.0.0..apache-arrow-3.0.0
71 Jorge C. Leitao
64 Sutou Kouhei
48 Antoine Pitrou
48 Heres, Daniel
27 Andy Grove
27 Neville Dipale
24 Joris Van den Bossche
19 Neal Richardson
15 Benjamin Kietzman
14 Carol (Nichols || Goulding)
14 Uwe L. Korn
12 Jonathan Keane
12 Krisztián Szűcs
11 Andrew Lamb
11 Mike Seddon
11 mqy
10 Kazuaki Ishizaki
10 Qingping Hou
8 Jörn Horstmann
8 Yibo Cai
8 alamb
7 Andrew Wieteska
7 Ian Cook
7 Mahmut Bulut
6 Dmitry Patsura
6 Projjal Chanda
6 liyafan82
6 rdettai
5 Daniel Russo
5 David Li
5 Florian Müller
5 Jacob Quinn
5 James Duong
4 Micah Kornfield
4 Weston Pace
3 Jimmy Lu
3 Maarten A. Breddels
3 Terence D. Honles
3 Will Jones
2 Bei
2 Benjamin Wilhelm
2 Christian Lundgren
2 Daniël Heres
2 Evan Chan
2 Fokko Driesprong
2 François Garillot
2 Greg Bowyer
2 Kirill Lykov
2 Kyle Porter
2 Lyndon Bauto
2 Markus Westerlind
2 Sagnik Chakraborty
2 Sean Moran
2 Wes McKinney
2 Yordan Pavlov
2 jensenrichardson
2 wayne
2 Östman Alexander
1 Bruno LE HYARIC
1 Chiyang Wan
1 Christoph Schulze
1 Diana Clarke
1 Eric Erhardt
1 Erik Fonselius
1 Frank Du
1 Frank Smith
1 Gidon Gershinsky
1 H-Plus-Time
1 Hongze Zhang
1 Jake Goulding
1 Jeremy
1 Johan Peltenburg
1 Jorge Leitao
1 Josiah
1 Kopilov Aleksandr
1 Marc Prud'hommeaux
1 Marius van Niekerk
1 Matthew Pollock
1 Matthew Topol
1 Michal
1 Mingyu Zhong
1 Nick Bruno
1 Paddy Horan
1 Pavel Tiunov
1 Prudhvi Porandla
1 Radu Teodorescu
1 Romain Francois
1 Ruan Pearce-Authers
1 Ruihang Xia
1 Sebastian Berg
1 Tao He
1 Tyrel Rink
1 Ulimo
1 Vivian Kong
1 Weiyang Zhao
1 Zhuo Peng
1 arw2019
1 david
1 jonathan.albrecht
1 naman1996
1 rjzamora
1 shawnding(丁晓坤)
1 tching
1 tianchen
1 tifflhl
1 xudingyu
修補程式提交者
以下 Apache 提交者將貢獻的修補程式合併到儲存庫中。
$ git shortlog -csn apache-arrow-2.0.0..apache-arrow-3.0.0
100 Andrew Lamb
88 Antoine Pitrou
76 Sutou Kouhei
70 Jorge C. Leitao
69 Neville Dipale
54 Krisztián Szűcs
44 Neal Richardson
40 Andy Grove
26 Benjamin Kietzman
19 Joris Van den Bossche
12 David Li
8 liyafan82
7 Uwe L. Korn
7 alamb
6 Micah Kornfield
5 Praveen
4 Bryan Cutler
4 Eric Erhardt
2 GitHub
2 Paddy Horan
2 Pindikura Ravindra
2 Wes McKinney
1 Sebastien Binet
變更日誌
Apache Arrow 3.0.0 (2021-01-26)
錯誤修正
- ARROW-2616 - [Python] 交叉編譯 Pyarrow
- ARROW-6582 - [R] Arrow to R 在字串中嵌入空字元時失敗
- ARROW-7363 - [Python] 為 ChunkedArray 新增 combine_chunks 方法
- ARROW-7909 - [網站] 新增如何在 Red Hat Enterprise Linux 上安裝
- ARROW-8258 - [Rust] [Parquet] ArrowReader 在某些時間戳記類型上失敗
- ARROW-9027 - [Python] 分割成多個檔案 + 清理 pyarrow.parquet 測試
- ARROW-9479 - [JS] Table.from 對於零項目的 Lists、FixedSizeLists、Maps 失敗。Table.empty 亦同
- ARROW-9636 - [Python] 更新關於 parquet.write_table 中 'LZO' 壓縮的說明文件
- ARROW-9776 - [R] 如果檔案不存在,read_feather 會在 R 中造成區段錯誤
- ARROW-9897 - [C++][Gandiva] 從模式新增 to_date() 函數
- ARROW-9897 - [C++][Gandiva] 從模式新增 to_date() 函數
- ARROW-9898 - [C++][Gandiva] 在某些環境中,castINT 中的錯誤處理失敗
- ARROW-9903 - [R] open_dataset 在 Windows 上凍結開啟 feather 檔案
- ARROW-9963 - [Python] 在轉換 python->pyarrow 時,將 datetime.timezone.utc 識別為 UTC
- ARROW-10039 - [Rust] 不需要緩衝區的記憶體對齊
- ARROW-10042 - [Rust] 緩衝區相等性可能不正確
- ARROW-10080 - [R] Arrow 未釋放未使用的記憶體
- ARROW-10122 - [Python] 選擇多索引的一列會導致重複的值列。
- ARROW-10145 - [C++][Dataset] 斷言分割中的整數溢位會回退到字串
- ARROW-10146 - [Python] Parquet metadata to_dict 引發屬性錯誤
- ARROW-10174 - [Java] 讀取字典編碼的結構向量失敗
- ARROW-10177 - [CI][Gandiva] Nightly gandiva-jar-xenial 失敗
- ARROW-10186 - [Rust] 遵循 README 中的指示時,測試失敗
- ARROW-10247 - [C++][Dataset] 無法將具有字典列的資料集寫為分割欄位
- ARROW-10264 - [C++][Python] Parquet 測試在使用 HadoopFileSystem URI 時失敗
- ARROW-10270 - [R] 在 R-devel 上修正 CSV timestamp_parsers 測試
- ARROW-10283 - [Python] 關於 “PY_SSIZE_T_CLEAN 將成為 '#' 格式的必要條件” 的 Python 棄用警告
- ARROW-10293 - [Rust] [DataFusion] 修正基準測試
- ARROW-10294 - [Java] 解決 ArrowBufs 上 DecimalVector API 的問題
- ARROW-10321 - [C++] 在不應該建置時建置 AVX512 程式碼
- ARROW-10333 - [Java] 移除 arrow-memory-core 和 arrow-vectors 中的分割套件
- ARROW-10345 - [C++] NaN 破壞排序
- ARROW-10346 - [Python] 即使 LANG=C,預設 S3 區域仍為 eu-central-1
- ARROW-10348 - [C++] 修正無效 Parquet 檔案上的崩潰 (OSS-Fuzz)
- ARROW-10350 - [Rust] parquet_derive crate 無法發布到 crates.io
- ARROW-10353 - [C++] Parquet 解壓縮 DataPageV2 頁面,即使 is_compressed==0
- ARROW-10358 - [R] 2.0.0 版本發布的後續
- ARROW-10365 - [R] 移除 macOS 上 S3 旗標的重複設定
- ARROW-10369 - [Dev] 修正 archery 發布工具測試案例
- ARROW-10370 - [Python] 與 s3fs 相關的虛假測試失敗
- ARROW-10371 - [R] Linux 系統需求檢查需要支援較舊的 cmake 版本
- ARROW-10386 - [R] 列表欄位類別屬性在往返中未保留
- ARROW-10388 - [Java] 修正 Spark 整合建置失敗
- ARROW-10390 - [Rust] [Parquet] 由於 `TryClone` 未公開匯出,因此無法實作自訂 ParquetWriter
- ARROW-10393 - [Rust]: 修正 jsonreader 中字典和字串建置器的空值讀取
- ARROW-10394 - [Rust] [Large]BinaryArray 可以從非二進位資料類型建立
- ARROW-10397 - [C++] 關於字典索引的過時且令人困惑的註解
- ARROW-10399 - [R] 修正 cpp11::r_string 的效能退化
- ARROW-10411 - [C++] 修正 Concatenate of FixedSizeList 的不正確子陣列長度
- ARROW-10412 - [C++] CMake 建置在 grpc 1.33.1 上失敗,“GRPC_CPP_PLUGIN-NOTFOUND: program not found or is not executable”
- ARROW-10413 - [Rust] [Parquet] 取消忽略一些現在通過的往返測試
- ARROW-10414 - [R] open_dataset 在 Windows 上不適用於絕對/展開路徑
- ARROW-10426 - [C++] Arrow 類型 large_string 無法寫入 Parquet 類型欄位描述符
- ARROW-10433 - [Python] pyarrow 無法與 s3fs>=0.5 搭配使用
- ARROW-10434 - [Rust] 長度大於 10 且小於 20 的陣列的偵錯格式產生不正確的值
- ARROW-10441 - [FlightRPC][Java] 來自 FlightGrpcUtils#createFlightClient 的 FlightClients 在關閉時關閉 gRPC 通道
- ARROW-10446 - [C++][Python] 時區感知 pd.Timestamp 錯誤地轉換為 Timestamp 陣列
- ARROW-10448 - [Rust] PrimitiveArray::new 可以建立不符合規範的陣列
- ARROW-10453 - [Rust] [DataFusion] 移除特化後效能降低
- ARROW-10457 - [CI] 修正 Spark branch-3.0 整合測試
- ARROW-10461 - [Rust] BitChunks::remainder_bits 中的偏移相關錯誤
- ARROW-10462 - [Python] 在 Windows 上使用 fsspec fs 時,ParquetDatasetPiece 的路徑損壞
- ARROW-10463 - [R] 針對 open_dataset 中目前不支援的 CSV 選項,提供更好的訊息
- ARROW-10470 - [R] 修正遺失檔案錯誤導致 NYC 計程車範例失敗
- ARROW-10471 - [CI][Python] 確保我們有使用 s3fs 的測試,並在 CI 上執行這些測試
- ARROW-10472 - [C++][Python] 將純量時間戳記轉換為 date32 會導致中止 (核心傾印)
- ARROW-10475 - [С++][FlightRPC] Arrow Flight Server / Client 無法使用 Ipv6 主機初始化
- ARROW-10480 - [Python] Parquet write_table 建立 gzipped Parquet 檔案,而不是具有 gzip 壓縮的 Parquet
- ARROW-10482 - [Python] 在寫入 Parquet 時,在欄位基礎上指定壓縮類型無效
- ARROW-10489 - [C++] 無法使用 intel 編譯器設定或編譯
- ARROW-10489 - [C++] 無法使用 intel 編譯器設定或編譯
- ARROW-10491 - [FlightRPC][Java] 修正未使用攔截器的 FlightProducer 中的 NPE
- ARROW-10493 - [C++][Parquet] 寫入可空巢狀字串會導致檔案中的資料錯誤
- ARROW-10495 - [C++] find_package(Arrow) 在 Ubuntu 18 上中斷
- ARROW-10496 - [R][CI] 修正 conda-r 工作
- ARROW-10499 - [C++][Java] 修正 ORC Java JNI 崩潰
- ARROW-10502 - [C++/Python] CUDA 偵測搞亂 nightly conda-win 建置
- ARROW-10503 - [C++] Uriparser 無法使用 Intel 編譯器編譯
- ARROW-10508 - [Java] 允許 FixedSizeListVector 具有空的子項
- ARROW-10509 - [C++] 為 clang+Windows 定義 operator<<(ostream, ParquetException)
- ARROW-10511 - [Python] 當中繼資料中時區感知不符時,Table.to_pandas() 失敗
- ARROW-10518 - 修正 gandiva 中的 cast 函數問題
- ARROW-10519 - [Python] 當 PyArrow 從多個執行緒匯入 Pandas 時發生死鎖
- ARROW-10525 - [C++] 修正不支援的 IPC 串流上的崩潰 (OSS-Fuzz)
- ARROW-10532 - [Python] 當指定結構描述的順序與 DataFrame 欄位不同時,pandas_metadata 會損壞
- ARROW-10545 - [C++] 修正無效 Parquet 檔案上的崩潰 (OSS-Fuzz)
- ARROW-10546 - [Python] 棄用 S3FSWrapper 類別
- ARROW-10547 - [Rust][DataFusion] 如果在使用者定義節點下方,篩選器下推會遺失篩選器
- ARROW-10551 - [Rust]: 修正無法重現的基準測試
- ARROW-10558 - [Python] 檔案系統 S3 測試不獨立 (原生 s3 會影響 s3fs)
- ARROW-10560 - [Python] 建立超過 2GB 字串的陣列時崩潰
- ARROW-10563 - [Packaging][C++] CMake find_package(Arrow 2.0 CONFIG REQUIRED) 中斷
- ARROW-10565 - [Python] Table.from_batches 和 Table.from_pandas 在文件中具有引數 Schema_schema 而不是 schema
- ARROW-10568 - [C++][Parquet] 當 Tell() 未成功時,Parquet writer 崩潰程序
- ARROW-10569 - [C++][Python] Table 篩選效能不佳
- ARROW-10577 - [Rust][DataFusion] Hash Aggregator 串流在進入 Pending 狀態後意外結束
- ARROW-10578 - [C++] 字串陣列與空字串純量比較的比較核心崩潰
- ARROW-10610 - [C++] arrow-utility-test 和 arrow-csv-test 在大端平台造成失敗
- ARROW-10616 - [Developer] 將 PR 標籤器擴展到所有支援的語言
- ARROW-10617 - [Python] RecordBatchStreamReader 的迭代器不適用於 python 3.8
- ARROW-10619 - [C++] 修正不支援的 IPC 串流上的崩潰 (OSS-Fuzz)
- ARROW-10620 - [Rust][Parquet] 將欄位區塊範圍邏輯移至 metadata.rs
- ARROW-10621 - [Java] flight-cpre 測試在 s390x 上造成失敗
- ARROW-10622 - [R] Nameof<>() 在 r-arrow 建置環境中不正確
- ARROW-10623 - [R] 版本 1.0.1 在讀取版本 2.0.0 寫入的檔案時,會破壞 data.frame 屬性
- ARROW-10624 - [R] 主動移除 “problems” 屬性
- ARROW-10627 - [Rust] Github master 無法為 WASM 目標編譯
- ARROW-10629 - [CI] MinGW 建置在 Github Actions 上中斷
- ARROW-10631 - [Rust] 固定大小二進位的相等性不正確。
- ARROW-10642 - [R] 無法從具有 0 個批次的 RecordBatchReader 取得 Table
- ARROW-10656 - [Rust] 新的 RecordBatch 需要資料類型的完全符合
- ARROW-10656 - [Rust] 新的 RecordBatch 需要資料類型的完全符合
- ARROW-10661 - [C#] 修正基準測試專案
- ARROW-10662 - [Java] 避免 Json 檔案讀取器中的整數溢位
- ARROW-10663 - [C++/Doc] IsIn 核心忽略 SetLookupOptions 的 skip_nulls 選項
- ARROW-10667 - [Rust] [Parquet] 為將 Parquet 寫入記憶體新增便利類型
- ARROW-10668 - [R] 篩選不適用於 .data 代名詞
- ARROW-10681 - [Rust] [DataFusion] TPC-H 查詢 12 因排程器錯誤而失敗
- ARROW-10684 - [Rust] 邏輯相等性應考慮父陣列可空性
- ARROW-10690 - [Java] 如果目標向量為非空,ComplexCopier 會為列表向量提供不正確的結果
- ARROW-10692 - [Rust] 陣列緩衝區附加時區段錯誤
- ARROW-10699 - [C++] BitmapUInt64Reader 在大端上無效
- ARROW-10701 - [Rust] [Datafusion] Benchmark sort_limit_query_sql 失敗,因為 order by 子句指定欄位索引而不是運算式
- ARROW-10705 - [Rust] IPC writer 中的生命週期註釋過於嚴格,阻礙程式碼重複使用
- ARROW-10710 - [Rust] 範例 flight server 在 tokio 升級後中斷 (以及其他問題)
- ARROW-10711 - [CI] 從 auto-tune 移除 set-env 以使用新的 GHA 設定
- ARROW-10719 - [C#] ArrowStreamWriter 未寫入結構描述中繼資料
- ARROW-10746 - [C++] 在 parquet 編碼測試中使用 GTEST_SKIP
- ARROW-10748 - [Java] TimeStampMilliVector 無法轉換為 TimeStampMilliTZVector
- ARROW-10749 - [C++] 具有集合類型的 Datum 的不正確字串格式
- ARROW-10751 - [C++] 將 RE2 新增至最小建置範例
- ARROW-10753 - [Rust] [DataFusion] SQL WHERE 子句中的負數未正確剖析
- ARROW-10757 - [Rust] [CI] 由於磁碟填滿而導致的零星失敗
- ARROW-10760 - [Rust] [DataFusion] 述詞下推不正確地支援聯結
- ARROW-10769 - [CI] 整合測試在 master 中失敗
- ARROW-10774 - [R] 設定最低 cpp11 版本
- ARROW-10777 - [Packaging][Python] PyPI pyarrow 原始碼發行版 (sdist) 包含與架構相關的二進位檔案
- ARROW-10778 - [Python] 空 row group 的 RowGroupInfo.statistics 錯誤
- ARROW-10779 - [Java] 如果該索引的有效性已設定,UnionListWriter 中的 writeNull 方法無法正常運作
- ARROW-10780 - [R] 更新 CentOS 7 的已知 R 安裝問題
- ARROW-10791 - [Rust] StreamReader, read_dictionary 複製結構描述資訊
- ARROW-10801 - [Rust] [Flight] 支援為具有 RecordBatch 的字典傳送 FlightData
- ARROW-10803 - [R] 支援 R >= 3.3 並新增 CI
- ARROW-10804 - [Rust] 移除 parquet crate 上的 UB
- ARROW-10807 - [Rust][DataFusion] 避免雙重雜湊
- ARROW-10810 - [Rust] 加速比較核心
- ARROW-10811 - [R][CI] 移除 nightly centos6 建置
- ARROW-10823 - MutableArrayData with use_null false 產生錯誤結果
- ARROW-10830 - [Rust] json reader 不應在無效 json 上硬性崩潰
- ARROW-10833 - [Python] 避免使用 NumPy 的 PyArray_DescrCheck 巨集
- ARROW-10834 - [R] 修正 SubTreeFileSystem 的印表方法
- ARROW-10837 - [Rust] 使用 `Vec<u8>` 作為雜湊鍵
- ARROW-10840 - [C++] 從 FileMetaDataBuilder 建置時,Parquet FileMetaData 沒有 key_value_metadata
- ARROW-10842 - [Rust] 將 IO 與 json 結構描述推斷程式碼分離
- ARROW-10844 - [Rust] [DataFusion] 無法聯結兩個 DataFrame
- ARROW-10850 - [R] 無法辨識的壓縮類型:LZ4
- ARROW-10852 - [C++] 如果左側陣列具有更多列,AssertTablesEqual(verbose=true) 會區段錯誤
- ARROW-10854 - [Rust] [DataFusion] 簡化的邏輯掃描
- ARROW-10855 - [Python][Numpy] 將 NumPy 升級到 1.20.0rc1 後出現 ArrowTypeError
- ARROW-10856 - [R] CentOS 7 未正確識別編譯器版本
- ARROW-10859 - [Rust] [DataFusion] 使 collect 不需要 ExecutionContext
- ARROW-10860 - [Java] 避免 Vector 中產生的類別的整數溢位
- ARROW-10863 - [Python] ExtensionArray.to_pandas 無效
- ARROW-10863 - [Python] ExtensionArray.to_pandas 無效
- ARROW-10875 - 簡化 simd cfg 檢查
- ARROW-10876 - [Rust] json reader 應驗證值類型
- ARROW-10897 - [Rust] 在 DataType::Timestamp 中將 Arc<String> 替換為 String
- ARROW-10907 - [Rust] 將 UTF8 轉換為 Date64 不正確
- ARROW-10913 - [Python][Doc] 檔案系統文件中的程式碼區塊錯字
- ARROW-10914 - [Rust]: 算術核心的 SIMD 實作超出範圍讀取
- ARROW-10915 - [Rust] 使 ARROW_TEST_DATA 和 PARQUET_TEST_DATA 成為絕對目錄
- ARROW-10921 - 使用 pyarrow 通過 s3fs >= 0.5 讀取 parquet 分割區時,`TypeError: 'coroutine' object is not iterable`
- ARROW-10930 - [Python] LargeListType 沒有 value_field
- ARROW-10932 - [C++] 當資料為空時,BinaryMemoTable::CopyOffsets 存取超出範圍的位址
- ARROW-10932 - [C++] 當資料為空時,BinaryMemoTable::CopyOffsets 存取超出範圍的位址
- ARROW-10942 - [C++] S3FileSystem::Impl::IsEmptyDirectory 在 Amazon S3 上失敗
- ARROW-10943 - [Rust] parquet 編碼中的間歇性建置失敗
- ARROW-10954 - [C++][Doc] PlasmaClient 現在是 threadSafe,文件未更新
- ARROW-10955 - [C++] 讀取空的 json 列表會導致無效的不可空空值類型
- ARROW-10960 - [C++][FlightRPC] 遺失的 protobuf data_body 應導致空位元組的預設值,而不是空值
- ARROW-10962 - [Java][FlightRPC] FlightData 還原序列化器應接受遺失的欄位
- ARROW-10967 - [Rust] 使環境變數 ARROW_TEST_DATA 和 PARQUET_TEST_DATA 成為可選
- ARROW-10990 - [Rust]: 比較核心的 SIMD 實作超出範圍讀取
- ARROW-10994 - [Rust] 修正 TPC-H 檔案轉換中的錯誤
- ARROW-10996 - [Rust] 為 get_arrow_schema_from_metadata 透過 Result 傳回錯誤訊息
- ARROW-10999 - [Rust] Apache Spark 無法讀取 TPC-H parquet 檔案
- ARROW-11014 - [Rust] [DataFusion] ParquetExec 報告不正確的統計資訊
- ARROW-11023 - [C++][CMake] gRPC 不遵守 CMAKE_CXX_COMPILER
- ARROW-11024 - [C++][Parquet] 將 List<Struct> 寫入 parquet 時,有時會寫入錯誤的資料
- ARROW-11025 - [Rust] 布林核心的基準測試測量陣列建立
- ARROW-11030 - [Rust] [DataFusion] HashJoinExec 在許多批次的情況下速度緩慢
- ARROW-11048 - [Rust] 為 MutableBuffer 新增基準測試
- ARROW-11050 - [R] 在 write_parquet 中處理 RecordBatch
- ARROW-11067 - [C++] CSV reader 在 macOS 上為某些字串傳回空值
- ARROW-11069 - [C++] 當資料類型為 struct 時,Parquet writer 寫入不正確的資料
- ARROW-11073 - [Rust] CI 測試中 /arrow/rust/arrow/src/ipc/reader.rs 上的 Lint Error
- ARROW-11083 - [CI] 建置 “原始碼發行版和合併腳本” 已損壞
- ARROW-11084 - [Rust] Clippy 在 master 中失敗
- ARROW-11085 - [Rust] Rust CI 不再運作,因為它使用 action-rs:將 CI 從 action-rs/* 遷移出去
- ARROW-11092 - [CI] (暫時) 將違規工作流程移至個別檔案
- ARROW-11102 - [Rust][DataFusion] ScalarValue(Utf8) 的 fmt::Debug 始終被引號括住
- ARROW-11113 - [Rust] 支援 as_struct_array cast
- ARROW-11114 - [Java] Field 類別的中繼資料序列化已損壞
- ARROW-11132 - [CI] 使用 pip 安裝 crossbow 的相依性以用於註解機器人
- ARROW-11144 - [C++][Python][CI] 修正 HDFS nightly 建置
- ARROW-11152 - [CI][C++] 修正 macOS 建置上的 Homebrew numpy 安裝
- ARROW-11162 - [C++] 修正 Decimal256 Parquet 檔案上的崩潰 (OSS-Fuzz)
- ARROW-11163 - [C++][Python] 使用 pyarrow 0.17 寫入的壓縮 Feather 檔案在 pyarrow 2.0.0+ 中無法讀取
- ARROW-11166 - [Python][Compute] 為 ProjectOptions 新增綁定
- ARROW-11171 - [Go] 在 s390x 上使用 noasm 標籤建置失敗
- ARROW-11189 - [Developer] Achery 基準測試差異無法比較兩個 json
- ARROW-11190 - [C++][Dataset] 清理編譯器警告
- ARROW-11202 - [R][CI] Nightly 建置未發生 (或產物未匯出)
- ARROW-11224 - [R] 不要在舊版 R 上測試中繼資料序列化
- ARROW-11226 - [Python][CI] 檔案系統測試在 s3fs 0.5.2 上失敗
- ARROW-11227 - [Python][CI] AMD64 Conda Python 3.7 Pandas 0.24 cron job 在 to_pandas extension dtype 測試中失敗
- ARROW-11229 - [C++][Dataset] 靜態建置失敗
- ARROW-11230 - [R] 修正找到多個 libarrow 二進位檔案時 Windows 上的建置失敗
- ARROW-11232 - [C++] 如果 Table 沒有欄位,Table::CombineChunks() 會傳回不正確的結果
- ARROW-11233 - [C++][Flight] 無法與捆綁的 gRPC 和 Abseil 連結
- ARROW-11237 - [C++] 啟用 GLog 和 unity 建置時的編譯器錯誤
- ARROW-11251 - [CI] 確保 devtoolset-8 確實已安裝 + 正在使用
- ARROW-11253 - [R] 確保大型中繼資料測試可重現
- ARROW-11255 - [Packaging][Conda][macOS] 修正 Python 版本
- ARROW-11257 - [C++][Parquet] PyArrow Table 在從 Parquet 寫入和重新載入後包含不同的資料
- ARROW-11271 - [Rust] [Parquet] 列表結構描述到 Arrow 剖析器錯誤解譯子項可空性
- ARROW-11274 - [Packaging][wheel][Windows] 修正 Gemfury 的 wheels 路徑
- ARROW-11275 - [Packaging][wheel][Linux] 修正 Gemfury 的路徑
- ARROW-11277 - [C++] 修正 macOS 10.11 上資料集運算式中的編譯錯誤
- ARROW-11283 - [Julia] 修正安裝連結
- ARROW-11286 - [Release][Yum] 修正最小建置範例檢查
- ARROW-11287 - [Packaging][RPM] 新增遺失的相依性
- ARROW-11299 - [Python] python 中的建置警告
- ARROW-11301 - [C++] 修正讀取 Java Parquet 實作產生的 LZ4 壓縮 Parquet 檔案
- ARROW-11302 - [Release][Python] 移除 macOS 上 python 3.5 wheel 的驗證
- ARROW-11303 - [Release][C++] 在 windows 驗證腳本中啟用 mimalloc
- ARROW-11305 - [Rust]: parquet-rowcount 二進位檔案嘗試將自身開啟為 parquet 檔案
- ARROW-11306 - [Packaging][Ubuntu][16.04] 新增遺失的 libprotobuf-dev 相依性
- ARROW-11320 - [C++] 建立臨時目錄時的虛假測試失敗
- ARROW-11322 - [Rust] Arrow `memory` 設為私有是破壞性的 API 變更
- PARQUET-1935 - [C++][Parquet] 寫入不可空值陣列時的 nullptr 存取違規
新功能與改進
- ARROW-1846 - [C++] 實作布林資料的 “any” 約簡核心
- ARROW-3850 - [Python] 支援 MapType 和 StructType 以增強 PySpark 整合
- ARROW-4193 - [Rust] 新增對十進位資料類型的支援
- ARROW-4544 - [Rust] 將巢狀 JSON 結構讀取到 StructArrays 中
- ARROW-4804 - [Rust] 從 CSV 讀取時間值 - 在 CSV reader 中剖析 Date32 和 Date64
- ARROW-4960 - [R] 為 r-arrow-feedstock 新增 crossbow 工作
- ARROW-4970 - [C++][Parquet] 實作 parquet::FileMetaData::Equals
- ARROW-5336 - [C++] 為具有不相等字典的字典編碼陣列實作 arrow::Concatenate
- ARROW-5350 - [Rust] 支援對原始/字串列表進行篩選
- ARROW-5394 - [C++] IsIn 核心的基準測試
- ARROW-5679 - [Python] 從支援矩陣中移除 Python 3.5
- ARROW-5950 - [Rust] [DataFusion] 新增通過 logger 相依性記錄的能力
- ARROW-6071 - [C++] 實作轉換 Binary <-> LargeBinary
- ARROW-6697 - [Rust] [DataFusion] 驗證所有 parquet 分割區是否具有相同的結構描述
- ARROW-6715 - [網站] 在安裝頁面中描述 Plasma 套件所需的 “非免費” 組件
- ARROW-6883 - [C++] 支援在 IPC 串流 writer 類別中傳送 delta DictionaryBatch 或 replacement DictionaryBatch
- ARROW-6995 - [Packaging][Crossbow] Windows conda 產物未上傳到 GitHub 版本
- ARROW-7531 - [C++] 研究標頭成本降低
- ARROW-7633 - [C++][CI] 為 tensors 和 sparse tensors 建立模糊測試目標
- ARROW-7800 - [Python] 在 PyArrow 中公開 GetRecordBatchReader API
- ARROW-7842 - [Rust] [Parquet] 為列表類型實作陣列 reader
- ARROW-8113 - [C++] 實作更輕量級的變體
- ARROW-8199 - [C++] 在 Table 上新增對多欄位排序的支援
- ARROW-8289 - [Rust] [Parquet] 實作最小 Arrow Parquet writer 作為完整 writer 的起點
- ARROW-8423 - [Rust] [Parquet] 在寫入 parquet 時將 arrow 結構描述序列化為中繼資料
- ARROW-8425 - [Rust] [Parquet] 新增對寫入時間類型的支援
- ARROW-8426 - [Rust] [Parquet] 新增對寫入字典類型的支援
- ARROW-8426 - [Rust] [Parquet] 新增對寫入字典類型的支援
- ARROW-8853 - [Rust] [整合測試] 啟用 Flight 測試
- ARROW-8876 - [C++] 實作從日期類型到 Timestamp 的轉換
- ARROW-8883 - [Rust] [整合測試] 啟用通過測試並更新規格文件
- ARROW-9001 - [R] 在 call_function 中將輸出框選為正確的類型
- ARROW-9128 - [C++] 實作字串空格修剪核心:trim、ltrim 和 rtrim
- ARROW-9164 - [C++] 提供 API 以將 “docstrings” 新增至可由綁定存取的 arrow::compute::Function 類別
- ARROW-9187 - [R] 為算術核心新增綁定
- ARROW-9296 - [CI][Rust] 啟用更多 clippy lint 檢查
- ARROW-9304 - [C++] 為在 StructBuilder::AppendNull 內部使用新增 “AppendEmptyValue” 建置器 API
- ARROW-9361 - [Rust] 將其他陣列類型移至其自己的模組
- ARROW-9400 - [Python] 在 Windows wheel 建置中,不要依賴 conda-forge 靜態函式庫
- ARROW-9475 - [Java] 清理 BaseAllocator 的用法,改用 BufferAllocator
- ARROW-9489 - [C++] 為 (array[string], scalar[string]) 新增 fill_null 核心實作
- ARROW-9555 - [Rust] [DataFusion] 新增內部 (雜湊) 等值聯結實體計畫
- ARROW-9564 - [Packaging] 供應 r-arrow-feedstock conda-forge 配方
- ARROW-9674 - [Rust] Parquet 讀取器應實作 Send + Sync
- ARROW-9704 - [Java] TestEndianness.testLittleEndian 在大端平台失敗
- ARROW-9707 - [Rust] [DataFusion] 重新實作執行緒模型
- ARROW-9709 - [Java] arrow-vector 中的測試案例假設為小端平台
- ARROW-9728 - [Rust] [Parquet] 計算 struct 的巢狀定義和重複
- ARROW-9747 - [C++][Java][Format] 支援 Decimal256 類型
- ARROW-9771 - [Rust] [DataFusion] 述詞下推改進:分別處理以 AND 分隔的述詞
- ARROW-9803 - [Go] 新增 s390x 的初始支援
- ARROW-9804 - [FlightRPC] 身份驗證重新設計
- ARROW-9828 - [Rust] [DataFusion] TableProvider trait 應支援述詞下推
- ARROW-9861 - [Java] 大端平台上的 Arrow Vector 失敗
- ARROW-9862 - 在大端平台上,UnsafeDirectLittleEndian 中拋出例外
- ARROW-9911 - [Rust][DataFusion] 沒有 FROM 子句的 SELECT <expression> 應產生單列輸出
- ARROW-9945 - [C++][Dataset] 重構 Expression::Assume 以返回 Result
- ARROW-9991 - [C++] 分割字串/二進制的核心
- ARROW-10002 - [Rust] Trait-specialization 需要 nightly 版本
- ARROW-10021 - [C++][Compute] 支援在 mode 核心中尋找第 n 個最常用的值
- ARROW-10032 - [Documentation] C++ Windows 文件已過時
- ARROW-10079 - [Rust]: 基準測試並改進 count_set_bits 函數
- ARROW-10095 - [Rust] [Parquet] 更新以符合 IPC 變更
- ARROW-10097 - [C++] 在過濾資料集批次時,持久化 IsIn 的 SetLookupState
- ARROW-10106 - [FlightRPC][Java] 在 OutboundStreamListener 上公開 onIsReady() 回調
- ARROW-10108 - [Rust] [Parquet] 修復關於未使用返回值的編譯器警告
- ARROW-10109 - [Rust] 新增支援以產生 C Data interface
- ARROW-10110 - [Rust] 新增支援以消耗 C Data Interface
- ARROW-10131 - [C++][Dataset] 在 ParquetDatasetFactory 和 ParquetFileFragment 中延遲解析 parquet 元數據 / 統計資訊
- ARROW-10135 - [Rust] [Parquet] 重構 file 模組以協助新增來源
- ARROW-10143 - [C++] ArrayRangeEquals 應接受 EqualOptions
- ARROW-10144 - [Flight] 新增使用 TLS_SNI 擴展的支援
- ARROW-10149 - [Rust] 新增對外部釋放非擁有緩衝區的支援
- ARROW-10163 - [Rust] [DataFusion] 新增 DictionaryArray 強制轉換支援
- ARROW-10168 - [Rust] [Parquet] 將 arrow schema 轉換擴展到 projected fields
- ARROW-10173 - [Rust][DataFusion] 提升等式對常數述詞支援的效能
- ARROW-10180 - [C++][Doc] 更新 dependency management 文件,以遵循 aws-sdk-cpp 的新增
- ARROW-10182 - [C++] 為 futures 新增基本延續支援
- ARROW-10191 - [Rust] [Parquet] 為單欄批次新增往返測試
- ARROW-10197 - [Gandiva][python] 在過濾的資料上執行表達式
- ARROW-10203 - [Doc] 在貢獻者指南中捕捉關於 endianness 支援的指導
- ARROW-10207 - [C++] 結果為 list 的 Unary kernels 沒有預先分配的 offset buffer
- ARROW-10208 - [C++] 字串分割核心在 sliced input 上無法正確傳播 null
- ARROW-10216 - [Rust] 原始類型的 min/max 聚合核心的 Simd 實作
- ARROW-10224 - [Python] 新增對 Python 3.9 的支援,macOS wheel 和 Windows wheel 除外
- ARROW-10225 - [Rust] [Parquet] 修復往返測試中的 null bitmap 比較
- ARROW-10228 - [Julia] 捐贈 Julia 實作
- ARROW-10236 - [Rust] [DataFusion] 使 DataFusion 轉換規則與 cast 核心一致
- ARROW-10241 - [C++][Compute] 新增 variance 核心基準測試
- ARROW-10249 - [Rust]: 在 arrow json reader 中支援 ListArrays 的 Dictionary 類型
- ARROW-10259 - [Rust] 支援 field metadata
- ARROW-10261 - [Rust] [BREAKING] Lists 應採用 Field 而非 DataType
- ARROW-10263 - [C++][Compute] 提升 variances 合併的數值穩定性
- ARROW-10268 - [Rust] 支援將 dictionaries 寫入 IPC file 和 stream
- ARROW-10269 - [Rust] 更新 nightly: Oct 2020 Edition
- ARROW-10277 - [C++] 支援近似比較 scalars
- ARROW-10289 - [Rust] 支援讀取 dictionary streams
- ARROW-10292 - [Rust] [DataFusion] 簡化 merge
- ARROW-10295 - [Rust] [DataFusion] 簡化 accumulators
- ARROW-10299 - [Rust] 支援讀取和寫入 V5 版本的 IPC metadata
- ARROW-10300 - [Rust] 改進用於生成/轉換 TPC-H 資料的基準測試文件
- ARROW-10301 - [C++] 新增 "all" 布林縮減核心
- ARROW-10302 - [Python] 不要重複打包 plasma-store-server
- ARROW-10304 - [C++][Compute] 優化整數的 variance 核心
- ARROW-10310 - [C++][Gandiva] 在 Gandiva 中新增單一參數 round()
- ARROW-10311 - [Release] 更新 crossbow 驗證流程
- ARROW-10313 - [C++] 提升 UTF8 驗證速度和 CSV 字串轉換
- ARROW-10318 - [C++] 在 CSV parser 中使用 pimpl idiom
- ARROW-10319 - [Flight][Go] 為 Flight 的 Client Auth Handler 函數新增 Context
- ARROW-10320 - [Rust] 將 RecordBatchIterator 轉換為 Stream
- ARROW-10322 - [C++][Dataset] 將 Expression 最小化為 compute::Function 的包裝器
- ARROW-10323 - [Release][wheel] 新增遺失的驗證設定步驟
- ARROW-10325 - [C++][Compute] 分離 aggregate 核心註冊
- ARROW-10328 - [C++] 考慮使用 fast-double-parser
- ARROW-10330 - [Rust][Datafusion] 為 DataFusion 實作 nullif() 函數
- ARROW-10331 - [Rust] [DataFusion] 重新組織 errors
- ARROW-10332 - [Rust] 允許 CSV reader 從某一行開始
- ARROW-10334 - [Rust] [Parquet] 支援讀取和寫入 Arrow NullArray
- ARROW-10336 - [Rust] 為字串支援 fromIter 和 toIter
- ARROW-10337 - [C++] 更寬鬆地解析帶有小數秒的 ISO8601 時間戳記
- ARROW-10338 - [Rust]: 為適用的方法使用 const fn
- ARROW-10340 - [Packaging][deb][RPM] 為 pygit2 使用 Python 3.8
- ARROW-10356 - [Rust] [DataFusion] 新增 is_in 的支援
- ARROW-10363 - [Python] 移除 manylinux 中 CMake bug 的 workaround
- ARROW-10366 - [Rust] [DataFusion] 從 merge 中移除 collect
- ARROW-10375 - [Rust] 移除 PrimitiveArrayOps
- ARROW-10378 - [Rust] 更新 take() 核心以支援 large lists
- ARROW-10381 - [Rust] 通用化 Arrow 以支援 MergeSort
- ARROW-10382 - [Rust] 修復錯字和拼寫
- ARROW-10383 - [Doc] 修復錯字和拼寫
- ARROW-10384 - [C++] 修復錯字和拼寫
- ARROW-10385 - [C++][Gandiva] 新增對 LLVM 11 的支援
- ARROW-10389 - [Rust][DataFusion] 使自訂來源實作 API 更加明確
- ARROW-10392 - [C++][Gandiva] 在評估 IN 表達式時避免字串複製
- ARROW-10396 - [Rust] [Parquet] 公開 SliceableCursor 和 FileSource
- ARROW-10398 - [Rust] [Parquet] 重新匯出 parquet::record::api::Field
- ARROW-10400 - 在使用 mutual TLS 時傳播 TLS client peer_identity
- ARROW-10402 - [Rust] 改進 array 相等性
- ARROW-10407 - [C++] Decimal256 中的除法支援
- ARROW-10408 - [Java] 將 Avro dependency 升級到 1.10
- ARROW-10410 - [Rust] 一些重構
- ARROW-10416 - [R] 在 Flight 中支援 Tables
- ARROW-10422 - [Rust] 移除未使用的 BinaryArrayBuilder
- ARROW-10424 - [Rust] 簡化 impl PrimitiveArray 的程式碼
- ARROW-10428 - [FlightRPC][Java] 新增 HTTP cookies 的支援
- ARROW-10445 - [Rust] 為 PrimitiveArrayIter 新增 DoubleEnded
- ARROW-10449 - [Rust] 使 dictionary keys 為 PrimitiveArray
- ARROW-10454 - [Rust][Datafusion] 支援從外部解析的檔案列表和 schema 建立 ParquetExec
- ARROW-10455 - [Rust] 修復 windows 上的 CI 快取未命中
- ARROW-10458 - [Rust] [Datafusion] context.create_logical_plan 不應採用可變的 self reference
- ARROW-10464 - [Rust] 實作將 TPC-H tbl 檔案轉換為 CSV 和 Parquet 的工具
- ARROW-10466 - [Rust] [Website] 更新實作狀態頁面
- ARROW-10467 - [FlightRPC][Java] 能夠將任意 client properties 傳遞到 server
- ARROW-10468 - [C++][Compute] 重構 FunctionExecutor -> KernelExecutor
- ARROW-10476 - [Rust] 允許從 &str 的迭代器建立字串 array
- ARROW-10477 - [Rust] 為二進制 arrays 新增迭代器支援
- ARROW-10478 - [Dev][Release] 將 Java 版本更正為 3.0.0-SNAPSHOT
- ARROW-10481 - [R] 綁定以新增、移除、取代 Table columns
- ARROW-10483 - [C++] 將 Executor 移動到單獨的 header 中
- ARROW-10484 - [C++] Future<{void,Status}> 可以更通用
- ARROW-10487 - [FlightRPC][C++] clients 中的基於 Header 的身份驗證
- ARROW-10490 - [C++][GLib] 使用 Xcode 12.0.1 建置失敗
- ARROW-10492 - [Java][JDBC] 允許使用者配置 SQL 類型和 Arrow 類型之間的映射
- ARROW-10504 - [C++] 抑制 RapidJSON 中的 UBSAN pointer-overflow 警告
- ARROW-10510 - [Rust] [DataFusion] 為 COUNT(DISTINCT) 新增基準測試
- ARROW-10515 - [Julia][Doc] 更新支援語言列表以包含 Julia
- ARROW-10522 - [R] 允許使用 names() 重新命名 Table 和 RecordBatch columns
- ARROW-10526 - [FlightRPC][C++] clients 中的 HTTP cookie 處理
- ARROW-10530 - [R] 可選擇在 linuxlibs.R 中使用 distro package
- ARROW-10531 - [Rust] [DataFusion] 邏輯計畫的更好顯示方式:Graphviz 和 Schema 資訊
- ARROW-10539 - [Packaging][Python] 使用 GitHub Actions 為 Windows 建置 wheels
- ARROW-10540 - [Rust] 允許任意 array 類型的 unary kernels
- ARROW-10541 - [C++] 將 re2 library 新增到 core arrow / ARROW_WITH_RE2
- ARROW-10542 - [C#][Flight] 為 net core 新增 flight 程式碼的開端
- ARROW-10543 - [Developer] 更新開發說明以註明可能存在時間延遲
- ARROW-10552 - [Rust] 從 Buffer 中移除未使用的 Result
- ARROW-10559 - [Rust] [DataFusion] 將 logical_plan/mod.rs 分解為更小的模組
- ARROW-10561 - [Rust] 簡化 `MutableBuffer::write` 和 `MutableBuffer::write_bytes`
- ARROW-10562 - [Rust] unsafe 程式碼上的潛在 UB
- ARROW-10566 - [C++] Array validation 應在 ArrayData 上運作
- ARROW-10567 - [C++][FlightRPC] 新增選項以協助提高 arrow-flight-benchmark 的精度
- ARROW-10572 - [Rust][DataFusion] 為 aggregates / distinct 使用 aHash 和 std::collections hashmap
- ARROW-10574 - [Python][Parquet] 允許 ‘in’ / ‘not in’ 篩選器使用 collections (除了 sets)
- ARROW-10575 - [Rust] 將 union.rs 重新命名為與其他 arrays 一致
- ARROW-10581 - [Doc] IPC dictionary 參考相關章節
- ARROW-10582 - [Rust] [DataFusion] 實作 “repartition” 運算子
- ARROW-10584 - [Rust] [DataFusion] 使用 explicit JOIN ON 語法實作 SQL join 支援
- ARROW-10585 - [Rust] [DataFusion] 為 DataFrame 和 LogicalPlan 新增 join 支援
- ARROW-10586 - [Rust] [DataFusion] 為 query planner 新增 join 支援
- ARROW-10589 - [Rust]: 實作 AVX-512 bit and operation
- ARROW-10590 - [Rust] 從測試中移除 Date32(Millisecond)
- ARROW-10591 - [Rust] 為 structArrays 的 MutableArrayData 新增支援
- ARROW-10595 - [Rust] 簡化非 null 情況下 min/max 核心的內部迴圈
- ARROW-10596 - [Rust] 改進 take 基準測試
- ARROW-10598 - [C++] 提升 GenerateBitsUnrolled 的效能
- ARROW-10604 - [Ruby] 支援 Decimal256 類型
- ARROW-10607 - [C++][Parquet] 在 Parquet 中支援讀取/寫入 Decimal256 類型
- ARROW-10609 - [Rust] 優化非 null 字串的 min/max
- ARROW-10628 - [Rust] 使 clippy 在 clippy 警告時報錯
- ARROW-10633 - [Rust][DataFusion] Dependency 版本升級
- ARROW-10634 - [C#][CI] 將 CI 中的建置版本從 2.2 變更為 3.1
- ARROW-10636 - [Rust] 從 Rust parquet 中移除 specialisation
- ARROW-10637 - [Rust] 為布林核心新增範例
- ARROW-10638 - [Rust] 改進布林核心的測試
- ARROW-10639 - [Rust] 簡化 is_null 的簽名並新增範例
- ARROW-10644 - [Python] 在 pyarrow.dataset 和 pyarrow.fs 中整合路徑/檔案系統處理
- ARROW-10646 - [C++][FlightRPC] 停用 flaky test
- ARROW-10648 - [Java] 準備 Java 程式碼庫以進行源碼發布,而無需建立或推送任何 git 標籤
- ARROW-10651 - [C++] s3fs.cc 中的 alloc-dealloc-mismatch
- ARROW-10652 - [C++][Gandiva] 使 gandiva 快取大小可配置
- ARROW-10653 - [Rust]: 更新工具鏈版本以帶來新功能
- ARROW-10654 - [Rust] 特製化 floats / bools 的解析
- ARROW-10660 - [Rust] 實作 AVX-512 bit or operation
- ARROW-10665 - [Rust] 為常見的 utf8 like 模式新增快速路徑
- ARROW-10666 - [Rust] [DataFusion] 支援巢狀 SELECT 陳述式
- ARROW-10669 - [C++][Compute] 支援布林核心的 Scalar 輸入
- ARROW-10672 - [Rust] [DataFusion] 使 limit 作為 stream 計算
- ARROW-10673 - [Rust] [DataFusion] 使 sort 在 stream 上計算
- ARROW-10674 - [Rust] 為 Decimal 類型新增整合測試
- ARROW-10677 - [Rust] 修復 Bug 並新增測試作為文件,展示支援的 csv 解析
- ARROW-10679 - [Rust] [DataFusion] 實作 SQL CASE WHEN 實體表達式
- ARROW-10680 - [Rust] [DataFusion] 實作 TPC-H Query 12
- ARROW-10682 - [Rust] Sort 核心效能調整
- ARROW-10685 - [Rust] [DataFusion] 為 join on filter pushdown optimizer 新增支援
- ARROW-10688 - [Rust] [DataFusion] 從 DataFrame API 支援 CASE WHEN
- ARROW-10689 - [Rust] [DataFusion] 從 SQL 支援 CASE WHEN
- ARROW-10693 - [Rust] [DataFusion] 新增對 left join 的支援
- ARROW-10696 - [C++] 研究一個 bit run reader,它只會返回 set bits 的 runs
- ARROW-10697 - [C++] 整合 bitmap word readers
- ARROW-10703 - [Rust] [DataFusion] 使 join 不在每個 part 上 collect left
- ARROW-10704 - [Rust][DataFusion] 從 expression enum 中移除 Nested
- ARROW-10708 - [Packaging][deb] 新增對 Ubuntu 20.10 的支援
- ARROW-10709 - [Python] 難以在 Python 中建立高效的零複製檔案讀取器
- ARROW-10712 - [Rust] [DataFusion] 為 TPC-H 基準測試新增測試
- ARROW-10717 - [Rust] [DataFusion] 新增對 right join 的支援
- ARROW-10720 - [C++] 新增 BasicDecimal256 Rescale 支援
- ARROW-10721 - [C#][CI] 預設使用 .NET 3.1
- ARROW-10722 - [Rust][DataFusion] 減少 aggregations / joins 中資料類型的 overhead,改進基準測試
- ARROW-10723 - [Packaging][deb][RPM] 啟用 Parquet encription
- ARROW-10724 - [Developer Tools] 為 PRs 需要 rebase 時新增標籤器
- ARROW-10725 - [Python][Compute] 公開 sort options 的綁定
- ARROW-10728 - [Rust] [DataFusion] 為帶有 USING 子句的 JOIN 新增 SQL 支援
- ARROW-10729 - [Rust] [DataFusion] 為使用 implicit 語法的 JOIN 新增 SQL 支援
- ARROW-10732 - [Rust] [DataFusion] 為 table/relation aliases 和 compound identifiers 新增 SQL 支援
- ARROW-10733 - [R] 改進 Linux 安裝疑難排解
- ARROW-10740 - [Rust][DataFusion] 移除 clippy 發現的冗餘 clones
- ARROW-10741 - 將 clippy lints 應用於原始碼,從忽略列表中移除它們
- ARROW-10742 - [Python] 從 numpy array 建立 array 時未檢查 Mask
- ARROW-10745 - [Rust] 在 filter context 中分配 padding bytes
- ARROW-10747 - [Rust] csv reader 的優化
- ARROW-10750 - [Rust] [DataFusion] 為 LEFT 和 RIGHT join 新增 SQL 支援
- ARROW-10752 - [GLib] 新增 garrow_schema_has_metadata()
- ARROW-10754 - [GLib] 為 GArrowField 新增 metadata 支援
- ARROW-10755 - [Rust] [Parquet] 新增寫入布林類型的支援
- ARROW-10756 - [Rust] Clippy - 修復 reduntant clone
- ARROW-10759 - [Rust][DataFusion] 實作在 sql 表達式中將字串轉換為 date 的支援
- ARROW-10763 - [Rust] 加速 take kernels
- ARROW-10765 - [Rust] 優化非 null arrays 的 take strings
- ARROW-10767 - [Rust] 加速帶有 nulls 的 sum 核心
- ARROW-10770 - [Rust] 支援讀取巢狀 JSON lists
- ARROW-10772 - [Rust] 改進 take 效能
- ARROW-10775 - [Rust][DataFusion] 在 hash join 中使用 ahash
- ARROW-10776 - [C++] 提供對 Array 內部原始元素的迭代器訪問
- ARROW-10781 - [Rust] [DataFusion] TableProvider 應提供 row count 統計資訊
- ARROW-10783 - [Rust] [DataFusion] 為 Parquet TableProvider 實作 row count 統計資訊
- ARROW-10785 - 進一步優化 take string
- ARROW-10786 - [Packaging][RPM] 放棄對 CentOS 6 的支援
- ARROW-10788 - [C++] 使 S3 遞迴 walks 平行化
- ARROW-10789 - [Rust][DataFusion] 使 TableProvider 動態類型化
- ARROW-10790 - [C++][Compute] 研究 ChunkedArray sort 效能
- ARROW-10792 - [Rust] [CI] 將 CI 模組化以實現更快更小的建置
- ARROW-10795 - [Rust] 修復 arrow 資料類型的 specialization
- ARROW-10796 - [C++] 研究 RecordBatch sort 效能
- ARROW-10800 - [Rust] [Parquet] 提供對 parquet::record::{List, Map} 元素的訪問
- ARROW-10802 - [C++] 移除 parquet column writer 中的 Dictionary[NullType] 特殊情況處理
- ARROW-10808 - [Rust] [DataFusion] 支援 aggregations 中的巢狀表達式
- ARROW-10809 - [C++] 為 SortIndices() 輸入使用 Datum
- ARROW-10812 - [Rust] 使 BooleanArray 不是 PrimitiveArray
- ARROW-10813 - [Rust] [DataFusion] 實作 DFSchema
- ARROW-10814 - [Packaging][deb] 放棄對 Debian GNU/Linux Stretch 的支援
- ARROW-10817 - [Rust] [DataFusion] 實作 TypedString
- ARROW-10820 - [Rust] [DataFusion] 完成 TPC-H 基準測試查詢
- ARROW-10821 - [Rust] [Datafusion] 實作 negative expression
- ARROW-10822 - [Rust] [Datafusion] 支援使用 simd 支援編譯 datafusion
- ARROW-10824 - [Rust] 為 NullArray 新增 PartialEq
- ARROW-10825 - [Rust] 為 NullArrays 的 MutableArrayData 新增支援
- ARROW-10826 - [Rust] 為 FixedSizeBinary 的 MutableArrayData 新增支援
- ARROW-10827 - [Rust] 將 concatenate 擴展到所有類型
- ARROW-10828 - [Rust][DataFusion] 啟用更多 clippy lints
- ARROW-10829 - [Rust] [DataFusion] 為 DFSchema 實作 Into<Schema>
- ARROW-10832 - [Rust] 評估最新的 snapshot flatc
- ARROW-10836 - [Rust] 將 take kernel 擴展到 FixedSizeListArray
- ARROW-10838 - [Rust] [CI] 為 wasm32 target 新增 CI
- ARROW-10839 - [Rust] [DataFusion] 實作 BETWEEN Operator
- ARROW-10843 - [C++] 為 sort family kernels 新增 temporal 類型的支援
- ARROW-10845 - [Python][CI] 使用 numpy nightly 新增 python CI 建置
- ARROW-10849 - [Python] 處理 builtin type aliases 的 numpy deprecation warnings
- ARROW-10851 - [C++] 減少 vector_sort.cc 的程式碼大小
- ARROW-10857 - [Packaging] 遵循 CentOS 8 上的 PowerTools repository 名稱變更
- ARROW-10858 - [C++][MSVC] 新增遺失的 Boost dependency
- ARROW-10861 - [Python] 將 minimal NumPy 版本更新到 1.16.6
- ARROW-10864 - [Rust] 為 floats 使用標準排序
- ARROW-10865 - [Rust][DataFusion] Schema、SchemaRef、DFSchema 和 DFSchemaRef 之間更符合人體工學的轉換
- ARROW-10867 - 在 aarch64 上使用 -DARROW_PYTHON=ON 和 gcc 建置失敗
- ARROW-10869 - [GLib] 新增 garrow_*_sort_indices() 和相關選項
- ARROW-10870 - [Julia] 使用 Julia 實作更新網站
- ARROW-10871 - [Julia] 透過 GitHub Actions 設定 Julia CI
- ARROW-10873 - [C++] Apple Silicon 在 CMake 中報告為 arm64
- ARROW-10874 - [Rust][DataFusion] 為 MemTable 新增 table statistics
- ARROW-10877 - [Rust] [DataFusion] 新增基於 kaggle movies 的基準測試
- ARROW-10878 - [Rust] 簡化 extend_from_slice
- ARROW-10879 - [Packaging][deb] 還原 Debian GNU/Linux Buster 配置
- ARROW-10881 - [C++] BaseSetBitRunReader<false>::NextRun 中的 EXC_BAD_ACCESS
- ARROW-10885 - [Rust][DataFusion] 基於行號統計資訊優化 join build 與 probe
- ARROW-10887 - [C++][Doc] 文件化 IPC API
- ARROW-10889 - [Rust] 在 README 中文件化我們對 unsafe 程式碼的方法
- ARROW-10890 - [Rust] [DataFusion] JOIN 支援
- ARROW-10891 - [Rust][DataFusion] 更多 clippy lints
- ARROW-10893 - [Rust] [DataFusion] 更容易的 clippy 修復
- ARROW-10896 - [C++][CMake] 將內部 RE2 package 名稱從 “RE2” 重新命名為 “re2”
- ARROW-10900 - [Rust][DataFusion] 積極解析 TableScan provider
- ARROW-10904 - [Python] 新增對 Python 3.9 macOS wheels 的支援
- ARROW-10905 - [Python] 新增對 Python 3.9 windows wheels 的支援
- ARROW-10908 - [Rust] [DataFusion] 使用 BETWEEN 更新相關的 tpch-queries
- ARROW-10917 - [Rust][Doc] 更新功能矩陣
- ARROW-10918 - [C++][Doc] 文件化支援的 Parquet 功能
- ARROW-10927 - [Rust] [Parquet] 為物理類型 fixed size binary 將 Decimal 新增到 ArrayBuilderReader
- ARROW-10927 - [Rust] [Parquet] 為物理類型 fixed size binary 將 Decimal 新增到 ArrayBuilderReader
- ARROW-10927 - [Rust] [Parquet] 為物理類型 fixed size binary 將 Decimal 新增到 ArrayBuilderReader
- ARROW-10929 - [Rust] 將 CI 測試遷移到 stable rust
- ARROW-10933 - [Rust] 更新關於 stable rust 的文件
- ARROW-10934 - [Python] 使用 fsspec-0.8.5 時測試失敗
- ARROW-10938 - [Rust] 將 dependency “flatbuffers” 升級到 0.8
- ARROW-10940 - [Rust] 將 sort kernel 擴展到 ListArray
- ARROW-10941 - [Doc][C++] 文件化支援的 Parquet 加密功能
- ARROW-10944 - [Rust] 實作 BooleanArray 的 min/max kernels
- ARROW-10946 - [Rust] 使 ChunkIter 不依賴於 buffer
- ARROW-10947 - [Rust][DataFusion] 重構 UTF8 為 Date32 以提升效能
- ARROW-10948 - [C++] 永遠使用 GTestConfig.cmake
- ARROW-10949 - [Rust] 避免在取得布林陣列的值時進行複製
- ARROW-10951 - [Python][CI] 每晚 pandas 建置因 pytest monkeypatch 問題而失敗
- ARROW-10952 - [Rust] 新增 pre-commit hook
- ARROW-10966 - [C++] 為 ThreadPool 的任務使用 FnOnce 而非 std::function
- ARROW-10968 - [Rust][DataFusion] 不要為 join 的右側建立雜湊表
- ARROW-10969 - [Rust][DataFusion] 實作 ANSI SQL 函數
- ARROW-10985 - [Rust] 更新新增 JIRA 參考的不安全程式碼指南
- ARROW-10986 - [Rust][DataFusion] 也為 TCP-H 基準測試新增平均統計
- ARROW-10988 - [C++] 要求 CMake 3.5 或更高版本
- ARROW-10989 - [Rust] 使用切片來迭代原始陣列
- ARROW-10993 - [CI][macOS] 透過 Homebrew 修復 Python 3.9 安裝問題
- ARROW-10995 - [Rust] [DataFusion] 改善讀取 Parquet 檔案時的平行處理能力
- ARROW-11004 - [FlightRPC][Python] 用戶端中基於標頭的身份驗證
- ARROW-11005 - [Rust] 從 take 核心移除間接引用並簡化介面
- ARROW-11008 - [Rust][DataFusion] 簡化計數累加器
- ARROW-11009 - [Python] 新增環境變數以選擇預設使用系統記憶體分配器而非 jemalloc/mimalloc
- ARROW-11010 - [Python] `np.float` 在 `_pandas_logical_type_map` 中的棄用警告
- ARROW-11012 - [Rust] [DataFusion] 使 write_csv 和 write_parquet 成為並行
- ARROW-11015 - [CI][Gandiva] 將 gandiva 每晚建置從 travis 移至 github action
- ARROW-11018 - [Rust][DataFusion] 新增 null 計數欄位統計資訊
- ARROW-11026 - [Rust]: 執行測試時不需環境變數
- ARROW-11028 - [Rust] 有點吹毛求疵的模式匹配
- ARROW-11029 - [Rust] [DataFusion] 說明為何 join 順序最佳化不適用於篩選條件下推
- ARROW-11032 - [C++][FlightRPC] 為透過 unix socket 的本機 RPC 新增基準測試
- ARROW-11033 - [Rust] CSV 寫入器效能改進
- ARROW-11034 - [Rust] rustfmt 清理
- ARROW-11035 - [Rust] 改善透過 FromIter 轉換為 utf8 的效能
- ARROW-11037 - [Rust] 改善 string fromIter 的效能
- ARROW-11038 - [Rust] 移除 `BufferBuilderTrait` 和相關的 Result 要求。
- ARROW-11039 - [Rust] 改善 utf8 轉換為 float 的效能
- ARROW-11040 - [Rust] 使用泛型簡化 builders
- ARROW-11042 - [Rust][DataFusion] 增加預設批次大小
- ARROW-11043 - [C++] 新增 “is_nan” 核心
- ARROW-11046 - [Rust][DataFusion] 將 count_distinct 新增至 dataframe API
- ARROW-11049 - [Python] 公開替代記憶體池
- ARROW-11052 - [Rust] [DataFusion] 在 join 運算子中實作指標
- ARROW-11053 - [Rust] [DataFusion] 最佳化具有輸出批次動態容量的 joins
- ARROW-11054 - 更新 SQLParser 至 0.70
- ARROW-11055 - [Rust] [DataFusion] 支援 date_trunc 函數
- ARROW-11058 - [Rust] [DataFusion] 實作 “coalesce batches” 運算子
- ARROW-11063 - [Rust] 在建置陣列時驗證 null 計數
- ARROW-11064 - [Rust][DataFusion] 加速較小批次上的雜湊 join
- ARROW-11072 - [Rust] [Parquet] 支援 int32 和 int64 物理類型
- ARROW-11076 - [Rust][DataFusion] 重構雜湊 join 中右側索引的使用方式
- ARROW-11079 - [R] 趕上自 2.0 以來的變更日誌
- ARROW-11080 - [C++][Dataset] 改善隱含轉換
- ARROW-11082 - [Rust] 為 LargeUtf8 新增 FFI
- ARROW-11086 - [Rust] 擴展 take 以支援更多索引類型
- ARROW-11091 - [Rust][DataFusion] 修復 rust 1.49 中的 clippy 警告
- ARROW-11095 - [Python] 透過名稱存取 pyarrow.RecordBatch 欄位
- ARROW-11096 - [Rust] 為 [Large]Binary 新增 FFI
- ARROW-11097 - [Rust] 簡化測試
- ARROW-11099 - [Rust]: 從 PrimitiveArray 和 BooleanArray 移除不安全的 value_slice 方法
- ARROW-11100 - [Rust] 使用 lexical_core 加速數值轉換為字串
- ARROW-11101 - [Rust] 在 git pre-commit hook 中啟用 “cargo +nightly fmt”
- ARROW-11104 - [GLib] 將 append_null/append_nulls 新增至 GArrowArrayBuilder 並使用它們
- ARROW-11105 - [Rust] 在 MutableBuffer 中偏好 From/Into traits
- ARROW-11108 - [Rust] 改善 MutableBuffer 的效能
- ARROW-11109 - [GLib] 新增 garrow_array_builder_append_empty_value() 和 values()
- ARROW-11110 - [Rust] [Datafusion] context.table 不應接受可變的 self 參考
- ARROW-11111 - [GLib] 新增 GArrowFixedSizeBinaryArrayBuilder
- ARROW-11121 - [Developer] 為 PR JIRA 整合使用 pull_request_target
- ARROW-11122 - [Rust] 為日期和時間新增 FFI
- ARROW-11124 - [Doc] 更新 Decimal256 的狀態矩陣
- ARROW-11125 - [Rust] 為 list 陣列實作邏輯相等
- ARROW-11126 - [Rust] 文件化並測試 ARROW-10656
- ARROW-11127 - [C++] 在非 x86 架構上未使用 cpu_info
- ARROW-11129 - [Rust][DataFusion] 使用 tokio thread pool 載入 parquet
- ARROW-11130 - [Website][CentOS 8][RHEL 8] 預設啟用所有必要的儲存庫
- ARROW-11131 - [Rust] 改善 bool_equal 的效能
- ARROW-11136 - [R] is.nan 的綁定
- ARROW-11137 - [Rust][DataFusion] 修復 Clippy needless_range_loop, needless_lifetimes
- ARROW-11138 - [Rust] [DataFusion] 支援 ltrim, rtrim
- ARROW-11139 - [GLib] 新增對擴展類型的支援
- ARROW-11155 - [C++][Packaging] 將 gandiva crossbow jobs 從 Travis-CI 移出
- ARROW-11158 - [Julia] 實作 Decimal256 支援
- ARROW-11159 - [Developer] 整合與 pull request 相關的 jobs
- ARROW-11165 - [Rust] [DataFusion] 文件化 DataFusion 期望的 SQL 方言
- ARROW-11168 - [Rust] 修復 cargo doc 警告
- ARROW-11169 - [Rust] 新增註解說明 float total_order 演算法的來源
- ARROW-11175 - [R] 小型的文件修正
- ARROW-11176 - [R] 公開記憶體池名稱並文件化設定方式
- ARROW-11187 - [Rust] [Parquet] 釘住特定的 parquet-format-rs 版本
- ARROW-11188 - [Rust] 實作 PostgreSQL 方言的加密函數
- ARROW-11193 - [Documentation] 為 Java ListVector 新增文件
- ARROW-11194 - [Rust] 為 aarch64 啟用 SIMD
- ARROW-11195 - [Rust] [DataFusion] 內建表格提供者應公開相關欄位
- ARROW-11196 - [GLib] 使用 factory 函數新增對 mock、HDFS 和 S3 檔案系統的支援
- ARROW-11198 - [Packaging][Python] 確保建置期間 setuptools 版本支援 markdown
- ARROW-11200 - [Rust] [DateFusion] 物理運算子和表達式應具有公開的存取方法
- ARROW-11201 - [Rust] create_batch_empty - 支援更多類型
- ARROW-11203 - [Developer][Website] 啟用 JIRA 和 pull request 整合
- ARROW-11204 - [C++] 修復與捆綁 gRPC 和 Protobuf 的建置失敗問題
- ARROW-11205 - [GLib][Dataset] 新增 GADFileFormat 及其系列
- ARROW-11209 - [Rust] DF - 在不支援的 GROUP BY 上提供更好的錯誤訊息
- ARROW-11210 - [CI] 還原已被 INFRA 封鎖的工作流程
- ARROW-11212 - [Packaging][Python] 使用 vcpkg 作為 manylinux 和 windows wheels 的依賴來源
- ARROW-11213 - [Packaging][Python] 在 windows 上 Dockerize wheel 建置
- ARROW-11215 - [CI] 預設為 docker-compose 中的快取使用具名卷
- ARROW-11216 - [Rust] 改善 StringDictionaryBuilder 的文件
- ARROW-11218 - [R] 使 SubTreeFileSystem print 方法更具資訊性
- ARROW-11219 - [CI][Ruby][MinGW] 縮短 CI 時間
- ARROW-11221 - [Rust] DF 實作 Float32/Float64 的 GROUP BY 支援
- ARROW-11231 - [Packaging] 將 mimalloc 新增至 Linux 建置
- ARROW-11234 - [CI][Ruby][macOS] 縮短 CI 時間
- ARROW-11236 - [Java] 將 Jackson 升級至 2.11.4
- ARROW-11240 - [Packaging][R] 將 mimalloc 新增至 R 套件
- ARROW-11242 - [CI] 移除 CMake 3.2 工作
- ARROW-11245 - [C++][Gandiva] 新增對 LLVM 11.1 的支援
- ARROW-11247 - [C++] 在 CSV 中推斷 date32 欄位
- ARROW-11256 - [Packaging][Linux] 不要緩衝處理套件輸出
- ARROW-11268 - [Rust][DataFusion] 支援在 MemTable 中指定重新分區
- ARROW-11272 - [Release][wheel] 移除不支援的 Python 3.5 和 manylinux1
- ARROW-11273 - [Release][deb] 移除不支援的 Debian GNU/Linux stretch
- ARROW-11278 - [Release][NodeJS] 不要碰觸 ~/.bash_profile
- ARROW-11280 - [Release][APT] 修復最小建置範例檢查
- ARROW-11281 - [C++] 移除不必要的執行時期 RapidJSON 依賴
- ARROW-11282 - [Packaging][deb] 新增遺失的 libgflags-dev 依賴
- ARROW-11285 - [Release][APT] 新增對 Ubuntu Groovy 的支援
- ARROW-11292 - [Release][JS] 使用 Node.JS LTS
- ARROW-11293 - [C++] 使用 find_package(Arrow) 時不需 Boost 和 gflags
- ARROW-11307 - [Release][Ubuntu][20.10] 為依賴問題新增解決方案
- ARROW-11309 - [Release][C#] 使用 .NET 3.1 進行驗證
- ARROW-11329 - [Rust] 不要針對每次變更重建程式庫
- ARROW-11372 - 支援 macOS-ARM64 上的 RC 驗證
- PARQUET-1566 - [C++] 指示 null 計數、相異計數是否出現在欄位統計資訊中