Apache Arrow 11.0.0 (2023年1月26日)
這是一個主要版本,涵蓋超過 3 個月的開發。
下載
貢獻者
此版本包含來自 95 位不同貢獻者的 516 個提交。
$ git shortlog -sn apache-arrow-10.0.0..apache-arrow-11.0.0
83 Sutou Kouhei
35 Matt Topol
28 Raúl Cumplido
25 Dewey Dunnington
21 Alenka Frim
21 Antoine Pitrou
20 Jacob Wujciak-Jens
17 David Li
17 Miles Granger
16 Weston Pace
15 Joris Van den Bossche
15 Will Jones
14 Nic Crane
10 Neal Richardson
10 Vibhatha Lakmal Abeykoon
9 rtpsw
8 eitsupi
7 Ben Harkins
7 Jin Shang
6 Alessandro Molina
6 Bryce Mecum
6 Fatemah Panahi
6 Gang Wu
6 Larry White
6 mwish
5 gf2121
4 David Sisson
4 Hirokazu SUZUKI
4 LouisClt
3 0x26res
3 Rok Mihevc
3 h-vetinari
2 Austin Dickey
2 Benson Muite
2 Jonathan Keane
2 Kshiteej K
2 Libor Ryšavý
2 Nikita Eshkeev
2 Percy Camilo Triveño Aucahuasi
2 Sasha Krassovsky
2 Todd Farmer
2 Yibo Cai
2 buaazhwb
2 dependabot[bot]
2 lafiona
1 0xflotus
1 André Kohn
1 Anja Kefala
1 Benjamin Kietzman
1 Daniel Sullivan
1 Danielle Navarro
1 Dean Attali
1 Dhulkifli Hussein
1 Dominik Moritz
1 Dongjoon Hyun
1 Dr. Jan-Philip Gehrcke
1 ElenaHenderson
1 Felipe Oliveira Carvalho
1 Frederick Jansen
1 Hadley Wickham
1 Ian Cook
1 JacekPliszka
1 JiaKe
1 Jianshen Liu
1 Jonas Haag
1 Joost Hoozemans
1 Julien Roncaglia
1 Kae S
1 Kazuaki Ishizaki
1 Kyle Barron
1 Laurent Quérel
1 Lionel Henry
1 Mark Schreiber
1 Matti Picus
1 Noah Treuhaft
1 Paul Taylor
1 Pierre Gramme
1 Quang Hoang
1 Sahaj Gupta
1 Sanjiban Sengupta
1 Sho Nakatani
1 Siddhant Rao
1 Tamas Mate
1 Tao He
1 Thomas Sarlandie
1 Tomek Drabas
1 William Ayd
1 Y
1 Yue
1 emkornfield
1 fdzuJ
1 kambhamvivekshankar
1 lukester1975
1 martin-kokos
1 zagto
Patch 提交者
以下 Apache 提交者將貢獻的 patch 合併到儲存庫中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-10.0.0..apache-arrow-11.0.0
148 Sutou Kouhei
89 Antoine Pitrou
50 Joris Van den Bossche
36 David Li
36 Matt Topol
34 Weston Pace
24 Dewey Dunnington
24 Nic Crane
16 Jacob Wujciak-Jens
13 Will Jones
8 Neal Richardson
6 Raúl Cumplido
6 Yibo Cai
4 Alessandro Molina
4 Rok Mihevc
3 Dominik Moritz
3 Jonathan Keane
2 Alenka Frim
1 Micah Kornfield
1 dependabot[bot]
更新日誌
Apache Arrow 11.0.0 (2023-01-25 08:00:00)
新功能與改進
- ARROW-4709 - [C++] 針對排序後的 JSON 欄位進行最佳化 (#14100)
- ARROW-11776 - [C++][Java] 支援從 ArrowReader 寫入 Parquet 檔案 (#14151)
- ARROW-13938 - [C++] 日期和日期時間類型應從字串自動轉換
- ARROW-13980 - [Go] 實作純量 ApproxEquals (#14543)
- ARROW-14161 - [C++][Docs] 改善 Parquet C++ 文件 (#14018)
- ARROW-14832 - [R] 實作 stringr::str_remove 和 stringr::str_remove_all 的綁定 (#14644)
- ARROW-14999 - [C++] Map 和 List 類型的可選欄位名稱相等性檢查 (#14847)
- ARROW-15006 - [Python][Doc] 在 CI 中新增五個 numpydoc 檢查 (#15214)
- ARROW-15006 - [Python][CI][Doc] 啟用 numpydoc 檢查 PR03 (#13983)
- ARROW-15206 - [Ruby] 新增
Arrow::Table.load(uri, schema:)
的支援 (#15148) - ARROW-15460 - [R] 實作 as.data.frame.Dataset 方法 (#14461)
- ARROW-15470 - [R] 在 CSV writer 中設定 null 值 (#14679)
- ARROW-15538 - [C++] 擴展從 Substrait 到 Acero 的數學函數覆蓋範圍 (#14434)
- ARROW-15592 - [C++] 在 substrait::PlanRel 中新增自訂輸出欄位名稱的支援 (#14292)
- ARROW-15691 - [Dev] 更新 archery 以使用 master 或 main 作為預設分支 (#14033)
- ARROW-15732 - [C++] 當 use_threads 為 false 時,不要在執行計畫中使用任何 CPU 線程 (#15104)
- ARROW-15812 - [R] 在 CSV 的 open_dataset 中接受 col_names (#14705)
- ARROW-16266 - [R] 新增 StructArray$create() (#14922)
- ARROW-16337 - [Python] 公開啟用/停用在 Parquet metadata 中儲存 Arrow schema 的旗標 (#13000)
- ARROW-16430 - [Python] 新增讀取 record batch 自訂 metadata API 的支援 (#13041)
- ARROW-16480 - [R] 更新 read_csv_arrow 和 open_dataset parse_options、read_options 和 convert_options 以接受列表 (#15270)
- ARROW-16616 - [Python] 新增惰性 Dataset.filter() 方法 (#13409)
- ARROW-16673 - [Java] 將 C Data 整合到 allocator 層級結構中 (#14506)
- ARROW-16728 - [Python] 當傳遞舊檔案系統時,ParquetDataset 仍然採用舊版程式碼路徑 (#15269)
- ARROW-16728 - [Python] 在 ParquetDataset 中切換預設值並棄用 use_legacy_dataset=True (#14052)
- ARROW-16782 - [Format] 將 REE 定義新增到 FlatBuffers (#14176)
- ARROW-17025 - [Dev] 從合併提交訊息中移除 github 使用者名稱連結 (#14458)
- ARROW-17144 - [C++][Gandiva] 新增 sqrt 函數 (#13656)
- ARROW-17187 - [R] 改善 String 的惰性 ALTREP 實作 (#14271)
- ARROW-17212 - [Python] 支援惰性 Dataset.filter
- ARROW-17301 - [C++] 實作計算函數 “binary_slice” (#14550)
- ARROW-17302 - [R] 為 S3 設定 curl timeout policy (#15166)
- ARROW-17360 - [Python] pyarrow.feather.read_table 中的欄位順序 (#14528)
- ARROW-17416 - [R] 實作 lubridate::with_tz 和 lubridate::force_tz
- ARROW-17425 - [R] dplyr 查詢中的
lubridate::as_datetime()
應能處理亞秒級時間 (#13890) - ARROW-17462 - [R] 在 Expression 建構中將純量轉換為欄位類型 (#13985)
- ARROW-17509 - [C++] 透過移除呼叫 End 的需求來簡化非同步排程器 (#14524)
- ARROW-17520 - [C++] 實作 SubStrait SetRel (UnionAll) (#14186)
- ARROW-17610 - [C++] 在 SourceNode 中支援額外的來源類型 (#14207)
- ARROW-17613 - [C++] 為預先設定的 kernel 新增函數執行 API (#14043)
- ARROW-17640 - [C++] 為 Substrait Read 中的 GlobFile 處理新增檔案處理測試案例 (#14132)
- ARROW-17662 - [R] 促進從二進位檔案離線安裝 (#14086)
- ARROW-17726 - [CI] 在更多建置中啟用 sccache
- ARROW-17731 - [Website] 新增關於 Flight SQL JDBC 驅動程式的部落格文章
- ARROW-17732 - [Docs][Java] 新增最簡 JDBC 驅動程式文件 (#14137)
- ARROW-17751 - [Go][Benchmarking] 新增 Go Benchmark Script (#14148)
- ARROW-17777 - [Dev] 更新 pull request 合併腳本以使用 master 或 main
- ARROW-17798 - [C++][Parquet] 將 DELTA_BINARY_PACKED 編碼器新增到 Parquet writer (#14191)
- ARROW-17812 - [Gandiva][Docs] 新增 C++ Gandiva 使用者指南 (#14200)
- ARROW-17825 - [C++] 允許在 ORCFileWriter 中寫入多個表格的可能性 (#14219)
- ARROW-17832 - [Python] 從字典序列 (而不是元組列表) 建構 MapArray (#14547)
- ARROW-17836 - [C++] 允許指定緩衝區的對齊方式 (#14225)
- ARROW-17837 - [C++][Acero] 建立 ExecPlan 擁有的 QueryContext,它將儲存計畫的共用資料結構 (#14227)
- ARROW-17838 - [Python] 統一 python/ 中的 CMakeLists.txt (#14925)
- ARROW-17859 - [C++] 在接收訊號的 StopSource 中使用 self-pipe (#14250)
- ARROW-17867 - [C++][FlightRPC] 在 Flight SQL 中公開批量參數綁定 (#14266)
- ARROW-17870 - [Go] 新增純量二進位算術
- ARROW-17871 - [Go] 初始二進位算術實作 (#14255)
- ARROW-17887 - [R][Doc] 改善 Get Started 和 README 頁面的可讀性 (#14514)
- ARROW-17892 - [CI] 在 AppVeyor 建置中使用 Python 3.10 (#14307)
- ARROW-17899 - [Go][CSV] 將 Decimal 支援新增到 CSV reader (#14504)
- ARROW-17932 - [C++] 為 JSON 實作串流 RecordBatchReader (#14355)
- ARROW-17949 - [C++][Docs] 從 Windows 開發文件中移除 clcache 的使用 (#14529)
- ARROW-17953 - [Archery] 新增 archery docker info 命令 (#14345)
- ARROW-17960 - [C++][Python] 實作 list_slice kernel (#14395)
- ARROW-17966 - [C++] 調整 Substrait 可選參數的新格式 (#14415)
- ARROW-17972 - [CI] 更新 CUDA docker jobs (#14362)
- ARROW-17975 - [C++] 建立 at-fork 機制 (#14594)
- ARROW-17980 - [C++] As-of-Join Substrait 擴展 (#14485)
- ARROW-17989 - [C++][Python] 啟用 struct_field kernel 以接受字串欄位名稱 (#14495)
- ARROW-18008 - [Python][C++] 將 use_threads 新增到 run_substrait_query
- ARROW-18012 - [R] 預設將 map_batches .lazy 設定為 TRUE (#14521)
- ARROW-18014 - [Java] 為 vectors 和 Table 實作 copy 函數 (#14389)
- ARROW-18016 - [CI] 將 sccache 新增到 r jobs (#14570)
- ARROW-18033 - [CI] 使用 $GITHUB_OUTPUT 而不是 set-output (#14409)
- ARROW-18042 - [Java] 透過 mavencentral 發佈 Apple M1 相容的 JNI libraries (#14472)
- ARROW-18043 - [R] 在 Table__from_schema 中正確地實例化擴展類型的空陣列 (#14519)
- ARROW-18051 - [C++] 啟用 ARROW-16392 跳過的測試 (#14425)
- ARROW-18075 - [Website] 更新 9.0.0 的安裝頁面
- ARROW-18081 - [Go] 新增純量 Boolean 函數 (#14442)
- ARROW-18095 - [CI][C++][MinGW] 所有測試都以 0xc0000139 退出
- ARROW-18108 - [Go] 更多純量二進位算術 (乘法和除法) (#14544)
- ARROW-18109 - [Go] 初始一元算術 (#14605)
- ARROW-18110 - [Go] 純量比較 (#14669)
- ARROW-18111 - [Go] 剩餘的純量二進位算術 (位移、次方、位元運算) (#14703)
- ARROW-18112 - [Go] 剩餘的純量算術 (#14777)
- ARROW-18113 - [C++] 新增 RandomAccessFile::ReadManyAsync (#14723)
- ARROW-18120 - [Release][Dev] 自動化執行二進位檔案/wheels 驗證 (#14469)
- ARROW-18121 - [Release][CI] 使用 Ubuntu 22.04 驗證二進位檔案 (#14470)
- ARROW-18122 - [Release][Dev] 更新預期的投票電子郵件 (#14548)
- ARROW-18122 - [Release][Dev] 將驗證 PR URL 新增到投票電子郵件 (#14471)
- ARROW-18135 - [C++] 避免 ExecBatch::length 可能未初始化的警告 (#14480)
- ARROW-18137 - [Python][Docs] 新增關於帶空列表的 TableGroupBy.aggregation 的資訊 (#14482)
- ARROW-18144 - [C++] 改善測試中的 JSONTypeError 錯誤訊息 (#14486)
- ARROW-18147 - [Go] 為 Decimal 類型新增純量 Add/Sub (#14489)
- ARROW-18151 - [CI] 避免對某些 conda URL 進行不必要的重定向 (#14494)
- ARROW-18152 - [Python] pyarrow Table 的 DataFrame Interchange Protocol
- ARROW-18169 - [Website] 不要對 fork 儲存庫執行開發文件更新
- ARROW-18173 - [Python] 捨棄舊版本的 Pandas (<1.0) (#14631)
- ARROW-18174 - [R] 修復某些建置上 altrep.cpp 的編譯 (#14530)
- ARROW-18177 - [Go] 為 Temporal 類型新增 Add/Sub (#14532)
- ARROW-18178 - [Java] ArrowVectorIterator 錯誤地關閉 Vectors (#14534)
- ARROW-18184 - [C++] 改善 JSON parser 基準測試 (#14552)
- ARROW-18203 - [R] 重構以移除不必要的 build_expr 使用 (#14553)
- ARROW-18206 - [C++][CI] 為 C++20 編譯新增 nightly build (#14571)
- ARROW-18220 - [Dev] 移除 downloader 中預設平行層級的 magic number (#14563)
- ARROW-18221 - [Release][Dev] 新增自訂 arrow-site 目錄的支援 (#14564)
- ARROW-18222 - [Release][MSYS2] 自動偵測反向依賴 (#14565)
- ARROW-18223 - [Release][Homebrew] 自動偵測反向依賴 (#14566)
- ARROW-18224 - [Release][jar] 使用暫存目錄進行下載 (#14567)
- ARROW-18230 - [Python] 將 Cmake args 傳遞給 Python CPP
- ARROW-18233 - [Release][JS] 不要將 yarn 安裝到系統 (#14577)
- ARROW-18235 - [C++][Gandiva] 修復 escape 字元的 like 函數實作 (#14579)
- ARROW-18237 - [Java] 擴展 Table 程式碼 (#14573)
- ARROW-18238 - [Docs][Python] 改善 S3FileSystem 的文件 (#14599)
- ARROW-18240 - [R] head() 在某些 nightly builds 上崩潰 (#14582)
- ARROW-18243 - [R] Sanitizer nightly failure 指向 TimestampType 和 DurationType 之間的混淆
- ARROW-18248 - [CI][Release] 使用 GitHub token 避免 API 速率限制 (#14588)
- ARROW-18249 - [C++] 更新 vcpkg port 到 arrow 10.0.0
- ARROW-18253 - [C++][Parquet] 新增額外的 bounds 安全性檢查 (#14592)
- ARROW-18259 - [C++][CMake] 新增對系統 Thrift CMake 套件的支援 (#14597)
- ARROW-18264 - [Python] 為時間類型新增遺失值存取器 (#14746)
- ARROW-18264 - [Python] 公開 time32/time64 純量值 (#14637)
- ARROW-18270 - [Python] 移除 gcc 4.9 相容性程式碼 (#14602)
- ARROW-18278 - [Java] 調整 Maven generate-libs-jni-macos-linux 中的路徑 (#14623)
- ARROW-18280 - [C++][Python] 支援 list_slice kernel 中的切片到結尾 (#14749)
- ARROW-18282 - [C++][Python] 支援 list_slice kernel 中的 step >= 1 (#14696)
- ARROW-18287 - [C++][CMake] 新增對 vcpkg 提供的 Brotli/utf8proc 的支援 (#14609)
- ARROW-18289 - [Release][vcpkg] 新增更新 vcpkg 的 arrow port 的腳本 (#14610)
- ARROW-18291 - [Release][Docs] 更新如何發佈 (#14612)
- ARROW-18292 - [Release][Python] 為發佈上傳 .wheel/.tar.gz 而不是 RC (#14708)
- ARROW-18303 - [Go] 允許輕鬆匯入 compute 模組 (#14690)
- ARROW-18306 - [R] 計算函數更新後測試失敗 (#14620)
- ARROW-18318 - [Python] 公開 Scalar.validate() (#15149)
- ARROW-18321 - [R] 為 binary_slice kernel 新增測試 (#14647)
- ARROW-18323 - 在 GitHub issues 中啟用 issue templates (#14675)
- ARROW-18332 - [Go] 將 Dictionary 類型轉換為值類型 (#14650)
- ARROW-18333 - [Go][Docs] 更新 compute 函數文件 (#14815)
- ARROW-18336 - [Release][Docs] 不要更新不在主要版本中的版本 (#14653)
- ARROW-18337 - [R] 可能不希望處理 POSIXlt 物件 (#15277)
- ARROW-18340 - [Python] PyArrow C++ header 檔案不再總是包含在已安裝的 pyarrow 中 (#14656)
- ARROW-18341 - [Doc][Python] 更新關於在 Windows 上捆綁 Arrow C++ 的說明 (#14660)
- ARROW-18342 - [C++] AsofJoinNode 支援 Boolean 資料欄位 (#14658)
- ARROW-18345 - [R] 建立一個 CRAN 特定的封裝檢查表,位於 R 封裝目錄中 (#14678)
- ARROW-18348 - [CI][Release][Yum] AlmaLinux 9 上需要 redhat-rpm-config (#14661)
- ARROW-18350 - [C++] 使用 std::to_chars 而不是 std::to_string (#14666)
- ARROW-18358 - [R] 實作新的函數 open_dataset_csv,其簽章更接近 read_csv_arrow
- ARROW-18361 - [CI][Conan] 合併上游變更 (#14671)
- ARROW-18363 - [Docs] 包含檢視舊文件時的警告 (重定向到 stable/dev 文件) (#14839)
- ARROW-18366 - [Packaging][RPM][Gandiva] 修復 AlmaLinux 9 上的連結錯誤 (#14680)
- ARROW-18367 - [C++] 啟用命名表格關係的建立 (#14681)
- ARROW-18373 - 修復元件下拉選單,新增授權文字 (#14688)
- ARROW-18377 - 遷移:自動化來自 issue form 內容的元件標籤 (#15245)
- ARROW-18380 - [Dev] 更新 dev_pr GitHub workflows 以接受 GitHub issues 和 JIRA (#14731)
- ARROW-18384 - [Release][MSYS2] 顯示 pull request 標題 (#14709)
- ARROW-18391 - [R] 修復開發文件中的版本選擇器下拉選單 (#14800)
- ARROW-18395 - [C++] 將 select-k 實作移到單獨的模組
- ARROW-18399 - [Python] 減少測試期間的警告 (#14729)
- ARROW-18401 - [R] test-r-rhub-ubuntu-gcc-release-latest 上測試失敗 (#14894)
- ARROW-18402 - [C++] 公開
DeclarationInfo
(#14765) - ARROW-18406 - [C++] 無法在 Ubuntu 20.04 上使用 Substrait 建置 Arrow (#14735)
- ARROW-18407 - [Release][Website] 使用 UTC 作為發佈日期 (#14737)
- ARROW-18409 - [GLib][Plasma] 抑制建置 plasma-glib 中的棄用警告 (#14739)
- ARROW-18410 - [Packaging][Ubuntu] 新增 Ubuntu 22.10 的支援 (#14740)
- ARROW-18413 - [C++][Parquet] 從 ColumnChunkMetaData 公開 page index info (#14742)
- ARROW-18418 - [Website] 不要刪除 /datafusion-python
- ARROW-18419 - [C++] 更新 vendored fast_float (#14817)
- ARROW-18420 - [C++][Parquet] 引入 ColumnIndex & OffsetIndex (#14803)
- ARROW-18421 - [C++][ORC] 在 reader 中新增 stripe 資訊的存取器 (#14806)
- ARROW-18423 - [Python] 公開從 IPC 訊息讀取 schema (#14831)
- ARROW-18426 - 更新網站上的 committers 和 PMC members
- ARROW-18427 - [C++] 在
AsofJoinNode
中支援負容差 (#14934) - ARROW-18428 - [Website] 在 arrow-site repo 上啟用 github issues
- ARROW-18435 - [C++][Java] 更新 ORC 到 1.8.1 (#14942)
- GH-14474 - 盡可能機會性地刪除 R 對共用指標的引用 (#15278)
- GH-14720 - [Dev] 更新 merge_arrow_pr 腳本以接受 GitHub issues (#14750)
- GH-14755 - [Python] 將 QuotingStyle 公開給 Python (#14722)
- GH-14761 - [Dev] 更新 PR labeler 上的標籤以使用新的 Component 標籤 (#14762)
- GH-14778 - [Python] 新增 (Chunked)Array sort() 方法 (#14781)
- GH-14784 - [Dev] 新增在 GitHub issue 評論上自動分配的可能性 (#14785)
- GH-14786 - [Java][Doc] 替換資料夾內文件 (#14789)
- GH-14787 - [Java][Doc] 更新 table.rst (#14794)
- GH-14809 - [Dev] 將已建立的 GitHub issues 新增到 issues@arrow.apache.org (#14811)
- GH-14816 - [Release] 使 dev/release/06-java-upload.sh 可從其他專案重複使用 (#14830)
- GH-14824 - [CI] r-binary-packages 應僅在所有測試成功時才上傳 artifacts (#14841)
- GH-14844 - [Java] 在比較非 null 欄位類型時短路 null 檢查 (#15106)
- GH-14846 - [Dev] 在 download_rc_binaries.py 中支援 GitHub Releases (#14848)
- GH-14854 - 變更 .md 頁面 (#14852)
- GH-14869 - [C++] 新增 Cflags.private 定義
_STATIC 到 .pc.in. (#14900) - GH-14873 - [Java] DictionaryEncoder 可以無需建構 DictionaryHashTable 即可解碼 (#14874)
- GH-14885 - [Docs] 變更 New Contrib Guide (Jira -> GitHub) (#14889)
- GH-14901 - [Java] ListSubfieldEncoder 和 StructSubfieldEncoder 可以無需 DictionaryHashTable 即可解碼 (#14902)
- GH-14918 - [Docs] 變更文件開發人員部分 (Jira -> GitHub) (#14919)
- GH-14920 - [C++][CMake] 將遺失的 -latomic 新增到 Arrow CMake 套件 (#15251)
- GH-14937 - [C++] 新增 rank kernel 基準測試 (#14938)
- GH-14951 - [C++][Parquet] 為 DELTA_BINARY_PACKED 編碼新增基準測試 (#15140)
- GH-14961 - [Ruby] 使用更新的 extpp for C++17 (#14962)
- GH-14975 - [Python] Dataset.sort_by (#14976)
- GH-14976 - [Python] 避免在 Table.sort_by 中依賴 exec plan 以修復最小測試 (#15268)
- GH-14977 - [Dev][CI] 將 notify-token-expiration 新增到 archery (#14978)
- GH-14981 - [R] 與 dplyr::join_by() 的向前相容性 (#33664)
- GH-14986 - [Release] 不要偵測 maint-X.Y.Z 分支上的先前版本 (#14987)
- GH-14992 - [Packaging] 使 dev/release/binary-task.rb 可從其他專案重複使用 (#14994)
- GH-14997 - [Release] 確保 archery release tasks 適用於新的 GitHub issues 和舊的 JIRA issues (#33615)
- GH-14999 - [Release][Archery] 更新 archery release changelog 以支援 GitHub issues
- GH-15002 - [Release][Archery] 更新 archery release cherry-pick 以支援 GitHub issues
- GH-15005 - [Go] 將 scalar.Append 新增到將純量附加到 builder (#15006)
- GH-15009 - [R] 已發佈具有 str_like 函數的 stringr 1.5.0 (#15010)
- GH-15012 - [Packaging][deb] 為 Debian GNU/Linux bookworm 使用系統 Protobuf (#15013)
- GH-15035 - [CI] 從 CI 中移除不受支援的 turbodbc jobs 和 scripts (#15036)
- GH-15050 - [Java][Docs] 更新和合併 Memory 文件 (#15051)
- GH-15072 - [C++] 將 round 功能移到單獨的模組 (#15073)
- GH-15074 - [Parquet][C++] 將 16-bit page_ordinal 變更為 32-bit (#15182)
- GH-15081 - [Release] 新增在 dev/release/05-binary-upload.sh 中使用自訂 artifacts 目錄的支援 (#15082)
- GH-15084 - [Ruby] 當 keys.nil? 時,在 Table#join 中使用 common keys (#15088)
- GH-15085 - [Ruby] 新增 ColumnContainable#column_names (#15089)
- GH-15087 - [Release] 減慢從 GitHub 下載 RC 二進位檔案的速度 (#15090)
- GH-15096 - [C++] Substrait ProjectRel Emit Optimization (#15097)
- GH-15100 - [C++][Parquet] 為從 Parquet 讀取字串新增基準測試 (#15101)
- GH-15119 - [Release][Docs][R] 更新 patch 版本中的版本資訊 (#15120)
- GH-15134 - [Ruby] 為舊 Xcode 明確指定 -mmacox-version-min=10.14 (#15135)
- GH-15146 - [GLib] 新增
GADatasetFinishOptions
(#15147) - GH-15151 - [C++] 新增 RecordBatchReaderSource 以解決 R API 中的問題 (#15183)
- GH-15168 - [GLib] 新增對 half float 的支援 (#15169)
- GH-15174 - [Go][FlightRPC] 公開 Flight Server Desc 和 RegisterFlightService (#15177)
- GH-15185 - [C++][Parquet] 改善 Parquet Reader column_indices 的文件 (#15184)
- GH-15199 - [C++][Substrait] 允許 AGGREGATION_INVOCATION_UNSPECIFIED 作為有效 invocation (#15198)
- GH-15200 - [C++] 為 round kernels 建立基準測試。 (#15201)
- GH-15205 - [R] 修復 R 測試中的 parquet-fixture 尋找 (#15207)
- GH-15216 - [C++][Parquet] Parquet writer 接受 RecordBatch (#15240)
- GH-15218 - [Python] 移除自動產生的 pyarrow_api.h 和 pyarrow_lib.h (#15219)
- GH-15226 - [C++] 將 DurationType 新增到 hash kernels (#33685)
- GH-15237 - [C++] 新增 ::arrow::Unreachable() 使用 std::string_view (#15238)
- GH-15239 - [C++][Parquet] Parquet writer 將 decimal 寫入為 int32/64 (#15244)
- GH-15249 - [Documentation] 新增 PR template (#15250)
- GH-15257 - [GLib][Dataset] 新增 GADatasetHivePartitioning (#15272)
- GH-15265 - [Java] 發佈 SBOM 構件 (#15267)
- GH-15289 - [Ruby] 將 Table 儲存為 csv 時回傳 self (#33653)
- GH-15290 - [C++][Compute] 當純量為 null 時,最佳化 IfElse 核心 AAS/ASA 案例 (#15291)
- GH-33607 - [C++] 支援內聯 visit 函數的可選額外參數 (#33608)
- GH-33610 - [Dev] 不允許將 ARROW 前綴的票證合併或用於 PR 標題 (#33611)
- GH-33619 - [Documentation] 更新 PR 範本 (#33620)
- GH-33657 - [C++] arrow-dataset.pc 在沒有 ARROW_PARQUET=ON 的情況下不依賴 parquet.pc (#33665)
- GH-33670 - [GLib] 新增
GArrowProjectNodeOptions
(#33677) - GH-33671 - [GLib] 新增
garrow_chunked_array_new_empty()
(#33675) - PARQUET-2179 - [C++][Parquet] 為跳過重複欄位新增測試 (#14366)
- PARQUET-2188 - [parquet-cpp] 將 SkipRecords API 新增至 RecordReader (#14142)
- PARQUET-2204 - [parquet-cpp] TypedColumnReaderImpl::Skip 應重複使用暫存空間 (#14509)
- PARQUET-2206 - [parquet-cpp] ColumnReader ReadBatch 和 Skip 的微基準測試 (#14523)
- PARQUET-2209 - [parquet-cpp] 針對要跳過的值數量等於頁面大小的情況最佳化 skip (#14545)
- PARQUET-2210 - [C++][Parquet] 使用回呼基於標頭中繼資料跳過頁面 (#14603)
- PARQUET-2211 - [C++] 印出 ColumnMetaData.encoding_stats 欄位 (#14556)
錯誤修正
- ARROW-11631 - [R] 為 Decimal 型別實作 RPrimitiveConverter
- ARROW-15026 - [Python] 如果 datetime.timedelta 轉換為 pyarrow.duration 時溢位則產生錯誤 (#13718)
- ARROW-15328 - [C++][Docs] 文件中缺少串流 CSV 讀取器 (#14452)
- ARROW-15822 - [C++] 不支援將 duration 轉換為字串(因此 CSV 寫入) (#14450)
- ARROW-16464 - [C++][CI][GPU] 新增 CUDA CI (#14497)
- ARROW-16471 - [Go] RecordBuilder UnmarshalJSON 處理複雜值 (#14560)
- ARROW-16547 - [Python] 當使用 timestamp_as_object 時,to_pandas 無法處理 FixedOffset 時區 (#14448)
- ARROW-16795 - [C#][Flight] Nightly verify-rc-source-csharp-macos-arm64 失敗 (#15235)
- ARROW-16817 - [C++] 使用無效型別測試 ORC writer 錯誤 (#14638)
- ARROW-17054 - [R] 從大於 2^31 的物件建立 Array 會產生長度為 0 的 Array (#14929)
- ARROW-17192 - [Python] 在 read_feather 中將 **kwargs 傳遞至 to_pandas() (#14492)
- ARROW-17332 - [R] 在 read_csv_arrow 中剖析帶有重音符號的資料夾路徑時發生錯誤 ('c:/Público') (#14930)
- ARROW-17361 - [R] 當除數為變數時,dplyr::summarize 除法失敗 (#14933)
- ARROW-17374 - [C++] Snappy 套件可能在沒有 CMAKE_BUILD_TYPE 的情況下建置 (#14818)
- ARROW-17458 - [C++] 在 decimal 和字串之間轉換 (#14232)
- ARROW-17538 - [C++] 匯入陣列串流時匯入 schema (#15037)
- ARROW-17637 - [R][us][s] (#14935)
- ARROW-17692 - [R] 新增支援使用系統 AWS SDK C++ 建置 (#14235)
- ARROW-17772 - [Doc] Sphinx / reST 標記錯誤
- ARROW-17774 - [Python] 為 decimals to csv 新增 python 測試 (#14525)
- ARROW-17858 - [C++] arrow/csv/parser.h 中的編譯警告 (#14445)
- ARROW-17893 - [Python] 測試 timedelta 的讀取是否穩定 (read_feather/to_pandas) (#14531)
- ARROW-17985 - [C++][Python] 當區域錯誤時,改善 s3fs 錯誤訊息 (#14601)
- ARROW-17991 - [Python][C++] 將 IpcWriteOptions 的支援新增至 dataset ipc 檔案寫入器 (#14414)
- ARROW-18052 - [Python] 支援透過 pq.write_to_dataset 傳遞 create_dir (#14459)
- ARROW-18068 - [Dev][Archery][Crossbow] 評論機器人僅在連結不可用時才等待任務 (#14429)
- ARROW-18070 - [C++] 為 substrait 測試調用 google::protobuf::ShutdownProtobufLibrary (#14508)
- ARROW-18086 - [Ruby] 新增 HalfFloat 的支援 (#15204)
- ARROW-18087 - [C++] RecordBatch::Equals 不應忽略欄位名稱 (#14451)
- ARROW-18088 - [CI][Python] 修復與 timedelta 相關的 pandas master/nightly 建置失敗 (#14460)
- ARROW-18101 - [R] 無法讀取來自具有 UDF 的 ExecPlan 的 RecordBatchReaderHead (#14518)
- ARROW-18106 - [C++] JSON 讀取器使用預設 unexpected_field_behavior="infer" 忽略明確的 schema (#14741)
- ARROW-18117 - [C++] 修復靜態 bundle 建置 (#14465)
- ARROW-18118 - [Release][Dev] 修復 10.0.0-rc0 的 02-source.sh/03-binary-submit.sh 中的問題 (#14468)
- ARROW-18123 - [Python] 修復在檔案名稱中使用多位元組字元寫入檔案的問題 (#14764)
- ARROW-18125 - [Python] 處理關於 pytest.warns(None) 的 pytest 8 棄用警告
- ARROW-18126 - [Python] 在建置 pyarrow C++ 時移除 ARROW_BUILD_DIR (#14498)
- ARROW-18128 - [Java][CI] 更新 Java Nightlies X.Y.Z-SNAPSHOT 資料夾的時間戳記 (#14496)
- ARROW-18149 - [C++] 修復
join_example
的建置失敗 (#14490) - ARROW-18157 - [Dev][Archery] “archery docker run” 在繼承時將 env var 設定為 None (#14501)
- ARROW-18158 - [CI] 安裝 conda cpp 環境時使用預設 Python 版本以修復 conda 建置 (#14500)
- ARROW-18159 - [Go][Release] 將
go install
新增至 verify-release 腳本 (#14503) - ARROW-18161 - [Ruby] 在子物件中參照來源輸入 (#15217)
- ARROW-18164 - [Python] 在 Dataset 掃描中採用預設記憶體池 (#14516)
- ARROW-18167 - [Go][Release] 使用發行版本更新 go.work (#14522)
- ARROW-18172 - [CI][Release] Source Release 和 Merge Script 工作在 master 上失敗
- ARROW-18183 - [C++] cpp-micro 基準測試在 mac arm 機器上失敗 (#14562)
- ARROW-18188 - [CI] CUDA nightly docker 上傳由於標籤錯誤而失敗 (#14538)
- ARROW-18195 - [C++] 修復當條件有 null 值時 case_when 產生錯誤資料的問題 (#15131)
- ARROW-18202 - [C++] 重新允許在空字串上使用 regexp replace (#15132)
- ARROW-18205 - [C++] Substrait consumer 未正確轉換 joins 上的右側參照 (#14558)
- ARROW-18207 - [Ruby] 10.0.0 的 RubyGems 尚未更新
- ARROW-18209 - [Java] 使 ComplexCopier 不受 MapWriter (UnionMapWriter) 的特定實作影響 (#14557)
- ARROW-18212 - [C++] NumericBuilder::Reset() 未重設所有成員 (#14559)
- ARROW-18225 - [Python] 完全支援 parquet.write_metadata 中的檔案系統 (#14574)
- ARROW-18227 - [CI][Packaging] 如果 conda search 引發 PackagesNotFound,則不要讓 conda-clean 失敗 (#14569)
- ARROW-18229 - [Python] 檢查 RecordBatchReader.from_batches 中的 schema 引數型別 (#14583)
- ARROW-18231 - [C++][CMake] 新增支援覆寫最佳化層級 (#15022)
- ARROW-18246 - [Python][Docs] PyArrow table join 文件字串中 left 和 right suffix 引數的錯字 (#14591)
- ARROW-18247 - [JS] 修復:Vector.toArray() 中的 RangeError 崩潰 (#14587)
- ARROW-18256 - [C++][Windows] 為外部共享 Thrift 使用 IMPORTED_IMPLIB (#14595)
- ARROW-18257 - [Python] 使用正確的型別類別傳回 time 型別 (#14633)
- ARROW-18269 - [C++] 處理 Hive 風格分割值中的斜線字元 (#14646)
- ARROW-18272 - [Python] 支援 ParquetFile 中的檔案系統參數 (#14717)
- ARROW-18284 - [Python][Docs] 新增遺失的 CMAKE_PREFIX_PATH 以允許 setup.py CMake 調用找到 Arrow CMake 套件 (#14586)
- ARROW-18290 - [C++] 逸出 URI 編碼中的所有特殊字元 (#14645)
- ARROW-18309 - [Go] 修復 delta 位元組封裝解碼 panic (#14649)
- ARROW-18320 - [C++][FlightRPC] 修復 Flight client 中不正確的 Status/Result 轉換 (#14859)
- ARROW-18334 - [C++] 透過重新繫結處理潛在的非交換性 (#14659)
- ARROW-18339 - [Python][CI] 新增 DYLD_LIBRARY_PATH 以避免在 macOS 工作上需要 PYARROW_BUNDLE_ARROW_CPP (#14643)
- ARROW-18343 - [C++] 移除帶有 out 參數的 AllocateBitmap() (#14657)
- ARROW-18351 - [C++][FlightRPC] 修復 UCX 中 DoExchange 的崩潰 (#15031)
- ARROW-18353 - [C++][FlightRPC] 防止 UCX 中的並行 Finish (#15034)
- ARROW-18360 - [Python] 當 FlightClient.do_put 中的 schema=None 時,不要崩潰 (#14698)
- ARROW-18374 - [Go][CI][Benchmarking] 修復 Go 基準測試 github 資訊 (#14691)
- ARROW-18374 - [Go][CI][Benchmarking] 修復 Conbench 變更後的 Go Bench 腳本 (#14689)
- ARROW-18379 - [Python] 將 _plasma_store_entry_point 中的警告變更為 _warnings (#14695)
- ARROW-18382 - [C++] 在模糊測試建置中設定 ADDRESS_SANITIZER (#14702)
- ARROW-18383 - [C++] 避免執行緒池和 at-fork 處理常式的全域變數 (#14704)
- ARROW-18389 - [CI][Python] 將 nightly test-conda-python-3.7-pandas-0.24 更新為 pandas >= 1.0 (#14714)
- ARROW-18390 - [CI][Python] 更新 spark 測試模組以符合 spark master (#14715)
- ARROW-18392 - [Python] 修復 test_s3fs_wrong_region;設定 anonymous=True (#14716)
- ARROW-18394 - [Python][CI] 修復使用 pandas dev 的 nightly 工作 (暫時跳過測試) (#15048)
- ARROW-18397 - [C++] 在 S3 關閉時清除 S3 區域解析器 client (#14718)
- ARROW-18400 - [Python] 具有巢狀資料的 Table.to_pandas 的二次記憶體使用量
- ARROW-18405 - [Ruby] 避免在 Arrow::Table.new 中重建 chunked arrays (#14738)
- ARROW-18412 - [C++][R] Windows 建置由於缺少 ChunkResolver 符號而失敗 (#14774)
- ARROW-18424 - [C++] 修復 ARROW_ENGINE_EXPORT 上的 Doxygen 錯誤 (#14845)
- ARROW-18429 - [R] : 在 10.0.1 patch 發行版本後增加開發版本號 (#14887)
- ARROW-18436 - [C++] 確保 URI 路徑中特殊字元的正確 (取消) 逸出 (#14974)
- ARROW-18437 - [C++][Parquet] 修復當多次刷新時 DELTA_BINARY_PACKED 的編碼器 (#14959)
- GH-14745 - [R] {rlang} 相依性必須至少為 1.0.0 版本,因為 check_dots_empty (#14744)
- GH-14775 - [Go] 修復 UnionBuilder.Len 實作 (#14776)
- GH-14780 - [Go] 修復 sliced map/list 陣列的 IPC 寫入問題 (#14793)
- GH-14791 - [JS] 修復 BitmapBufferBuilder 大小截斷 (#14881)
- GH-14805 - [Format] C Data Interface:釐清 buffer 指標的 nullability (#14808)
- GH-14819 - [CI][RPM] 為 CentOS 9 Stream 上的建置失敗新增暫行解決方案 (#14820)
- GH-14828 - [CI][Conda] 與 conda-forge 同步,修復 nightly 工作 (#14832)
- GH-14842 - [C++] 在 JSON chunker 中傳播一些錯誤 (#14843)
- GH-14849 - [CI] R install-local 建置有時會因為 sccache 超時而失敗 (#14850)
- GH-14855 - [C++] 支援匯入 zero-case unions (#14857)
- GH-14856 - [CI] Azure 建置由於 docker 權限錯誤而失敗 (#14858)
- GH-14865 - [Go][Parquet] 解決 pqarrow 中 buffer 的多個記憶體洩漏問題 (#14878)
- GH-14872 - [R] 當使用多個 group_by/summarise 語句時,arrow 回傳錯誤的變數內容 (#14905)
- GH-14875 - [C++] C Data Interface:檢查匯入的 buffer 是否為非 null (#14814)
- GH-14876 - [Go] 處理 C Data interface 中的崩潰 (#14877)
- GH-14883 - [Go] 修復 IPC 編碼空 maps (#14904)
- GH-14883 - [Go] ipc.Writer 在壓縮 body 時洩漏記憶體 (#14892)
- GH-14884 - [CI] R install resource 可能得到 404 (#14893)
- GH-14890 - [Java] 修復拋出例外時 DictionaryEncoder 的記憶體洩漏問題 (#14891)
- GH-14907 - [R] right_join() 函數未產生預期的結果 (#15077)
- GH-14909 - [Java] 防止 ListSubfieldEncoder 和 StructSubfieldEncoder 的潛在記憶體洩漏 (#14910)
- GH-14916 - [C++] 移除關於 “ConcatenateBuffers” 的 API 宣告 (#14915)
- GH-14927 - [Dev] Crossbow submit 無法與細粒度 PAT 搭配使用 (#14928)
- GH-14940 - [Go][Parquet] 修復加密欄位寫入 (#14954)
- GH-14943 - [Python] 修復 pyarrow.get_libraries() 順序 (#14944)
- GH-14945 - [Ruby] 新增 macOS 12 / Xcode 14 的支援 (#14960)
- GH-14947 - [R] 與 dplyr 1.1.0 的相容性 (#14948)
- GH-14949 - [CI][Release] 在失敗時輸出腳本的 stdout (#14957)
- GH-14967 - [R] Minimal nightly 建置失敗 (#14972)
- GH-14968 - [Python] 修復 dataset ORC 寫入的 Segfault (#15049)
- GH-14990 - [C++][Skyhook] 遵循 FileFormat API 變更 (#15086)
- GH-14993 - [CI][Conda] 修復 conda build 現在預期的遺失 RECIPE_ROOT 變數 (#15014)
- GH-14995 - [Go][FlightSQL] 修復 Supported Unions 常數 (#15003)
- GH-15001 - [R] 修復 Parquet 資料型別測試失敗 (#15197)
- GH-15007 - [CI][RPM] 忽略匯入失敗的金鑰 (#15008)
- GH-15023 - [CI][Packaging][Java] 強制搭配 Homebrew 使用 libz3.a (#15024)
- GH-15025 - [CI][C++][Homebrew] 確保移除 Python 相關命令 (#15026)
- GH-15028 - [R][Docs]
NOT_CRAN
應為"true"
而不是 R 中的TRUE
(#15029) - GH-15040 - [C++] 改善 ARROW_BUILD_SHARED=OFF 的 pkg-config 支援 (#15075)
- GH-15042 - [C++][Parquet] 更新後續字典批次的統計資訊 (#15179)
- GH-15043 - [Python][Docs] 更新 pyarrow.decompress 的文件字串 (#15061)
- GH-15052 - [C++][Parquet] 修復僅讀取一個值時 DELTA_BINARY_PACKED 解碼器 (#15124)
- GH-15062 - [C++] 簡化 EnumParser 行為 (#15063)
- GH-15064 - [Python][CI] Dask nightly 測試由於 fsspec bug 而失敗 (#15065)
- GH-15069 - [C++][Python][FlightRPC] 使 DoAction 真正串流化 (#15118)
- GH-15080 - [CI][R] 重新啟用 Windows 上 R 4.1 的二進位套件工作 (#25359)
- GH-15092 - [CI][C++][Homebrew] 確保移除 Python 相關命令 (再次) (#15093)
- GH-15094 - [CI][Release][Ruby] 透過 APT 安裝 Bundler (#15095)
- GH-15110 - [R][CI] Windows 建置在 packaging 工作中失敗 (#15111)
- GH-15114 - [R][C++][CI] Homebrew 無法在 GHA runners 上安裝 Python 3.11 (#15116)
- GH-15115 - [R][CI] pyarrow 測試在 macos 10.13 上由於缺少 pyarrow wheel 而失敗 (#15117)
- GH-15122 - [Benchmarking][Python] 為基準測試建置設定 ARROW_INSTALL_NAME_RPATH=ON (#15123)
- GH-15126 - [R] purrr::rerun 在 purrr 1.0.0 中已棄用 (#15127)
- GH-15136 - [Python][macOS] 為 libarrow_python.dylib 使用
@rpath
(#15143) - GH-15141 - [C++] 修復由於不穩定排序導致的不穩定測試 (#15142)
- GH-15150 - [C++][FlightRPC] 等待 DoAction 中的 side effects (#15152)
- GH-15156 - [JS] 修復找不到變數:BigInt64Array (#15157)
- GH-15172 - [Python] 文件字串測試失敗 (#15186)
- GH-15176 - 修復 ARROW-17980 和 ARROW-15732 在 asof-join 基準測試中引入的各種問題 (#15190)
- GH-15189 - [R] 在 MacOS 10.13 上跳過 S3 測試 (#33613)
- GH-15243 - [C++] 修復 group-by 節點中潛在的死鎖 (#33700)
- GH-15254 - [GLib] garrow_execute_plain_wait() 檢查完成狀態 (#15255)
- GH-15259 - [CI] 組件指派由於錯字而失敗 (#15260)
- GH-15264 - [C++] 為停用預讀新增掃描器測試並修復相關錯誤 (#29185)
- GH-15274 - [Java][FlightRPC] 處理 null keystore 密碼 (#15276)
- GH-15282 - [CI][C++] 在 .travis.yaml 中新增 CLANG_TOOLS 變數 (#32972)
- GH-15292 - [C++] ExtensionArray 中缺少 Typeclass 別名 (#15293)
- GH-25633 - [CI][Java][macOS] 確保使用 bundled RE2 (#33711)
- GH-26209 - [Ruby] 新增 Ruby 2.5 的支援 (#33602)
- GH-26394 - [Python] 不要為匯入的 target 使用 target_include_directories() (#33606)
- GH-33626 - [Packaging][RPM] 不要移除非目標架構的中繼資料 (#33672)
- GH-33638 - [C++] 移除 ExecPlan::Make 棄用警告 (#33658)
- GH-33643 - [C++] 移除在 c++20 中無效的 this 的隱含 = capture (#33644)
- GH-33666 - [R] 移除 semi_join 的外來引數 (#33693)
- GH-33667 - [C++][CI] 為 ASAN 使用 Ubuntu 22.04 (#33669)
- GH-33687 - [Dev] 修復 merge 腳本中的 commit 訊息產生 (#33691)
- GH-33705 - [R] 修復 README 上的連結 (#33706)