Apache Arrow 16.0.0 (2024 年 4 月 20 日)
這是一個主要版本,涵蓋超過 1 個月的開發。
下載
貢獻者
此版本包含來自 119 位不同貢獻者的 587 次提交。
$ git shortlog -sn apache-arrow-15.0.2..apache-arrow-16.0.0
79 dependabot[bot]
70 Sutou Kouhei
41 Antoine Pitrou
31 Joris Van den Bossche
28 Raúl Cumplido
24 Alenka Frim
19 mwish
14 Felipe Oliveira Carvalho
13 Jacob Wujciak-Jens
12 Dewey Dunnington
11 Dane Pitkin
10 Bryce Mecum
10 Matt Topol
9 Jonathan Keane
9 ZhangHuiGui
8 Vibhatha Lakmal Abeykoon
7 Rossi Sun
6 Adam Reeve
6 David Li
6 Hyunseok Seo
6 James Henderson
6 Thomas Newton
6 david dali susanibar arce
5 Dominik Moritz
5 Laurent Goujon
5 Weston Pace
4 Curt Hagenlocher
4 Divyansh200102
4 Gang Wu
4 Ian Cook
4 James Duong
4 abandy
3 Benjamin Kietzman
3 Jin Shang
3 Joel Lubinitsky
3 Judah Rand
3 Nic Crane
3 Rok Mihevc
3 Rossi(Ruoxi) Sun
3 Vyas Ramasubramani
3 Xiansen Chen
2 Anja Kefala
2 Gabriel Tomitsuka
2 Josh Soref
2 LucasG0
2 Marcus D. Hanwell
2 Michał Górny
2 Neal Richardson
2 Paul
2 Sten Larsson
2 Zhen Wang
2 emkornfield
2 wayne
1 0x0000ffff
1 Adam Curtis
1 Alex Shcherbakov
1 Alexander Blazhkov
1 Ali Khalili
1 Andrew Grosser
1 Andrew Lamb
1 Austin Dickey
1 Chun Yang
1 Clay Johnson
1 Clif Houck
1 David Greiss
1 Donald Tolley
1 Elliot Morrison-Reed
1 Etienne Bacher
1 Florian Bernard
1 Florian Jetter
1 Fokko Driesprong
1 Francis
1 Hadley Wickham
1 Hattonuri
1 Hussein Awala
1 JB Onofré
1 Jeffrey Vo
1 Jeremy Aguilon
1 Jinpeng
1 Joe Marshall
1 Jânio
1 Kemal
1 Kevin Gurney
1 Kevin Mingtarja
1 Lev Tolmachev
1 Liang-Chi Hsieh
1 Lubo Slivka
1 Lyndon Shi
1 MagicBoost
1 Matthew McNew
1 Miguel Pragier
1 Miles
1 Paul Nienaber
1 Peter Newcomb
1 Sandro
1 Simon Perkins
1 Siyang Tang
1 Tom Jarosz
1 Uwe L. Korn
1 Will Jones
1 Yan Zhou
1 Yue
1 arunppsg
1 av8or1
1 carehabit
1 dsisnero
1 ella-chao
1 h-vetinari
1 keshen-msft
1 lriggs
1 messense
1 normanj-bitquill
1 qmmk
1 sgilmore10
1 sullis
1 tobim
1 y.yoshida5
1 ywgrit
1 野鹿
修補程式提交者
以下 Apache 提交者合併了貢獻的修補程式到儲存庫。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-15.0.2..apache-arrow-16.0.0
176 Sutou Kouhei
97 Antoine Pitrou
58 Joris Van den Bossche
50 David Li
32 Matt Topol
27 Curt Hagenlocher
20 Jacob Wujciak-Jens
17 Raúl Cumplido
16 Felipe Oliveira Carvalho
14 AlenkaF
13 mwish
9 Benjamin Kietzman
8 Dewey Dunnington
6 Nic Crane
5 Bryce Mecum
5 Jonathan Keane
3 Weston Pace
3 dependabot[bot]
2 Kevin Gurney
1 Rok Mihevc
變更日誌
Apache Arrow 16.0.0 (2024-04-20 07:00:00)
錯誤修正
- GH-20379 - [Java] 資料集在釋放位元組時更新預留失敗 (#40101)
- GH-35081 - [Python] 在
to_pandas
中使用公共 API 建構 pandas.DataFrame (#40897) - GH-35369 - [文件] 在 ref:
IPC format <format-ipc>
後面新增遺失的空格 (#38276) - GH-35718 - [Go][Parquet] 修正僅限 null 編碼的 panic (#39497)
- GH-36026 - [C++][ORC] 捕捉所有 ORC 例外以避免崩潰 (#40697)
- GH-36026 - [Python] 修正 python wheel windows 測試中的 ORC 測試區段錯誤 (#40609)
- GH-37164 - [Python] 將 Python 堆疊追蹤附加到
ConvertPyError
中的錯誤 (#39380) - GH-37841 - [Java] 字典解碼未使用 ArrowReader 中的壓縮 factory (#38371)
- GH-37989 - [Python] 修正從 Python 字典列表建立 Arrow 陣列時的參考洩漏 (#40412)
- GH-38768 - [Python] 向後切片超出起點的空陣列現在為空 (#40682)
- GH-38768 - [Python] 向後切片超出起點的陣列現在包含第一個項目。 (#39240)
- GH-38794 - [C++][S3] 處理目錄的傳統 content-type (#40147)
- GH-38821 - [C++] 加強處理 S3、GCS 中的重複斜線 (#40371)
- GH-38828 - [R] 確保串流可以寫入 socket 連線 (#38897)
- GH-38833 - [C++] 避免 hash_mean 溢位 (#39349)
- GH-38923 - [GLib] 修正拼寫錯誤 (#38924)
- GH-38962 - [C++] 修正拼寫錯誤 (array) (#38963)
- GH-39291 - [文件] 從文件頁面移除「顯示原始碼」連結 (#40167)
- GH-39309 - [Go][Parquet] 處理 DeltaBinaryPacked 的 nil bitWriter (#39347)
- GH-39310 - [CI][Java][文件] 被新的 module-info-compiler Maven 外掛程式導致失敗
- GH-39416 - [GLib][文件] 修正 README 內容中的損壞連結 (#39896)
- GH-39424 - [CI][R] test-r-rhub-debian-gcc-devel-lto-latest 無法安裝 Arrow 而失敗
- GH-39440 - [Python] 將 pyarrow.dataset.ParquetFileFormat.make_write_options 作為類別方法呼叫會導致區段錯誤 (#40976)
- GH-39444 - [Python] 修正加密測試中的 parquet 匯入 (#40505)
- GH-39444 - [C++][Parquet] 修正模組化加密中的崩潰 (#39623)
- GH-39456 - [Go][Parquet] Arrow DATE64 類型強制轉換為 Parquet DATE 邏輯類型 (#39460)
- GH-39466 - [Go][Parquet] 對齊 Arrow 和 Parquet Timestamp Instant/Local 語義 (#39467)
- GH-39519 - [Swift] 修正使用 reader 時的 null 計數 (#39520)
- GH-39523 - [R] 在開發版本上時,不要覆寫明確設定的 NOT_CRAN=false (#39524)
- GH-39558 - [Java] 新增 SQL_ALL_TABLES_ARE_SELECTABLE、SQL_NULL_ORDERING 和 SQL_MAX_COLUMNS_IN_TABLE 支援到 SqlInfoBuilder (#39561)
- GH-39579 - [Python] 修正對 _ensure_partitioning 引發 ValueError 的問題 (#39593)
- GH-39683 - [發布] 使用 TEST_BINARY=1 的臨時方向 (#39684)
- GH-39706 - [Archery] 修正
benchmark diff
子命令 (#39733) - GH-39738 - [R] 支援針對 Arrow 的最近三個發布版本進行建置 (#39739)
- GH-39765 - [C++][Dataset] 修正 dataset-scanner-benchmark 中的失敗 (#39794)
- GH-39769 - [C++][Device] 修正匯入 DeviceArray 的巢狀和字串類型 (#39770)
- GH-39782 - [C++] 在 ExportDeviceArray 中使用緩衝區的正確 (非 CPU) 位址 (#39783)
- GH-39788 - [Python] 驗證 Table.to_batches 中的 max_chunksize (#39796)
- GH-39841 - [GLib] 再次新增對 GLib 2.56 的支援 (#39842)
- GH-39857 - [C++] 改進「chunker out of sync」條件的錯誤訊息 (#39892)
- GH-39870 - [Go] 在 TotalBytesWritten 中包含緩衝頁面 (#40105)
- GH-39874 - [CI][C++][Windows] 使用預先安裝的 OpenSSL (#39882)
- GH-39883 - [CI][R][Windows] 將 ci/scripts/install_minio.sh 與 Git bash 一起使用 (#39929)
- GH-39909 - [Java][CI] 更新 Testing 子模組上 Float16 測試檔案參考的參考 (#39911)
- GH-39921 - [Go][Parquet] ColumnWriter 在 Flush 後未重設 TotalCompressedBytes (#39922)
- GH-39925 - [Go][Parquet] 修正 maybeReplaceValidity 函數中的重新切片 (#39926)
- GH-39935 - [GLib][文件] 使用 GI-DocGen 而不是 GTK-Doc (#40427)
- GH-39955 - [C++] 使用 make -j1 安裝捆綁的 bzip2 (#39956)
- GH-39965 - [C++] DatasetWriter 避免在啟用
max_rows_per_file
時建立零大小的批次 (#39995) - GH-39973 - [C++][CI] 停用 ASAN 和 Valgrind 的偵錯記憶體池 (#39975)
- GH-39992 - [CI][文件][Java] ubuntu-docs 在 .env 中使用 Maven 版本 (#39993)
- GH-39996 - [Archery] 修正從 fork 的 main 分支的 PR 上的 Crossbow 建置 (#40002)
- GH-39996 - [Archery] 修正從 fork 的 main 分支的 PR 上的 Crossbow 建置 (#39997)
- GH-40038 - [Java] 透過 C 資料介面匯出可變大小佈局的非空偏移緩衝區 (#40043)
- GH-40039 - [Java][FlightRPC] 透過移除不必要的記憶體複製來改善效能 (#40042)
- GH-40040 - [C++][Gandiva] 將 Gandiva 的預設快取大小設定為物件程式碼快取的 5000 (#40041)
- GH-40052 - [C++][FS][Azure] 修正階層式命名空間帳戶上的 CreateDir 和 DeleteDir 尾部斜線問題 (#40054)
- GH-40085 - [C++][FS][Azure] 驗證 AzureFileSystem::Impl::MovePaths() 中的容器 (#40086)
- GH-40089 - [Go] 用於接收大量記錄集的並行 Recordset (#40090)
- GH-40097 - [Go][FlightRPC] 啟用停用 TLS (#40098)
- GH-40126 - [C++] 在呼叫算術函數時,具有不同精確度和比例的小數類型在解析類型時繫結失敗 (#40223)
- GH-40145 - [C++][文件] 更正控制台發射器連結 (#40146)
- GH-40153 - [C++][Python] 修正 32 位元上的 test_gdb 失敗 (#40293)
- GH-40153 - [Python] 使
Tensor.__getbuffer__
在 32 位元平台上運作 (#40294) - GH-40153 - [Python] 避免在 Array.to_numpy() 中使用 np.take (#40295)
- GH-40153 - [Python][C++] 修正 32 位元 Python 建置上的大型檔案處理 (#40176)
- GH-40153 - [Python] 更新 32 位元平台的大小假設 (#40165)
- GH-40153 - [Python] 修正 32 位元平台上的 foreign_buffer 中的 OverflowError (#40158)
- GH-40171 - [Python] 將 Type_FIXED_SIZE_LIST 新增至 _NESTED_TYPES 集合 (#40172)
- GH-40181 - [C++] 支援 glog 0.7 建置 (#40230)
- GH-40183 - [C++] 修正透過 AddAlias 新增別名後,cast 函數繫結失敗的問題 (#40200)
- GH-40199 - [R] dbplyr 2.5.0 向前相容性 (#40197)
- GH-40207 - [C++] TakeCC:僅串連一次,並委派給 TakeAA 而不是 TakeCA (#40206)
- GH-40227 - [R] 確保
create_package_with_all_dependencies
中的可執行檔案 (#40232) - GH-40233 - [C++] 修正 asof_join_benchmark 執行時因遺失 arg 而導致的中止 (#40234)
- GH-40249 - [Java] 修正 ArrowDatabaseMetadata 中的 NPE (#40988)
- GH-40266 - [Python] 將 ListView 標記為巢狀類型 (#40265)
- GH-40268 - [Archery] 提升 pygit2 的版本,適應 API 變更 (#40269)
- GH-40276 - [C++] 修正 decimal_benchmark 中的簡單緩衝區溢位案例 (#40277)
- GH-40279 - [C++] 減少 S3Client 初始化時間 (#40299)
- GH-40306 - [C++] 修正 vector_hash_benchmark 中產生 StringType 測試資料的錯誤 total_bytes (#40307)
- GH-40308 - [C++][Gandiva] 新增對 compute 模組小數升級規則的支援 (#40434)
- GH-40316 - [Python] 僅在使用時分配 ScalarMemoTable (#40565)
- GH-40327 - [C++][Parquet] 在 key_management_test.cc 中新增遺失的 config.h 包含 (#40330)
- GH-40331 - [C++][CMake] 將遺失的 glog::glog 依賴項新增至 arrow_util (#40332)
- GH-40334 - [C++][Gandiva] 將遺失的 OpenSSL 依賴項新增至 encrypt_utils_test.cc (#40338)
- GH-40366 - [C++] 從 Buffer::mutable_span_as 移除 const 限定詞 (#40367)
- GH-40375 - [Python] 在發布驗證期間,Windows 上編譯 Cython 檔案時發生錯誤
- GH-40395 - [C++] 避免簡化呼叫不純函數的表達式 (#40396)
- GH-40398 - [C++] 如果啟用 opentelemetry 或 ORC,則公開 protobuf 依賴項 (#40399)
- GH-40422 - [C++][FlightRPC] 新增遺失的 expiration_time 參數 (#40425)
- GH-40431 - [C++] 將 key_hash/key_map/light_array 相關檔案移動到內部,以防止使用者使用 (#40484)
- GH-40432 - [C++] 將遺失的 Threads::Threads 依賴項新增至 arrow_static (#40433)
- GH-40439 - [Python] 修正 python/benchmarks/parquet.py 中的 flake8 失敗 (#40440)
- GH-40443 - [Python] 抑制 python/examples/minimal_build/Dockerfile.* 警告 (#40444)
- GH-40445 - [C++] 修正 Windows 上的靜態建置 (#40446)
- GH-40500 - [C++] 確保使用捆綁的 FlatBuffers (#40519)
- GH-40535 - [文件][R] 設定 RETICULATE_PYTHON_ENV 以找到 pyarrow (#40571)
- GH-40558 - [C++][CI] 修正 TSAN 和 ASAN/UBSAN 崩潰 (#40559)
- GH-40562 - [C++] 修復 FileSystem 合併錯誤 (#40564)
- GH-40566 - [C++] 修正 3.12 Python 支援 (#40322)
- GH-40568 - [Java] 關於 TestAllTypes 的資料集中的測試失敗 (#40662)
- GH-40591 - [R] 在 pkgdown 網站上為 navbar 新增額外的 CSS (#40610)
- GH-40602 - [C++] 將 mold linker 旗標移動到變數 (#40603)
- GH-40615 - [Packaging][deb] 將 libprotobuf-dev 依賴項從 libarrow-flight-dev 移動到 libarrow-dev (#40617)
- GH-40616 - [文件][GLib] 確保覆寫佔位符首頁 (#40618)
- GH-40619 - [Java] JDBC 介面卡建置問題 (#40656)
- GH-40623 - [Python][文件] 新增 autosummary 的變通方法 (#40739)
- GH-40634 - [C#] ArrowStreamReader 不應為 null (#40765)
- GH-40642 - [Python] BUG:向後切片超出起點的空陣列應為空
- GH-40652 - [C++] 根據
CopyBitmap
基準測試的目的地偏移量放大目的地緩衝區 (#40769) - GH-40668 - [Ruby][CI] 時區需要 GLib 2.58 或更高版本 (#40669)
- GH-40672 - [Go][Parquet] 為 min_max 新增正確的建置標籤 (#40676)
- GH-40674 - [GLib] 不要假設 gint64 和 int64_t 使用相同的類型 (#40736)
- GH-40693 - [Go] 修正 GetOneForMarshal 中 Decimal 類型精確度損失的問題 (#40694)
- GH-40700 - [Go][CI] test-debian-12-go-1.21 因 `go: updates to go.mod needed` 而失敗
- GH-40702 - [R] 避免 duckdb 測試中使用未記錄的 dbplyr 內部元件 (#40710)
- GH-40703 - [CI][Packaging] Homebrew 無法在 GHA 執行器上安裝 Python 3.12 (#40704)
- GH-40706 - [CI][Python] 如果在 sdist-test 作業中定義了 ARROW_PYTHON_VENV,則啟用它 (#40707)
- GH-40716 - [Java][Integration] 修正驗證腳本中的 test_package_java (#40724)
- GH-40718 - [JS] 修正 js 日期向量中的設定訪問器 (#40725)
- GH-40719 - [Go] 使
arrow.Null
為非 null,以便arrow.TypeEqual
可以與new(arrow.NullType)
正常運作 (#40802) - GH-40727 - [C++][Gandiva] ‘ilike’ 函數無法運作 (#40728)
- GH-40751 - [C++] 修正 substrait 建置的 protobuf 套件名稱設定 (#40753)
- GH-40773 - [Java] 將
DENSEUNION
案例新增至 StructWriters,解決 #40773 (#40809) - GH-40775 - [Benchmarking][Java] 修正 conbench 超時問題 (#40786)
- GH-40788 - [C#] 覆寫 MapArray 中的 Accept (#40789)
- GH-40790 - [C#] 在取得 StructArray 的欄位時,考慮偏移量和長度 (#40805)
- GH-40792 - [C#] 修正先前切片的陣列的切片問題 (#40793)
- GH-40847 - [Go] 更新 readme (#40877)
- GH-40851 - [JS] 修正 nullcount 並使從類型化陣列建立的向量不可為 null (#40852)
- GH-40855 - [C++][ORC] 修正與 ORC 2.0.0 或更高版本相關的
std::filesystem
連結錯誤 (#41023) - GH-40858 - [R] 從 codegen.R 移除懸掛逗號 (#40859)
- GH-40863 - [C++] 修正模組庫的 TSAN 連結錯誤 (#40864)
- GH-40870 - [C#] 更新 CompareValidityBuffer() 以在未指定的最終位元不相同時通過 (#40873)
- GH-40878 - [JAVA] 修正 flight-sql-jdbc-driver shading 問題 (#40879)
- GH-40891 - [JS] 將日期儲存為 TimestampMillisecond (#40892)
- GH-40893 - [Java][FlightRPC] 在 FlightSQL JDBC Driver 中支援 IntervalMonthDayNanoVector (#40894)
- GH-40896 - [Java] 移除 Eclipse、logback 的執行階段依賴項 (#40904)
- GH-40898 - [C#] 不要從 C 資料介面陣列匯入長度為零的緩衝區 (#41054)
- GH-40900 - [Go] 修正 Mallocator Weirdness (#40902)
- GH-40907 - [Java][FlightSQL] 在 JDBC driver 中 shade slf4j-api (#40908)
- GH-40952 - [Java][FlightSQL] 清理 flight-sql-jdbc-driver 依賴項 (#40953)
- GH-40954 - [CI] 修正 Github Actions 上過時的 docker-compose 命令的使用 (#40949)
- GH-40961 - [GLib] 抑制 macOS 上 Vala 範例的警告 (#40962)
- GH-40974 - [CI][Python] Python 建置因 pytest_cython 而導致 CI 失敗 (#40975)
- GH-40991 - [R] 偏好 r-universe,新增啟動訊息 (#41019)
- GH-40999 - [Java] 修正嘗試在可為 null 的結構中 splitAndTransfer DUV 時發生的 AIOOBE (#41000)
- GH-41004 - [C++][FS][Azure] 不要使用 Valgrind 執行 TestGetFileInfoGenerator() (#41163)
- GH-41005 - [CI] HDFS 和 skyhook 測試需要 docker compose 用法,因為它們需要多個容器 (#41027)
- GH-41007 - [CI][Archery] 在 archery docker 上使用 docker cli 時,正確地內插 docker compose 中的環境變數 (#41026)
- GH-41015 - [JS][Benchmarking] 允許 JS 基準測試更可攜地執行 (#41031)
- GH-41016 - [C++] 修正 BooleanArray.true_count() 中的 null 計數檢查 (#41070)
- GH-41024 - [C++] IO:修正在 gcc 7.5.0 中編譯的問題 (#41025)
- GH-41032 - [C++][Parquet] 布林箭頭解碼中的錯誤修正和更多測試 (#41037)
- GH-41039 - [Python] ListView pandas 測試應使用 np.nan 而不是 None (#41040)
- GH-41044 - [C++] formatting.h:確保在格式化時間戳記時為 ‘Z’ 分配空間 (#41045)
- GH-41061 - [C++] 使用 clang < 12 時忽略 ARROW_USE_MOLD/ARROW_USE_LLD (#41062)
- GH-41088 - [CI][Crossbow] 修正 GitHub Actions 工作流程語法錯誤 (#41091)
- GH-41119 - [Archery][Packaging][CI] 避免在 Windows 上的 Docker 上對 archery 使用 –progress 旗標 (#41120)
- GH-41121 - [C++] 修正:left anti join 篩選空列。 (#41122)
- GH-41124 - [CI][C++] 不要將 CMake 3.29.1 與 vcpkg 一起使用 (#41151)
- GH-41127 - [CI] 使用 GitHub Actions 而不是 Azure Pipelines 進行 docker-tests (#41153)
- GH-41145 - [R][CI] test-r-dev-duckdb 安裝 duckdb 失敗 (#41152)
- GH-41147 - [CI][C++] 在 Ubuntu 24.04 上使用較新的 LLVM (#41150)
- GH-41154 - [C++] 修正字串到 float16 轉換中的 Valgrind 錯誤 (#41155)
- GH-41167 - [CI][Release][GLib][Conda] 將 gobject-introspection 釘選到 1.78.1 (#41181)
- GH-41169 - [CI][Release] 在 Windows 上明確指定 –build-config (#41178)
- GH-41176 - [C++] 停止在 config.h.cmake 中定義 ARROW_TEST_MEMCHECK (#41177)
- GH-41201 - [C++] 修正在整合測試中的錯誤。明確轉換 std::string 以避免編譯器將 char* 解釋為 bool (#41202)
新功能與改進
- GH-18014 - [C++] Azure Blob 儲存的文件系統實作
- GH-20127 - [Python][CI] 從 hdfs 和 hypothesis 設定中移除舊版 hdfs 測試 (#40363)
- GH-20127 - [Python] 移除已棄用的 pyarrow.filesystem 舊版實作 (#39825)
- GH-20213 - [C++] 實作與 halffloat 之間的 cast 轉換 (#40067)
- GH-20339 - [C++] 新增殘差篩選器支援到 swiss join (#39487)
- GH-23221 - [C++] 新增使用 Emscripten 建置的支援 (#37821)
- GH-24826 - [Java] 新增 DUV.setOffset 方法 (#40985)
- GH-24834 - [C#] 支援寫入壓縮的 IPC 資料 (#39871)
- GH-30915 - [C++][Python] 將遺失的方法新增至
RecordBatch
(#39506) - GH-31545 - [GLib] 啟用 clang-format (#40451)
- GH-31735 - [文件][發布] 將發布驗證指南移動到開發人員文件 (#39960)
- GH-33499 - [Python][CI] 在 Windows wheels 中支援 ORC
- GH-34235 - [Python] 更正 join_asof 測試的測試標記 (#40666)
- GH-34235 - [Python] 新增
join_asof
繫結 (#34234) - GH-34865 - [C++][Java][Flight RPC] 新增 Session 管理訊息 (#34817)
- GH-35875 - [R] 更新 Readme (#40148)
- GH-35941 - [Dev][MATLAB] 將 clang-format 設定新增至 pre-commit (#40588)
- GH-36656 - [Dev] 在合併腳本中驗證 issue 是否已分配里程碑 (#40771)
- GH-37286 - [Java] 開始新增可為 null 性/nullness 註釋 (#37723)
- GH-37328 - [Python] 新增在 Windows 上下載和解壓縮時區資料庫的函數 (#38179)
- GH-37381 - [Python][CI][Packaging] 在 Windows Appveyor CI 和 pyarrow 的 Windows wheels 上啟用 ORC
- GH-37484 - [Python] 新增 FixedSizeTensorScalar 類別 (#37533)
- GH-37931 - [Python][CI][Dev][Python] 發布和合併腳本錯誤 (#37819)” (#40150)
- GH-38010 - [Python] 透過 Arrow PyCapsule Protocol 建構 pyarrow.Field 和 ChunkedArray (#40818)
- GH-38309 - [C++] 將文件系統建置為獨立模組 (#39067)
- GH-38560 - [C++][Parquet] 使用 xsimd 重寫 BYTE_STREAM_SPLIT SSE 優化 (#40335)
- GH-38573 - [Java][FlightRPC] 在 JDBC driver 中嘗試所有位置 (#40104)
- GH-38659 - [CI][MATLAB][Packaging] 將 MATLAB
packaging
作業新增至 crossbowtasks.yml
(#38660) - GH-38663 - [C++] 新增使用
AWS_ENDPOINT_URL_S3
支援 S3 的服務特定端點 (#39160) - GH-38703 - [C++][FS][Azure] 實作 DeleteFile() (#39840)
- GH-38704 - [C++] 透過 Azure DataLake Storage Gen 2 API 實作 Azure FileSystem Move() (#39904)
- GH-38717 - [C++] 新增從 ArrowArrayStream 匯入/匯出 ChunkedArray (#39455)
- GH-38916 - [R] 簡化資料集和表格列印輸出 (#38917)
- GH-38988 - [Go] 從 DictionaryBuilder 公開字典大小 (#39521)
- GH-38998 - [Java] 將 memory-core 和 memory-unsafe 建置為 JPMS 模組 (#39011)
- GH-39001 - [Java] 模組化剩餘模組 (#39221)
- GH-39057 - [CI][C++][Go] 不要對 fork 執行使用自架設 GitHub Actions Runner 的作業 (#39903)
- GH-39069 - [C++][FS][Azure] 使用通用文件系統測試 (#40567)
- GH-39147 - [R] 新增 Bootstrap.r (#39148)
- GH-39231 - [C++][Compute] 為固定大小二進制新增 binary_slice 核心 (#39245)
- GH-39233 - [Compute] 新增一些 duration 核心 (#39358)
- GH-39270 - [C++] 避免為每個緩衝區視圖/複製建立記憶體管理器實例 (#39271)
- GH-39277 - [Python] 修正 DataType 類別上遺失的 byte_width 屬性 (#39592)
- GH-39330 - [Java][CI] 修正或抑制虛假的 errorprone 警告 (#39529)
- GH-39336 - [C++][Parquet] 次要:Parquet::FileMetaData 的樣式增強 (#39337)
- GH-39352 - [FS][Azure] 在建置中啟用 azure (#39971)
- GH-39377 - [C++] IO:在 CompressedInputStream 中重複使用相同的緩衝區 (#39807)
- GH-39385 - [C++] 為 rename 使用更寬容的傳回碼 (#39481)
- GH-39398 - [C++][Parquet] 在 ColumnReader ReadLevels 中使用 std::count (#39397)
- GH-39427 - [GLib] 更新腳本和文件 (#39428)
- GH-39463 - [C++] 支援從大型字串、(大型) 二進制到字典的 cast 核心 (#40017)
- GH-39532 - [Python] 與 NumPy 2.0 的相容性
- GH-39549 - [C++] 將 -jN 傳遞給外部專案中的 make (#39550)
- GH-39552 - [Go] 包含在使用 go 庫建立 csv 字串時使用 replacer 的選項 (#39576)
- GH-39555 - [Packaging][Python] 啟用針對 numpy 2.0 建置 pyarrow (#39557)
- GH-39560 - [C++][Parquet] 為 BYTE_STREAM_SPLIT 新增整合測試 (#39570)
- GH-39574 - [Go] 在 Flight RPC 中啟用 PollFlightInfo (#39575)
- GH-39621 - [CI][Packaging] 更新 vcpkg 至 2023.11.20 版本 (#39622)
- GH-39651 - [Python] Binary/StringView 類別的基本 pyarrow 綁定 (#39652)
- GH-39654 - [Java] 升級至 Netty 4.1.105.Final (#39655)
- GH-39663 - [C++] 確保頂層基準測試呈現資訊豐富的指標 (#40091)
- GH-39666 - [C++] 確保 CSV 和 JSON 基準測試呈現 bytes/s 或 items/s 指標 (#39764)
- GH-39667 - [C++] 確保資料集基準測試呈現 bytes/s 或 items/s 指標 (#39766)
- GH-39669 - [C++][Gandiva] 確保 Gandiva 基準測試呈現 bytes/s 或 items/s 指標 (#40435)
- GH-39680 - [Java] 在 Java 模組上啟用半精度浮點數支援 (#39681)
- GH-39697 - [R] 原始碼建置應檢查是否離線 (#39699)
- GH-39702 - [GLib] 在 GArrowTimestampDataType 中新增時區支援 (#39717)
- GH-39704 - [C++][Parquet] 基準測試層級解碼 (#39705)
- GH-39707 - [Java] 為 Maven/Java 建置啟用本地建置快取 (#39708)
- GH-39718 - [C++][FS][Azure] 移除 StatusFromErrorResponse,因為它不是必要的 (#39719)
- GH-39720 - [Swift] 切換讀取器以使用 arrow 欄位而不是 proto 來建構陣列 (#39721)
- GH-39734 - [Java] 將 org.codehaus.mojo:exec-maven-plugin 從 1.6.0 升級至 3.1.1 (#39696)
- GH-39747 - [C++][Parquet] 使 BYTE_STREAM_SPLIT 常式與類型無關 (#39748)
- GH-39752 - [Java] 移除 Utf8 用法的靜態匯入 (#40683)
- GH-39761 - [Docs] 連結到 Go 文件參考 2018 年的過時文件 (#39750)
- GH-39771 - [C++][Device] 通用 CopyBatchTo/CopyArrayTo 記憶體類型 (#39772)
- GH-39774 - [Go] 新增對 PreparedStatement handle 的公開存取權 (#39775)
- GH-39779 - [Python] 在 PyArrow 中公開 force_virtual_addressing (#39819)
- GH-39780 - [Python][Parquet] 支援 FileMetaData 和 ParquetSchema 的雜湊 (#39781)
- GH-39812 - [Python] 為 ListView 和 LargeListView 新增綁定 (#39813)
- GH-39815 - [C++] 文件化並微調 ChunkResolver::Resolve() (#39817)
- GH-39823 - [C++] 允許在不等待捆綁程式庫的情況下建置 cpp/src/arrow/*/*/.cc (#39824)
- GH-39837 - [Go][Flight] 允許在 middleware 中複製現有的 cookies (#39838)
- GH-39843 - [C++][Parquet] Parquet 二進位長度溢位例外應包含二進位的長度 (#39844)
- GH-39845 - [C++][Parquet] 次要:避免在 Decoder::SetData 中建立新的 Reader 物件 (#39847)
- GH-39848 - [Python][Packaging] 使用 numpy RC 而不是 nightly 建置 pyarrow wheels (#41097)
- GH-39852 - [Python] 支援從 python 物件建立 Binary/StringView 陣列 (#39853)
- GH-39855 - [Python] pa.array() 的 ListView 支援 (#40160)
- GH-39859 - [R] 從允許清單中移除 macOS (#39861)
- GH-39863 - [C++] 第三方:將 google benchmark 升級至 1.8.3 (#39878)
- GH-39864 - [C++] DataType::ToString 支援選擇性顯示 metadata (#39888)
- GH-39872 - [Packaging][Ubuntu] 新增 Ubuntu 24.04 Noble Numbat 的支援 (#39887)
- GH-39885 - [CI][MATLAB] 將 matlab-actions/setup-matlab 和 matlab-actions/run-tests 從 v1 升級至 v2 (#39886)
- GH-39900 - [Java][CI] 將 Maven 和 Memory Netty Buffer Patch 上傳至 Apache Nightly 儲存庫 (#39901)
- GH-39910 - [Go] 新增從 ActionCreatePreparedStatementResult 載入 prepared statement 的 func (#39913)
- GH-39928 - [C++][Gandiva] 接受 LLVM 18 (#39934)
- GH-39930 - [C++] 在 arrow.pc 中針對系統 RE2 使用 Requires 而不是 Libs (#39932)
- GH-39946 - [Java] 將 com.puppycrawl.tools:checkstyle 從 8.19 升級至 8.29 (#39694)
- GH-39958 - [Python][CI] 移除 pytest 的上限釘選 (#40487)
- GH-39962 - [C++] 小型 CSV 讀取器重構 (#39963)
- GH-39968 - [Python][FS][Azure]
AzureFileSystem
的最小 Python 綁定 (#40021) - GH-39978 - [C++][Parquet] 擴展 BYTE_STREAM_SPLIT 以支援 FIXED_LEN_BYTE_ARRAY、INT32 和 INT64 (#40094)
- GH-39979 - [Python] 用於匯出/匯入 C Device Interface 的低階綁定 (#39980)
- GH-39984 - [Python] 新增 ChunkedArray 從 C 匯入/匯出 (#39985)
- GH-39987 - [R] 使在 Windows 上使用 rtools libarrow 成為可能 (#39986)
- GH-40011 - [CI] 將 Fedora 從 38 更新至 39 (#40012)
- GH-40023 - [Python] 使用 Cast() 而不是 CastTo (#40116)
- GH-40026 - [C++][FS][Azure] 新增讀取使用者定義 metadata 的支援 (#40671)
- GH-40028 - [C++][FS][Azure] 將 AzureFileSystem 支援新增至 FileSystemFromUri() (#40325)
- GH-40029 - [Packaging][Ubuntu] 移除 Ubuntu 23.10 Mantic Minotaur 的支援 (#40030)
- GH-40037 - [C++][FS][Azure] 使針對目錄的嘗試讀取和寫入快速失敗 (#40119)
- GH-40055 - [Java][Docs] 簡化 Filter 和 Expression 到 Dataset Substrait 的使用 (#40056)
- GH-40059 - [C++][Python] RecordBatch 到 Arrow Tensor 的基本轉換 (#40064)
- GH-40060 - [C++][Python] RecordBatch 到 Arrow Tensor 的基本轉換 - 新增不同資料類型的支援 (#40359)
- GH-40061 - [C++][Python] RecordBatch 到 Arrow Tensor 的基本轉換 - 新增將 NULL 轉換為 NaN 的選項 (#40803)
- GH-40066 - [Python] 在
__arrow_c_stream__()
中支援requested_schema
(#40070) - GH-40074 - [C++][FS][Azure] 為平面命名空間儲存帳戶實作
DeleteFile()
(#40075) - GH-40077 - [CI] 使用 GitHub 託管的 M1 macOS runner (#40437)
- GH-40079 - [CI][Packaging] 在更多測試和建置中啟用 Azure (#40080)
- GH-40082 - [CI][C++] 在 ARM64 macOS 上新增 job (#40456)
- GH-40092 - [Python] 支援 Binary/StringView 轉換為 numpy/pandas (#40093)
- GH-40095 - [C++][Parquet] 移除 BYTE_STREAM_SPLIT 編碼的 AVX512 變體 (#40127)
- GH-40113 - [Go][Parquet] 新的 RegisterCodec 函數 (#40114)
- GH-40133 - [C++][Parquet][Tools] 列印 FIXED_LEN_BYTE_ARRAY 長度 (#40132)
- GH-40142 - [Python] 允許將 FileInfo 實例傳遞至資料集初始化 (#40143)
- GH-40151 - [C++] 使 S3 敘述性測試更具彈性 (#40144)
- GH-40152 - [C++] 移除 BatchesFromTable 的冗餘調用 (#40173)
- GH-40155 - [Go][FlightRPC][FlightSQL] 實作 Session Management (#40284)
- GH-40159 - [Python][CI] 在 Crossbow 上新增 32 位元 Debian 建置 (#40164)
- GH-40190 - [R][Docs] 使用建置系統變更更新 NEWS.md (#40191)
- GH-40205 - [Python] ListView arrow-to-pandas 轉換 (#40482)
- GH-40209 - [C++][CMake] 針對 RapidJSON 使用 “RapidJSON” CMake 目標 (#40210)
- GH-40212 - [R][CI] 新增使用 gcc 14 建置的 C++ (#40244)
- GH-40221 - [C++][CMake] 使用 arrow/util/config.h.cmake 而不是 add_definitions() (#40222)
- GH-40224 - [C++] 修正:改善資料集寫入器中的背壓處理 (#40722)
- GH-40228 - [C++][CMake] 改善我們需要在 arrow-s3fs-test 中初始化 AWS C++ SDK 的原因描述 (#40229)
- GH-40236 - [Python][CI] 停用在 Cython traceback 中產生 C 行 (#40225)
- GH-40261 - [Go] 不要匯出具有未公開傳回類型的陣列函數 (#40272)
- GH-40273 - [Python] 支援在 pa.array(..) 中建構 Run-End Encoded 陣列 (#40341)
- GH-40274 - [C++] 新增對系統 glog 0.7 的支援 (#40275)
- GH-40280 - [C++] 在值特定類型而不是整個類別上特化 ResolvedChunk::Value (#40281)
- GH-40291 - [Python] 接受 pyarrow.record_batch() 函數中的 dict (#40292)
- GH-40318 - [C++][Docs] 新增陣列工厂的文件 (#40373)
- GH-40323 - [R][CI] 使用 rocker/r-ver 而不是 library/r-base (#40321)
- GH-40328 - [C++][Parquet] 允許在 CryptoFactory 銷毀後使用 FileDecryptionProperties (#40329)
- GH-40333 - [Docs] 改善 ARROW_USER_SIMD_LEVEL 的 env var 文件 (#40374)
- GH-40345 - [FlightRPC][C++][Java][Go] 新增 URI scheme 以重複使用連線 (#40084)
- GH-40357 - [C++] 為 ToTensor 轉換新增基準測試 (#40358)
- GH-40370 - [C++] 為非 MSVC 建置定義 ARROW_FORCE_INLINE (#40372)
- GH-40376 - [Python] 更新以符合 NumPy 2.0 ABI 在 PyArray_Descr->elsize 中的變更 (#40418)
- GH-40377 - [Python][CI] 修正整合測試中 nightly dask 的安裝 (#40378)
- GH-40379 - [Python] 修正 binary(0) 的 byte_width + 修正 hypothesis 測試 (#40381)
- GH-40394 - [C++] 新增 mold 的支援 (#40397)
- GH-40400 - [C++] 新增 LLD 的支援 (#40927)
- GH-40402 - [GLib] 新增遺失的 compute function options 類別 (#40403)
- GH-40405 - [C++] 當嘗試在平面命名空間帳戶上執行 Move 時,產生更好的錯誤訊息 (#40406)
- GH-40428 - [Python][CI] 使用 pandas nightly 修正資料集分割篩選器測試 (#40429)
- GH-40438 - [GLib] 新增 GArrowTimestampParser (#40457)
- GH-40441 - [GLib][Docs] 針對 Apache Arrow GLib 首頁使用 Sphinx (#40442)
- GH-40448 - [CI][Dev] 執行 pre-commit (#40449)
- GH-40454 - [CI][Debian] 將 Debian 從 11 更新至 12 (#40455)
- GH-40495 - [GLib] 使用 G_DECLARE_DERIVABLE_TYPE() (#40497)
- GH-40498 - [GLib] 移除 arrow-glib/gobject-type.h (#40499)
- GH-40507 - [C++][ORC] 將 ORC 升級至 2.0.0 (#40508)
- GH-40515 - [Java] 將 org.apache.maven 相依性從 3.3.9 升級至 3.8.7 (#40514)
- GH-40522 - [Dev][Go] 為 Go 新增 Dependabot 組態 (#40523)
- GH-40536 - [CI]:將剩餘的 jobs 從 self-hosted mac runners 遷移出去。 (#40537)
- GH-40540 - [CI][C++] 不要安裝 FlatBuffers (#40541)
- GH-40542 - [Dev][CI] 對所有檔案執行 pre-commit (#40543)
- GH-40544 - [Dev] 將 cmake-format 組態新增至 pre-commit (#40545)
- GH-40549 - [Java] 還原在 /java 中將 org.apache.maven.plugins:maven-shade-plugin 從 3.2.4 升級至 3.5.2 (#40462)” (#41006)
- GH-40551 - [Release][Docs] 改善 patch Release 流程的文件 (#40552)
- GH-40553 - [C#] 避免每個請求實例化記錄器 (#40554)
- GH-40573 - [GLib][Ruby][CSV] 新增自訂時間戳記剖析器的支援 (#40590)
- GH-40575 - [Docs][Python] 將 JsonFileFormat 新增至文件 (#40585)
- GH-40577 - [C++] 確保 pkg-config flags 包含 -ldl 以進行靜態建置 (#40578)
- GH-40586 - [Dev][C++][Python][R] 針對 clang-format 使用 pre-commit (#40587)
- GH-40607 - [C++] 將
Function::is_impure()
重新命名為is_pure()
(#40608) - GH-40621 - [C++] 在 arrow/io/compressed_test.cc 中新增遺失的 util/config.h (#40625)
- GH-40630 - [Go][Parquet] 啟用在不關閉檔案的情況下寫入 Parquet footer (#40654)
- GH-40659 - [Python][C++] 支援將 pyarrow.RunEndEncodedArray 轉換為 numpy/pandas (#40661)
- GH-40680 - [Java] 在 CI 中測試 JDK 22 (#41038)
- GH-40684 - [Java][Docs] 使用 IntelliJ 進行 JNI 模組偵錯 (#40685)
- GH-40689 - [Docs] 將 nanoarrow 新增至實作狀態頁面 (#41052)
- GH-40690 - [C#][FlightRPC] 新增 do_exchange csharp 實作 (#40691)
- GH-40695 - [C++] 擴展 Substrait 類型支援 (#40696)
- GH-40698 - [C++] 建立 Devices 登錄表,以在 C Device Data 匯入中將 DeviceType 對應至 MemoryManager (#40699)
- GH-40720 - [Python] 簡化並改善 Table.to_pandas 中建立欄名稱的效能 (#40721)
- GH-40731 - [C++][Parquet] 加密的次要增強程式碼 (#40732)
- GH-40733 - [Go] 需要 Go 1.21 或更高版本 (#40848)
- GH-40745 - [Java][FlightRPC] 支援設定背壓閾值 (#41051)
- GH-40767 - [C++][Parquet] 簡化 PageWriter 和 ColumnWriter 的建立 (#40768)
- GH-40783 - [C++] 重新排序 MemoryPoolStats 更新中的載入和儲存 (#40647)
- GH-40784 - [JS] 使用 bigIntToNumber (#40785)
- GH-40791 - [Dev][CI] 使用官方 hadolint 組態 (#40794)
- GH-40796 - [Java] 在
ListVector.setNull
中設定lastSet
,以避免在具有大量 null 值的 ListVectors 中出現 O(n²) (#40810) - GH-40799 - [Doc][Format] 實作狀態頁面應列出標準擴充類型 (#41053)
- GH-40801 - [Docs] 在 Arrow C Device data interface 中釐清裝置識別碼文件 (#41101)
- GH-40806 - [C++] 還原 PR #40857 的變更 (#40980)
- GH-40806 - [C++] 在 GetRuntimeInfo 中正確報告 asimd/neon (#40857)
- GH-40814 - [C++] 第三方:將 zstd 升級至 1.5.6 (#40837)
- GH-40833 - [Docs][Release] 在文件中明確指出,為了投下贊成票,不需要驗證二進位檔 (#40834)
- GH-40841 - [Docs][C++][Python] 為 RecordBatch::Tensor 轉換新增初始文件 (#40842)
- GH-40843 - [Java] 清理 protobuf-maven-plugin 用法 (#40844)
- GH-40866 - [C++][Python] RecordBatch 到 Arrow Tensor 的基本轉換 - 新增 row-major 的支援 (#40867)
- GH-40872 - [C++][Parquet] 編碼:最佳化 PlainBooleanDecoder 的 DecodeArrow/Decode(bitmap) (#40876)
- GH-40882 - [C++] 抑制 CUDA/Skyhook 程式碼中的 shorten-64-to-32 警告 (#40883)
- GH-40888 - [Go][FlightRPC] 在 FlightSQL driver 中支援從 array.Duration 轉換 (#40889)
- GH-40983 - [C++] 修正未使用的函數建置錯誤 (#40984)
- GH-40994 - [C++][Parquet] RleBooleanDecoder 支援使用 null 值的 DecodeArrow (#40995)
- GH-41034 - [C++][FS][Azure] 針對通用檔案系統測試調整 DeleteDir/DeleteDirContents/GetFileInfoSelector 對 Azure 的行為 (#41068)
- GH-41043 - [CI][Python] 檢查 Cython 2 的 test_make_write_options_error 中的訊息 (#41059)
- GH-41047 - [C#] 解決從 StringArray 讀取的效能問題 (#41048)
- GH-41098 - [Python] 在 Array.__array__ 中新增 copy 關鍵字,以符合 numpy 2.0+ 相容性 (#41071)
- GH-41100 - [Python][Packaging] PyArrow wheel 建置因停用 liblzma 的 vcpkg 安裝而失敗
- GH-41227 - [CI][Release][GLib][Conda] 取消釘選 gobject-introspection (#41228)
- PARQUET-2423 - [C++][Parquet] 避免在 RecordReader 的 SkipRecords 中配置 buffer 物件 (#39818)