Apache Arrow 18.0.0 (2024 年 10 月 28 日)
這是一個主要版本,涵蓋了超過 3 個月的開發。
下載
貢獻者
此版本包含來自 89 位不同貢獻者的 530 個提交。
$ git shortlog -sn apache-arrow-17.0.0..apache-arrow-18.0.0
113 dependabot[bot]
65 Sutou Kouhei
41 Raúl Cumplido
35 Antoine Pitrou
21 Vibhatha Lakmal Abeykoon
19 Dane Pitkin
16 Felipe Oliveira Carvalho
16 Jonathan Keane
16 Joris Van den Bossche
16 Rossi Sun
16 mwish
13 Joel Lubinitsky
9 Laurent Goujon
7 Lysandros Nikolaou
7 Neal Richardson
6 Bryce Mecum
6 David Li
5 Matt Topol
4 Adam Reeve
4 Curt Hagenlocher
4 Hyunseok Seo
4 Oliver Layer
4 abandy
3 Dewey Dunnington
3 Jin Chengcheng
3 Rok Mihevc
3 ViggoC
2 Albert Villanova del Moral
2 Alenka Frim
2 Alkis Evlogimenos
2 Benjamin Kietzman
2 Devin Smith
2 Ian Cook
2 Jacob Wujciak-Jens
2 Thomas Newton
2 Xin Hao
1 0x26res
1 Abdulaziz Aloqeely
1 Abhinand-J
1 Alessandro Molina
1 Alex Malins
1 AlexSpace
1 Amir Gonnen
1 Amit Mittal
1 Anja Kefala
1 Benson Muite
1 Chungmin Lee
1 Costi Ciudatu
1 Crystal
1 David Chapman
1 Etienne Bacher
1 Feiyang472
1 Fokko Driesprong
1 George Vanburgh
1 Grant McDermott
1 James Henderson
1 Joe Marshall
1 Kevin Wilson
1 Kyle Barron
1 Liang-Chi Hsieh
1 Matthijs Brobbel
1 Max Feinleib
1 Michael Chirico
1 Nic Crane
1 Nick Crews
1 Nozomi Isozaki
1 PANKAJ9768
1 Patrick Aboyoun
1 Paul Taylor
1 Pradeep Gollakota
1 RoboSchmied
1 Sarah Gilmore
1 Seb. V
1 Stephen Coussens
1 Sylvain Wallez
1 Tai Le Manh
1 Tom Scott-Coombes
1 Vyas Ramasubramani
1 William Ayd
1 ben-freist
1 hellishfire
1 larry98
1 ndglover
1 qmmk
1 rene-hess
1 shinespiked
1 wiedld
1 yihao.dai
1 ziglerari
修補提交者
以下 Apache 提交者將貢獻的修補程式合併到儲存庫中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-17.0.0..apache-arrow-18.0.0
137 Sutou Kouhei
84 David Li
63 Antoine Pitrou
35 Curt Hagenlocher
31 Dane Pitkin
31 Raúl Cumplido
21 Joris Van den Bossche
16 Jonathan Keane
15 Felipe Oliveira Carvalho
13 mwish
12 Jacob Wujciak-Jens
11 Joel Lubinitsky
9 Matt Topol
9 dependabot[bot]
6 Nic Crane
5 Bryce Mecum
3 Benjamin Kietzman
2 AlenkaF
2 Rok Mihevc
1 Will Ayd
變更日誌
Apache Arrow 18.0.0 (2024-10-28 07:00:00+00:00)
錯誤修復
- GH-36295 - [C++] 在大型資料集上使用 `group_by` 和 `aggregate` 時發生資料損壞
- GH-39789 - [Go][Parquet] 完成寫入未緩衝批次時關閉當前列組 (#43326)
- GH-40557 - [C++] 僅上傳少量資料時,在 OutputStream 中使用 S3 的
PutObject
請求 (#41564) - GH-41396 - [Ruby] 為 Ubuntu 20.04 上的 re2.pc 新增變通方法 (#43721)
- GH-41481 - [CI] 更新整合測試 Docker 任務額外環境變數的指定方式 (#42009)
- GH-41696 - [Python][Packaging] 將 MACOSX_DEPLOYMENT_TARGET 提升至 12 而非 11 (#43137)
- GH-41891 - [C++] 清理隱式 fallthrough 警告 (#41892)
- GH-41993 - [Go] 當偏移陣列不是從零開始時,IPC writer 會移動 voffsets (#43176)
- GH-42240 - [R] 修復 ParquetFileWriter$WriteTable 中的崩潰問題並新增 WriteBatch (#42241)
- GH-43046 - [C++] 修復
CompareColumnsToRows
中 avx2 gather rows 超過 2^31 的問題 (#43065) - GH-43130 - [C++][ArrowFlight] UCS 執行緒模式導致崩潰
- GH-43150 - [Docs] pyarrow.compute.microsecond 中需要更正
- GH-43152 - [Release] 明確要求 “digest/sha1” 以確保執行緒安全 (#43154)
- GH-43153 - [R] 群組查詢的 pull 傳回錯誤的欄位 (#43172)
- GH-43163 - [R] 修復 Math 群組泛型的綁定 (#43162)
- GH-43167 - [C++] 為 Thrift 缺少 Boost 相依性新增變通方法 (#43328)
- GH-43175 - [C++] 跳過 CSV 測試中未準備好 Emscripten 的測試 (#43724)
- GH-43183 - [C++] 將
date{32,64}
新增至date{32,64}
轉換 (#43192) - GH-43186 - [Go] 為 pqarrow pathbuilders 使用自動對齊的原子 int64 (#43206)
- GH-43194 - [R] R_existsVarInFrame 在 R 4.2 之前的版本中不可用 (#43243)
- GH-43202 - [C++][Compute] 偵測並明確指出列資料表中的偏移溢位錯誤 (#43226)
- GH-43211 - [C++] 修復十進位基準測試以避免越界存取 (#43212)
- GH-43217 - [Java] 移除 flight-core shaded jars (#43224)
- GH-43218 - [C++] 在建置系統中像其他相依性一樣解析 Abseil (#43219)
- GH-43221 - [C++][Parquet] 重構 parquet::encryption::AesEncryptor 以使用 unique_ptr (#43222)
- GH-43228 - [C++] 修復 GCC 13 上的 Abseil 編譯錯誤 (#43157)
- GH-43232 - [Release][Packaging][Python] 新增 tzdata 作為 conda 環境需求以避免 ORC 失敗 (#43233)
- GH-43245 - [Packaging][deb] 新增遺失的 libabsl-dev 相依性 (#43246)
- GH-43267 - [C#] 正確透過 C Data 介面匯入切片的陣列 (#44117)
- GH-43270 - [Release] 修復 post-01-tag.sh 上的輸入變數 (#43271)
- GH-43276 - [Go][Parquet] 使 DeltaBitPacking 編碼器/解碼器通用化 (#43279)
- GH-43282 - [Release][Docs][Packaging] 上傳二進位檔案時上傳正確的文件任務 (#43283)
- GH-43284 - [Release] 修復 post-12-bump-versions.sh 腳本上用於 bump deb 套件名稱的版本偵測時序 (#43294)
- GH-43293 - [Docs] 更新安裝 Java 模組的程式碼區塊 (#43295)
- GH-43299 - [Release][Packaging] 在 setuptools 上尋找套件時僅包含 pyarrow 資料夾 (#43325)
- GH-43314 - [CI][Java] 從發布腳本中刪除 arrow-maven-plugins (#43313)
- GH-43320 - [Java] 修復傳輸空 FixedSizeListVector 的 SchemaChangeRuntimeException (#43321)
- GH-43331 - [C++] 將遺失的 serde 方法新增至 Location (#43332)
- GH-43346 - [Docs][Format] 更新損壞的連結 (#43347)
- GH-43349 - [R] 修復來自 readr 的 altrep 字串欄位 (#43351)
- GH-43357 - [R] 修復一些 lints (#43338)
- GH-43359 - [Go][Parquet] ReadRowGroups 在已取消的上下文中發生 panic (#43360)
- GH-43377 - [Java][CI] Java-Jars CI 在 macOS 上因連結錯誤而失敗 (#43385)
- GH-43378 - [Java][CI] 建置 javadocs 時不要設定多執行緒 (#43674)
- GH-43382 - [C++][Parquet] 當 min-max 其中之一被截斷時,min-max Statistics 無法正常運作 (#43383)
- GH-43388 - [Python] 在 pa.schema(..) 中優先使用 pycapsule 介面 (#43486)
- GH-43393 - [C++][Parquet] parquet-dump-footer: 移除多餘的連結並修復 –debug 處理 (#43375)
- GH-43394 - [Java][Benchmarking] 修復 Java 17+ 的 Java 基準測試 (#43395)
- GH-43400 - [C++] 確保在使用捆綁的 GoogleTest 時使用捆綁的 GoogleTest (#43465)
- GH-43412 - [Java][Benchmarking] 使用 JDK_JAVA_OPTIONS 作為 JVM 引數 (#43411)
- GH-43414 - [C++][Compute] 修復在列資料表中調整變長緩衝區大小時的無效記憶體存取 (#43415)
- GH-43429 - [C++][FlightRPC] 修復 Flight UCX 建置問題 (#43430)
- GH-43432 - [Java][Packaging] 清理 java-jars 任務 (#43431)
- GH-43440 - [R] 無法使用 %in% 過濾因子欄位 (#43446)
- GH-43447 - [C++] 過濾掉 gRPC 傳輸上的零長度緩衝區 (#43448)
- GH-43449 - [CI][Conan] 不要推送已使用的映像檔 (#43470)
- GH-43463 - [C++][Gandiva] 始終在 context_helper.cc 中使用 gdv_function_stubs.h (#43464)
- GH-43467 - [C++] 新增對官方 LZ4 CMake 套件的支援 (#43468)
- GH-43487 - [Python] 清理 UDF 實作中的 Python 參考處理 (#43557)
- GH-43502 - [Java] 修復 Java JNI / AMD64 manylinux2014 Java JNI 測試而非測試資料集模組 (#43503)
- GH-43506 - [Java] 修復 TestFragmentScanOptions 結果不符 (#43639)
- GH-43554 - [Go] 處理排除的欄位 (#43555)
- GH-43577 - [Java] getBuffers 方法需要在 clear 旗標使用上進行更正 (#43583)
- GH-43588 - [Python] 允許使用 tuple 重新命名欄位 (#43609)
- GH-43618 - [Packaging][Python] 修復 macOS wheel 建置任務中的 vcpkg 版本偵測 (#43615)
- GH-43627 - [R] 修復 summarize() 效能回歸 (pushdown) (#43649)
- GH-43635 - [R][CI] 不要安裝 Quarto (#43636)
- GH-43665 - [R] 移除對 bindings vignette 的參考 (#43889)
- GH-43667 - [Java] 使 Flight 預設標頭大小在伺服器和用戶端之間保持一致 (#43697)
- GH-43707 - [Python] 修復 Cython<3 上的編譯 (#43765)
- GH-43717 - [Java][FlightSQL] 將所有 ActionTypes 新增至 FlightSqlUtils.FLIGHT_SQL_ACTIONS (#43718)
- GH-43735 - [R] AWS SDK 無法在 CRAN 的其中一個 M1 建置器上建置 (#43736)
- GH-43743 - [CI][Docs] 確保建立建置目錄 (#43744)
- GH-43748 - [R] 處理 safe_r_metadata 中的 package_version (#43895)
- GH-43785 - [Python][CI] 更正在 wheel 測試中的 PARQUET_TEST_DATA 路徑 (#43786)
- GH-43787 - [C++] 預設註冊新的 Opaque 擴充類型 (#43788)
- GH-43815 - [CI][Packaging][Python] 如果版本已存在,則避免將 wheel 上傳到 gemfury (#43816)
- GH-43837 - [Go][IPC] 合併 StreamWriter 和 FileWriter,確保在檔案中寫入 EOS 指示符 (#43890)
- GH-43860 - [Go][Parquet] 正確處理錯誤 (#43861)
- GH-43868 - [CI][Python] 跳過在 emscripten 上需要 PARQUET_TEST_DATA 環境的測試 (#43906)
- GH-43869 - [Java][CI] AMD64 Windows Server 2022 Java JDK 11 CI 中的 Flight 相關失敗 (#43850)
- GH-43870 - [C++][Acero] 修復 join 基準測試中的錯字 (#43871)
- GH-43877 - [Ruby] 新增對 0 十進位值的支援 (#43882)
- GH-43885 - [C++][CI] 捕捉 PoolBuffer 中潛在的整數溢位 (#43886)
- GH-43933 - [CI] 移除 docker-compose 警告 (#43934)
-
GH-43952 - [CI] 將 actions/{upload download}-artifact 從 3 升級到 /.github/workflows 中的最新 v4 (#43940) - GH-43960 - [R] 修復
str_sub
綁定以正確處理負數end
值 (#44141) - GH-43966 - [Java] 比較 StructVector 時檢查可空性 (#43968)
- GH-44046 - [Python] 修復借用參考和 pandas 的執行緒問題 (#44047)
- GH-44050 - [CI][Integration] 再次執行整合測試 (#44051)
- GH-44069 - [Docs][R] 在 to_arrow() 文件中新增關於 collect/compute 的註解 (#44094)
- GH-44071 - [C++] 如果最終化發生太晚,則洩漏 S3 結構 (#44090)
- GH-44076 - [CI] 移除已棄用的 verify-rc-binaries-wheel-macos-11 (#44077)
- GH-44081 - [C++][Parquet] 修復 parquet-arrow-reader-writer-benchmark 中報告的指標 (#44082)
- GH-44088 - [Java] 修復 BaseVariableWidthViewVector 中的 copyFrom (#44078)
- GH-44096 - [C++] 請勿將 Boost.Process 與 Emscripten 一起使用 (#44097)
- GH-44098 - [C++] 為缺少 _mm256_set_m128i 的編譯器新增自製的 _mm256_set_m128i (#44116)
- GH-44122 - [R] 暫時不要使用新的 pipe (#44123)
- GH-44127 - [CI][R] 修復 util_enable_core_dumps.sh 路徑 (#44128)
- GH-44153 - [GLib][FlightRPC] 修復 closure 註解 (#44154)
- GH-44214 - [C++] JsonExtensionType 相等性檢查忽略儲存類型 (#44215)
- GH-44218 - [Benchmarking][Python] 避免 macOS 上 uwsgi 安裝失敗 (#44221)
- GH-44234 - [CI][C++][AppVeyor] 使用 conda 而非 Mamba (#44235)
- GH-44253 - [CI][Release][Python] 請勿在 Ubuntu 20.04 上驗證 Python (#44254)
- GH-44256 - [C++][FS][Azure] 修復 GetFileInfo 在平面命名空間和 Azurite 上錯誤地傳回 NotFound 的邊緣案例 (#44302)
- GH-44268 - [Release][Ruby][CI] 固定驗證腳本中使用的 glib 版本 (#44270)
- GH-44269 - [C++][FS][Azure] 捕捉 HNS 支援檢查中遺失的例外狀況 (#44274)
- GH-44277 - [CI] 使用 Miniforge 而非 Mambaforge (#44278)
- GH-44297 - [Integration][CI] 跳過壓縮/字典編碼檔案的 nanoarrow IPC 整合測試 (#44298)
- GH-44300 - [Integration][Archery] 不要匯入未使用的 testers (#44301)
- GH-44303 - [C++][FS][Azure] 修復次要的階層式命名空間錯誤 (#44307)
- GH-44334 - [C++] 修復
ObjectOutputStream
中的 S3 錯誤處理 (#44335) - GH-44337 - [CI][GLib] 修復不穩定的 StreamDecoder 和 Buffer 測試 (#44341)
- GH-44342 - [C++] 預設在 ARM 上停用 jemalloc (#44380)
- GH-44358 - [Packaging][Debian] 為 CUDA include 路徑新增變通方法 (#44359)
- GH-44369 - [CI][Python] 從 test_dataset.py 上的測試集合中移除 ds 需求 (#44370)
- GH-44373 - [Packaging][Java] 修復 macOS 上 Python 3.13 的 brew 連結 (#44374)
- GH-44381 - [Ruby][Release] 不僅固定 glib,還固定驗證任務中的 python (#44382)
- GH-44386 - [Integration][Release] 在使用 Conda 時,為整合驗證固定 Python 3.12 (#44388)
- GH-44422 - [Packaging][Release][Linux] 在測試之前上傳構件 (#44425)
新功能與改進
- GH-15058 - [C++][Python] 原生支援 UUID (#37298)
- GH-17682 - [C++][Python] Bool8 擴充類型實作 (#43488)
- GH-17682 - [Go] Bool8 擴充類型實作 (#43323)
- GH-17682 - [Format] 新增 Bool8 標準擴充類型 (#43234)
- GH-25118 - [Python] 使 NumPy 成為可選的執行階段相依性 (#41904)
- GH-28866 - [Java] Java Dataset API ScanOptions 擴充 (#41646)
- GH-30058 - [Python] 新增 StructType 屬性以存取其所有欄位 (#43481)
- GH-30863 - [JS] 使用單例 StructRow proxy handler (#44289)
- GH-32538 - [C++][Parquet] 新增 JSON 標準擴充類型 (#13901)
- GH-34529 - [C++][Compute] 使用 DCHECK 取代顯式檢查 row segmenter 中的不變量 (#44236)
- GH-37756 - [Format][Docs] 文件化 IPC 壓縮 (#43950)
- GH-38041 - [C++][CI] 改進 IPC fuzzing seed corpus (#43621)
- GH-38051 - [Java] 移除 Java 8 支援 (#43139)
- GH-38183 - [CI][Python] 使用 pipx 安裝 GCS testbench (#43852)
- GH-38255 - [Java] 實作 Flight SQL Bulk Ingestion (#43551)
- GH-38847 - [Documentation][C++] 明確指出 compute 是可選的 (#43629)
- GH-39638 - [Docs][R] 新增 r-universe 指令 (#44033)
- GH-39982 - [Java] 新增 RunEndEncodedVector (#43888)
- GH-40036 - [C++] Azure 檔案系統寫入緩衝與非同步寫入 (#43096)
- GH-40154 - [C++][Parquet] 分離編碼器和解碼器 (#43972)
- GH-40216 - [Python][CI][Packaging] 請勿將 sdist 上傳到 scientific-python nightly 頻道 (僅限 wheels) (#43943)
- GH-40216 - [Python][CI][Packaging] 將 nightly wheels 上傳到 scientific-python-nightly-wheels 頻道的主要標籤 (#43932)
- GH-40216 - [CI][Packaging][Python] 將 pyarrow nightly wheels 上傳到 Anaconda 上的 scientific python 頻道 (#43862)
- GH-40493 - [GLib][Ruby] 新增 GArrowStreamDecoder (#44170)
- GH-40570 - [CI] 預設環境為 Ubuntu 22.04 而非 20.04 (#44151)
- GH-40860 - [GLib][Parquet] 新增
gparquet_arrow_file_writer_write_record_batch()
(#44001) - GH-40936 - [Java] 在 `ViewVarBinaryVector` 中實作基於 Holder 的函數
- GH-40937 - [Java] 為 ViewVarCharVector & ViewVarBinaryVector 實作基於 Holder 的函數 (#44187)
- GH-41056 - [GLib][FlightRPC] 新增 gaflight_client_do_put() 和相關 API (#43813)
- GH-41272 - [Java] LargeListViewVector 實作 (#43516)
- GH-41291 - [Java] LargeListViewVector 實作 transferPair 實作 (#43637)
- GH-41347 - [FlightRPC][C#] 允許在 pre-Kestrel .net 版本中託管 flight server (#41348)
- GH-41569 - [Java] UnionListViewReader 的 ListViewVector 實作 (#43077)
- GH-41579 - [C++][Python][Parquet] 支援從/向 ColumnChunkMetaData 讀取/寫入鍵值中繼資料 (#41580)
- GH-41584 - [Java] C Data 介面的 ListView 實作 (#43686)
- GH-41585 - [Java] C Data 介面的 LargeListView 實作
- GH-41623 - [Docs][C++] arrow::dataset 命名空間仍然是實驗性的嗎?
- GH-41640 - [Go] 實作 BYTE_STREAM_SPLIT Parquet 編碼 (#43066)
- GH-41665 - [Python] 確保 (Chunked)Array/RecordBatch/Table 方法不會在非 CPU 資料上崩潰
- GH-41673 - [Format][Docs] 新增 arrow 格式簡介頁面 (#41593)
- GH-41909 - [C++] 新增 arrow::ArrayStatistics (#43273)
- GH-41922 - [CI][C++] 更新 Minio 版本 (#44225)
- GH-41951 - [Java] 新增 @FormatMethod 註解 (#43376)
- GH-42014 - [Python] 讓 StructArray.from_array 除了名稱或欄位外,還接受類型 (#43047)
- GH-42085 - [Python] 測試 FlightStreamReader 迭代器 (#42086)
- GH-42102 - [C++][Parquet] 新增從 parquet 檔案中提取 footer 的二進位檔案 (#42174)
- GH-42222 - [Python] 為 RecordBatch 和 Array 類別上的 CopyTo 新增綁定 (#42223)
- GH-42247 - [C++] 支援轉換為和從 utf8_view/binary_view 轉換 (#43302)
- GH-43044 - [R] 所謂的非 API 進入點 (#43173)
- GH-43069 - [Python] 使用 pythoncapi_compat.h 中的 Py_IsFinalizing (#43767)
- GH-43075 - [CI][Crossbow][Docker] 設定 docker-tests 的逾時時間 (#43078)
- GH-43092 - [Swift] 更新巢狀類型的 ArrowData (允許子項)
- GH-43095 - [C++] 更新捆綁的 vendor/datetime 以支援使用 libc++ 和 C++20 建置 (#43094)
- GH-43097 - [C++] 實作 Azure 檔案系統的
PathFromUri
支援 (#43098) - GH-43114 - [Archery][Dev] 支援 setuptools-scm >= 8.0.0 (#43156)
- GH-43129 - [C++][Compute] 修復編碼列資料表時不必要的額外位元組分配 (#43125)
- GH-43141 - [C++][Parquet] 在內部 Parquet 加密 API 中將 int 的使用替換為 int32_t (#43413)
- GH-43142 - [C++][Parquet] 重構 Encryptor API 以使用 arrow::util::span 而非原始指標 (#43195)
- GH-43143 - [C++][Parquet] 預設初始化一些 parquet 中繼資料變數 (#43144)
- GH-43160 - [Swift] 新增 Struct Array (#43161)
- GH-43164 - [C++] 修復 AWS SDK 的 CMake 連結順序 (#43230)
- GH-43168 - [Swift] 為 Struct 類型新增緩衝區和陣列建置器 (#43171)
- GH-43169 - [Swift] 將 StructArray 新增至 ArrowReader (#43335)
- GH-43185 - [C++] 當 Concatenate 因偏移溢位而失敗時,建議轉換 (#43190)
- GH-43187 - [C++] 支援基本的 is_in 謂詞簡化 (#43761)
- GH-43197 - [C++][AzureFS] 忽略 URI 中的密碼欄位 (#44220)
- GH-43209 - [C++] 為公用標頭中的 DCHECK 新增 lint (#43248)
- GH-43229 - [Java] 更新 Maven 專案資訊 (#43231)
- GH-43238 - [C++][FlightRPC] 減少 flight/types.cc 中 serde 函數的重複 (#43237)
- GH-43249 - [C++][Parquet] 移除
DeltaLengthByteArrayEncoder
的無用模板參數 (#43250) - GH-43254 - [C++] 始終優先選擇 mimalloc 而非 jemalloc (#40875)
- GH-43258 - [C++][Flight] 為 RPC 呼叫中使用的類型使用 Base CRTP 類型 (#43255)
- GH-43266 - [C#] 新增 LargeBinary、LargeString 和 LargeList 陣列類型 (#43269)
- GH-43291 - [C++] 擴展 ‘take’ 函數測試以涵蓋更多 chunked-array 案例 (#43292)
- GH-43301 - [C++][Parquet] 增強 ColumnReader/Decoder 的註解 (#44003)
- GH-43319 - [R][Docs] 更新封裝檢查清單 (#43345)
- GH-43329 - [C++] 根據 Flight.proto 對 flight/types.h 中的類別進行排序 (#43330)
- GH-43380 - [Java] 新增對跨 jdk 版本測試的支援 (#43381)
- GH-43391 - [Python] 為 Context 類別新增記憶體管理器和裝置的綁定 (#43392)
- GH-43396 - [Java] 移除/替換 jsr305 (#43397)
- GH-43418 - [CI] 為任務的 vcpkg 群組新增 wheels 和 java-jars (#43419)
- GH-43425 - [Java] 將 JNI 升級到版本 10 (#43424)
- GH-43427 - [C++][Parquet] 棄用 ColumnChunk::file_offset 欄位,並且不再在 Chunk 結尾寫入 Metadata (#43428)
- GH-43437 - [Java] 將 protobuf 從 3.25.1 更新到 3.25.4 (#43436)
- GH-43443 - [Go][IPC] 如果未指定,則從第一個記錄推斷 schema (#43484)
- GH-43444 - [C++] 為二進位視圖建置器新增基準測試 (#43445)
- GH-43450 - [CI] 暫時關閉失敗的 conda 任務 (#43451)
- GH-43453 - [Format] 新增 Opaque 標準擴充類型 (#43457)
- GH-43454 - [C++][Python] 新增 Opaque 標準擴充類型 (#43458)
- GH-43455 - [Go] 新增 Opaque 標準擴充類型 (#43459)
- GH-43456 - [Java] 新增 Opaque 標準擴充類型 (#43460)
- GH-43469 - [Java] 更改預設 CompressionCodec.Factory 以透明地利用壓縮支援 (#43471)
- GH-43479 - [Java] 更改 MemoryUtil.UNSAFE 的可見性 (#43480)
- GH-43483 - [Java][C++] 在 JNI 呼叫中支援更多 CsvFragmentScanOptions (#43482)
- GH-43492 - [C++] Thirdparty: 將 lz4 升級到 1.10.0 (#43493)
- GH-43495 - [C++][Compute] 將列資料表的列偏移加寬至 64 位元 (#43389)
- GH-43500 - [R][CI] 將 dev docs CI 任務從 ubuntu 20.04 升級 (#43501)
- GH-43507 - [C++] 在漂亮列印非 CPU 資料時使用 ViewOrCopyTo 而非 CopyTo (#43508)
- GH-43509 - [R] 從 ?list_compute_functions 新增連結到 ?acero (#44210)
- GH-43512 - [Java] ListViewVector 基於 Visitor 的元件整合 (#43513)
- GH-43514 - [Python] 棄用將建置旗標傳遞給 setup.py (#43515)
- GH-43518 - [Python][Packaging][CI] 移除 Python 3.8 支援 (#43970)
- GH-43519 - [Python][CI] 新增 Python 3.13 conda 測試建置 (#44192)
- GH-43519 - [Python][CI][Packaging] 使用發布版本在 Python 3.13 上建置和測試 wheels (#44193)
- GH-43519 - [Python] 設定 Python 3.13 的 wheel 建置 (#43539)
- GH-43532 - [Python] 移除 setup.py 中已棄用的 pkg_resources 用法 (#43602)
- GH-43536 - [Python][CI] 新增具有 free-threaded 建置的 Crossbow 任務 (#43671)
- GH-43536 - [Python] 請勿使用借用參考 API (#43540)
- GH-43536 - [Python] 在 Cython 中宣告對 free-threading 的支援 (#43606)
- GH-43543 - [FlightRPC][C++] 減少對 protobuf::Any 的參考次數 (#43544)
- GH-43548 - [R][CI] 使用 grep -F 簡化比對或 rchk 輸出 (#43477)
- GH-43559 - [Python][CI] 新增具有 debug CPython 直譯器的 Crossbow 任務 (#43565)
- GH-43578 - [C++] 簡化 arrow::ArrayStatistics::ValueType (#43581)
- GH-43591 - [C++][GLib] 請勿在 Windows 上安裝 arrow-cuda.pc/arrow-cuda-glib.pc (#43593)
- GH-43592 - [C++] 移除 arrow::ArrayStatistics 中多餘的預設建構子/解構子 (#43579)
- GH-43594 - [C++] 從 arrow::ArrayStatistics::is_{min,max}_exact 中移除 std::optional (#43595)
- GH-43608 - [CI][Archery] 優先使用
docker compose
而非docker-compose
(#43586) - GH-43633 - [R] 為可能難以將資料往返於 Tables + Parquet 檔案的套件新增測試 (#43634)
- GH-43638 - [Java] LargeListViewVector RangeEqualVisitor 和 TypeEqualVisitor 整合 (#43642)
- GH-43643 - [Java] LargeListViewVector IPC 整合 (#43681)
- GH-43669 - [Docs][Dev] 在關於 docker 的章節中文件化 archery –debug 旗標 (#43935)
- GH-43672 - [C#] FlightInfo 上的 Schema 應該是可選的 (#43673)
- GH-43677 - [C++][FlightRPC] 將 FlightTestServer 移至其自己的 .cc 和 .h 檔案 (#43678)
- GH-43680 - [Integration] 在 IPC 整合測試中取消跳過 nanoarrow (#43715)
- GH-43684 - [Python][Dataset] C++ arrow::dataset::Partitioning::Format 的 Python / Cython 介面 (#43740)
- GH-43687 - [C++] Compute: 修復 register kernel SimdLevel 以用於 AddMinMax512AggKernels (#43704)
- GH-43688 - [C++] 防止 Snappy 在捆綁時停用 RTTI (#43706)
- GH-43690 - [Python][CI] 簡化 python/requirements-wheel-test.txt 檔案 (#43691)
- GH-43702 - [C++][FS][Azure] 使用最新的 Azurite 並將捆綁的 Azure SDK for C++ 更新為 azure-identity_1.9.0 (#43723)
- GH-43703 - [C++][Parquet][CI] Parquet: 引入更多 bad_data 以進行測試 (#43708)
- GH-43712 - [C++][Parquet] Dataset: 在 !HasNullCount() 時正確處理 Parquet 中的 num-nulls (#43726)
- GH-43719 - [C++] 闡明 SIMD 啟用的 agg kernels 如何來自不同編譯單元中的相同程式碼 (#43720)
- GH-43727 - [Python] RecordBatch 在非 cpu 裝置上優雅地失敗 (#43729)
- GH-43728 - [Python] ChunkedArray 在非 cpu 裝置上優雅地失敗 (#43795)
- GH-43732 - [Go] 需要 Go 1.22 或以上版本 (#43864)
- GH-43733 - [C++] 修復列編碼器中的純量布林值處理 (#43734)
- GH-43738 - [GLib] 新增
GArrowAzureFileSytem
(#43739) - GH-43746 - [C++] 新增對 Boost 1.86 的支援 (#43766)
- GH-43758 - [C++] Compute: RowEncoder 中更多註解 (#43763)
- GH-43759 - [C++] Acero: Join 的次要程式碼增強 (#43760)
- GH-43764 - [Go][FlightSQL] 新增 NewPreparedStatement 函數 (#43781)
-
GH-43768 - [C++] 修復 boolean_{any all} 在 Acero 中遇到固定長度的常數輸入的情況 (#43799) - GH-43776 - [C++] 新增具有小選擇因子的 chunked Take 基準測試 (#43772)
- GH-43790 - [Go][Parquet] 新增對 LZ4_RAW 壓縮編解碼器的支援 (#43835)
- GH-43796 - [C++] 縮排前處理器指令 (#43798)
- GH-43797 - [C++] 將
arrow::ArrayStatistics
附加到arrow::ArrayData
(#43801) - GH-43802 - [GLib] 新增
GAFlightRecordBatchWriter
(#43803) - GH-43805 - [C++] 當指定 ARROW_{AZURE,GCS,HDFS,S3}=ON 其中之一時,自動啟用檔案系統 (#43806)
- GH-43809 - [Docs] 更新擴充類型範例以不使用 UUID (#44120)
- GH-43814 - [GLib][FlightRPC] 新增
GAFlightServerClass::do_put
(#43999) - GH-43840 - [CI] 將 cuda 群組新增至 tasks.yml,並為新的 cuda 執行器映像進行小更新 (#43841)
- GH-43846 - [Python][Packaging] 從 pyarrow 打包中移除 numpy 依賴 (#44148)
- GH-43854 - [C++] 暴露 ChunkedArray 分配所在的裝置類型集合 (#43853)
- GH-43872 - [Go][CI] 停用 Go 的 Dependabot (#44102)
- GH-43873 - [Go][CI] 移除 Go 相關的測試 CI (#44143)
- GH-43874 - [CI][Integration][Go] 使用 apache/arrow-go (#44142)
- GH-43875 - [Go][CI] 移除 Go 相關的程式碼檢查配置 (#44144)
- GH-43878 - [Go][Release] 從我們的發布腳本中移除 Go 相關程式碼 (#44172)
- GH-43879 - [Go] 移除 Go 相關程式碼 (#44293)
- GH-43883 - [CI] 移除安裝 GCS testbench 時的 Python 版本保護 (#43884)
- GH-43894 - [R] format_aggregation() 應該也印出選項 (#43896)
- GH-43902 - [Java] 支援 Long 記憶體位址 (#43903)
- GH-43907 - [C#][FlightRPC] 在 Flight Client 上新增 Grpc 呼叫選項支援 (#43910)
- GH-43927 - [C++] 使 ChunkResolver::ResolveMany 輸出 ChunkLocations 列表 (#43928)
- GH-43944 - [C++][Parquet] 新增對 arrow::ArrayStatistics 的支援:非零複製整數型別 (#43945)
- GH-43946 - [C++][Parquet] 防止使用已清除的解密器/加密器 (#43947)
- GH-43953 - [C++] 為 ChunkResolver::ResolveMany 新增基於隨機資料的測試和基準測試 (#43954)
- GH-43962 - [Java] 考慮將 Adapter 模組的警告視為錯誤 (#43963)
- GH-43964 - [Python] 為 free-threading 建置 macOS 和 manylinux wheel (#43965)
- GH-43967 - [C++] 增強 URI 解析的錯誤訊息 (#43938)
- GH-43969 - [CI][Dev] 精簡 .dockerignore (#43971)
- GH-43973 - [Python] Table 在非 cpu 裝置上優雅地失敗 (#43974)
- GH-43979 - [CI][C++][Dev] 將 cpplint 新增至 pre-commit (#43982)
- GH-43983 - [C++][Parquet] 新增對 arrow::ArrayStatistics 的支援:零複製型別 (#43984)
- GH-43986 - [C++][Acero] 對
Grouper
進行一些程式碼清理 (#43988) - GH-43992 - [C++] 在 array_nested.cc 中新增遺失的 std::move() (#43993)
- GH-43996 - [Java] 將新分配的 ArrowSchema 標記為已釋放 (#43997)
- GH-43998 - [C++][Docs] 在建立文件時新增遺失的安裝指令 (#44000)
- GH-44006 - [GLib][Parquet] 新增
gparquet_arrow_file_writer_new_row_group()
(#44039) - GH-44007 - [GLib][Parquet] 新增
gparquet_arrow_file_writer_new_buffered_row_group()
(#44100) - GH-44008 - [C++][Parquet] 新增對 arrow::ArrayStatistics 的支援:布林值 (#44009)
- GH-44011 - [Java] 考慮將 C 模組的警告視為錯誤 (#44012)
- GH-44013 - [Java] 考慮將 Dataset 模組的警告視為錯誤 (#44014)
- GH-44016 - [Java] 考慮將 Format 模組的警告視為錯誤 (#44017)
- GH-44034 - [Go][Format][FlightRPC] 更新 Flight.proto 和 FlightSql.proto 中的 go_package (#44035)
- GH-44036 - [C++] IPC:ipc reader/writer 程式碼增強 (#44019)
- GH-44044 - [Java] 考慮將 Vector 模組的警告視為錯誤 (#44045)
- GH-44052 - [C++][Compute] 降低行分割器的複雜度 (#44053)
- GH-44058 - [CI][Integration] 在 GitHub Actions 上群組日誌 (#44060)
- GH-44062 - [Dev][Archery][Integration] 減少不必要的測試矩陣 (#44099)
- GH-44063 - [Python] 棄用不再使用的 serialize/deserialize Pyarrow C++ 函數 (#44064)
- GH-44072 - [C++][Parquet] 新增 Float16 讀取基準測試 (#44073)
- GH-44079 - [C++][Parquet] 移除已棄用的 API (#44080)
- GH-44085 - [CI][R] 更新 R 強制測試的 Ubuntu 版本 (#44087)
- GH-44095 - [CI][Python] 在 Windows wheel 建置上啟用 S3 測試 (#44093)
- GH-44111 - [CI][Python] 在 macOS CI 上啟用 S3 測試 (#44129)
- GH-44149 - [Packaging][CI] 移除對已棄用的 Ubuntu bionic 的參考 (#44150)
- GH-44155 - [Archery][Integration] 將 “language” 重新命名為 “implementation” (#44156)
- GH-44158 - [Archery][Integration] 針對 –target-implementations 的運作方式新增更多說明 (#44177)
- GH-44167 - [C++][Acero] 新增更多行分割器測試 (#44166)
- GH-44178 - [GLib][FlightRPC] 新增 GAFlightCallOptions:timeout (#44181)
- GH-44186 - [C++][Parquet] 修正 parquet/column_writer.cc 中的錯字 (#40856)
- GH-44194 - [C++] 避免重複的 ArrayData::offset 查找 (#44190)
- GH-44206 - [CI][macOS] 停止支援 macOS 12 (#44212)
- GH-44222 - [C++][Gandiva] 接受 LLVM 19.1 (#44233)
- GH-44229 - [Docs] 將 PyArrow 新增至 JAX 範例文件 (#44230)
- GH-44237 - [C#] 序列化 decimal 值時使用堆疊分配緩衝區 (#44238)
- GH-44249 - [C++] 統一 simd header 包含 (#44250)
- GH-44271 - [C#] 新增 Decimal32 和 Decimal64 的支援 (#44272)
- GH-44273 - [C++][Decimal] 使用 0E+1 而非 0.E+1 以獲得更廣泛的相容性 (#44275)
- GH-44290 - [Java][Flight] 新增 ActionType 描述獲取器 (#44291)
- GH-44314 - [Packaging][Python] 使用 macOS 12 作為部署目標,以擁有 macOS 12 pyarrow wheel (#44315)
- GH-44347 - [Packaging][C++] 為 deb/rpm 啟用 Azure 檔案系統 (#44348)
- GH-44355 - [Packaging][Python] 在 wheel-manylinux--cp313t- 中停用互動式 deb 配置 (#44362)
- GH-44415 - [Release][Ruby] 從發布驗證腳本的 glib 區段中移除版本釘選 (#44407)