Apache Arrow 0.6.0 (2017年8月14日)
這是一個主要版本發佈。請閱讀發佈部落格文章以了解更多資訊。
下載
貢獻者
$ git shortlog -sn apache-arrow-0.5.0..apache-arrow-0.6.0
48 Wes McKinney
7 siddharth
5 Matt Darwin
5 Max Risuhin
5 Philipp Moritz
4 Kouhei Sutou
3 Bryan Cutler
2 Emilio Lahr-Vivaz
2 Li Jin
2 Robert Nishihara
1 Antony Mayi
1 Marco Neumann
1 Stepan Kadlec
1 Steven Phillips
1 Yeolar
1 fjetter
1 rendel
更新日誌
新功能與改進
- ARROW-1076 - [Python] 在寫入 Parquet 格式時,更優雅地處理奈秒時間戳記
- ARROW-1093 - [Python] 如果 flake8 產生警告,則 Python 建置失敗
- ARROW-1104 - 整合來自 Ray 的記憶體內物件儲存
- ARROW-1121 - [C++] 當開啟作業系統檔案失敗時,改進錯誤訊息
- ARROW-1140 - [C++] 允許選擇性建置 plasma
- ARROW-1149 - [Plasma] 為 Plasma 建立 Cython 客戶端函式庫
- ARROW-1173 - [Plasma] Plasma 部落格文章
- ARROW-1211 - [C++] 考慮將 default_memory_pool() 作為 builder 類別的預設值
- ARROW-1213 - [Python] 啟用 s3fs 以與 ParquetDataset 和讀取/寫入函式一起使用
- ARROW-1219 - [C++] 使用更標準的 Google C++ 格式化
- ARROW-1224 - [Format] 釐清 IPC 中關於緩衝區填充和對齊的語言
- ARROW-1230 - [Plasma] 安裝函式庫和標頭檔
- ARROW-1241 - [C++] Visual Studio 2017 Appveyor 建置任務
- ARROW-1243 - [Java] 安全性:將所有函式庫升級到最新的穩定版本
- ARROW-1246 - [Format] 將 Map 邏輯類型新增至 metadata
- ARROW-1251 - [Python/C++] 修訂建置文件以說明最新的建置工具鏈
- ARROW-1253 - [C++] 在適當的情況下使用預先建置的工具鏈函式庫,以加速 CI 建置
- ARROW-1255 - [Plasma] 使用 flatbuffer 驗證器檢查 plasma flatbuffer 訊息
- ARROW-1257 - [Plasma] Plasma 文件
- ARROW-1258 - [C++] 抑制 Clang 上的 dlmalloc 警告
- ARROW-1259 - [Plasma] 加速 Plasma 測試
- ARROW-1260 - [Plasma] 使用 factory 方法建立 Python PlasmaClient
- ARROW-1264 - [Plasma] 如果 plasma client 無法連接到 store,則不要退出 Python 解譯器
- ARROW-1268 - [Website] 關於 Arrow 與 Spark 整合的部落格文章
- ARROW-1270 - [Packaging] 為 macOS 將 Python wheel 建置腳本新增至 arrow-dist
- ARROW-1272 - [Python] 將腳本新增至 arrow-dist 以產生和上傳 manylinux1 Python wheels
- ARROW-1273 - [Python] 新增便利函式,僅從特定的 Parquet 檔案讀取 Parquet metadata 或有效的 Arrow schema
- ARROW-1274 - [C++] add_compiler_export_flags() 在 CMake >= 3.3 時拋出警告
- ARROW-1281 - [C++/Python] 新增 Docker 設定以執行 HDFS 測試和我們可能不在 Travis CI 中執行的其他測試
- ARROW-1288 - 清理許多 ASF 授權標頭
- ARROW-1289 - [Python] 新增類似 Parquet 的 PYARROW_BUILD_PLASMA 選項
- ARROW-1297 - 0.6.0 版本發佈
- ARROW-1301 - [C++/Python] 新增其餘支援的 libhdfs 類 UNIX 檔案系統 API
- ARROW-1303 - [C++] 支援下載 Boost
- ARROW-1304 - [Java] 修復 checkstyle 檢查警告
- ARROW-1305 - [GLib] 新增 GArrowIntArrayBuilder
- ARROW-1315 - [GLib] 缺少 arrow::ArrayBuilder::Finish() 的狀態檢查
- ARROW-1323 - [GLib] 新增 garrow_boolean_array_get_values()
- ARROW-1333 - [Plasma] Plasma 中 DataFrames 的排序範例
- ARROW-1334 - [C++] 從 Array 物件的向量 (而不是 Columns) 實例化 arrow::Table
- ARROW-1336 - [C++] 新增 arrow::schema factory 函式
- ARROW-439 - [Python] 在 “to_pandas” 轉換中新增選項,以從 String/Binary 陣列產生 Categorical
- ARROW-622 - [Python] 調查 pandas 轉換中 timestamps_to_ms 參數的替代方案
錯誤修正
- ARROW-1192 - [JAVA] 提升 List 和 Union vectors 的 splitAndTransfer 效能
- ARROW-1195 - [C++] CpuInfo 無法在 Windows 上取得快取大小
- ARROW-1204 - [C++] lz4 ExternalProject 在 Visual Studio 2015 中失敗
- ARROW-1225 - [Python] 當傳遞 StringType 時,pyarrow.array 不會嘗試將 bytes 轉換為 UTF8
- ARROW-1237 - [JAVA] 公開設定 lastSet 的能力
- ARROW-1239 - git-commit-id-plugin 目前版本的問題
- ARROW-1240 - 安全性:升級 logback 以解決 CVE-2017-5929
- ARROW-1242 - [Java] 安全性 - 升級 Jackson 以緩解 3 個 CVE 漏洞
- ARROW-1245 - [Integration] Java 整合測試已停用
- ARROW-1248 - [Python] 在具有 public Cython API 的 Clang 中的 C 連結警告
- ARROW-1249 - [JAVA] 從 Nullable 公開 fillEmpties 函式
Vector.mutator - ARROW-1263 - [C++] CpuInfo 應該能夠在 Windows 上取得 CPU 功能
- ARROW-1265 - [Plasma] Python 測試套件中的 Plasma store 記憶體洩漏警告
- ARROW-1267 - [Java] 處理 BitVector.splitAndTransfer 中的零長度案例
- ARROW-1269 - [Packaging] 從 ARROW-1068 將 Windows wheel 建置腳本新增至 arrow-dist
- ARROW-1275 - [C++] Snappy 的預設靜態函式庫前綴應為 “_static”
- ARROW-1276 - 無法將空的 DataFrame 序列化為 parquet
- ARROW-1283 - [Java] VectorSchemaRoot 應該能夠被 closed() 多次
- ARROW-1285 - PYTHON:NotImplemented 例外會建立空的 parquet 檔案
- ARROW-1287 - [Python] 在 NativeFile 中模擬 seek 的 “whence” 參數
- ARROW-1290 - [C++] 在 arrow::BufferBuilder 中使用陣列容量加倍
- ARROW-1291 - [Python] pa.RecordBatch.from_pandas 不接受具有數字欄名稱的 DataFrame
- ARROW-1294 - [C++] 新的 Appveyor 建置失敗
- ARROW-1296 - [Java] templates/FixValueVectors reset() 方法未正確設定 allocationSizeInBytes
- ARROW-1300 - [JAVA] 修復 ListVector 測試
- ARROW-1306 - [Python] parquet.read_table 的錯誤報告中的編碼問題?
- ARROW-1308 - [C++] 即使 -DARROW_BUILD_STATIC=off,ld 仍嘗試連結 ‘arrow_static’
- ARROW-1309 - [Python] 當內部值都為 None 時,在 Array.from_pandas 中推斷 List 類型時發生錯誤
- ARROW-1310 - [JAVA] 還原 ARROW-886
- ARROW-1312 - [C++] 在 ARROW-1282 解決之前,將 ARROW_JEMALLOC 的預設值設定為 OFF
- ARROW-1326 - [Python] 修復 Travis CI 中的 Sphinx 建置
- ARROW-1327 - [Python] 在 MemoryMappedFile._open 中未能釋放 GIL 導致死鎖
- ARROW-1328 - [Python] pyarrow.Table.from_pandas 選項 timestamps_to_ms 變更了欄位值
- ARROW-1330 - [Plasma] 在 manylinux1 上開啟 plasma 測試
- ARROW-1335 - [C++] PrimitiveArray::raw_values 在語意上與子類別關於偏移量的不一致
- ARROW-1338 - [Python] 調查 Python 2.7、Travis CI 建置中非決定性的核心傾印
- ARROW-1340 - [Java] NullableMapVector 欄位未維護 metadata
- ARROW-1342 - [Python] 支援 lists 的 strided 陣列
- ARROW-1343 - [Format/Java/C++] 確保封裝的 stream / IPC 訊息大小始終為 8 的倍數
- ARROW-1350 - [C++] 在原始碼發佈中包含 Plasma 原始碼樹
- ARROW-187 - [C++] 決定我們希望對例外情況有多麼吹毛求疵
- ARROW-276 - [JAVA] Nullable Value Vectors 應擴展 BaseValueVector 而不是 BaseDataValueVector
- ARROW-573 - [Python/C++] 支援 ordered dictionaries 資料,pandas Categorical
- ARROW-884 - [C++] 從文件中排除內部類別
- ARROW-932 - [Python] 修復 MSVC 上的編譯器警告
- ARROW-968 - [Python] RecordBatch [i:j] 語法不完整