Apache Arrow 0.5.0 (2017年7月23日)
這是一個主要版本發佈,在支援的語言中擴展了功能,並增加了 Java 和 C++ 之間的額外整合測試覆蓋率。
請在版本發佈部落格文章中閱讀更多資訊。
下載
貢獻者
$ git shortlog -sn apache-arrow-0.4.1..apache-arrow-0.5.0
42 Wes McKinney
22 Uwe L. Korn
12 Kouhei Sutou
9 Max Risuhin
9 Phillip Cloud
6 Philipp Moritz
5 Steven Phillips
3 Julien Le Dem
2 Bryan Cutler
2 Kengo Seki
2 Max Risukhin
2 fjetter
1 Antony Mayi
1 Deepak Majeti
1 Fang Zheng
1 Hideo Hattori
1 Holden Karau
1 Itai Incze
1 Jeff Knupp
1 LynnYuan
1 Mark Lavrynenko
1 Michael König
1 Robert Nishihara
1 Sudheesh Katkam
1 Zahari
1 vkorukanti
變更日誌
新功能與改進
- ARROW-1041 - [Python] 支援在 Parquet 檔案目錄上使用 read_pandas
- ARROW-1048 - 允許使用者 LD_LIBRARY_PATH 與原始碼發佈腳本一起使用
- ARROW-1052 - Arrow 0.5.0 版本發佈
- ARROW-1073 - C++: 適應性整數建構器
- ARROW-1095 - [網站] 新增 Arrow 圖示素材
- ARROW-1100 - [Python] 為 NativeFile 實例新增 “mode” 屬性
- ARROW-1102 - 使 MessageSerializer.serializeMessage() 公開
- ARROW-111 - [C++] 新增靜態分析器到工具鏈,以驗證 Status 回傳值的檢查
- ARROW-1120 - [Python] int96 的寫入支援
- ARROW-1122 - [網站] 來自 turbodbc 的關於 Arrow + ODBC 的客座部落格文章
- ARROW-1123 - C++: 使 jemalloc 成為預設分配器
- ARROW-1135 - 將 Travis CI clang 建置升級到使用 LLVM 4.0
- ARROW-1137 - Python: 確保全 None 欄位的 Pandas 往返
- ARROW-1142 - [C++] 從 parquet-cpp 移動壓縮函式庫工具鏈
- ARROW-1145 - [GLib] 新增 get_values()
- ARROW-1146 - 為 src/plasma/format 中的 *_generated.h 檔案新增 .gitignore
- ARROW-1148 - [C++] 將最低 CMake 版本提高到 3.2
- ARROW-1151 - [C++] 將 gcc 分支預測新增到狀態檢查巨集
- ARROW-1154 - [C++] 從 parquet-cpp 遷移更多計算工具程式碼
- ARROW-1160 - C++: 實作 DictionaryBuilder
- ARROW-1165 - [C++] 重構 PythonDecimalToArrowDecimal 以不使用模板
- ARROW-1172 - [C++] 將 unique_ptr 與陣列建構器類別一起使用
- ARROW-1183 - [Python] 在 to_pandas 中實作時間類型轉換
- ARROW-1185 - [C++] 清理 arrow::Status 實作,為 clang 新增 warn_unused_result 屬性
- ARROW-1187 - 序列化具有 None 欄位的 DataFrame
- ARROW-1193 - [C++] 支援 forarrow_python.so 的 pkg-config
- ARROW-1196 - [C++] Appveyor 從原始碼為 Debug/Release 建置分離工作;使用 conda 工具鏈建置;使用 NMake Makefiles 產生器建置
- ARROW-1198 - Python: 新增公開 C++ API 以解包 PyArrow 物件
- ARROW-1199 - [C++] 為通用陣列資料引入可變 POD 結構
- ARROW-1202 - 從狀態巨集中移除分號
- ARROW-1212 - [GLib] 新增 garrow_binary_array_get_offsets_buffer()
- ARROW-1214 - [Python] 新增類別/函式以啟用在串流讀取器類別外部處理串流訊息組件
- ARROW-1217 - [GLib] 新增基於 GInputStream 的 arrow::io::RandomAccessFile
- ARROW-1220 - [C++] 標準化用於第三方函式庫的 *_HOME cmake 腳本變數用法
- ARROW-1221 - [C++] 釘住 clang-format 版本
- ARROW-1227 - [GLib] 支援 GOutputStream
- ARROW-1228 - [GLib] 測試檔案名稱應與目標類別名稱相同
- ARROW-1229 - [GLib] 遵循 Reader API 變更 (get -> read)
- ARROW-1233 - [C++] 驗證 cmake 腳本從工具鏈建置中的正確位置解析第三方連結函式庫
- ARROW-460 - [C++] 實作 DictionaryArray 的 JSON 往返
- ARROW-462 - [C++] 實作非巢狀基本類型和 DictionaryArray 等效類型之間的記憶體內轉換
- ARROW-575 - Python: 自動偵測 Pandas 中的巢狀列表和巢狀 numpy 陣列
- ARROW-597 - [Python] 新增便利函式,從 StreamReader 或 FileReader 可以讀取的任何物件產生 DataFrame
- ARROW-599 - [C++] 將 LZ4 編碼解碼器新增到第三方工具鏈
- ARROW-600 - [C++] 將 ZSTD 編碼解碼器新增到第三方工具鏈
- ARROW-692 - Java<->C++ 字典編碼向量的整合測試
- ARROW-693 - [Java] 為字典向量新增 JSON 支援
- ARROW-742 - 處理 std::wstring_convert 執行期間的例外
- ARROW-834 - [Python] 支援從 Python 可迭代物件建立 Arrow 陣列
- ARROW-915 - 結構陣列讀取有限支援
- ARROW-935 - [Java] 在 Travis CI 中建置 Javadoc
- ARROW-960 - [Python] 為 macOS + Homebrew 新增原始碼建置指南
- ARROW-962 - [Python] 為 FileReader 新增 schema 屬性
- ARROW-966 - [Python] pyarrow.list_ 也應接受 Field 實例
- ARROW-978 - [Python] 為 Sphinx 文件使用 sphinx-bootstrap-theme
錯誤修正
- ARROW-1074 - from_pandas 無法將 ndarray 轉換為列表
- ARROW-1079 - [Python] Parquet 介面應忽略空的「private」目錄
- ARROW-1081 - C++: arrow::test::TestBase::MakePrimitive 未填寫 null_bitmap
- ARROW-1096 - [C++] 在 Windows 上記憶體映射超過 4GB 的檔案失敗
- ARROW-1097 - 讀取 tensor 需要以可寫入模式開啟檔案
- ARROW-1098 - 文件錯誤?
- ARROW-1101 - UnionListWriter 未實作介面 ScalarWriter 上的所有方法
- ARROW-1103 - [Python] 如果存在,利用來自常見 _metadata Parquet 檔案的 pandas metadata
- ARROW-1107 - [JAVA] NullableMapVector getField() 應回傳可為 null 的類型
- ARROW-1108 - 在 getActualConsumedMemory() 和 getPossibleConsumedMemory() 中檢查 ArrowBuf 是否為空緩衝區
- ARROW-1109 - [JAVA] 當 readerIndex 不是 0 時 transferOwnership 失敗
- ARROW-1110 - [JAVA] 使 union 向量命名一致
- ARROW-1111 - [JAVA] 使對齊緩衝區成為可選,並允許 -1 代表未知的 null 計數
- ARROW-1112 - [JAVA] 在載入時為 VarLength 和 List 向量設定 lastSet
- ARROW-1113 - [C++] gflags EP 建置在後續呼叫 make 或 ninja 建置時被觸發(作為空操作)
- ARROW-1115 - [C++] 為 ccache 使用絕對路徑
- ARROW-1117 - [文件] GLib README 中的小問題
- ARROW-1124 - [Python] pyarrow 需要依賴 numpy>=1.10 (而非 1.9)
- ARROW-1125 - Python: Table.from_pandas 不再適用於部分 schema
- ARROW-1128 - [文件] 建置 wheel 的命令未正確呈現
- ARROW-1129 - [C++] 修復來自 ARROW-742 的 Linux 工具鏈建置回歸
- ARROW-1131 - Python: Parquet 單元測試始終被跳過
- ARROW-1132 - [Python] 無法將具有包含重複值的 MultiIndex 的 pandas DataFrame 寫入 parquet
- ARROW-1136 - [C++/Python] 空串流上的 Segfault
- ARROW-1138 - Travis: 使用 OpenJDK7 而非 OracleJDK7
- ARROW-1139 - [C++] dlmalloc 不允許使用 clang 4 或 gcc 7.1.1 建置 arrow
- ARROW-1141 - 在匯入時取得 libjemalloc.so.2: 無法在靜態 TLS 區塊中分配記憶體
- ARROW-1143 - C++: 修復 NullArray 的比較
- ARROW-1144 - [C++] 移除未使用的變數
- ARROW-1147 - [C++] 允許在 plasma 中選擇性地供應 flatbuffers
- ARROW-1150 - [C++] MSVC 上的 AdaptiveIntBuilder 編譯器警告
- ARROW-1152 - [Cython] read_tensor 應適用於可讀檔案
- ARROW-1155 - 執行 pa.Int16Value() 時發生區段錯誤
- ARROW-1157 - C++/Python: Decimal 模板在 OSX 上未正確匯出
- ARROW-1159 - [C++] 第三方使用者無法從 Arrow 標頭中的內聯函式存取靜態資料成員
- ARROW-1162 - 空列表之間的傳輸不應調用回呼
- ARROW-1166 - Struct 類型範例中的錯誤和 Layout.md 中遺失的參考
- ARROW-1167 - [Python] 當欄位的資料超過 2GB 時,在 Table.from_pandas 中建立分塊 BinaryArray
- ARROW-1168 - [Python] pandas metadata 可能包含「混合」資料類型
- ARROW-1169 - C++: jemalloc externalproject 無法與 CMake 的 ninja 產生器一起建置
- ARROW-1170 - C++: ARROW_JEMALLOC=OFF 會中斷 unittest 上的連結
- ARROW-1174 - [GLib] 調查 ListArray glib 測試失敗的根本原因
- ARROW-1177 - [C++] 偵測 ListBuilder::Append 中的 int32 溢位
- ARROW-1179 - C++: 新增遺失的虛擬解構子
- ARROW-1180 - [GLib] garrow_tensor_get_dimension_name() 回傳無效位址
- ARROW-1181 - [Python] 如果未啟用 Parquet 測試,則測試失敗
- ARROW-1182 - C++: 為 zlib 和 zstd 指定 BUILD_BYPRODUCTS
- ARROW-1186 - [C++] 啟用選項以使用建置 Parquet 函式庫所需的最少依賴項來建置 arrow
- ARROW-1188 - 嘗試序列化具有僅 Null 分類欄位的 DataFrame 時發生 Segfault
- ARROW-1190 - VectorLoader 損壞具有重複名稱的向量
- ARROW-1191 - [JAVA] 為複雜讀取器實作 getField() 方法
- ARROW-1194 - 使用 pa.get_record_batch_size 取得記錄批次大小會回傳對於 pandas DataFrame 而言過小的大小。
- ARROW-1197 - [GLib] 遺失 record_batch.hpp 包含
- ARROW-1200 - [C++] DictionaryBuilder 應使用帶符號整數作為索引
- ARROW-1201 - [Python] 不完整的 Python 類型在 repr 時導致核心傾印
- ARROW-1203 - [C++] 禁止 BinaryBuilder 附加大於 int32_t 最大值的位元組字串
- ARROW-1205 - C++: ArrayLoader 中對類型物件的參考可能導致區段錯誤。
- ARROW-1206 - [C++] 啟用 MSVC 建置以在停用某些壓縮函式庫支援的情況下工作
- ARROW-1208 - [C++] 來自 conda-forge 失敗的 ZSTD 函式庫的工具鏈建置
- ARROW-1215 - [Python] API 參考中的類別方法
- ARROW-1216 - 無法在 Python 2 上從 Arrow 緩衝區建立 Numpy 陣列
- ARROW-1218 - 如果停用所有壓縮函式庫,Arrow 將無法編譯
- ARROW-1222 - [Python] pyarrow.array 為不受支援的 Python 物件陣列回傳 NullArray
- ARROW-1223 - [GLib] 修復回傳包裝物件的函式名稱
- ARROW-1235 - [C++] macOS 連結器因 operator« 和 std::ostream 而失敗
- ARROW-1236 - 匯出的 pkg-config 檔案中的函式庫路徑不正確
- ARROW-601 - 載入 Parquet 時不支援某些邏輯類型
- ARROW-784 - 清理 Windows 上 Arrow 中的第三方工具鏈支援
- ARROW-992 - [Python] 就地開發建置沒有 __version__