Apache Arrow 0.8.0 (2017年12月18日)

這是一個主要版本發佈。

下載

貢獻者

$ git shortlog -sn apache-arrow-0.7.1..apache-arrow-0.8.0
    90  Wes McKinney
    23  Phillip Cloud
    21  Kouhei Sutou
    13  Licht-T
    12  Korn, Uwe
    12  Philipp Moritz
    12  Uwe L. Korn
    10  Bryan Cutler
     5  Li Jin
     5  Robert Nishihara
     4  Paul Taylor
     4  siddharth
     3  Max Risuhin
     3  Stephanie
     2  Rene Sugar
     2  Heimir Sverrisson
     2  Brian Hulette
     2  Yuliya Feldman
     2  dhirschf
     2  Matthias Vallentin
     1  vkorukanti
     1  Andrew Andrade
     1  Benjamin Goldberg
     1  Ivan Sadikov
     1  John Jenkins
     1  Joris Van den Bossche
     1  Lewis John McGibbney
     1  Lu Qi
     1  Manuel
     1  Nick White
     1  Ofek Lev
     1  Shixiong Zhu
     1  Siddharth Teotia
     1  Stephen G
     1  Victor Uriarte
     1  Wataru Shimizu
     1  ksdevlife
     1  lmeyerov
     1  rvernica
     1  Amir Malekpour

程式碼修補提交者

下列 Apache 提交者提交了程式碼修補至儲存庫。

$ git shortlog -csn apache-arrow-0.7.0..apache-arrow-0.8.0
   236  Wes McKinney
    35  Uwe L. Korn
    10  Philipp Moritz
     5  Kouhei Sutou
     1  Steven Phillips

變更日誌

新功能與改進

錯誤修正

  • ARROW-1282 - Arrow 的大型記憶體重新配置導致 jemalloc 中斷
  • ARROW-1341 - [C++] 棄用 arrow::MakeTable,改用 ARROW-1334 的新建構子
  • ARROW-1347 - [JAVA] List null 類型應對內部欄位使用一致的名稱
  • ARROW-1398 - [Python] 不支援讀取 decimal(19,4) 類型的欄
  • ARROW-1409 - [格式] 在 metadata 中為 Buffer 中的 “page” 屬性使用
  • ARROW-1540 - [C++] 盡可能修正 cuda-test 中的 valgrind 警告
  • ARROW-1541 - [C++] arrow_gpu 的競爭條件
  • ARROW-1543 - [C++] row_wise_conversion 範例與 ListBuilder 建構子引數不符
  • ARROW-1549 - [JS] 整合自動產生的 Arrow 測試檔案
  • ARROW-1555 - [Python] s3 上的 write_to_dataset
  • ARROW-1584 - [PYTHON] 空 dataframe 上的 serialize_pandas
  • ARROW-1585 - 整數欄上的 serialize_pandas 往返失敗
  • ARROW-1586 - [PYTHON] serialize_pandas 往返遺失欄名稱
  • ARROW-1609 - Plasma: 使用 Xcode 9.0 建置失敗
  • ARROW-1615 - 開發的 CXX 旗標比 Travis CI 建置更寬鬆
  • ARROW-1617 - [Python] 不要在 python/cmake_modules 中使用符號連結
  • ARROW-1620 - Python: 從 bintray 在 manylinux1 建置中下載 Boost
  • ARROW-1624 - [C++] 後續修正 / 微調 Plasma / LLVM 4.0 的編譯器警告,新增至 readme
  • ARROW-1625 - [序列化] 正確支援 OrderedDict
  • ARROW-1629 - [C++] 修正 infer 工具識別的問題程式碼路徑
  • ARROW-1633 - [Python] numpy “unicode” 陣列無法理解
  • ARROW-1640 - 解決 Travis CI 中的 OpenSSL 問題
  • ARROW-1647 - [Plasma] 讀取/寫入訊息時的潛在錯誤。
  • ARROW-1653 - [Plasma] 使用靜態轉換以避免編譯器警告。
  • ARROW-1656 - [C++] Endianness Macro 在 Windows 和 Mac 上不正確
  • ARROW-1657 - [C++] 多執行緒讀取測試在 Arch Linux 上失敗
  • ARROW-1658 - [Python] 超出範圍的字典索引在轉換為 pandas 後導致區段錯誤
  • ARROW-1663 - [Java] 後續處理 ARROW-1347 並使 schema 向後相容
  • ARROW-1670 - [Python] 加速反序列化程式碼路徑
  • ARROW-1672 - [Python] 無法寫入 Feather 位元組欄
  • ARROW-1673 - [Python] NumPy 布林陣列在 NdarrayToTensor 往返中被轉換為 uint8 陣列
  • ARROW-1676 - [C++] 在寫入 Feather 格式時正確截斷超大的有效性點陣圖
  • ARROW-1678 - [Python] numpy.float16 的不正確序列化
  • ARROW-1680 - [Python] 時間戳記單位變更未在 from_pandas() 轉換中完成
  • ARROW-1686 - 文件產生腳本在 site/java 下建立 “apidocs” 目錄
  • ARROW-1693 - [JS] 讀取字典編碼的整合測試檔案時發生錯誤
  • ARROW-1695 - [序列化] 修正自訂序列化器中建立的 numpy 陣列的參考計數
  • ARROW-1698 - [JS] 檔案讀取器嘗試多次載入相同的字典批次
  • ARROW-1704 - [GLib] 測試套件中的 Go 範例已損壞
  • ARROW-1708 - [JS] Linter 問題中斷 master 建置
  • ARROW-1709 - [C++] Decimal.ToString 對於負刻度不正確
  • ARROW-1711 - [Python] flake8 檢查仍然無法使建置失敗
  • ARROW-1714 - [Python] 沒有命名的 pd.Series 名稱序列化為 u’None’
  • ARROW-1720 - [Python] 嘗試存取超出範圍的區塊時發生區段錯誤
  • ARROW-1723 - Windows: 建置 arrow 靜態函式庫時指定了 __declspec(dllexport)
  • ARROW-1730 - [Python] 傳遞時間戳記類型時,pyarrow.array 的結果不正確
  • ARROW-1732 - [Python] 當 preserve_index=False 時,RecordBatch.from_pandas 在沒有欄的 DataFrame 上失敗
  • ARROW-1735 - [C++] Cast 核心無法寫入切片的輸出陣列
  • ARROW-1738 - [Python] 當 pa.array 具有單位時,日期時間轉換錯誤
  • ARROW-1739 - [Python] 修正導致建置中斷的 assertRaises 用法
  • ARROW-1742 - [C++] clang-format 在 OSX 上不再正確偵測到
  • ARROW-1743 - [Python] 當索引包含類別欄時,Table to_pandas 失敗
  • ARROW-1745 - Mac OS 上 plasma 測試中的編譯失敗
  • ARROW-1749 - [C++] 處理需要顯示 39 位數的 Decimal128 值範圍
  • ARROW-1751 - [Python] Pandas 0.21.0 為 MultiIndex 建構引入了破壞性的 API 變更
  • ARROW-1754 - [Python] 當索引名稱與欄名稱相同時,修正有錯誤的 Parquet 往返
  • ARROW-1756 - [Python] 在 Feather 寫入/讀取路徑中觀察到 int32 溢位
  • ARROW-1762 - [C++] 語言環境的單元測試失敗
  • ARROW-1764 - [Python] 為 Windows 開發安裝指示新增 -c conda-forge
  • ARROW-1766 - [GLib] 修正 OSX 上失敗的建置
  • ARROW-1768 - [Python] 修正 ParquetWriter.__del__ 中被抑制的例外狀況
  • ARROW-1770 - [GLib] 修正 GLib 編譯器警告
  • ARROW-1771 - [C++] ARROW-1749 中斷 parquet-cpp 中的 Public API 測試
  • ARROW-1776 - [C++[ 未定義 arrow::gpu::CudaContext::bytes_allocated()
  • ARROW-1778 - [Python] 在 manylinux1 wheels 中靜態、私有地連結 parquet-cpp
  • ARROW-1781 - [CI] Travis-CI 上的 OSX 建置經常逾時
  • ARROW-1788 - Plasma 儲存區在嘗試中止已斷線用戶端的物件時崩潰
  • ARROW-1791 - 整合測試產生超出合理範圍的 date[DAY] 值
  • ARROW-1793 - [整合] 修正 README.md 的錯字
  • ARROW-1800 - [C++] 修正並簡化 random_decimals
  • ARROW-1805 - [Python] 在探索資料集時忽略非 parquet 檔案
  • ARROW-1811 - [C++/Python] 將所有 Decimal 基礎的 API 重新命名為 Decimal128
  • ARROW-1812 - Plasma 儲存區在用戶端斷線期間迭代時修改雜湊表
  • ARROW-1821 - [ARROW-1821] 新增整合測試案例以明確檢查選用的有效性緩衝區
  • ARROW-1829 - [Plasma] 清理逐出策略簿記
  • ARROW-1830 - [Python] 在字典中載入所有檔案時發生錯誤
  • ARROW-1836 - [C++] 修正在 MSVC 建置中 arrow/util/variant.h 產生的 C4996 警告
  • ARROW-1839 - [C++/Python] 新增 Decimal Parquet 讀取/寫入測試
  • ARROW-1840 - [網站] 安裝命令在 Windows 10 Anaconda 環境中失敗。
  • ARROW-1845 - [Python] 公開 Decimal128Type
  • ARROW-1852 - [Plasma] 將檢索管理員檔案描述符設為 const
  • ARROW-1853 - [Plasma] 修正重試處理中的差一錯誤
  • ARROW-1863 - [Python] PyObjectStringify 可以為更多類型的物件呈現類似位元組的輸出
  • ARROW-1865 - [C++] 將欄位新增至空表格失敗
  • ARROW-1869 - 修正 LowCostIdentityHashMap 中的錯字
  • ARROW-1871 - [Python/C++] 附加不同小數位數的 Python Decimal 需要重新調整比例
  • ARROW-1873 - [Python] 載入總共 2GB 的 Parquet 檔案時發生區段錯誤
  • ARROW-1877 - JsonStringArrayList.equals 中的不正確比較
  • ARROW-1879 - [Python] 如果未安裝 Dask,則不會跳過 Dask 整合測試
  • ARROW-1881 - [Python] setuptools_scm 擷取 JS 版本標籤
  • ARROW-1882 - [C++] 重新引入 DictionaryBuilder
  • ARROW-1883 - [Python] BUG:如果欄位不存在,Table.to_pandas 元數據檢查失敗
  • ARROW-1889 - [Python] 在較舊的 git 版本中,「–exclude」不可用
  • ARROW-1890 - [Python] date32 陣列的遮罩處理無法運作
  • ARROW-1891 - [Python] 只有在使用 from_pandas 時,NaT date32 值才會轉換為 null
  • ARROW-1892 - [Python] 未知的列表項目類型:binary
  • ARROW-1893 - [Python] test_primitive_serialization 在 Python 2.7.3 上失敗
  • ARROW-1895 - [Python] 將 field_name 新增至 pandas 索引元數據
  • ARROW-1897 - [Python] Categoricals 的 pandas 元數據的 numpy_type 不正確
  • ARROW-1904 - [C++] 棄用 PrimitiveArray::raw_values
  • ARROW-1906 - [Python] 建立具有不同單位時間戳記的 pyarrow.Array 時不會轉換類型
  • ARROW-1908 - [Python] 從具有重複欄位名稱的 pandas DataFrame 建構 arrow table 時崩潰
  • ARROW-1910 - CPP README Brewfile 連結不正確
  • ARROW-1914 - [C++] 使用 -DARROW_GPU=on 時,make -j 可能建置失敗
  • ARROW-1915 - [Python] Parquet 測試應該是可選的
  • ARROW-1916 - [Java] 請勿從原始碼發行版本中排除 java/dev/checkstyle
  • ARROW-1917 - [GLib] 必須在 verify-release-candidate.sh 中設定 GI_TYPELIB_PATH
  • ARROW-226 - [C++] libhdfs:提供回饋以協助判斷開啟檔案路徑失敗的原因
  • ARROW-641 - [C++] 如果 ARROW_HDFS=off,則不要建置/執行 io-hdfs-test