PostgreSQL 食譜¶

使用使用者名稱與密碼驗證¶

若要連線到 PostgreSQL 資料庫，必須在 URI 中提供使用者名稱與密碼。例如，

postgresql://username:password@hostname:port/dbname

請參閱 PostgreSQL 文件以取得完整詳細資訊。

import os

import adbc_driver_postgresql.dbapi

uri = os.environ["ADBC_POSTGRESQL_TEST_URI"]
conn = adbc_driver_postgresql.dbapi.connect(uri)

with conn.cursor() as cur:
    cur.execute("SELECT 1")
    assert cur.fetchone() == (1,)

conn.close()

從 Arrow 資料集建立/附加到資料表¶

食譜來源: postgresql_create_dataset_table.py

ADBC 讓您可以輕鬆地將 PyArrow 資料集載入到您的資料儲存區。

import os
import tempfile
from pathlib import Path

import pyarrow
import pyarrow.csv
import pyarrow.dataset
import pyarrow.feather
import pyarrow.parquet

import adbc_driver_postgresql.dbapi

uri = os.environ["ADBC_POSTGRESQL_TEST_URI"]
conn = adbc_driver_postgresql.dbapi.connect(uri)

為了測試目的，我們先確保我們即將使用的資料表不存在。

with conn.cursor() as cur:
    cur.execute("DROP TABLE IF EXISTS csvtable")
    cur.execute("DROP TABLE IF EXISTS ipctable")
    cur.execute("DROP TABLE IF EXISTS pqtable")
    cur.execute("DROP TABLE IF EXISTS csvdataset")
    cur.execute("DROP TABLE IF EXISTS ipcdataset")
    cur.execute("DROP TABLE IF EXISTS pqdataset")

conn.commit()

產生範例資料¶

tempdir = tempfile.TemporaryDirectory(
    prefix="adbc-docs-",
    ignore_cleanup_errors=True,
)
root = Path(tempdir.name)
table = pyarrow.table(
    [
        [1, 1, 2],
        ["foo", "bar", "baz"],
    ],
    names=["ints", "strs"],
)

首先，我們會寫入單一檔案。

csv_file = root / "example.csv"
pyarrow.csv.write_csv(table, csv_file)

ipc_file = root / "example.arrow"
pyarrow.feather.write_feather(table, ipc_file)

parquet_file = root / "example.parquet"
pyarrow.parquet.write_table(table, parquet_file)

我們也會產生一些分割的資料集。

csv_dataset = root / "csv_dataset"
pyarrow.dataset.write_dataset(
    table,
    csv_dataset,
    format="csv",
    partitioning=["ints"],
)

ipc_dataset = root / "ipc_dataset"
pyarrow.dataset.write_dataset(
    table,
    ipc_dataset,
    format="feather",
    partitioning=["ints"],
)

parquet_dataset = root / "parquet_dataset"
pyarrow.dataset.write_dataset(
    table,
    parquet_dataset,
    format="parquet",
    partitioning=["ints"],
)

將 CSV 檔案載入到 PostgreSQL¶

我們可以將 pyarrow.RecordBatchReader (來自 open_csv) 直接傳遞給 adbc_ingest。我們也可以傳遞 pyarrow.dataset.Dataset，或 pyarrow.dataset.Scanner。

with conn.cursor() as cur:
    reader = pyarrow.csv.open_csv(csv_file)
    cur.adbc_ingest("csvtable", reader, mode="create")

    reader = pyarrow.dataset.dataset(
        csv_dataset,
        format="csv",
        partitioning=["ints"],
    )
    cur.adbc_ingest("csvdataset", reader, mode="create")

conn.commit()

with conn.cursor() as cur:
    cur.execute("SELECT ints, strs FROM csvtable ORDER BY ints, strs ASC")
    assert cur.fetchall() == [(1, "bar"), (1, "foo"), (2, "baz")]

    cur.execute("SELECT ints, strs FROM csvdataset ORDER BY ints, strs ASC")
    assert cur.fetchall() == [(1, "bar"), (1, "foo"), (2, "baz")]

將 Arrow IPC (Feather) 檔案載入到 PostgreSQL¶

with conn.cursor() as cur:
    reader = pyarrow.ipc.RecordBatchFileReader(ipc_file)

由於 PyArrow API 中的怪異之處，我們必須將檔案讀取到記憶體中。

    cur.adbc_ingest("ipctable", reader.read_all(), mode="create")

但是，Dataset API 會將資料串流到記憶體中，然後再進入 PostgreSQL。

    reader = pyarrow.dataset.dataset(
        ipc_dataset,
        format="feather",
        partitioning=["ints"],
    )
    cur.adbc_ingest("ipcdataset", reader, mode="create")

conn.commit()

with conn.cursor() as cur:
    cur.execute("SELECT ints, strs FROM ipctable ORDER BY ints, strs ASC")
    assert cur.fetchall() == [(1, "bar"), (1, "foo"), (2, "baz")]

    cur.execute("SELECT ints, strs FROM ipcdataset ORDER BY ints, strs ASC")
    assert cur.fetchall() == [(1, "bar"), (1, "foo"), (2, "baz")]

將 Parquet 檔案載入到 PostgreSQL¶

with conn.cursor() as cur:
    reader = pyarrow.parquet.ParquetFile(parquet_file)
    cur.adbc_ingest("pqtable", reader.iter_batches(), mode="create")

    reader = pyarrow.dataset.dataset(
        parquet_dataset,
        format="parquet",
        partitioning=["ints"],
    )
    cur.adbc_ingest("pqdataset", reader, mode="create")

conn.commit()

with conn.cursor() as cur:
    cur.execute("SELECT ints, strs FROM pqtable ORDER BY ints, strs ASC")
    assert cur.fetchall() == [(1, "bar"), (1, "foo"), (2, "baz")]

    cur.execute("SELECT ints, strs FROM pqdataset ORDER BY ints, strs ASC")
    assert cur.fetchall() == [(1, "bar"), (1, "foo"), (2, "baz")]

清理¶

conn.close()
tempdir.cleanup()

從 Arrow 資料表建立/附加到資料表¶

食譜來源: postgresql_create_append_table.py

ADBC 允許使用 Arrow 資料表來建立及附加到資料庫資料表。

import os

import pyarrow

import adbc_driver_postgresql.dbapi

uri = os.environ["ADBC_POSTGRESQL_TEST_URI"]
conn = adbc_driver_postgresql.dbapi.connect(uri)

為了測試目的，我們先確保我們即將使用的資料表不存在。

with conn.cursor() as cur:
    cur.execute("DROP TABLE IF EXISTS example")
    cur.execute("DROP TABLE IF EXISTS example2")

現在我們可以建立資料表。

with conn.cursor() as cur:
    data = pyarrow.table(
        [
            [1, 2, None, 4],
        ],
        schema=pyarrow.schema(
            [
                ("ints", "int32"),
            ]
        ),
    )
    cur.adbc_ingest("example", data, mode="create")

conn.commit()

在擷取之後，我們可以取得結果。

with conn.cursor() as cur:
    cur.execute("SELECT * FROM example")
    assert cur.fetchone() == (1,)
    assert cur.fetchone() == (2,)

    cur.execute("SELECT COUNT(*) FROM example")
    assert cur.fetchone() == (4,)

如果我們再次嘗試擷取，則會失敗，因為資料表已存在。

with conn.cursor() as cur:
    try:
        cur.adbc_ingest("example", data, mode="create")
    except conn.ProgrammingError:
        pass
    else:
        raise RuntimeError("Should have failed!")

conn.rollback()

相反地，我們可以附加到資料表。

with conn.cursor() as cur:
    cur.adbc_ingest("example", data, mode="append")

    cur.execute("SELECT COUNT(*) FROM example")
    assert cur.fetchone() == (8,)

我們也可以選擇在資料表不存在時建立資料表，否則就附加。

with conn.cursor() as cur:
    cur.adbc_ingest("example2", data, mode="create_append")

    cur.execute("SELECT COUNT(*) FROM example2")
    assert cur.fetchone() == (4,)

    cur.adbc_ingest("example2", data, mode="create_append")

    cur.execute("SELECT COUNT(*) FROM example2")
    assert cur.fetchone() == (8,)

最後，我們可以取代資料表。

with conn.cursor() as cur:
    cur.adbc_ingest("example", data.slice(0, 2), mode="replace")

    cur.execute("SELECT COUNT(*) FROM example")
    assert cur.fetchone() == (2,)

conn.close()

建立/附加到暫時資料表¶

食譜來源: postgresql_create_temp_table.py

ADBC 也允許建立及附加到暫時資料表。

import os

import pyarrow

import adbc_driver_postgresql.dbapi

uri = os.environ["ADBC_POSTGRESQL_TEST_URI"]
conn = adbc_driver_postgresql.dbapi.connect(uri)

為了測試目的，我們先確保我們即將使用的資料表不存在。

with conn.cursor() as cur:
    cur.execute("DROP TABLE IF EXISTS example")

若要建立暫時資料表，只需指定選項 “temporary”。

data = pyarrow.table(
    [
        [1, 2, None, 4],
    ],
    schema=pyarrow.schema(
        [
            ("ints", "int32"),
        ]
    ),
)

with conn.cursor() as cur:
    cur.adbc_ingest("example", data, mode="create", temporary=True)

conn.commit()

在擷取之後，我們可以取得結果。

with conn.cursor() as cur:
    cur.execute("SELECT * FROM example")
    assert cur.fetchone() == (1,)
    assert cur.fetchone() == (2,)

    cur.execute("SELECT COUNT(*) FROM example")
    assert cur.fetchone() == (4,)

暫時資料表與一般資料表是分開的，即使它們具有相同的名稱。

with conn.cursor() as cur:
    cur.adbc_ingest("example", data.slice(0, 2), mode="create", temporary=False)

conn.commit()

with conn.cursor() as cur:

因為我們有兩個名稱相同的資料表，所以我們必須在此明確參考一般的暫時資料表。

    cur.execute("SELECT COUNT(*) FROM public.example")
    assert cur.fetchone() == (2,)

    cur.execute("SELECT COUNT(*) FROM example")
    assert cur.fetchone() == (4,)

conn.close()

關閉連線後，暫時資料表會隱含地被捨棄。如果我們重新連線，資料表將不存在；我們只會看到「一般」資料表。

with adbc_driver_postgresql.dbapi.connect(uri) as conn:
    with conn.cursor() as cur:
        cur.execute("SELECT COUNT(*) FROM example")
        assert cur.fetchone() == (2,)

所有一般的擷取選項也適用於暫時資料表。請參閱從 Arrow 資料集建立/附加到資料表以取得更多範例。

使用繫結參數執行陳述式¶

食譜來源: postgresql_execute_bind.py

ADBC 允許使用 Python 和 Arrow 值作為繫結參數。目前，PostgreSQL 驅動程式僅支援用於不產生結果集的查詢的繫結參數。

import os

import pyarrow

import adbc_driver_postgresql.dbapi

uri = os.environ["ADBC_POSTGRESQL_TEST_URI"]
conn = adbc_driver_postgresql.dbapi.connect(uri)

我們將建立一個範例資料表來測試。

with conn.cursor() as cur:
    cur.execute("DROP TABLE IF EXISTS example")
    cur.execute("CREATE TABLE example (ints INT, bigints BIGINT)")

conn.commit()

我們可以繫結 Python 值

with conn.cursor() as cur:
    cur.executemany("INSERT INTO example VALUES ($1, $2)", [(1, 2), (3, 4)])

    cur.execute("SELECT SUM(ints) FROM example")
    assert cur.fetchone() == (4,)

注意

如果您習慣使用格式字串樣式 %s 語法 (例如 psycopg 等程式庫用於繫結參數)，請注意這不受支援 — 僅支援 PostgreSQL 原生的 $1 語法。

我們也可以繫結 Arrow 值

with conn.cursor() as cur:
    data = pyarrow.record_batch(
        [
            [5, 6],
            [7, 8],
        ],
        names=["$1", "$2"],
    )
    cur.executemany("INSERT INTO example VALUES ($1, $2)", data)

    cur.execute("SELECT SUM(ints) FROM example")
    assert cur.fetchone() == (15,)

conn.close()

取得資料表的 Arrow 綱要¶

食譜來源: postgresql_get_table_schema.py

ADBC 讓您可以取得資料表的綱要作為 Arrow 綱要。

import os

import pyarrow

import adbc_driver_postgresql.dbapi

uri = os.environ["ADBC_POSTGRESQL_TEST_URI"]
conn = adbc_driver_postgresql.dbapi.connect(uri)

我們將建立一些範例資料表來測試。

with conn.cursor() as cur:
    cur.execute("DROP TABLE IF EXISTS example")
    cur.execute("CREATE TABLE example (ints INT, bigints BIGINT)")

    cur.execute("CREATE SCHEMA IF NOT EXISTS other_schema")
    cur.execute("DROP TABLE IF EXISTS other_schema.example")
    cur.execute("CREATE TABLE other_schema.example (strings TEXT, values INT)")

conn.commit()

預設情況下，會假設「作用中」的目錄/綱要。

assert conn.adbc_get_table_schema("example") == pyarrow.schema(
    [
        ("ints", "int32"),
        ("bigints", "int64"),
    ]
)

我們可以明確指定 PostgreSQL 綱要，以取得不同命名空間中資料表的 Arrow 綱要。

注意

在 PostgreSQL 中，您只能查詢您連線的資料庫 (目錄)。因此我們無法在此指定目錄 (或者，這樣做沒有意義)。

請注意，NUMERIC 欄位會讀取為字串，因為 PostgreSQL 小數點不會對應到 Arrow 小數點。

assert conn.adbc_get_table_schema(
    "example",
    db_schema_filter="other_schema",
) == pyarrow.schema(
    [
        ("strings", "string"),
        ("values", "int32"),
    ]
)

conn.close()

取得查詢的 Arrow 綱要¶

食譜來源: postgresql_get_query_schema.py

ADBC 讓您可以取得結果集的綱要，而無需執行查詢。

import os

import pyarrow

import adbc_driver_postgresql.dbapi

uri = os.environ["ADBC_POSTGRESQL_TEST_URI"]
conn = adbc_driver_postgresql.dbapi.connect(uri)

我們將建立一個範例資料表來測試。

with conn.cursor() as cur:
    cur.execute("DROP TABLE IF EXISTS example")
    cur.execute("CREATE TABLE example (ints INT, bigints BIGINT)")

conn.commit()

expected = pyarrow.schema(
    [
        ("ints", "int32"),
        ("bigints", "int64"),
    ]
)

with conn.cursor() as cur:
    assert cur.adbc_execute_schema("SELECT * FROM example") == expected

PostgreSQL 在此處不知道類型，因此它只會傳回一個猜測。

    assert cur.adbc_execute_schema("SELECT $1 AS res") == pyarrow.schema(
        [
            ("res", "string"),
        ]
    )

conn.close()

列出目錄、綱要和資料表¶

食譜來源: postgresql_list_catalogs.py

ADBC 允許列出資料庫中的資料表、目錄和綱要。

import os

import adbc_driver_postgresql.dbapi

uri = os.environ["ADBC_POSTGRESQL_TEST_URI"]
conn = adbc_driver_postgresql.dbapi.connect(uri)

我們將建立一個範例資料表來尋找。

with conn.cursor() as cur:
    cur.execute("DROP TABLE IF EXISTS example")
    cur.execute("CREATE TABLE example (ints INT, bigints BIGINT)")

conn.commit()

資料以 PyArrow RecordBatchReader 的形式提供。

objects = conn.adbc_get_objects(depth="all").read_all()

為了方便起見，我們會將其轉換為純 Python 資料。

objects = objects.to_pylist()
catalog = objects[0]
assert catalog["catalog_name"] == "postgres"

db_schema = catalog["catalog_db_schemas"][0]
assert db_schema["db_schema_name"] == "public"

tables = db_schema["db_schema_tables"]
example = [table for table in tables if table["table_name"] == "example"]
assert len(example) == 1
example = example[0]

assert example["table_columns"][0]["column_name"] == "ints"
assert example["table_columns"][1]["column_name"] == "bigints"

conn.close()

使用 SQLAlchemy 的連線池¶

食譜來源: postgresql_pool.py

ADBC 未實作連線池，因為這通常不是 DBAPI 驅動程式的功能。相反地，請使用第三方連線池，例如內建於 SQLAlchemy 中的連線池。

import os

import sqlalchemy.pool

import adbc_driver_postgresql.dbapi

uri = os.environ["ADBC_POSTGRESQL_TEST_URI"]

source = adbc_driver_postgresql.dbapi.connect(uri)

adbc_driver_manager.dbapi.Connection.adbc_clone() 從現有的連線開啟新的連線，並在可能的情況下共用內部資源。例如，PostgreSQL 驅動程式將共用內部 OID 快取，從而節省一些連線的額外負擔。

pool = sqlalchemy.pool.QueuePool(source.adbc_clone, max_overflow=1, pool_size=2)

我們現在可以從池中取得連線；SQLAlchemy 會覆寫 close() 以將連線傳回池中。

注意

與底層 ADBC 連線不同，SQLAlchemy 的包裝器不支援內容管理器協定。

conn = pool.connect()

assert pool.checkedin() == 0
assert pool.checkedout() == 1

with conn.cursor() as cur:
    cur.execute("SELECT 1")
    assert cur.fetchone() == (1,)

conn.close()

assert pool.checkedin() == 1
assert pool.checkedout() == 0

source.close()

使用 Pandas 和 ADBC¶

食譜來源: postgresql_pandas.py

ADBC 已整合到 pandas (一個熱門的資料框架程式庫) 中。Pandas 可以使用 ADBC 與 PostgreSQL 和其他資料庫交換資料。與使用 SQLAlchemy 或其他選項相比，將 ADBC 與 pandas 一起使用可以獲得更好的效能，例如避免過多轉換為和從 Python 物件轉換。

import os

import pandas as pd

import adbc_driver_postgresql.dbapi

uri = os.environ["ADBC_POSTGRESQL_TEST_URI"]
conn = adbc_driver_postgresql.dbapi.connect(uri)

我們將使用 pd.DataFrame.to_sql 來建立範例資料表。

data = pd.DataFrame(
    {
        "ints": [1, 2, None, 4],
        "strs": ["a", "b", "c", "d"],
    }
)
data.to_sql("example", conn, if_exists="replace")
conn.commit()

建立資料表後，我們可以將 ADBC 連線和 SQL 查詢傳遞給 pd.read_sql，以取得作為 pandas DataFrame 的結果集。

df = pd.read_sql("SELECT * FROM example WHERE ints > 1", conn)

assert len(df) == 2

conn.close()

與 ADBC 介面相比，pandas 提供了更方便且更高階的 API，特別是對於那些已經在使用 pandas 的人。

使用 Polars 和 ADBC¶

食譜來源: postgresql_polars.py

ADBC 可以與 Polars (一個以 Rust 撰寫的資料框架程式庫) 一起使用。根據其文件

如果後端支援直接傳回 Arrow 資料，則將使用此功能有效率地實例化 DataFrame；否則，DataFrame 會從逐列資料初始化。

顯然，ADBC 直接傳回 Arrow 資料，使 ADBC 和 Polars 自然地契合在一起。

import os

import polars as pl

uri = os.environ["ADBC_POSTGRESQL_TEST_URI"]

我們將使用 Polars 和 polars.DataFrame.write_database() 來建立範例資料表。我們不需要使用 Polars 自己開啟 ADBC 連線。

data = pl.DataFrame(
    {
        "ints": [1, 2, None, 4],
        "strs": ["a", "b", "c", "d"],
    }
)
data.write_database("example", uri, engine="adbc", if_table_exists="replace")

建立資料表後，我們可以使用 polars.read_database_uri() 來擷取結果。同樣地，我們可以只傳遞 URI 並告知 Polars 為我們管理 ADBC。

df = pl.read_database_uri("SELECT * FROM example WHERE ints > 1", uri, engine="adbc")

assert len(df) == 2