使用Python与BigQuery进行交互的代码详解

 更新时间:2025年04月08日 08:51:02   作者:程序员小jobleap  
在大数据分析的领域中,Google BigQuery 是一个被广泛使用的云端数据仓库解决方案,它由 Google Cloud 提供,并且专为处理大规模数据集、进行快速的数据分析和复杂的查询而设计,本文给大家讲解了如何使用Python与BigQuery进行交互,需要的朋友可以参考下

选择合适的 Python 库

在使用 BigQuery 时,您可以根据自己的需求选择以下三个 Python 库:

  • BigQuery DataFrame:通过服务器端处理,支持 Pandas 和 Scikit-learn API,适合数据处理和机器学习任务。
  • pandas-gbq:客户端库,用于在 Python 中读写 BigQuery 数据,适合简单的数据处理和分析。
  • google-cloud-bigquery:Google 维护的库,提供完整的 BigQuery API 功能,适合复杂的数据管理和分析。

安装库

要使用这些库,您需要安装以下包:

pip install --upgrade pandas-gbq 'google-cloud-bigquery[bqstorage,pandas]'

运行查询

使用 GoogleSQL 语法

以下示例展示了如何使用 pandas-gbq 和 google-cloud-bigquery 运行 GoogleSQL 查询:

pandas-gbq

import pandas

sql = """
    SELECT name
    FROM `bigquery-public-data.usa_names.usa_1910_current`
    WHERE state = 'TX'
    LIMIT 100
"""

# 使用标准 SQL 查询
df = pandas.read_gbq(sql, dialect="standard")

# 指定项目 ID
project_id = "your-project-id"
df = pandas.read_gbq(sql, project_id=project_id, dialect="standard")

google-cloud-bigquery

from google.cloud import bigquery

client = bigquery.Client()
sql = """
    SELECT name
    FROM `bigquery-public-data.usa_names.usa_1910_current`
    WHERE state = 'TX'
    LIMIT 100
"""

# 使用标准 SQL 查询
df = client.query(sql).to_dataframe()

# 指定项目 ID
project_id = "your-project-id"
df = client.query(sql, project=project_id).to_dataframe()

使用旧版 SQL 语法

如果需要使用旧版 SQL 语法,可以通过以下方式进行:

pandas-gbq

import pandas

sql = """
    SELECT name
    FROM [bigquery-public-data:usa_names.usa_1910_current]
    WHERE state = 'TX'
    LIMIT 100
"""

df = pandas.read_gbq(sql, dialect="legacy")

google-cloud-bigquery

from google.cloud import bigquery

client = bigquery.Client()
sql = """
    SELECT name
    FROM [bigquery-public-data:usa_names.usa_1910_current]
    WHERE state = 'TX'
    LIMIT 100
"""
query_config = bigquery.QueryJobConfig(use_legacy_sql=True)

df = client.query(sql, job_config=query_config).to_dataframe()

使用 BigQuery Storage API 加速数据下载

BigQuery Storage API 可以显著提高大型结果的下载速度。以下示例展示了如何使用此 API:

pandas-gbq

import pandas

sql = "SELECT * FROM `bigquery-public-data.irs_990.irs_990_2012`"

# 使用 BigQuery Storage API 加速下载
df = pandas.read_gbq(sql, dialect="standard", use_bqstorage_api=True)

google-cloud-bigquery

from google.cloud import bigquery

client = bigquery.Client()
sql = "SELECT * FROM `bigquery-public-data.irs_990.irs_990_2012`"

# 如果 BigQuery Storage API 已启用,则自动使用
df = client.query(sql).to_dataframe()

配置查询

参数化查询

以下示例展示了如何使用参数化查询:

pandas-gbq

import pandas

sql = """
    SELECT name
    FROM `bigquery-public-data.usa_names.usa_1910_current`
    WHERE state = @state
    LIMIT @limit
"""
query_config = {
    "query": {
        "parameterMode": "NAMED",
        "queryParameters": [
            {
                "name": "state",
                "parameterType": {"type": "STRING"},
                "parameterValue": {"value": "TX"},
            },
            {
                "name": "limit",
                "parameterType": {"type": "INTEGER"},
                "parameterValue": {"value": 100},
            },
        ],
    }
}

df = pandas.read_gbq(sql, configuration=query_config)

google-cloud-bigquery

from google.cloud import bigquery

client = bigquery.Client()
sql = """
    SELECT name
    FROM `bigquery-public-data.usa_names.usa_1910_current`
    WHERE state = @state
    LIMIT @limit
"""
query_config = bigquery.QueryJobConfig(
    query_parameters=[
        bigquery.ScalarQueryParameter("state", "STRING", "TX"),
        bigquery.ScalarQueryParameter("limit", "INTEGER", 100),
    ]
)

df = client.query(sql, job_config=query_config).to_dataframe()

将 pandas DataFrame 加载到 BigQuery 表中

以下示例展示了如何将 pandas DataFrame 加载到 BigQuery 表中:

pandas-gbq

import pandas

df = pandas.DataFrame(
    {
        "my_string": ["a", "b", "c"],
        "my_int64": [1, 2, 3],
        "my_float64": [4.0, 5.0, 6.0],
        "my_timestamp": [
            pandas.Timestamp("1998-09-04T16:03:14"),
            pandas.Timestamp("2010-09-13T12:03:45"),
            pandas.Timestamp("2015-10-02T16:00:00"),
        ],
    }
)
table_id = "my_dataset.new_table"

df.to_gbq(table_id)

google-cloud-bigquery

from google.cloud import bigquery
import pandas

df = pandas.DataFrame(
    {
        "my_string": ["a", "b", "c"],
        "my_int64": [1, 2, 3],
        "my_float64": [4.0, 5.0, 6.0],
        "my_timestamp": [
            pandas.Timestamp("1998-09-04T16:03:14"),
            pandas.Timestamp("2010-09-13T12:03:45"),
            pandas.Timestamp("2015-10-02T16:00:00"),
        ],
    }
)
client = bigquery.Client()
table_id = "my_dataset.new_table"

# 确保正确的数据类型
job_config = bigquery.LoadJobConfig(
    schema=[
        bigquery.SchemaField("my_string", "STRING"),
    ]
)

job = client.load_table_from_dataframe(df, table_id, job_config=job_config)

# 等待加载完成
job.result()

pandas-gbq 的局限性

  • 数据集管理:不支持创建、更新或删除数据集。
  • 数据格式支持:仅支持 CSV 格式,不支持嵌套值或数组值。
  • 表管理:不支持列出表、复制表或删除表。
  • 数据导出:不支持直接导出数据到 Cloud Storage。

解决连接池错误

如果遇到连接池错误,可以通过以下方式增加连接池大小:

import requests

client = bigquery.Client()
adapter = requests.adapters.HTTPAdapter(pool_connections=128, pool_maxsize=128, max_retries=3)
client._http.mount("https://", adapter)
client._http._auth_request.session.mount("https://", adapter)

以上就是使用Python与BigQuery进行交互的代码详解的详细内容,更多关于Python与BigQuery交互的资料请关注脚本之家其它相关文章!

相关文章

  • Python中pass的作用与使用教程

    Python中pass的作用与使用教程

    这篇文章主要给大家介绍了关于Python中pass的作用与使用教程,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11
  • Python编程中对文件和存储器的读写示例

    Python编程中对文件和存储器的读写示例

    这篇文章主要介绍了Python编程中对文件和存储器的读写示例,包括使用cPickle储存器存储对象的例子,需要的朋友可以参考下
    2016-01-01
  • Python计算多幅图像栅格值的平均值

    Python计算多幅图像栅格值的平均值

    这篇文章主要为大家详细介绍了Python计算多幅图像栅格值的平均值,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-06-06
  • MacbookM1 python环境配置随笔

    MacbookM1 python环境配置随笔

    这篇文章主要介绍了MacbookM1 python环境配置随笔,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03
  • python发送邮件实例分享

    python发送邮件实例分享

    这篇文章主要为大家详细介绍了python发送邮件实例分享,教大家如何实现邮件发送功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-07-07
  • 跟老齐学Python之玩转字符串(2)更新篇

    跟老齐学Python之玩转字符串(2)更新篇

    本文是玩转字符串的续篇,继续对字符串的连接方法进行介绍,以及字符串复制、字符串长度、字符大小写的转换。非常不错的文章,希望对大家有所帮助
    2014-09-09
  • Python如何查看并打印matplotlib中所有的colormap(cmap)类型

    Python如何查看并打印matplotlib中所有的colormap(cmap)类型

    这篇文章主要介绍了Python如何查看并打印matplotlib中所有的colormap(cmap)类型,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-11-11
  • 如何使用 python查询Amazon DynamoDB

    如何使用 python查询Amazon DynamoDB

    本文介绍了如何使用Python Boto3在Amazon DynamoDB上查询DynamoDB 表、创建、列出和执行其他 CRUD 活动以及执行其他维护任务,本文给大家介绍的非常详细,需要的朋友参考下
    2023-06-06
  • python-tkinter之按钮的使用,开关方法

    python-tkinter之按钮的使用,开关方法

    今天小编就为大家分享一篇python-tkinter之按钮的使用,开关方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Python dict的常用方法示例代码

    Python dict的常用方法示例代码

    这篇文章主要介绍了Python dict的常用方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06

最新评论