Python 数据分析之逐块读取文本的实现

 更新时间:2020年12月14日 14:19:34   作者:毕小宝  
这篇文章主要介绍了Python 数据分析之逐块读取文本的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

背景

《利用Python进行数据分析》,第 6 章的数据加载操作 read_xxx,有 chunksize 参数可以进行逐块加载。

经测试,它的本质就是将文本分成若干块,每次处理 chunksize 行的数据,最终返回一个TextParser 对象,对该对象进行迭代遍历,可以完成逐块统计的合并处理。

示例代码

文中的示例代码分析如下:

from pandas import DataFrame,Series
import pandas as pd
 
path='D:/AStudy2018/pydata-book-2nd-edition/examples/ex6.csv'
# chunksize return TextParser
chunker=pd.read_csv(path,chunksize=1000)
 
# an array of Series
tot=Series([])
chunkercount=0
for piece in chunker:
	print '------------piece[key] value_counts start-----------'
	#piece is a DataFrame,lenth is chunksize=1000,and piece[key] is a Series ,key is int ,value is the key column
	print piece['key'].value_counts()
	print '------------piece[key] value_counts end-------------'
	#piece[key] value_counts is a Series ,key is the key column, and value is the key count
	tot=tot.add(piece['key'].value_counts(),fill_value=0)
	chunkercount+=1
 
#last order the series
tot=tot.order(ascending=False)
print chunkercount
print '--------------'

流程分析

首先,例子数据 ex6.csv 文件总共有 10000 行数据,使用 chunksize=1000 后,read_csv操作返回一个 TextParser 对象,该对象总共有10个元素,遍历过程中打印 chunkercount验证得到。

其次,每个 piece 对象是一个 DataFrame 对象,piece['key'] 得到的是一个 Series 对象,默认是数值索引,值为 csv 文件中的 key 列的值,即各个字符串。

将每个 Series 的 value_counts 作为一个Series,与上一次统计的 tot 结果进行 add 操作,最终得到所有块数据中各个 key 的累加值。

最后,对 tot 进行 order 排序,按降序得到各个 key 的值在 csv 文件中出现的总次数。

这里很巧妙了使用 Series 对象的 add 操作,对两个 Series 执行 add 操作,即合并相同key:key相同的记录的值累加,key不存在的记录设置填充值为0

输出结果为:

在这里插入图片描述

到此这篇关于Python 数据分析之逐块读取文本的实现的文章就介绍到这了,更多相关Python 逐块读取文本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python实现列表转Excel表格的第一列

    Python实现列表转Excel表格的第一列

    这篇文章主要为大家详细介绍了如何将Python中的列表转换为Excel表格的第一列,并通过案例和代码展示具体的操作步骤,希望可以帮助大家快速掌握这一技能
    2024-04-04
  • Pycharm直接使用远程服务器代码并调试的解决方法

    Pycharm直接使用远程服务器代码并调试的解决方法

    这篇文章主要介绍了Pycharm直接使用远程服务器代码并调试的解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-02-02
  • Windows下安装Scrapy

    Windows下安装Scrapy

    今天小编就为大家分享一篇关于Windows下安装Scrapy,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2018-10-10
  • python3.7中安装paddleocr及paddlepaddle包的多种方法

    python3.7中安装paddleocr及paddlepaddle包的多种方法

    这篇文章主要介绍了python3.7中安装paddleocr及paddlepaddle包,本文通过多种方法给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-11-11
  • Python后台开发Django的教程详解(启动)

    Python后台开发Django的教程详解(启动)

    这篇文章主要介绍了Python后台开发Django(启动),本文给大家介绍的非常详细,具有一定的参考借鉴价值 ,需要的朋友可以参考下
    2019-04-04
  • Python入门教程(二十)Python的Lambda表达式

    Python入门教程(二十)Python的Lambda表达式

    这篇文章主要介绍了Python入门教程(二十)Python的Lambda表达式,lambda表达式是一行的函数。它们在其他语言中也被称为匿名函数,lambda表达式非常有用,可以让代码简单,简洁,需要的朋友可以参考下
    2023-04-04
  • Python 比较两个 CSV 文件的三种方法并打印出差异

    Python 比较两个 CSV 文件的三种方法并打印出差异

    这篇文章主要介绍了Python 比较两个 CSV 文件并打印出差异,本文将讨论比较两个 CSV 文件的各种方法,我们将包括执行此操作的最“Pythonic”方式和可帮助简化此任务的外部 Python 模块,需要的朋友可以参考下
    2023-06-06
  • Python实现飞机大战项目

    Python实现飞机大战项目

    这篇文章主要为大家详细介绍了Python实现飞机大战项目,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-07-07
  • 如何在Python中使用pyecharts图形画可视化大屏

    如何在Python中使用pyecharts图形画可视化大屏

    最近碰巧需要用到pyecharts,pyecharts库是一个用于生成echarts图表的类库,这篇文章主要给大家介绍了关于如何在Python中使用pyecharts图形画可视化大屏的相关资料,需要的朋友可以参考下
    2024-05-05
  • Python利用递归和walk()遍历目录文件的方法示例

    Python利用递归和walk()遍历目录文件的方法示例

    在日常开发中经常需要检查一个“目录或文件夹”内部有没有我们想要的文件或者文件夹,下面这篇文章主要给大家介绍了关于Python利用递归和walk()遍历目录文件的相关资料,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-07-07

最新评论