Pandas 合并多个Dataframe(merge,concat)的方法

 更新时间:2018年06月08日 09:12:51   作者:chixujohnny  
今天小编就为大家分享一篇Pandas 合并多个Dataframe(merge,concat)的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

在数据处理的时候,尤其在搞大数据竞赛的时候经常会遇到一个问题就是,多个表单的合并问题,比如一个表单有user_id和age这两个字段,另一个表单有user_id和sex这两个字段,要把这两个表合并成只有user_id、age、sex三个字段的表怎么办的,普通的拼接是做不到的,因为user_id每一行之间不是对应的,像拼积木似的横向拼接肯定是不行的。

pandas中有个merge函数可以做到这个实用的功能,merge这个词会点SQL语言的应该都不陌生。

下面说说merge函数怎么用:

df = pd.merge(df1, df2, how='left', on='user_id') 

用法很简单,说一下后两个参数就可以了,how=""参数表示以哪个表的key为准,上面的how="left"表示以表df1为准,而key也就是on=""的参数

how="left"就是说,保留user_id字段的全部信息,不增加也不减少,但是拼接的时候只把df2表中的与df1中user_id字段交集的部分合并上就可以了,如果df2中出现了某个user_id在df1中没有出现,就抛弃掉这个样本不作处理。

如果要进行多key合并:

df = pd.merge(df1, df2, how='left', on=['user_id','sku_id']) 

但是如果想仅进行简单的“拼接”而不是合并呢,要使用concat函数:

df = pd.concat( [df_user, dummies_sex, dummies_age, dummies_level], axis=1 ) 

这样可以保留这些表单的全部信息,参数axis=1表示列拼接,axis=0表示行拼接。

要保证背个表单的行数是相同的,并且每一行对应的key也是相同的,列拼接才变得有意义

以上这篇Pandas 合并多个Dataframe(merge,concat)的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python简单几步实现时间日期处理到数据文件的读写

    python简单几步实现时间日期处理到数据文件的读写

    这篇文章主要为大家介绍了python简单几步实现时间日期处理到数据文件的读写详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-04-04
  • Python Pandas中的shift()函数实现数据完美平移应用场景探究

    Python Pandas中的shift()函数实现数据完美平移应用场景探究

    shift() 是 Pandas 中一个常用的数据处理函数,它用于对数据进行移动或偏移操作,常用于时间序列数据或需要计算前后差值的情况,本文将详细介绍 shift() 函数的用法,包括语法、参数、示例以及常见应用场景
    2024-01-01
  • python sort、sort_index方法代码实例

    python sort、sort_index方法代码实例

    这篇文章主要介绍了python sort、sort_index方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-03-03
  • scikit-learn处理缺失数据的方法与实践

    scikit-learn处理缺失数据的方法与实践

    scikit-learn作为Python中广泛使用的机器学习库,提供了多种工具和技术来帮助我们处理缺失数据,本文将详细介绍sklearn处理缺失数据的方法,并提供实际的代码示例,需要的朋友可以参考下
    2024-06-06
  • django创建超级用户时指定添加其它字段方式

    django创建超级用户时指定添加其它字段方式

    这篇文章主要介绍了django创建超级用户时指定添加其它字段方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • python正则分析nginx的访问日志

    python正则分析nginx的访问日志

    最近工作中遇到一个需求,是要分析nginx的访问日志,觉着利用python来实现比较合适,所以下面这篇文章主要介绍了利用python正则如何分析nginx的访问日志,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-01-01
  • python操作Excel神器openpyxl看这一篇就够了

    python操作Excel神器openpyxl看这一篇就够了

    Python使用openpyxl读写excel文件这是一个第三方库,可以处理xlsx格式的Excel文件,下面这篇文章主要给大家介绍了关于python操作Excel神器openpyxl的相关资料,需要的朋友可以参考下
    2023-04-04
  • 使用matplotlib绘制图例标签中带有公式的图

    使用matplotlib绘制图例标签中带有公式的图

    今天小编就为大家分享一篇使用matplotlib绘制图例标签中带有公式的图,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • python中__init__方法知识点详解

    python中__init__方法知识点详解

    Python中常会看到在很多类中都有一个__init__函数,该函数有什么作用,又该如何使用呢,下面这篇文章主要给大家介绍了关于python中__init__知识点的相关资料,需要的朋友可以参考下
    2023-04-04
  • Python实现的计算器功能示例

    Python实现的计算器功能示例

    这篇文章主要介绍了Python实现的计算器功能,涉及Python四则运算、取反、百分比等相关数学运算操作实现技巧,需要的朋友可以参考下
    2018-04-04

最新评论