pandas:解决groupby().apply()方法打印两次-程序员宅基地

技术标签: python  

对于以下dataframe执行dataframe.groupby(['name', 'course']).apply(lambda x: test(x)) 操作

其中test(x)函数为:

def test(x):
    print(x)

那么打印结果为:

可以发现,groupby()后的第一个结果被打印了两次。

对于这种情况,Pandas官方文档的解释是:

什么意思呢?就是说,apply在第一列/行上调用func两次,以决定是否可以进行某些优化。

而在pandas==0.18.1以及最新的pandas==0.23.4中进行尝试后发现,这个情况都存在。

在某些情境,例如对groupby()后的dataframe进行apply()批处理,为了避免重复,我们并不想让第一个结果打印出两次。

方法一:

如果能对apply()后第一次出现的dataframe跳过不处理就好了。

这里采用的方法是设置标识符,通过判断标识符状态决定是否跳过。代码如下:

global flag
flag = False


def test(x):
    global flag
    if flag == False:
        flag = True
        return
    print(x)

测试结果为:

可以发现重复的dataframe已经跳过不再打印,问题顺利地解决~

方法二:

在上面的分析中,已经找了问题的原因是因为apply()方法的引入。那么,有没有可以代替apply()方法呢?这里可以采用filter()方法,即用groupby().filter() 代替groupby().apply()。具体代码如下:

def test(x):
    print(x)

df.groupby(['name', 'course']).filter(lambda x: test(x))

打印出测试结果,也ok~

 

转载于:https://www.cnblogs.com/wkang/p/10150401.html

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_30687587/article/details/96301608

智能推荐

couple Maillot Cyclisme 2013 de couleurs-程序员宅基地

文章浏览阅读97次。Le 1er style. est généralement un fourre-tout, qui est créé par le vrai cuir de haute qualité avec meublée notamme...

计算机网络参考模型-程序员宅基地

文章浏览阅读1.7k次。在计算机的网络中,有两个十分重要的参考模型,所有网络通信设备都是以参考模型为标准来研发的。因此熟知参考模型在学习网络知识的过程中是十分重要的。下面就简单的介绍一下两个参考模型。一、OSI参考模型 OSI(Open System Interconnect),即开放式系统互联。 一般都叫OSI参考模型,是ISO(国际标准化组织)组织在198...

分布式搜索引擎ElasticSearch之IK分词器(三)_搜索姓名使用ik_smart-程序员宅基地

文章浏览阅读265次。继上篇文章https://blog.csdn.net/qq_39772439/article/details/1213707733.IK分词器 4.1什么是IK分词器 我们在浏览器地址栏输入http://127.0.0.1:9200/_analyze?analyzer=chinese&pretty=true&text=我是程序员,浏览器显示效果如下 默认的中文分词是将每个字看成一个词,这显然是不符合要求的,所以我们需要安装中 文分词器来解决这个问题。 IK分词是一款._搜索姓名使用ik_smart

GNS3的安装过程_gns3下载教程-程序员宅基地

文章浏览阅读1.1k次,点赞3次,收藏11次。GNS3的安装过程一:为什么要安装GNS3GNS3是一款可以运行在多平台的网络虚拟软件,可以通过它来完成相关的实验模拟操作或者检验真实的路由器上实施的相关操作。二:安装环境1、系统版本:windows 10(其他系统也行)2、客户端版本:GNS3-1.3.10-all-one三:安装步骤这里我把安装包的链接放在这,大家可自行下载链接: https://pan.baidu.com/s..._gns3下载教程

Unity 与 NDK开发_unity ndk-程序员宅基地

文章浏览阅读2k次。文章目录Unity 与 C++NDK开发动态链接库NDKUnity 与 C++C#是Unity的官方推荐的开发语言。如果某些逻辑需要C++支持以提供高性能特性,或者需要C++去跟底层硬件或者操作系统级别的接口交互,那么就需要用C#去调用C++的接口。这往往依赖动态链接。即用C++开发动态链接库,然后C#调用动态链接库里暴露的接口。而在Android上开发动态链接库(.so文件)的方法,就是NDK开发。NDK开发动态链接库NDKNDK 全称原生开发工具包(Native Development K_unity ndk

从图灵奖看计算机科学技术发展史的缩影 _图灵奖获得者精神品质-程序员宅基地

文章浏览阅读1.9k次。从1966年颁发图灵奖至今,已有近40个年头,共计有40多名科学家获此殊荣,其中美国学者最多,此外还有英国、瑞士、荷兰、以色列、挪威等国少数学者,也包含一名美籍华人。图灵奖颁发的历史,实际上是计算机科学技术发展史的缩影,而且从图灵奖获得者身上,我们会受到很多有益的启迪。 一。.图灵和图灵奖:1. 图灵是计算机科学技术的奠基人 阿伦 ·图灵(Alan Mathison Turi_图灵奖获得者精神品质

随便推点

深入Redis持久化_命令追加的格式是redis命令请求的协议格式-程序员宅基地

文章浏览阅读256次。一、Redis高可用概述在介绍Redis高可用之前,先说明一下在Redis的语境中高可用的含义。我们知道,在web服务器中,高可用是指服务器可以正常访问的时间,衡量的标准是在多长时间内可以提供正常服务(99.9%、99.99%、99.999% 等等)。但是在Redis语境中,高可用的含义似乎要宽泛一些,除了保证提供正常服务(如主从分离、快速容灾技术),还需要考虑数据容量的扩展、数据安全不会丢失..._命令追加的格式是redis命令请求的协议格式

文字小游戏-程序员宅基地

文章浏览阅读331次。练习一1、定义主函数main()  实现输入名字,通过format格式化字符串2、运行main()# -*- coding: UTF-8 -*-def main(): name = input('请输入名字:') other_name = input('请再输入名字:') print('{}去买车,需要10万元,可{}只带了现金99998元,就差..._微信小游戏文字类

java多层map初始化_多重map初始化-程序员宅基地

文章浏览阅读1.8k次。因为聚合需求,一开始构造了一个四层map,由于放入实例前需要先判断前面的map存不存在,如果不存在则要new新的map,并把数据放进去,一开始直接if else写写了两百多行。cr之后觉得很丑陋,就寻找简单的方法去重写。首先将map结构重新规划,将一些固定的值从map中去除,将中间两层的键用连接符合并,在输出时再做拆分,这样四层的map就简化成了两层。针对实例化的问题,使用如下代码:Map&..._多重map初始化

80x86 汇编语言编程:排序与显示_8086编程完成将10个数(自设定)按从大到小顺序排序。-程序员宅基地

文章浏览阅读1.1k次。编写完整的汇编语言源程序。对任意给定的十个无符号数按由大到小排序,并把排序结果在显示器上显示。要求用简化的段定义结构,采用子程序设计方法。谢谢 急求 !!!题目链接:http://zhidao.baidu.com/question/583620100做而论道编程如下:   2013-08-22 10:53 .MODEL SMALL.STACK 200H.DATA NUM1 DW _8086编程完成将10个数(自设定)按从大到小顺序排序。

Python微调文本顺序对抗朴素贝叶斯算法垃圾邮件分类机制-程序员宅基地

文章浏览阅读293次。封面图片:《Python可以这样学》,ISBN:9787302456469,董付国,清华大学出版社图书详情(京东):=================关于朴素贝叶斯算法中文垃圾邮件分类,可..._python任调整文本顺序,对抗垃圾邮件检测

PCI MSI parse in ACPI_irq_find_matching_fwnode-程序员宅基地

文章浏览阅读712次。This document analyzes how to parse ITS configuration in Linux kernel, focus on ACPI code_irq_find_matching_fwnode