用Python实现数据筛选与匹配_python筛选符合条件的parquet数据-程序员宅基地

技术标签: 键值对  python  字典  后端  Python  开发语言  

下面我们将学习两个项目案例代码,分别解决Excel常见场景中的数据筛选问题和数据匹配问题。

数据筛选要求我们在表中筛选出符合条件的数据。
数据匹配需要我们在多个表之间匹配相关的数据。

与之前一样,完成项目问题的代码,需要我们先分析数据筛选数据匹配的需求,再找到对应知识点,确定代码的执行顺序,从而实现项目代码。

案例一:数据筛选

这个案例需要我们筛选出迟到人员的信息,来具体看看。

在【10月考勤统计.xlsx】工作簿中,保存了公司一百名员工的迟到信息,这些信息包含了迟到时间迟到次数

公司规定,迟到时间超过45分钟且迟到过3次以上的员工记为考勤不合格,需要扣除300的考勤保证金。

之前的同事需要把筛选后的结果保存为【10月迟到人员信息.xlsx】,并将整理后的信息上报给领导。

那么如何用代码实现这个场景呢?

在编写代码之前,我们要先明确任务需求。

根据公司的规定,筛选出【10月考勤统计.xlsx】中迟到时间大于45分钟并且迟到次数超过3次以上的员工信息,将迟到人员信息打印出来后再存入新工作簿【10月迟到人员信息.xlsx】中。

代码实现:

from openpyxl import load_workbook, Workbook

# 打开【10月考勤统计.xlsx】工作簿
wb = load_workbook('./material/10月考勤统计.xlsx')
# 获取活动工作表
ws = wb.active
print(ws)
print(ws[1])
print('----------------')
# 获取表头
late_header = []
for cell in ws[1]:
    late_header.append(cell.value)
    print(cell.value)

# 新建工作簿
new_wb = Workbook()
# 获取新工作簿中的工作表
new_ws = new_wb.active

# 将表头写入新工作簿的工作表中
new_ws.append(late_header)

# 从第二行开始遍历表格
for row in ws.iter_rows(min_row=2, values_only=True):
    # 取出姓名,迟到时间和迟到次数
    name = row[1]
    time = row[3]
    number = row[-1]
    # 判断是否迟到
    if time > 45 and number > 3:
        print('{}迟到了{}分钟,迟到了{}次'.format(name, time, number))
        # 将迟到人员信息写入新工作簿的工作表中
        new_ws.append(row)

# 将新工作簿保存为【10月迟到人员信息.xlsx】
new_wb.save('./material/10月迟到人员信息.xlsx')

 运行结果:

根据任务需求,我们需要获取两部分数据:表头数据和表头以外的所有数据。

你可能会比较疑惑,为什么要单独获取表头数据呢?

由于任务需要我们生成新的工作簿【10月迟到人员信息.xlsx】,新工作簿中的表头与【10月考勤统计.xlsx】相同,所以我们需要获取到表头的数据以便后续使用。

使用数据

我们需要在这一步实现数据筛选功能,通过分析任务需求可以总结出三个筛选条件:

1)迟到时间大于45分钟。
2)迟到次数大于3次。
3)同时满足上面两个条件。

明确了筛选条件后,就可以借助条件判断语句比较运算符成员运算符逻辑运算符等Python基础知识,实现对于数据的筛选,即将上面得到的筛选条件用Python语言实现出来。

假设我们用time来代表迟到时间,用number代表迟到次数,那么筛选条件就可以写为:
if time > 45 and number > 3:

数据输出

完成筛选后,我们需要根据实际需求将筛选结果输出到终端,或将筛选结果保存起来。

本次任务要求我们将筛选后的员工信息打印出来,并且存储到【10月迟到人员信息.xlsx】中。

如果需要获取工作簿中满足某些条件的数据,这种场景就可以被归类为数据筛选场景。

处理该场景时,可以按照获取数据使用数据数据输出这三个步骤来处理。

首先是获取数据,使用上节课学习过的表格读写的相关知识,根据任务需求,确定要获取的是零散的单元格,是单行/单列,还是多行/多列的数据。

数据筛选的关键落在了筛选二字上,我们可以在使用数据这一步中实现筛选功能。

在这一步,要仔细理解任务需求,明确筛选条件,然后根据实际情况,选择Python基础语法的相关知识(条件判断语句,比较运算符,成员运算符和逻辑运算符),构造筛选条件。

最后是数据输出部分,根据实际需要输出筛选结果,或将筛选结果保存起来。总结起来可以分为三类:

1)将筛选的结果存入学过的数据结构里,比如:列表,元组或字典。
2)将筛选的结果存入文件中。
3)将筛选的结果打印出来。

案例二:数据匹配

这个案例需要我们匹配两张表格中指定的迟到次数,先来看看案例场景。

现有两张表格,【10月考勤统计.xlsx】中记录了员工十月份的迟到次数数据,这份表格是公司行政手动记录的。

【迟到次数月度统计(10月更新).xlsx】中按月记录了员工每月的迟到次数数据,这份表格是由公司的考勤系统自动生成的。

两份表格中的数据可以通过工号一一对应。

现需要核对两张表格中10月迟到次数是否匹配(即两表中相同工号在十月份的迟到次数是否一致),并在终端提醒相关人员去核查不匹配的情况。

 代码实现:

from openpyxl import load_workbook

# 打开工作簿【10月考勤统计.xlsx】,获取活动工作表
wb = load_workbook('./material/10月考勤统计.xlsx')
ws = wb.active

# 创建迟到人员字典
info_dict = {}

# 循环读取除表头外的表格数据
for row in ws.iter_rows(min_row=2, values_only=True):
    # 取出员工工号
    staff_id = row[0]
    # 取出迟到次数
    staff_late = row[-1]
    # 将信息添加入字典,字典格式为{'员工工号': '迟到次数'}
    info_dict[staff_id] = staff_late

# 打开工作簿【迟到次数月度统计(10月更新).xlsx】,获取活动工作表
monthly_wb = load_workbook('./material/迟到次数月度统计(10月更新).xlsx')
monthly_ws = monthly_wb.active

# 循环读取出表头外的表格数据
for monthly_row in monthly_ws.iter_rows(min_row=3, max_col=13, values_only=True):
    # 取出员工工号
    member_id = monthly_row[0]
    # 取出十一月份的迟到次数
    member_late = monthly_row[-1]
    # 匹配迟到次数是否相等
    if member_late != info_dict[member_id]:
        print('工号{}迟到情况不匹配,请核查后更新'.format(member_id))

 运行结果:

为什么会选择存储到字典中呢?

因为字典可以很好地体现出工号迟到次数的对应关系,即{'工号': '迟到次数'}

然后把【迟到次数月度统计(10月更新).xlsx】中的迟到次数,与字典中存储的迟到次数进行匹配,再判断相同工号对应的迟到次数是否相同。

数据筛选总结

当我们遇到一个任务,需要我们根据条件挑选出一些数据,那么我们就可以将其归类为数据筛选的场景,我们可以这样做。

获取数据时,使用Excel文件读写的相关知识来获取数据;

使用数据时,要先明确筛选条件,判断一共有几个筛选条件,然后再借助Python基础语法中的相关知识,构造筛选条件。

值得注意的是,在你以后的工作场景中,可能还会需要判断条件的先后顺序。因为有时会出现先满足某个条件,在这个条件前提下,再去满足其他条件的情况。这时,就需要使用嵌套的相关知识来构造条件的先后顺序。

最后的数据输出,需要根据任务需求,在终端输出筛选结果或将筛选结果保存起来。

数据匹配总结

当任务需要我们关联不同表格中的数据,我们可以把这样的场景归类为数据匹配场景。

获取数据时,至少要获取到能够连接表格的数据和需要匹配的数据。

使用数据时,先将获取到的某一表格中的数据,按照需要存储到字典里,将可以连接表格的数据作为键,要匹配的数据作为值;然后再将另一个表格中的数据和字典中的数据根据表之间的关系链接起来,实现匹配逻辑。

最后的数据输出部分,还是要根据任务需求,在终端输出匹配结果或将匹配结果保存起来。

用思维导图总结一下:

 

 

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/mez_Blog/article/details/122759563

智能推荐

python中文显示不出来_解决Python词云库wordcloud不显示中文的问题-程序员宅基地

文章浏览阅读2.6k次。解决Python词云库wordcloud不显示中文的问题2018-11-25背景:wordcloud是基于Python开发的词云生成库,功能强大使用简单。github地址:https://github.com/amueller/word_cloudwordcloud默认是不支持显示中文的,中文会被显示成方框。安装:安装命令:pip install wordcloud解决:经过测试发现不支持显示中文..._词云python代码无法输出文字

台式计算机cpu允许温度,玩游戏cpu温度多少正常(台式电脑夏季CPU一般温度多少)...-程序员宅基地

文章浏览阅读1.1w次。随着炎热夏季的到来,当玩游戏正爽的时候,电脑突然死机了,自动关机了,是不是有想给主机一脚的冲动呢?这个很大的原因是因为CPU温度过高导致的。很多新手玩家可能都有一个疑虑,cpu温度多少以下正常?有些说是60,有些说是70,到底多高CPU温度不会死机呢?首先我们先看看如何查看CPU的温度。下载鲁大师并安装,运行鲁大师软件,即可进入软件界面,并点击温度管理,即可看到电脑各个硬件的温度。鲁大师一般情况下..._台式机玩游戏温度多少正常

小白自学Python日记 Day2-打印打印打印!_puthon打印任务收获-程序员宅基地

文章浏览阅读243次。Day2-打印打印打印!我终于更新了!(哭腔)一、 最简单的打印最最简单的打印语句: print(“打印内容”)注意:python是全英的,符号记得是半角下面是我写的例子:然后进入power shell ,注意:你需要使用cd来进入你保存的例子的文件夹,保存时名字应该取为xxx.py我终于知道为什么文件夹取名都建议取英文了,因为进入的时候是真的很麻烦!如果你没有进入正确的文件夹..._puthon打印任务收获

Docker安装:Errors during downloading metadata for repository ‘appstream‘:_"cenerrors during download metadata for repository-程序员宅基地

文章浏览阅读1k次。centos8问题参考CentOS 8 EOL如何切换源? - 云服务器 ECS - 阿里云_"cenerrors during download metadata for repository \"appstream"

尚硅谷_谷粒学苑-微服务+全栈在线教育实战项目之旅_基于微服务的在线教育平台尚硅谷-程序员宅基地

文章浏览阅读2.7k次,点赞3次,收藏11次。SpringBoot+Maven+MabatisPlusmaven在新建springboot项目引入RELEASE版本出错maven在新建springboot项目引入RELEASE版本出错maven详解maven就是通过pom.xml中的配置,就能够从仓库获取到想要的jar包。仓库分为:本地仓库、第三方仓库(私服)、中央仓库springframework.boot:spring-boot-starter-parent:2.2.1.RELEASE’ not found若出现jar包下载不了只有两_基于微服务的在线教育平台尚硅谷

随便推点

网络学习第六天(路由器、VLAN)_路由和vlan-程序员宅基地

文章浏览阅读316次。路由的概念路由器它称之为网关设备。路由器就是用于连接不同网络的设备路由器是位于OSI模型的第三层。路由器通过路由决定数据的转发。网关的背景:当时每家计算机厂商,用于交换数据的通信程序(协议)和数据描述格式各不相同。因此,就把用于相互转换这些协议和格式的计算机称为网关。路由器与三层交换器的对比路由协议对比路由器的作用:1.路由寻址2.实现不同网络之间相连的功能3.通过路由决定数据的转发,转发策略称为 路由选择。VLAN相关技术什么是VLAN?中文名称叫:虚拟局域网。虚_路由和vlan

设置div背景颜色透明度,内部元素不透明_div设置透明度,里面的内容不透明-程序员宅基地

文章浏览阅读2.8w次,点赞6次,收藏22次。设置div背景颜色透明度,内部元素不透明:.demo{  background-color:rgba(255,255,255,0.15) } 错误方式:.demo{ background-color:#5CACEE;opacity:0.75;} 这样会导致div里面的元素内容和背景颜色一起变透明只针对谷歌浏览器的测试_div设置透明度,里面的内容不透明

Discuz!代码大全-程序员宅基地

文章浏览阅读563次。1.[ u]文字:在文字的位置可以任意加入您需要的字符,显示为下划线效果。2.[ align=center]文字:在文字的位置可以任意加入您需要的字符,center位置center表示居中,left表示居左,right表示居右。5.[ color=red]文字:输入您的颜色代码,在标签的中间插入文字可以实现文字颜色改变。6.[ SIZE=数字]文字:输入您的字体大小,在标签的中间插入文..._discuzcode 大全

iOS NSTimer定时器-程序员宅基地

文章浏览阅读2.6k次。iOS中定时器有三种,分别是NSTimer、CADisplayLink、dispatch_source,下面就分别对这三种计时器进行说明。一、NSTimerNSTimer这种定时器用的比较多,但是特别需要注意释放问题,如果处理不好很容易引起循环引用问题,造成内存泄漏。1.1 NSTimer的创建NSTimer有两种创建方法。方法一:这种方法虽然创建了NSTimer,但是定时器却没有起作用。这种方式创建的NSTimer,需要加入到NSRunLoop中,有NSRunLoop的驱动才会让定时器跑起来。_ios nstimer

Linux常用命令_ls-lmore-程序员宅基地

文章浏览阅读4.8k次,点赞17次,收藏51次。Linux的命令有几百个,对程序员来说,常用的并不多,考虑各位是初学者,先学习本章节前15个命令就可以了,其它的命令以后用到的时候再学习。1、开机 物理机服务器,按下电源开关,就像windows开机一样。 在VMware中点击“开启此虚拟机”。2、登录 启动完成后,输入用户名和密码,一般情况下,不要用root用户..._ls-lmore

MySQL基础命令_mysql -u user-程序员宅基地

文章浏览阅读4.1k次。1.登录MYSQL系统命令打开DOS命令框shengfen,以管理员的身份运行命令1:mysql -u usernae -p password命令2:mysql -u username -p password -h 需要连接的mysql主机名(localhost本地主机名)或是mysql的ip地址(默认为:127.0.0.1)-P 端口号(默认:3306端口)使用其中任意一个就OK,输入命令后DOS命令框得到mysql>就说明已经进入了mysql系统2. 查看mysql当中的._mysql -u user

推荐文章

热门文章

相关标签