技术标签: pandas 排序 python 数据分析 matplotlib 干货
前言:大家好,这里是Seon塞翁。昨天一位同学提问 “matplotlib 画柱状图时,横坐标是从表格中指定列获取的,如何设置横坐标的顺序呢?” 原始数据结构如下图所示,需要对学历分组求平均工资后画柱状图,顺序应为按学历由低到高,即 ['大专', '本科', '硕士', '博士']
。
通过以下代码直接画图的结果如下图所示,未满足需求的顺序,下面我们来看看应该如何实现。
grp = df.groupby('学历要求')['平均工资'].mean().reset_index()
x = grp['学历要求']
y = grp['平均工资']
plt.bar(x, y)
plt.show()
直接上大佬给的解决方案。
grp = df.groupby('学历要求')['平均工资'].mean().reset_index()
plt.bar([4, 1, 2, 3], grp['平均工资'], tick_label=grp['学历要求'])
通过默认顺序,我们可以知道原来 1、 2、 3、 4 位分别是博士、大专、本科、硕士,那么我们需要让博士排在第 4 位,后三者顺位前移,所以在绘图函数的第一个参数中传入新的顺序列表 [4, 1, 2, 3]
。第二个参数转入原始 y 轴值,最后通过 tick_label
参数指定 x 轴标签,随机便得到了需求的柱状图。
这是另一位大佬提示的解法,十分直观。先给定自定义顺序的 x 轴标签列,再按这个顺序去排列 y 轴值。
grp = df.groupby('学历要求')['平均工资'].mean()
x = ['大专', '本科', '硕士', '博士']
y = [grp[label] for label in x]
plt.bar(x, y)
由于忘记了 matplotlib 和 pandas 之间有着很好的兼容性,笔者一开始打算先得到需求顺序的 x = ['大专', '本科', '硕士', '博士']
和 y = [ 具体的值 ]
再通过 plt.bar(x, y)
制图,因此在数据整理上跑偏了,比如:
y = [grp.at[label] for label in x]
下面分享一下笔者走的歪路。
计算机系统中存在一些默认顺序,比如数字顺序 0123456,字母顺序 abcdefg,还有 ASCII 码表顺序等,但对于中文习惯的顺序,比如学历,可能就需要自己制定了。那让我们专注排序本身,先来看看分组后的数据:
x = grp['学历要求']
和 y = grp['平均工资']
分别得到两个 Series 对象。那么应该如何将它们绑定在一起,根据 x 按照指定的 order_x = ['大专', '本科', '硕士', '博士']
排序呢?
我们可以通过 zip()
函数将其打包使之成为一个整体,然后通过列表生成式,得到修改顺序后的 y 轴值列表 order_y ,将 order_x 和 order_y 传入制图即可。
order_y = [t[1] for i in order_x for t in list(zip(x, y)) if i == t[0]]
其中 list(zip(x, y)) 的打印结果为: [('博士', 20.0), ('大专', 5.25), ('本科', 11.0), ('硕士', 15.33)]
;
列表生成式重新取出的元祖列表为:[('大专', 5.25), ('本科', 11.0), ('硕士', 15.33), ('博士', 20.0)]
;
order_y 为: [5.25, 11.0, 15.33, 20.0]
。
整体代码:
grp = df.groupby('学历要求')['平均工资'].mean().reset_index()
df_map = pd.DataFrame({
'学历要求': ['大专', '本科', '硕士', '博士']}).reset_index().set_index('学历要求')
grp['order'] = grp['学历要求'].map(df_map['index'])
grp.sort_values('order', inplace=True)
x = grp['学历要求']
y = grp['平均工资']
首先制作了一个 df_map ,相当于是排序对照表,将索引作为新的顺序列。
将上面的顺序列,按照原 grp 的学历要求列,映射添加到新的 order 列 。
再按照 order 列排序即可。
CategoricalDtype 是 pandas 中一种用于处理【类别】的数据类型,可以指定类别是否有序。我们通过这个方法创建了一个有序 “类别类”,并修改学历要求列的数据类型为此类,此时各类学历文本便具有了其默认顺序,之后便可以对其直接排序。
from pandas.api.types import CategoricalDtype
grp = df.groupby('学历要求')['平均工资'].mean().reset_index()
cat_order = CategoricalDtype(['大专', '本科', '硕士', '博士'], ordered=True)
grp['学历要求'] = grp['学历要求'].astype(cat_order)
grp.sort_values('学历要求', inplace=True)
x = grp['学历要求']
y = grp['平均工资']
这种方法就如同在 EXCEL 中使用自定义排序一般,对于中文序列非常友好。
通过本次试验,我们了解了几种自定义文本排序的方法,同时要注意的是,要找准解决问题的切入点。比如夏天到了,我想吃好吃的西瓜,我应该要知道怎么挑瓜,或让买过西瓜的朋友推荐,而不是研究瓜苗培育(这什么鬼比喻 )。当然,学一学种植也是可以涨姿势的(总之是因为跑偏了吧 )。
文章浏览阅读50次。2019独角兽企业重金招聘Python工程师标准>>> ...
文章浏览阅读80次。Recovery Manager(RMAN)是一种用于备份(backup)、还原(restore)和恢复(recover)数据库的Oracle 工具.RMAN只能用于ORACLE8或更高的版本中。它能够备份整个数据库或数据库部件,如表空间、数据文件、控制文件、归档文件以及Spfile参数文件。RMAN也允许您进行增量数据块级别的备份,增量RMA..._backup incremental level 2 database plus archivelog;
文章浏览阅读1.1k次。解决方法:需要安装nb_conda命令:conda install nb_conda_kernels或者conda install nb_conda然后重新启动conda打开jupyter notebook即可。_无法定位程序输入点 steamapi_getsteaminstallpath launcher.dll
文章浏览阅读146次。1.背景 昨天在网上看到别人用aauto写本地小程序写的很爽,我觉得如果java的jre能小一点,凭借java庞大的第三方类库写小工具也还算不错的。本人就经常用eclipse+一些commons包写些小工具软件。不过可惜的是只能自己用,对于没装java环境的人来说就麻烦了。所以就去网上找到了一个轻量级java虚拟机avian。但是在编译和安装过程中遇到了很多困难,特此记录。..._avian jvm
文章浏览阅读966次。这篇博客的动机是解释测试驱动开发中使用的测试的性质和目的。为了避免混淆,我将使用表达式TDD测试来引用测试驱动开发环境中使用的测试类型。这篇博客文章的目的是澄清TDD测试、单元测试和验收测试之间的关系。TDD Tests are not Unit Tests让我们从TDD测试和单元测试之间的区别开始。表面上,TDD测试与单元测试非常相似。这并不奇怪,因为您使用单元测试框架,如Visual Studio Tests或NUnit来创建这两种类型的测试。单元测试的目的是独立测试代码单元。例如,您可以创建一_tdd测试
文章浏览阅读1.1k次,点赞22次,收藏23次。本文通过在SSD移动硬盘中安装win10和macos双系统,实现操作系统随身携带小慢哥的原创文章,欢迎转载目录 目标 准备工作 Step1. 清空分区,转换为GPT Step2. 安装win10 Step3. 压缩win10分区容量 Step4. 创建2个分区 Step5. 将bootcamp驱动放置到exFAT分区中 Step6. 将macos分区..._mac移动硬盘装双机系统
文章浏览阅读5.8k次,点赞83次,收藏163次。通过画图的方式帮助大家理解二分的应用。_浮点数二分为什么不加一
文章浏览阅读2.1k次。问题:在按照操作破解PyCharm后,发现双击无法启动编译器破解方法:https://blog.51cto.com/zhaoanan/2107396可能的解决方案1.检查JetbrainsCrack-2.6.10-release-enc.jar的路径是否正确注意JetbrainsCrack-2.6.10-release-enc.jar的路径:pycharm64.exe.vmoptions和pycharm.exe.vmoptions中添加的路径应该是JetbrainsCrack-2.6.10-re_为什么激活的pycharm
文章浏览阅读869次。在 settings.py中开头几行就可以看到。转载于:https://blog.51cto.com/ipcpu/2325913_如何查看django是版本几
文章浏览阅读563次。摘要:或腐毒物成皮肤灼蚀造伤的,自动种经皮物肤吸收毒,即脱应立去受污染物的衣。新皮的是层指,于微核团灰质海脑半质B质D、脊球深半球部的半球表面大脑的白、大大脑的灰髓的。个案工作者对、型计责判断价值拒斥愿和案主不宜备、的意的态度采用否定。...或腐毒物成皮肤灼蚀造伤的,自动种经皮物肤吸收毒,即脱应立去受污染物的衣。机属现实认为治疗模式判断价值基石疗过程的是治。新皮的是层指,于微核团灰质海脑半质B质D..._atm 控制部微型计算机
文章浏览阅读64次。ADO 2.5 Microsoft ADO 2.5 程序员参考.chmADO.NET_微软出版社 《ADO.Net技术内幕》《Microsoft ADO.Net Core Reference 》.NET.En.chmADO210.CHMasp.net 2.0_Apress.ASP.Dot.NET.2.0.Revealed.eBook-LiB.chmasp中文.chmASP基础教材.chmasp帮助..._c语言帮助文档chm
文章浏览阅读61次。我是程序员,一般习惯使用svn来管理自己的代码,连带着,我很多历史性文档,也都丢在svn服务器里面。但这里有个问题,我单位一台机器,家里一台机器,同步起来很不方便,老是U盘带来带去,容易丢不说,代码安全也得不到保障。也想过利用sourceForge等公开的svn服务,不过总觉得代码在人家那里,有点不大放心。不过,我也还没有疯到为了这个小小的需求,自己买台服务器托管到电信机房,呵呵。...