数据分析与挖掘中常用Python库的介绍与实践案例_python数据分析与数据挖掘案例-程序员宅基地

技术标签: 数据分析与挖掘常用库  scikit-learn  Pandas  matplotlib  NumPy  Python数据分析与挖掘  

                                                              数据分析与挖掘中常用Python库的介绍与实践案例

一、Python介绍

       现在python一词对我们来说并不陌生,尤其是在学术圈,它的影响力远超其它任何一种编程语言, 作为一门简单易学且功能强大的编程语言,它拥有丰富的第三方库,在许多方面都有着广泛的应用,如网站开发、游戏开发、网络爬虫、数据分析、机器学习等。 (更多内容,可参阅程序员在旅途)
       在数据分析方面,python拥有Numpy、SciPy、Pandas、Matplotlib等功能强大的模块可供使用。随着这些模块的逐步完善,python在科学领域的地位越来越重要,这其中包括科学计算、数学建模、数据挖掘等。因此,掌握这些模块的基本使用方法至关重要,下面就逐一介绍下。

二、常用库的使用示例

     2.1 NumPy 库:
     NumPy(官网)提供了N维数组功能以及对数据进行快速处理的能力,弥补了Python本身没有提供数组功能的缺陷。其提供了两种基本的对象:ndarray和ufunc。ndarray是存储单一数据类型的多维数组,而ufunc是能够对数组进行处理的函数(ufunc(通用函数)是一种对ndarray中的数据执行元素级运算的函数)。它也是SciPy、Pandas、Matplotlib的基础依赖库。
     ndarray:N维数组对象(矩阵),所有元素数据类型必须是相同的。
     ndarray属性:ndim属性,表示维度的个数;shape属性,表示各维度得大小;dtype属性,表示数据类型。
     创建ndarray数组的函数如下图:

   代码示例:

import numpy as np

# 一维数组示例
a = np.array([3, 2, 1, 6, 5])
print('数组a: ', a)  # 数组a:  [3 2 1 6 5]
print(a[:3])  # [3 2 1]
print(a[2:])  # [1 6 5]
print('ufunc函数使用示例,求平方: ', np.square(a))  # ufunc函数使用示例,求平方:  [ 9  4  1 36 25]
a.sort()
print('排序之后的数组a: ', a)  # 排序之后的数组a:  [1 2 3 5 6]

# 二维数组示例
b = np.array([[1, 2, 3], [6, 7, 8], [10, 11, 12]])
print('\n 二维数组b: ', b)  # 二维数组b:  [[ 1  2  3] [ 6  7  8] [10 11 12]]
print('矢量运算结果(所有元素 * 2): \n', 2 * b)  # 矢量运算结果(所有元素 * 2):  [[ 2  4  6] [12 14 16] [20 22 24]]
print(b.dtype)  # int32

# arange([start,] stop[, step,], dtype=None) 四个参数,其中start,step,dtype可以省略,分别是起始点、步长、和返回类型。
c = np.arange(5)  # 起始点0,结束点5,步长1,返回类型array,一维
print('\narrange函数生成的数组:', c)  # arrange函数生成的数组: [0 1 2 3 4]
# zeros函数
d = np.zeros(5, dtype='int8')
print('zero函数生成的数组: ', d)  # zero函数生成的数组:  [0 0 0 0 0]

   2.2 SciPy 库:
   
SciPy(官网)依赖于NumPy,其提供了矩阵支持以及大量基于矩阵运算的对象和函数。SciPy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学和工程中常用的计算,这些功能是科学工程领域建模和数据挖掘中必须具备的。

SciPy中常用的八个模块(除此之外还有其他模块,在官网查询即可)
模块名称 scipy.integrate scipy.linalg scipy.optimize scipy.signal scipy.sparse scipy.stats scipy.weave scipy.special
应用说明 数值积分例程和微分方程求解器 扩展了由 numpy.linalg 提供的线性代数例程和矩阵分解功能 函数优化器(最小化器)以及根查找算法 信号处理工具 稀疏矩阵和稀疏线性系统求解器 检验连续和离散概率分布、各种统计检验方法,以及更好的描述统计法 利用内联 C++代码加速数组计算的工具 SPECFUN(这是一个实现了许多常用数学函数的 Fortran 库)的包装器

   代码示例:

import numpy as np
from scipy import integrate
from scipy.optimize import fsolve

# 求解积分
def f(x):
    return x
val, abserr = integrate.quad(f, 0, 1)  # 积分结果和误差
print(val, abserr)  # 0.5 5.551115123125783e-15

# 求解方程组 2x1 - x^2 = 1, x1^2 -x2 = 2
def g(x):
    x1 = x[0]
    x2 = x[1]
    return np.array([2 * x1 - x2 ** 2 - 1, x1 ** 2 - x2 - 2])
result = fsolve(g, [1, 1])  # 输入初始值,并进行求解
print(result)  # [1.91963957 1.68501606]

     2.3 Pandas 库:
   
  Pandas(官网)是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。pandas最初作为金融分析工具被开发,2008年问世,2009年底开源。
     Pandas的基本数据结构是SeriesDataFrame,Series是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。DataFrame是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。

     2.3.1 Series和DataFrame对象的创建,元素的选取:

import pandas as pd
from pandas import Series, DataFrame

a = pd.Series([1, 2, 3, 4])  # 默认的索引
b = Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])  # 显示的添加index
print('Series A : \n', a)
print('Series B : \n', b)

c = pd.DataFrame({'categorical': pd.Categorical(['d', 'e', 'f', 'm']), 'test': [4, 6, 9, 3], 'numeric': [1, 2, 3, 6],
                  'object': ['a', 'b', 'c', 'd']})
print('输出C:\n', c)
print('简要统计结果: \n', c.describe())  # 统计结果
print('输出前两行:\n', c.head(2))  # 输出前两行
print('C 的转置:\n', c.T)  # C 的转置
print('输出 2-3行:\n', c[2:4])  # 输出2-3行
print('loc,选取 categorical、test 这两列的前三行行数据: \n', c.loc[:2, ('categorical', 'test')])
print('iloc,选择某行某列的值:\n', c.iloc[2,2])  # iloc[]方法的参数,必须是数值。
print('iloc,选择前两行,前两列的数据:\n', c.iloc[:2, 0:2])

       2.3.2 Pandas处理文件读写:

# pandas处理文件读写非常的简单
pd.read_csv('C:\\Users\\itour\\Desktop\\credit_card.csv', encoding='utf-8')
pd.to_csv('C:\\Users\\itour\\Desktop\\credit_card.csv', encoding='utf-8')

pd.read_excel('C:\\Users\\itour\\Desktop\\credit_card.xlsx','Sheet1')
pd.to_excel('C:\\Users\\itour\\Desktop\\credit_card.xlsx',sheet_name='Sheet1')

       2.4 Matplotlib 库:
       不管是数据挖掘还是数学建模,最终结果的可视化展示都是需要面对的一个问题,Matplotlib(官网)是Python中最为成熟的绘图库,主要用于绘制2D图形,可以很方便的绘制直方图、散点图、条形图、饼状图、折线图等等。同时,还可以绘制一些界面可交互的图形。
       首先绘图需要导入matplotlib.pyplot,其中pyplot是matplotlib的绘图框架。
       代码示例如下(要注意中文的显示问题):

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

x = np.linspace(0, 2 * np.pi, 50)
y = np.sin(x)

plt.rcParams['font.sans-serif'] = ['SimHei']  # 显示中文标签
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['axes.unicode_minus'] = False   # 解决负号'-'显示为方块的问题
plt.figure(figsize=(8,4))
plt.plot(x, y, 'bp--')
plt.xlabel('自变量x')  # x轴标签
plt.ylabel('sin(x)')  # y轴标签
plt.title('y = sin(x) x∈[0,2*pi]')  # 标题
plt.legend()  #图例
plt.show()  #显示图像

       2.5 scikit-learn 库:
       
scikit-learn是Python下强大的机器学习包,提供了完善的机器学习工具集,包括有数据预处理、分类、回归、聚类、预测、模型分析等。训练模型的具体方法,会在后面的博客中陆续的写出来。

三、总结

       以上几个库,是提升Python作为数据分析生产力工具的基础,因此,如果想用Python做这类工作,这些库是必须要熟练掌握的。

       用Python进行数据分析,得益于这些扩展包的存在,实现起来高效便捷。有时候一些科研人员并不是专门从事编程领域工作的,如果为了实现某一个数据分析任务,需要专门学习一种语言,那Python是当之无愧的首选,真的很简单的一门编程语言,上手容易,语法灵活,不用关注太多语法细节,只需要专心科研任务本身即可。虽然其他的编程语言也可以实现相同的功能,但是操作起来较为复杂,会花费很多不必要的精力在非核心工作上面。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_24754061/article/details/103751626

智能推荐

JWT(Json Web Token)实现无状态登录_无状态token登录-程序员宅基地

文章浏览阅读685次。1.1.什么是有状态?有状态服务,即服务端需要记录每次会话的客户端信息,从而识别客户端身份,根据用户身份进行请求的处理,典型的设计如tomcat中的session。例如登录:用户登录后,我们把登录者的信息保存在服务端session中,并且给用户一个cookie值,记录对应的session。然后下次请求,用户携带cookie值来,我们就能识别到对应session,从而找到用户的信息。缺点是什么?服务端保存大量数据,增加服务端压力 服务端保存用户状态,无法进行水平扩展 客户端请求依赖服务.._无状态token登录

SDUT OJ逆置正整数-程序员宅基地

文章浏览阅读293次。SDUT OnlineJudge#include<iostream>using namespace std;int main(){int a,b,c,d;cin>>a;b=a%10;c=a/10%10;d=a/100%10;int key[3];key[0]=b;key[1]=c;key[2]=d;for(int i = 0;i<3;i++){ if(key[i]!=0) { cout<<key[i.

年终奖盲区_年终奖盲区表-程序员宅基地

文章浏览阅读2.2k次。年终奖采用的平均每月的收入来评定缴税级数的,速算扣除数也按照月份计算出来,但是最终减去的也是一个月的速算扣除数。为什么这么做呢,这样的收的税更多啊,年终也是一个月的收入,凭什么减去12*速算扣除数了?这个霸道(不要脸)的说法,我们只能合理避免的这些跨级的区域了,那具体是那些区域呢?可以参考下面的表格:年终奖一列标红的一对便是盲区的上下线,发放年终奖的数额一定一定要避免这个区域,不然公司多花了钱..._年终奖盲区表

matlab 提取struct结构体中某个字段所有变量的值_matlab读取struct类型数据中的值-程序员宅基地

文章浏览阅读7.5k次,点赞5次,收藏19次。matlab结构体struct字段变量值提取_matlab读取struct类型数据中的值

Android fragment的用法_android reader fragment-程序员宅基地

文章浏览阅读4.8k次。1,什么情况下使用fragment通常用来作为一个activity的用户界面的一部分例如, 一个新闻应用可以在屏幕左侧使用一个fragment来展示一个文章的列表,然后在屏幕右侧使用另一个fragment来展示一篇文章 – 2个fragment并排显示在相同的一个activity中,并且每一个fragment拥有它自己的一套生命周期回调方法,并且处理它们自己的用户输_android reader fragment

FFT of waveIn audio signals-程序员宅基地

文章浏览阅读2.8k次。FFT of waveIn audio signalsBy Aqiruse An article on using the Fast Fourier Transform on audio signals. IntroductionThe Fast Fourier Transform (FFT) allows users to view the spectrum content of _fft of wavein audio signals

随便推点

Awesome Mac:收集的非常全面好用的Mac应用程序、软件以及工具_awesomemac-程序员宅基地

文章浏览阅读5.9k次。https://jaywcjlove.github.io/awesome-mac/ 这个仓库主要是收集非常好用的Mac应用程序、软件以及工具,主要面向开发者和设计师。有这个想法是因为我最近发了一篇较为火爆的涨粉儿微信公众号文章《工具武装的前端开发工程师》,于是建了这么一个仓库,持续更新作为补充,搜集更多好用的软件工具。请Star、Pull Request或者使劲搓它 issu_awesomemac

java前端技术---jquery基础详解_简介java中jquery技术-程序员宅基地

文章浏览阅读616次。一.jquery简介 jQuery是一个快速的,简洁的javaScript库,使用户能更方便地处理HTML documents、events、实现动画效果,并且方便地为网站提供AJAX交互 jQuery 的功能概括1、html 的元素选取2、html的元素操作3、html dom遍历和修改4、js特效和动画效果5、css操作6、html事件操作7、ajax_简介java中jquery技术

Ant Design Table换滚动条的样式_ant design ::-webkit-scrollbar-corner-程序员宅基地

文章浏览阅读1.6w次,点赞5次,收藏19次。我修改的是表格的固定列滚动而产生的滚动条引用Table的组件的css文件中加入下面的样式:.ant-table-body{ &amp;amp;::-webkit-scrollbar { height: 5px; } &amp;amp;::-webkit-scrollbar-thumb { border-radius: 5px; -webkit-box..._ant design ::-webkit-scrollbar-corner

javaWeb毕设分享 健身俱乐部会员管理系统【源码+论文】-程序员宅基地

文章浏览阅读269次。基于JSP的健身俱乐部会员管理系统项目分享:见文末!

论文开题报告怎么写?_开题报告研究难点-程序员宅基地

文章浏览阅读1.8k次,点赞2次,收藏15次。同学们,是不是又到了一年一度写开题报告的时候呀?是不是还在为不知道论文的开题报告怎么写而苦恼?Take it easy!我带着倾尽我所有开题报告写作经验总结出来的最强保姆级开题报告解说来啦,一定让你脱胎换骨,顺利拿下开题报告这个高塔,你确定还不赶快点赞收藏学起来吗?_开题报告研究难点

原生JS 与 VUE获取父级、子级、兄弟节点的方法 及一些DOM对象的获取_获取子节点的路径 vue-程序员宅基地

文章浏览阅读6k次,点赞4次,收藏17次。原生先获取对象var a = document.getElementById("dom");vue先添加ref <div class="" ref="divBox">获取对象let a = this.$refs.divBox获取父、子、兄弟节点方法var b = a.childNodes; 获取a的全部子节点 var c = a.parentNode; 获取a的父节点var d = a.nextSbiling; 获取a的下一个兄弟节点 var e = a.previ_获取子节点的路径 vue

推荐文章

热门文章

相关标签