NumPy入门讲座（1）：基本概念_numpy数据相关概念-程序员宅基地

技术标签：跟“风云卫星”数据工程师学Python python 数据分析机器学习人工智能

文章目录

1. NumPy 的家族
2. NumPy 是数据处理和科学计算的基础
3. NumPy 数组 VS Python 列表
4. NumPy 数组的数据类型
5. NumPy 数组的属性
6. 维、秩、轴
7. 广播和矢量化

1. NumPy 的家族

NumPy 是 SciPy 家族的一员，而且是最重要的成员。SciPy 家族（见下图）是一个专门应用于数学、科学和工程领域的开源的 Python 生态圈。NumPy 最初是 SciPy 的一部分，后来独立出来了。SciPy 家族的主体，可以概括为 MSN 这三个字母，你要是喜欢足球的话，一定会联想到巴萨的梅西、苏亚雷斯和内马尔这个MSN三剑客组合。我喜欢把 Matplotlib、SciPy 和 NumPy 叫做 MSN 组合，并专门写了一篇博文，名字就叫《数学建模三剑客MSN》。
在这里插入图片描述

NumPy 的安装，非常简单，直接使用 pip 命令安装即可。通常，安装 NumPy 的时候，也会顺便安装 SciPy 模块、matplotlib 模块。

PS D:>python –m pip install numpy
PS D:>python –m pip install scipy
PS D:>python –m pip install matplotlib

使用 NumPy 时，我们习惯把它简写成 np。提醒大家注意：pip 命令需要在命令行窗口中运行，而不是在下图所示的 IDEL 窗口中。在 IDEL 窗口中可以交互式执行 Python 语句，是学习 Python 的有力工具。
在这里插入图片描述

2. NumPy 是数据处理和科学计算的基础

NumPy 是 Python 科学计算的基础软件包，提供多了维数组对象，多种派生对象（掩码数组、矩阵等）以及用于快速操作数组的函数及 API，它包括数学、逻辑、数组形状变换、排序、选择、I/O 、离散傅立叶变换、基本线性代数、基本统计运算、随机模拟等等。

和 Python 的列表相比，NumPy 拥有明显的速度优势。NumPy 底层使用 C 语言编写，内置了并行运算功能，并且内部解除了 GIL（全局解释器锁）。这意味着：

其对数组的操作速度不受 Python 解释器的限制
当系统有多个 CPU 时，NumPy 可以自动并行计算

NumPy 的数据组织结构，尤其是数组（numpy.ndarray），几乎已经成为所有数据处理与机器学习的标准数据结构了。越来越多的基于 Python 的机器学习和数据处理软件包使用 NumPy 数组，虽然这些工具通常都支持 Python 的原生数组（即列表——在不冲突的前提下，我可能会混用数组和列表）作为参数，但它们在处理之前会还是会将输入的数组转换为 NumPy 数组，而且也通常输出为 NumPy 数组。在 Python 的圈子里，NumPy 的重要性和普遍性日趋增强。换句话说，为了高效地使用当今机器学习和数据处理等基于 Python 的工具包，你只知道如何使用 Python 的原生数组是不够的，还需要知道如何使用 NumPy 数组。
在这里插入图片描述
上面这一张图，展示的是 Python 旗下用于图像视觉处理、2D绘图、3D渲染、数据处理、机器学习等领域比较有名的5个工具模块，都深度依赖 NumPy 数组。可以说，没有NumPy的基础，任何人都很难用好上述这5个工具库。

OpenCV：目前以人脸识别、自动驾驶等技术为代表的人工智能方兴未艾，其背后的图像和视觉处理，几乎都离不开 OpenCV，而 OpenCV 库中图像的数据结构，从 CV2 之后，全面转向了 NumPy，用 OpenCV 打开图像文件，得到的就是 NumPy 数组
OpenGL：在三维领域大名鼎鼎的OpenGL，更是深度依赖NumPy，如果没有NumPy，我们无法想象如何操作动辄几万、几十万，甚至几百万的顶点数据集
Pandas：这个是当下非常流行的数据分析工具包，相信很多人都是从Pandas开始接触数据处理的，而Pandas整个就是基于NumPy之上的扩展
Matplotlib：作为NumPy生态圈的重要成员，二者关系自然是密不可分的
scikit-learn：机器学习领域应用最广泛的工具包，则是建立在NumPy/SciPy/Matplotlib之上的，同样深度依赖NumPy

3. NumPy 数组 VS Python 列表

学过 Python 的同学都知道，Python 的列表操作非常灵活，而 NumPy 数组继承了 Python 数组操作便捷、灵活的特点，又具有极高的、接近 C 语言的运行效率。可以说，NumPy 数组是专为处理科学数据而生的。

NumPy 数组中的元素必须具有相同的数据类型，Python 列表的元素类型则不受限制；
NumPy 数组一旦创建，其元素数量不可再改变，Python 列表的元素则可以动态增减；
NumPy 数组和 Python 同样操作简单、灵活，但前者内置方法更多、运行速度更快。

4. NumPy 数组的数据类型

NumPy 支持的数据类型主要有整型(integrate)、浮点型(float)、布尔型(bool)和复数型(complex)，每一种数据类型根据占用内存的字节数又分为多个不同的子类型。当然，NumPy 也支持自定义类型，我们在后面讲解数组排序的时候，再讨论自定义类型。
在这里插入图片描述
咱们来演示一下如何查看、指定数据类型。

>>> a = np.array([0,1,2,3])
>>> a.dtype
dtype('int32')
>>> a = np.array([0,1,2,3.0])
>>> a.dtype
dtype('float64')
>>> a = np.array([0,1,2,3+0j])
>>> a.dtype
dtype('complex128')
>>> a = np.array([0,1,2,3], dtype=np.int16)
>>> a.dtype
dtype('int16')
>>> a = np.array([0,1,2,3], dtype=np.uint8)
>>> a.dtype
dtype('uint8')

dtype 是数组的属性之一，可以很方便地查看数组的数据类型。创建数组时，如果不指定数据类型，numpy会根据输入数据选择合适的数据类型。指定数据类型的时候，通常可以省略类型后面的数字。如果省略数字的话，整形和无符号整形默认是32位的，浮点型默认是64位的，复数型默认是128位。

5. NumPy 数组的属性

刚才我们用 dtype 可以查看数组的数据类型，dtype 是数组对象的属性之一，除了 dtype，NumPy 数组还有其他一些属性，比如，shape，数组结构，或者叫形状；sizes，数组元素个数；itemsize，数组元素字节数；flags，数组的内存信息；real，数组实部；imag，数据虚部；data，存储区域内存地址，相当于指针。除此之外，还有一个属性，ndim，数组的维度数，也叫秩，下一节会专门讲它。属性看起来有点多，但我们只需要记住 dtype 和 shape 两个属性就足够了。这两个属性非常重要，重要到你可以忽略其他的属性。

属性	说明
ndarray.dtype	元素类型
ndarray.shape	数组结构
ndarray.size	元素个数
ndarray.itemsize	每个元素的大小，以字节为单位
ndarray.ndim	数组的维度数，也叫秩
ndarray.flags	数组的内存信息
ndarray.real	元素的实部
ndarray.imag	元素的虚部
ndarray.data	元素数组的实际存储区

下面是这些属性的演示操作：

>>> a = np.arange(24, dtype=np.complex64).reshape((2,3,4))
>>> a.dtype # 复数类型
dtype('complex64')
>>> a.shape # 2层3行4列
(2, 3, 4)
>>> a.size # 总共24个元素
24
>>> a.itemsize # 每个元素占用8个字节
8
>>> a.flags # 存储信息
  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False

>>> a.real # 实部
array([[[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]],

       [[12., 13., 14., 15.],
        [16., 17., 18., 19.],
        [20., 21., 22., 23.]]], dtype=float32)
>>> a.imag # 虚部
array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]], dtype=float32)
>>> a.data # 内存区域地址
<memory at 0x00000157D820BC78>
>>> a.ndim # 维度数（秩）
3

6. 维、秩、轴

维，就是维度。我们说数组是几维的，就是指维度，3维的数组，其维度数，自然就是3。维度数，有一个专用名字，叫做秩，也就是上一节提到的数组属性 ndim。秩，这个名字感觉有些多余，不如维度数更容易理解。但是，轴的概念，大家一定要建立起来，并且要理解，因为轴的概念很重要。简单来说，我们可以把数组的轴，和笛卡尔坐标系的轴对应一下。

一维数组，类比于一维空间，只有一个轴，那就是0轴。
在这里插入图片描述

二维数组，类比于二维平面，有两个轴，我们习惯表示成行、列，那么行的方向就是0轴，列的方向就是1轴。
在这里插入图片描述
三维数组，类比于三维空间，有三个轴，我们习惯表示成层、行、列，那么层的方向就是0轴，行的方向就是1轴，列的方向就是2轴。

我们用一个求和的例子来演示一下轴概念的重要性。先来看看用 Python 的求和。

>>> a = [2,5,4,7,9,3] # python的求和函数sum()，只能对一维列表求和
>>> sum(a)
30
>>> a = [[3,5,1],[2,6,9]] # 如果是多维列表，那就会报错了
>>> sum(a)
Traceback (most recent call last):
  File "<pyshell#19>", line 1, in <module>
    sum(a)
TypeError: unsupported operand type(s) for +: 'int' and 'list'

但有时候，我们的需求会比较复杂，比如，分层求和，逐行求和，逐列求和等。这时候，Numpy 的轴概念就可以大显身手了。

>>> a = np.arange(18).reshape((3,2,3)) # 3层2行3列的结构
>>> a
array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]],

       [[12, 13, 14],
        [15, 16, 17]]])
>>> np.sum(a)
153 
>>> np.sum(a, axis=0) # 层合并求和
array([[18, 21, 24],
       [27, 30, 33]])
>>> np.sum(a, axis=1) # 行合并求和
array([[ 3,  5,  7],
       [15, 17, 19],
       [27, 29, 31]])
>>> np.sum(a, axis=2) # 列合并求和
array([[ 3, 12],
       [21, 30],
       [39, 48]])
>>> np.sum(np.sum(a, axis=1), axis=1) # 分层求和方法1
array([15, 51, 87])
>>> np.sum(np.sum(a, axis=2), axis=1) # 分层求和方法2
array([15, 51, 87])

同样是求和，显然，NumPy数组要比Python列表更强大、更灵活。

7. 广播和矢量化

在讲两个概念之前，我们先思考两个问题：

整型数组各元素加1；
求两个等长整型数组对应元素之和组成的新数组。

我们先用python数组实现：

>>> x = list(range(5))
>>> for i in range(len(x)): # 遍历数组为每个元素加1
        x[i] += 1
>>> y = list(range(5,10))
>>> z = list()
>>> for i, j in zip(x, y): # 遍历两个数组，逐个元素求和
        z.append(i+j)

我们再用NumPy数组实现：

>>> a = np.arange(5)
>>> a += 1
>>> b = np.arange(5,10)
>>> c = a + b

显然，用NumPy数组实现起来，要比python数组更简洁、更清晰。这得益于于 NumPy 的两大特性：广播（broadcast）和矢量化（vectorization）。

广播和矢量化，是 NumPy 最精髓的特性，是 NumPy 的灵魂。所谓广播，就是将对数组的操作映射到每个数组元素上；矢量化可以理解为代码中没有显式的循环、索引等。NumPy数组最重要的特性是广播和矢量化，体现在性能上，就是接近C语言的运行效率，体现在代码上，则有这样的特点：

矢量化代码更简洁，更易于阅读；
代码行越少意味着出错的几率越小；
代码更接近于标准的数学符号；
矢量化代码更pythonic

在这里插入图片描述

后记

近期有很多朋友通过私信咨询有关Python学习问题。为便于交流，我在CSDN的app上创建了“Python作业辅导”大本营，面向Python初学者，为大家提供咨询服务、辅导Python作业。欢迎有兴趣的同学使用微信扫码加入。

在这里插入图片描述

从博客到公众号，每一篇、每一题、每一句、每一行代码，都坚持原创，绝不复制抄袭，这是我坚守的原则。如果喜欢，请关注我的微信公众号“Python作业辅导员”。

在这里插入图片描述

本文链接：https://blog.csdn.net/xufive/article/details/103567312

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

class和struct的区别-程序员宅基地

文章浏览阅读101次。4.class可以有⽆参的构造函数，struct不可以，必须是有参的构造函数，⽽且在有参的构造函数必须初始。2.Struct适⽤于作为经常使⽤的⼀些数据组合成的新类型，表示诸如点、矩形等主要⽤来存储数据的轻量。1.Class⽐较适合⼤的和复杂的数据，表现抽象和多级别的对象层次时。2.class允许继承、被继承，struct不允许，只能继承接⼝。3.Struct有性能优势，Class有⾯向对象的扩展优势。3.class可以初始化变量，struct不可以。1.class是引⽤类型，struct是值类型。

android使用json后闪退,应用闪退问题：从json信息的解析开始就会闪退-程序员宅基地

文章浏览阅读586次。想实现的功能是点击顶部按钮之后按关键字进行搜索，已经可以从服务器收到反馈的json信息，但从json信息的解析开始就会闪退，加载listview也不知道行不行public abstract class loadlistview{public ListView plv;public String js;public int listlength;public int listvisit;public..._rton转json为什么会闪退

如何使用wordnet词典，得到英文句子的同义句_get_synonyms wordnet-程序员宅基地

文章浏览阅读219次。如何使用wordnet词典，得到英文句子的同义句_get_synonyms wordnet

系统项目报表导出功能开发_积木报表多线程-程序员宅基地

文章浏览阅读521次。系统项目报表导出导出任务队列表 + 定时扫描 + 多线程_积木报表多线程

ajax 如何从服务器上获取数据？_ajax 获取http数据-程序员宅基地

文章浏览阅读1.1k次，点赞9次，收藏9次。使用AJAX技术的好处之一是它能够提供更好的用户体验，因为它允许在不重新加载整个页面的情况下更新网页的某一部分。另外，AJAX还使得开发人员能够创建更复杂、更动态的Web应用程序，因为它们可以在后台与服务器进行通信，而不需要打断用户的浏览体验。在Web开发中，AJAX（Asynchronous JavaScript and XML）是一种常用的技术，用于在不重新加载整个页面的情况下，从服务器获取数据并更新网页的某一部分。使用AJAX，你可以创建异步请求，从而提供更快的响应和更好的用户体验。_ajax 获取http数据

Linux图形终端与字符终端-程序员宅基地

文章浏览阅读2.8k次。登录退出、修改密码、关机重启_字符终端

随便推点

Python与Arduino绘制超声波雷达扫描_超声波扫描建模 python库-程序员宅基地

文章浏览阅读3.8k次，点赞3次，收藏51次。前段时间看到一位发烧友制作的超声波雷达扫描神器，用到了Arduino和Processing，可惜啊，我不会Processing更看不懂人家的程序，咋办呢？嘿嘿，所以我就换了个思路解决，因为我会一点Python啊，那就动手吧！在做这个案例之前先要搞明白一个问题：怎么将Arduino通过超声波检测到的距离反馈到Python端？这个嘛，我首先想到了串行通信接口。没错！就是串口。只要Arduino将数据发送给COM口，然后Python能从COM口读取到这个数据就可以啦！我先写了一个测试程序试了一下，OK！搞定_超声波扫描建模 python库

凯撒加密方法介绍及实例说明-程序员宅基地

文章浏览阅读4.2k次。端—端加密指信息由发送端自动加密，并且由TCP/IP进行数据包封装，然后作为不可阅读和不可识别的数据穿过互联网，当这些信息到达目的地，将被自动重组、解密，而成为可读的数据。不可逆加密算法的特征是加密过程中不需要使用密钥，输入明文后由系统直接经过加密算法处理成密文，这种加密后的数据是无法被解密的，只有重新输入明文，并再次经过同样不可逆的加密算法处理，得到相同的加密密文并被系统重新识别后，才能真正解密。2．使用时，加密者查找明文字母表中需要加密的消息中的每一个字母所在位置，并且写下密文字母表中对应的字母。_凯撒加密

工控协议--cip--协议解析基本记录_cip协议embedded_service_error-程序员宅基地

文章浏览阅读5.7k次。CIP报文解析常用到的几个字段：普通类型服务类型:[0x00], CIP对象:[0x02 Message Router], ioi segments:[XX]PCCC（带cmd和func）服务类型:[0x00], CIP对象:[0x02 Message Router], cmd:[0x101], fnc:[0x101]..._cip协议embedded_service_error

如何在vs2019及以后版本(如vs2022)上添加添加ActiveX控件中的MFC类_vs添加mfc库-程序员宅基地

文章浏览阅读2.4k次，点赞9次，收藏13次。有时候我们在MFC项目开发过程中，需要用到一些微软已经提供的功能，如VC++使用EXCEL功能，这时候我们就能直接通过VS2019到如EXCEL.EXE方式，生成对应的OLE头文件，然后直接使用功能，那么，我们上篇文章中介绍了vs2017及以前的版本如何来添加。但由于微软某些方面考虑，这种方式已被放弃。从上图中可以看出，这一功能，在从vs2017版本15.9开始，后续版本已经删除了此功能。那么我们如果仍需要此功能，我们如何在新版本中添加呢。_vs添加mfc库

frame_size (1536) was not respected for a non-last frame_frame_size (1024) was not respected for a non-last-程序员宅基地

文章浏览阅读785次。用ac3编码，执行编码函数时报错入如下：[ac3 @ 0x7fed7800f200] frame_size (1536) was not respected for anon-last frame (avcodec_encode_audio2)用ac3编码时每次送入编码器的音频采样数应该是1536个采样，不然就会报上述错误。这个数字并非刻意固定，而是跟ac3内部的编码算法原理相关。全网找不到，国内音视频之路还有很长的路，音视频人一起加油吧～......_frame_size (1024) was not respected for a non-last frame

Android移动应用开发入门_在安卓移动应用开发中要在活动类文件中声迷你一个复选框变量-程序员宅基地

文章浏览阅读230次，点赞2次，收藏2次。创建Android应用程序一个项目里面可以有很多模块，而每一个模块就对应了一个应用程序。项目结构介绍_在安卓移动应用开发中要在活动类文件中声迷你一个复选框变量