【DL】深度学习之语音识别_语音识别深度学习-程序员宅基地

语音信号处理（Speech Signal Processing）简称语音处理。

语音识别（ASR）和自然语言处理（NLP）：语音识别就是将语音信号转化成文字文本，简单实现了两种信号的转换。ASR又可以理解为，让机器听见。NLP可以理解为通过某种算法让计算机理解所输入的内容，NLP又可以理解成，让机器听懂。语音识别(Speech Recognition)是NLP的一个重要子领域，旨在将语音信号转换为文本。

1 核心概念

① 语音特征

语音特征是用于描述语音信号的数值特征。

特征提取的方法有：线性预测系数（LPC）、LPC倒谱系数（LPCC）、线谱对参数（LSP）、共振峰率、短时谱、Mel频率倒谱系数（MFCC）和感知线性预测（PLP）等等。

其中，梅尔倒谱系数MFCC的提取过程包括：声道转换、预加重、分帧、加窗、快速傅里叶变换、通过三角带通滤波器得到Mel频谱、倒谱分析（取对数，做逆变换）。

预处理一般包括预加重、加窗和分帧等。

⒈ 预加重：语音信号低频段能量大，高频段信号能量小。预加重的目的是提升高频部分，使得信号的频谱变得平坦。

⒉ 加窗：减少语音帧的截断效应。矩形窗和汉明窗。

⒊ 分帧：将信号分段，每一段为一帧，一般10-30ms。分帧虽然可以采用连续分段的方法，但一般要采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移。

常见的语音特征包括MFCC、SPC、PFCC等，可以根据任务需求选择合适的特征。

② 语音数据集

语音数据集是用于训练和测试语音识别和语音合成模型的数据集，包括LibriSpeech、Common Voice、VCTK等。

③ SR和TTS

语音识别(Speech Recognition，SR)是将人类语音信号转换为文本的过程，主要包括语音前处理、语音特征提取、语音模型训练和文本生成等步骤。

Token可以是Phoneme（a unit of sound）、Grapheme（字母或字）、Word（词汇）、Morpheme（>Grapheme, <Word）、Bytes。

语音合成(Text-To-Speech， TTS，又称文语转换)是将文本转换为人类可理解的语音信号的过程，主要包括文本前处理、语音模型训练和语音信号生成等步骤。

④ 语音识别系统的构建

语音识别和语音合成主要基于深度学习技术，包括卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、Transformer等等。

⒈ 卷积神经网络(CNN)： CNN可以自动学习特征并进行分类。CNN通常由多个卷积层、池化层和全连接层组成。卷积层用于提取语音信号的特征，池化层用于减少参数数量和防止过拟合，全连接层用于输出预测结果。

⒉ 循环神经网络(RNN)： RNN可以处理序列数据。在语音识别任务中，RNN可以处理语音信号的时间序列特征。RNN通常由多个隐藏层和输出层组成，每个隐藏层都有自己的权重和偏置。

⒊ LSTM： LSTM是一种特殊的RNN，它可以处理长距离依赖关系。LSTM通过使用门机制来控制信息的流动，从而避免梯度消失问题。

⒋ Transformer： Transformer是一种基于自注意力机制的神经网络，它可以处理长距离依赖关系并并行化计算。

构建步骤包括：预处理、数据集划分、模型构建、训练、模型评估、模型优化。

2 安装依赖库

① cpu版本的paddlepaddle安装

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

② 安装PaddleSpeech

pip install paddlespeech

# 或者

pip --default-timeout=100 install paddlespeech -i Simple Index --trusted-host pypi.douban.com

3 实践

实践① 语音识别

命令行

paddlespeech asr --lang zh --input zh.wav

代码

from paddlespeech.cli.asr.infer import ASRExecutor 
asr = ASRExecutor() 
result = asr(audio_file="zh.wav") 
print(result) 
pass

效果

输出结果如下：

我认为跑步最重要的就是给我带来了身体健康

本文链接：https://blog.csdn.net/wss794/article/details/136298649

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

2022黑龙江最新建筑八大员（材料员）模拟考试试题及答案_料账的试题-程序员宅基地

文章浏览阅读529次。百分百题库提供建筑八大员（材料员）考试试题、建筑八大员（材料员）考试预测题、建筑八大员（材料员）考试真题、建筑八大员（材料员）证考试题库等,提供在线做题刷题，在线模拟考试，助你考试轻松过关。310项目经理部应编制机械设备使用计划并报（）审批。A监理单位B企业C建设单位D租赁单位答案：B311对技术开发、新技术和新工艺应用等情况进行的分析和评价属于（）。A人力资源管理考核B材料管理考核C机械设备管理考核D技术管理考核答案：D312建筑垃圾和渣土._料账的试题

chatgpt赋能python：Python自动打开浏览器的技巧-程序员宅基地

文章浏览阅读614次。本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。AI职场汇报智能办公文案写作效率提升教程专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。_python自动打开浏览器

Linux中安装JDK-RPM_linux 安装jdk rpm-程序员宅基地

文章浏览阅读545次。Linux中安装JDK-RPM方式_linux 安装jdk rpm

net高校志愿者管理系统-73371，计算机毕业设计（上万套实战教程，赠送源码）-程序员宅基地

文章浏览阅读25次。免费领取项目源码，请关注赞收藏并私信博主，谢谢-高校志愿者管理系统主要功能模块包括页、个人资料（个人信息。修改密码）、公共管理（轮播图、系统公告）、用户管理（管理员、志愿用户）、信息管理（志愿资讯、资讯分类）、活动分类、志愿活动、报名信息、活动心得、留言反馈，采取面对对象的开发模式进行软件的开发和硬体的架设，能很好的满足实际使用的需求，完善了对应的软体架设以及程序编码的工作，采取SQL Server 作为后台数据的主要存储单元，采用Asp.Net技术进行业务系统的编码及其开发，实现了本系统的全部功能。

小米宣布用鸿蒙了吗,小米OV对于是否采用鸿蒙保持沉默，原因是中国制造需要它们...-程序员宅基地

文章浏览阅读122次。原标题：小米OV对于是否采用鸿蒙保持沉默，原因是中国制造需要它们目前华为已开始对鸿蒙系统大规模宣传，不过中国手机四强中的另外三家小米、OPPO、vivo对于是否采用鸿蒙系统保持沉默，甚至OPPO还因此而闹出了一些风波，对此柏铭科技认为这是因为中国制造当下需要小米OV几家继续将手机出口至海外市场。 2020年中国制造支持中国经济渡过了艰难的一年，这一年中国进出口贸易额保持稳步增长的势头，成为全球唯一..._小米宣布用鸿蒙系统

Kafka Eagle_kafka eagle git-程序员宅基地

文章浏览阅读1.3k次。1.Kafka Eagle实现kafka消息监控的代码细节是什么?2.Kafka owner的组成规则是什么？3.怎样使用SQL进行kafka数据预览？4.Kafka Eagle是否支持多集群监控？1.概述在《Kafka 消息监控 - Kafka Eagle》一文中，简单的介绍了 Kafka Eagle这款监控工具的作用，截图预览，以及使用详情。今天_kafka eagle git

随便推点

Eva.js是什么（互动小游戏开发）-程序员宅基地

文章浏览阅读1.1k次，点赞29次，收藏19次。Eva.js 是一个专注于开发互动游戏项目的前端游戏引擎。：Eva.js 提供开箱即用的游戏组件供开发人员立即使用。是的，它简单而优雅！：Eva.js 由高效的运行时和渲染管道 (Pixi.JS) 提供支持，这使得释放设备的全部潜力成为可能。：得益于 ECS（实体-组件-系统）架构，你可以通过高度可定制的 API 扩展您的需求。唯一的限制是你的想象力！_eva.js

OC学习笔记-Objective-C概述和特点_objective-c特点及应用领域-程序员宅基地

文章浏览阅读1k次。Objective-C概述Objective-C是一种面向对象的计算机语言，1980年代初布莱德.考斯特在其公司Stepstone发明Objective-C，该语言是基于SmallTalk-80。1988年NeXT公司发布了OC，他的开发环境和类库叫NEXTSTEP， 1994年NExt与Sun公司发布了标准的NEXTSTEP系统，取名openStep。1996_objective-c特点及应用领域

STM32学习笔记6：TIM基本介绍_stm32 tim寄存器详解-程序员宅基地

文章浏览阅读955次，点赞20次，收藏16次。TIM（Timer）定时器定时器可以对输入的时钟进行计数，并在计数值达到设定值时触发中断16位计数器、预分频器、自动重装寄存器的时基单元，在 72MHz 计数时钟下可以实现最大 59.65s 的定时，59.65s65536×65536×172MHz59.65s65536×65536×721MHz不仅具备基本的定时中断功能，而且还包含内外时钟源选择、输入捕获、输出比较、编码器接口、主从触发模式等多种功能。_stm32 tim寄存器详解

前端基础语言HTML、CSS 和 JavaScript 学习指南_艾编程学习资料-程序员宅基地

文章浏览阅读1.5k次。对于任何有兴趣学习前端 Web 开发的人来说，了解 HTML、CSS 和JavaScript 之间的区别至关重要。这三种前端语言都是您访问过的每个网站的用户界面构建块。而且，虽然每种语言都有不同的功能重点，但它们都可以共同创建令人兴奋的交互式网站，让用户保持参与。因此，您会发现学习所有三种语言都很重要。如果您有兴趣从事前端开发工作，可以通过多种方式学习这些语言——在艾编程就可以参与到学习当中来。在本文中，我们将回顾每种语言的特征、它们如何协同工作以及您可以在哪里学习它们。HTML vs C._艾编程学习资料

三维重构（10）：PCL点云配准_局部点云与全局点云配准-程序员宅基地

文章浏览阅读2.8k次。点云配准主要针对点云的：不完整、旋转错位、平移错位。因此要得到完整点云就需要对局部点云进行配准。为了得到被测物体的完整数据模型，需要确定一个合适的坐标系变换，将从各个视角得到的点集合并到一个统一的坐标系下形成一个完整的数据点云，然后就可以方便地进行可视化，这就是点云数据的配准。点云配准技术通过计算机技术和统计学规律，通过计算机计算两个点云之间的错位，也就是把在不同的坐标系下的得到的点云进行坐标变..._局部点云与全局点云配准

python零基础学习书-Python零基础到进阶必读的书藉：Python学习手册pdf免费下载-程序员宅基地

文章浏览阅读273次。提取码：0oorGoogle和YouTube由于Python的高可适应性、易于维护以及适合于快速开发而采用它。如果你想要编写高质量、高效的并且易于与其他语言和工具集成的代码，《Python学习手册：第4 版》将帮助你使用Python快速实现这一点，不管你是编程新手还是Python初学者。本书是易于掌握和自学的教程，根据作者Python专家Mark Lutz的著名培训课程编写而成。《Python学习..._零基础学pythonpdf电子书