python之pyAudioAnalysis:音频特征提取分析文档示例详解-程序员宅基地

技术标签: python  音视频  pyAudioAnalysis  开发语言  

PyAudioAnalysis是一个开源的Python库,用于从音频文件中提取特征并进行分析。它提供了一系列音频处理函数,可以帮助开发者实现音频分类、情感识别、语音分析等多种任务。在本文中,我们将详细介绍如何使用PyAudioAnalysis进行音频特征提取和分析。

  1. 音频特征提取
    PyAudioAnalysis提供了多种方法用于提取音频的特征。这些特征可以用于描述音频的基本属性和特性,包括时域特征、频域特征和谱图特征等。

    (1) 提取时域特征:

    from pyAudioAnalysis import audioBasicIO
    from pyAudioAnalysis import audioFeatureExtraction
    
    audio_path = 'audio.wav'
    
    # 读取音频文件
    [audio_signal, fs] = audioBasicIO.read_audio_file(audio_path)
    
    # 提取时域特征
    [mt_features, st_features] = audioFeatureExtraction.stFeatureExtraction(audio_signal, fs, 0.050 * fs, 0.025 * fs)
    
    在上述代码中,首先使用 `audioBasicIO.read_audio_file` 函数读取音频文件,返回音频信号和采样率。然后,使用 `audioFeatureExtraction.stFeatureExtraction` 函数提取短时特征和中时特征。其中,`0.050 * fs` 表示分析窗口为50毫秒,`0.025 * fs` 表示窗口之间的间隔为25毫秒。
    

    (2) 提取频域特征:

    from pyAudioAnalysis import audioBasicIO
    from pyAudioAnalysis import audioFeatureExtraction
    
    audio_path = 'audio.wav'
    
    # 读取音频文件
    [audio_signal, fs] = audioBasicIO.read_audio_file(audio_path)
    
    # 提取频域特征
    [fbank, freq_bands] = audioFeatureExtraction.stFeatureExtraction(audio_signal, fs, 0.050 * fs, 0.025 * fs)
    
    
    上述代码中的 `audioBasicIO.read_audio_file` 和 `audioFeatureExtraction.stFeatureExtraction` 函数用法与前面的相同,只是提取的是频域特征。
    

    (3) 提取谱图特征:

    from pyAudioAnalysis import audioBasicIO
    from pyAudioAnalysis import audioFeatureExtraction
    
    audio_path = 'audio.wav'
    
    # 读取音频文件
    [audio_signal, fs] = audioBasicIO.read_audio_file(audio_path)
    
    # 提取谱图特征
    spec_features = audioFeatureExtraction.stFeatureExtraction(audio_signal, fs, 0.050 * fs, 0.025 * fs)
    
    
    在上述代码中,通过 `audioBasicIO.read_audio_file` 函数读取音频文件,然后使用 `audioFeatureExtraction.stFeatureExtraction` 函数提取谱图特征。
    
  2. 音频特征分析
    提取音频特征后,我们可以使用PyAudioAnalysis进行进一步的分析,比如进行分类或情感识别。

    (1) 音频分类:

    from pyAudioAnalysis import audioTrainTest as aT
    
    model_path = 'svm_model'
    audio_path = 'audio.wav'
    
    # 音频分类
    result, _ = aT.file_classification(audio_path, model_path, 'svm')
    
    
    在上述代码中,`audioTrainTest.file_classification` 函数用于对音频进行分类,需要指定分类模型路径、音频路径和分类器类型(这里选择了支持向量机svm)。
    

    (2) 情感识别:

    from pyAudioAnalysis import audioSegmentation as aS
    
    audio_path = 'audio.wav'
    
    # 情感识别
    [emotion, prob] = aS.emotion_extraction(audio_path)
    
    
    上述代码中,`audioSegmentation.emotion_extraction` 函数用于从音频中提取情感信息。
    

以上就是PyAudioAnalysis的音频特征提取和分析的基本使用方法的示例。接下来,我们将继续介绍PyAudioAnalysis的其他功能和使用示例。

  1. 其他功能
    PyAudioAnalysis还提供了许多其他有用的功能,如音频切割、语音识别和基频估计等。

    (1) 音频切割:

    from pyAudioAnalysis import audioSegmentation as aS
    
    audio_path = 'audio.wav'
    
    # 音频切割
    segments = aS.silence_removal(audio_path)
    
    
    上述代码中,`audioSegmentation.silence_removal` 函数用于从音频中删除静音部分,并返回非静音片段的起始和终止时间。
    

    (2) 语音识别:

    ```
    from pyAudioAnalysis import audioSegmentation as aS
    from pyAudioAnalysis import audioTranscription
    
    audio_path = 'audio.wav'
    
    # 语音识别
    transcription = audioTranscription.transcribe_audio(audio_path, 'en')
    ```
    
    在上述代码中,首先使用 `audioSegmentation` 模块的函数剔除音频中的静音部分,然后使用 `audioTranscription.transcribe_audio` 函数对不含静音的音频进行文字转录(这里以英文为例)。
    

    (3) 基频估计:

    from pyAudioAnalysis import audioBasicIO
    from pyAudioAnalysis import audioFeatureExtraction
    
    audio_path = 'audio.wav'
    
    # 读取音频文件
    [audio_signal, fs] = audioBasicIO.read_audio_file(audio_path)
    
    # 基频估计
    pitch = audioFeatureExtraction.pitch_contour(audio_signal, fs)
    
    
    在上述代码中,通过 `audioBasicIO.read_audio_file` 函数读取音频文件,然后使用 `audioFeatureExtraction.pitch_contour` 函数进行基频估计,返回基频轮廓。
  2. 结论
    在本文中,我们详细介绍了如何使用PyAudioAnalysis进行音频特征提取和分析的示例。通过提取时域特征、频域特征和谱图特征,我们可以获得音频的基本属性和特性。同时,我们还介绍了音频分类、情感识别、音频切割、语音识别和基频估计等功能的示例代码。

    总结而言,PyAudioAnalysis是一个强大且灵活的工具,适用于音频处理和分析的多种任务。开发者可以根据具体需求,灵活运用这些功能,实现各种音频处理和分析的应用。了解和掌握PyAudioAnalysis的使用方法,将会对音频相关的项目开发非常有帮助。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/naer_chongya/article/details/131666004

智能推荐

18个顶级人工智能平台-程序员宅基地

文章浏览阅读1w次,点赞2次,收藏27次。来源:机器人小妹  很多时候企业拥有重复,乏味且困难的工作流程,这些流程往往会减慢生产速度并增加运营成本。为了降低生产成本,企业别无选择,只能自动化某些功能以降低生产成本。  通过数字化..._人工智能平台

electron热加载_electron-reloader-程序员宅基地

文章浏览阅读2.2k次。热加载能够在每次保存修改的代码后自动刷新 electron 应用界面,而不必每次去手动操作重新运行,这极大的提升了开发效率。安装 electron 热加载插件热加载虽然很方便,但是不是每个 electron 项目必须的,所以想要舒服的开发 electron 就只能给 electron 项目单独的安装热加载插件[electron-reloader]:// 在项目的根目录下安装 electron-reloader,国内建议使用 cnpm 代替 npmnpm install electron-relo._electron-reloader

android 11.0 去掉recovery模式UI页面的选项_android recovery 删除 部分菜单-程序员宅基地

文章浏览阅读942次。在11.0 进行定制化开发,会根据需要去掉recovery模式的一些选项 就是在device.cpp去掉一些选项就可以了。_android recovery 删除 部分菜单

mnn linux编译_mnn 编译linux-程序员宅基地

文章浏览阅读3.7k次。https://www.yuque.com/mnn/cn/cvrt_linux_mac基础依赖这些依赖是无关编译选项的基础编译依赖• cmake(3.10 以上)• protobuf (3.0 以上)• 指protobuf库以及protobuf编译器。版本号使用 protoc --version 打印出来。• 在某些Linux发行版上这两个包是分开发布的,需要手动安装• Ubuntu需要分别安装 libprotobuf-dev 以及 protobuf-compiler 两个包•..._mnn 编译linux

利用CSS3制作淡入淡出动画效果_css3入场效果淡入淡出-程序员宅基地

文章浏览阅读1.8k次。CSS3新增动画属性“@-webkit-keyframes”,从字面就可以看出其含义——关键帧,这与Flash中的含义一致。利用CSS3制作动画效果其原理与Flash一样,我们需要定义关键帧处的状态效果,由CSS3来驱动产生动画效果。下面讲解一下如何利用CSS3制作淡入淡出的动画效果。具体实例可参考刚进入本站时的淡入效果。1. 定义动画,名称为fadeIn@-webkit-keyf_css3入场效果淡入淡出

计算机软件又必须包括什么,计算机系统应包括硬件和软件两个子系统,硬件和软件又必须依次分别包括______?...-程序员宅基地

文章浏览阅读2.8k次。计算机系统应包括硬件和软件两个子系统,硬件和软件又必须依次分别包括中央处理器和系统软件。按人的要求接收和存储信息,自动进行数据处理和计算,并输出结果信息的机器系统。计算机是脑力的延伸和扩充,是近代科学的重大成就之一。计算机系统由硬件(子)系统和软件(子)系统组成。前者是借助电、磁、光、机械等原理构成的各种物理部件的有机组合,是系统赖以工作的实体。后者是各种程序和文件,用于指挥全系统按指定的要求进行..._计算机系统包括硬件系统和软件系统 软件又必须包括

随便推点

进程调度(一)——FIFO算法_进程调度fifo算法代码-程序员宅基地

文章浏览阅读7.9k次,点赞3次,收藏22次。一 定义这是最早出现的置换算法。该算法总是淘汰最先进入内存的页面,即选择在内存中驻留时间最久的页面予以淘汰。该算法实现简单,只需把一个进程已调入内存的页面,按先后次序链接成一个队列,并设置一个指针,称为替换指针,使它总是指向最老的页面。但该算法与进程实际运行的规律不相适应,因为在进程中,有些页面经常被访问,比如,含有全局变量、常用函数、例程等的页面,FIFO 算法并不能保证这些页面不被淘汰。这里,我_进程调度fifo算法代码

mysql rownum写法_mysql应用之类似oracle rownum写法-程序员宅基地

文章浏览阅读133次。rownum是oracle才有的写法,rownum在oracle中可以用于取第一条数据,或者批量写数据时限定批量写的数量等mysql取第一条数据写法SELECT * FROM t order by id LIMIT 1;oracle取第一条数据写法SELECT * FROM t where rownum =1 order by id;ok,上面是mysql和oracle取第一条数据的写法对比,不过..._mysql 替换@rownum的写法

eclipse安装教程_ecjelm-程序员宅基地

文章浏览阅读790次,点赞3次,收藏4次。官网下载下载链接:http://www.eclipse.org/downloads/点击Download下载完成后双击运行我选择第2个,看自己需要(我选择企业级应用,如果只是单纯学习java选第一个就行)进入下一步后选择jre和安装路径修改jvm/jre的时候也可以选择本地的(点后面的文件夹进去),但是我们没有11版本的,所以还是用他的吧选择接受安装中安装过程中如果有其他界面弹出就点accept就行..._ecjelm

Linux常用网络命令_ifconfig 删除vlan-程序员宅基地

文章浏览阅读245次。原文链接:https://linux.cn/article-7801-1.htmlifconfigping <IP地址>:发送ICMP echo消息到某个主机traceroute <IP地址>:用于跟踪IP包的路由路由:netstat -r: 打印路由表route add :添加静态路由路径routed:控制动态路由的BSD守护程序。运行RIP路由协议gat..._ifconfig 删除vlan

redux_redux redis-程序员宅基地

文章浏览阅读224次。reduxredux里要求把数据都放在公共的存储区域叫store里面,组件中尽量少放数据,假如绿色的组件要给很多灰色的组件传值,绿色的组件只需要改变store里面对应的数据就行了,接着灰色的组件会自动感知到store里的数据发生了改变,store只要有变化,灰色的组件就会自动从store里重新取数据,这样绿色组件的数据就很方便的传到其它灰色组件里了。redux就是把公用的数据放在公共的区域去存..._redux redis

linux 解压zip大文件(解决乱码问题)_linux 7za解压中文乱码-程序员宅基地

文章浏览阅读2.2k次,点赞3次,收藏6次。unzip版本不支持4G以上的压缩包所以要使用p7zip:Linux一个高压缩率软件wget http://sourceforge.net/projects/p7zip/files/p7zip/9.20.1/p7zip_9.20.1_src_all.tar.bz2tar jxvf p7zip_9.20.1_src_all.tar.bz2cd p7zip_9.20.1make && make install 如果安装失败,看一下报错是不是因为没有下载gcc 和 gcc ++(p7_linux 7za解压中文乱码