AI如何练就读唇术?唇语识别数据功不可没_数据堂官方账号的博客-程序员宅基地

技术标签: 数据产品  机器学习  人工智能  语音识别  

所谓的“唇语识别”,其实并不神秘。

早在古代,就有专门的唇语师存在。通过长期的训练,他们具备了“观察别人的嘴型,解读其表达语句”的能力。随着科技的发展,人工智能在各领域渐次开放,在唇语识别上,机器已经在赶超人类了。

从技术路径上,唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术。

运用机器视觉技术从图像中识别出说话人的人脸,提取此人连续说话时口型变化的特征。将连续变化的特征输入到唇语识别模型中,识别说话人口型对应的发音,运用大数据计算出可能性最大的自然语言语句。

在唇语识别过程中,口型与发音,发音与文字之间,并不是唯一对应的关系,常常有多个可能的备选结果,需要实时计算出可能性最大的结果。
在这里插入图片描述

唇语识别是集机器视觉与自然语言处理于一体的技术

早在 2003 年,Intel 就开发了唇语识别软件 Audio Visual Speech Recognition(AVSR),开发者得以能够研发可以进行唇语识别的计算机。

2016 年 Google DeepMind 的唇语识别技术就已经可以支持 17500 个词,新闻测试集识别准确率首次达到了 50% 以上。

国内AI企业搜狗推出了唇语识别人机交互技术。搜狗官方表示,通过复杂端到端深度神经网络技术进行中文唇语序列建模,经过数千小时的真实唇语数据训练,搜狗“唇语识别” 系统在非特定人开放口语测试集上,该系统达到 60% 以上的准确率,在垂直场景命令集如车载、智能家居等场景下甚至已经达到 90% 的准确率。

在这里插入图片描述

搜狗的唇语识别技术近年来取得较快发展

未来,唇语识别技术可以辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。

比如在车载场景下,周围噪音过大时会对语音指令产生干扰。在安防领域,由于目前多数监控只有摄像头没有麦克风,而唇语识别则可以帮助公安人员获取重要的讲话信息,为公共安全提供有效支持。另外,唇语识别还有机会帮助先天性听障人群或老年人,帮助他们更好地与人交流。

唇语识别技术诞生之初就是为了解决语音识别的噪音问题而研发的。总结来看,目前唇语识别技术的应用还是集中在辅助语音识别,这也会使得语音交互更加完善。

由于唇语识别是一项基于机器视觉与自然语言处理于一体的技术,所以在研发难度上比语音识别大得多。

通常情况下,唇语识别系统会使用复杂端到端深度神经网络技术进行语言唇语序列建模,并通过数千小时的真实唇语数据进行训练。

数据堂深耕于AI数据领域近十年,一直致力于为全球人工智能企业提供专业的数据服务,行业内高标准的《1,998人唇语视频数据》广受重视和好评,能够助力唇语识别技术落地更多应用场景。

数据由1998人参与录制,数据集中包含41,866段视频,总时长为86小时56分钟1.52秒。数据多样性涵盖多种场景、多个年龄段、多个时间段。

在每段视频中,被采集人读取8位阿拉伯数字。标注人员对视频拍摄时间、读取内容进行标注,准确率不低于95%,该数据可用于唇语识别任务场景。

目前,唇语识别技术的普及率较低,其中主要存在两个问题。

第一,摄像头录入存在很大的限制,不能完全满足日常交互需求。

在目前的唇语识别系统中,获得的嘴唇视觉特征信息通常是正向的,这就意味着在交互时,人们需要时刻正对机器。为了能够应用更多的场景,应该使人在非正向角度说话时也能被检测识别。

第二,识别的准确度也是一个关键的问题。

口型与拼音序列是一对的多关系,如 zhi、chi、shi对应的口型序列是一样的,单纯利用视觉特征难以区分,会造成信息识别错误。

不过,越来越多AI企业开始发力唇语识别。业内人士预计,鉴于在公共安全、身份识别、残障教育、军事等领域的竞争力,唇语识别技术或将开启万亿级的大数据市场。可以预见,随着大数据与人工智能的发展,未来的识别准确率会达到更高。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_44532659/article/details/121138385

智能推荐

c++中点运算符和箭头运算符_Ch'E的博客-程序员宅基地

箭头运算符(->)用于结构体/类 指针变量访问成员。A->B则A为指针,->是成员提取,A->B是提取A中的成员B,A只能是指向类、结构、联合的指针点运算符(.)用于结构体/类变量 或者对象 访问成员。A.B则A为对象或者结构体;...

haozi/xss-demo通关-程序员宅基地

目录​0x000x010x020x030x040x050x060x070x080x090x0a0x0b0x0c0x0d0x0e0x0f0x100x110x120x00<script> alert(1)</script>0x01</textarea><script>alert(1)</script>0x02"><s...

ubuntu系统开机自挂载硬盘_ZHAOCHENHAO-的博客-程序员宅基地

文章目录1.硬盘识别2.格式化新硬盘3.挂载到指定目录4.查看磁盘分区的UUID5.配置开机自挂载:6.测试1.硬盘识别$ sudo fdisk -l 2.格式化新硬盘$ sudo mkfs.ext4 /dev/sdb13.挂载到指定目录假如说home区下有一个/diskfile文件,我们可以把硬盘挂载到该目录下$ sudo mount /dev/sdb1 /diskfile4.查看磁盘分区的UUID$ sudo blkid效果如下:5.配置开机自挂载:将分区信息写到/et

Python 中实现装饰器时使用 @functools.wraps 的理由_weixin_30237281的博客-程序员宅基地

Python中使用装饰器对在运行期对函数进行一些外部功能的扩展。但是在使用过程中,由于装饰器的加入导致解释器认为函数本身发生了改变,在某些情况下——比如测试时——会导致一些问题。Python 通过functool.wraps为我们解决了这个问题:在编写装饰器时,在实现前加入@functools.wraps(func)可以保证装饰器不会对被装饰函数造成影响。比如,在 Flask 中,我们要...

普通PC安装ESXi6.7过程遇到的几个问题._ignoreheadless=true_weixin_43021570的博客-程序员宅基地

装ESXi的初衷家里放着一台闲置的电脑主机,配置很一般.集成主板,唯一的亮点就是硬盘大.有两个2T的硬盘.某日心血来潮,想物尽所用,何不拿来装个ESXi来玩玩.于是就开始捣鼓起来,买鼠标键盘、启动U盘、下载软件……1,一切准备妥当,开始安装,之前安装过以为很简单,没想到一装到就遇到了第一个问题安装ESXi 5.5遇到Relocating modules and starting up the...

80后小伙 小小火柴卖出百万来!_iteye_9508的博客-程序员宅基地

           如今,穿了“新衣服”摇身一变的艺术火柴早已远离火柴最初的功用,已不再是一种廉价的点火工具    80后的沈子凯说:“当打火机满天飞,人人都在用ZIPPO的时候,原来的个性和时尚就变成了平庸和无趣。当大家都在玩时,这个东西往往就不再好玩了。”是的,当人手一个ZIPPO时,拿着火柴的你就成了一种潮流。    卖火柴的大男孩    杭州人沈子凯是个80后大...

随便推点

图形界面系列教材 (十)- Swing 使用 JTable详解_MAGIC_LAN的博客-程序员宅基地

步骤1:基本表格步骤2:JScrollPane步骤3:列宽步骤4:TableModel步骤5:进一步理解TableModel步骤6:TableModel 与DAO结合步骤7:TableSelectionModel步骤8:更新Table步骤9:输入项验证步骤10:选中指定行示例1:基本表格显示一个Table需要两组数据1. 一维数组: String[]columnNames ...

Handler ,Looper,MessageQueue_梦zh的博客-程序员宅基地

Looper主要完成Handler与MessageQueue进行交互,主要用于线程间通信;线程间通信:大家都知道子线程不能直接操作主线程(UI线程),也都知道ui线程已经为我们创建了looper;//Thread1 new Thread(new Runnable() { @Override public void run() { ...

浅谈Scala对象构造过程_scala 对象构造方法_第七琴弦的博客-程序员宅基地

我们通过一个例子来体会scala对象的构造过程首先创建一个车站类:class Station { val size = 100 val spots = new Array[String](size)}通过size来模拟停车位数,通过字符串数组模拟具体的停车位。在创建一个停车场类,它是车站的子类class Park extends Station {

c语言兔子比耳朵,比耳朵语言教案_爱面包的博客-程序员宅基地

小耳朵小班教案 例一活动目标:1通过游戏活动,知道耳朵的用处;学习用耳朵辨别各种不同的声音,并能用语言表达.2发展幼儿的听觉及辨别不同声音的能力,提高幼儿的注意力.3初步知道保护耳朵的方法.活动准备:1装有小铃铛.沙子.小黄豆,纸片.硬币等罐子若干个,每组1套.2录音机和录有各种声音的磁带1盒,(有...小耳朵小班教案 例一活动目标:1通过游戏活动,知道耳朵的用处;学习用耳朵辨别各种不同的声音,并...

2015 多校 #5 1005 MZL's chemistry_weixin_30652897的博客-程序员宅基地

MZL's chemistryTime Limit: 2000/1000 MS (Java/Others)Memory Limit: 65536/65536 K (Java/Others)Total Submission(s): 1306Accepted Submission(s): 601Problem Description MZL de...

python画图_菜鸟驿站2020的博客-程序员宅基地

多边形效果图:代码:import turtle as tt.pencolor('red') #画笔颜色t.bgcolor('black') #背景色t.speed(10) #画笔速度t.pensize(2) #画笔大小y = int(input('请输入要画几边形:'))z = int(input('请输入要画多少次:'))for x in range(z): #画图的数量 for x in range(y): #画多边形 t.fo

推荐文章

热门文章

相关标签