AVB简介--第三篇:AVTP简介_avtp协议-程序员宅基地

技术标签: 软件协议  linux  

转自:AVB简介--第三篇:AVTP简介

本文是AVB系列文章的第三篇,主要介绍AVB协议族中的音视频传输协议AVTP(IEEE Std 1722-2016)。

AVTP是个链路层传输协议,其主要作用有两个:

  1. 音视频数据封装:将音视频数据封装成相应的格式在链路层传输。
  2. 媒体同步
    • 媒体时钟同步:不同的媒体类型有自己的媒体时钟,这些媒体时钟都映射到gPTP时间(同一个时间坐标系),接收端可以轻松进行媒体时钟恢复。
    • 展示时间同步(播放时间同步):数据发送时指示接收方在未来的某个时间点播放,如果有多个接收者,它们就会在未来的同一时刻同时播放。

一、音视频数据封装

AVTP是链路层的传输协议,并且是基于VLAN的,在以太网帧中的位置如下所示:

 

针对不同的音视频格式,AVTP有不同的Header和Payload格式。(注:AVTP的Header其实是分了几个层级的,包含通用部分和随音视频格式变化部分,这里不再详细介绍。

本文主要基于H264介绍AVTP。

1. 头部结构

下图是AVTP封装H264视频数据时的头部结构:

 

我们结合实际报文重点关注图中编号了的几个字段,上图编号和下图抓包中的编号一一对应:

  1. subtype:AVTP子类型,本例为压缩视频格式,一般简称为CVF
  2. tv:它用来指示字段5是否有效, 0代表无效,1代表有效;这是因为一个视频单元(NALU)会被拆分为多个AVTP包,规范要求只需要在最后一个AVTP包中添加时间戳即可。
  3. sequence_num:包序号,供接收端判断是否丢包、乱序
  4. stream_id:流id,用来标识本数据流。长度为64bit, 前48字节定义和MAC地址定义规则一致,大部分直接拿MAC地址作为前48bit,后16bit根据需要自定义分配。
  5. avtp_timestamp: AVTP Presentation Time,后面专门介绍
  6. format: 用来表明payload承载的音视频数据是自定义格式还是RFC规范定义的格式,本例中是RFC格式的视频。
  7. format_subtype: payload承载的音视频数据子类型,本例中是H264格式。
  8. M标志位:代表一个NALU的结束。如果一个NALU被拆分为多个AVTP报文,只有最后一个需要把M标志填写成1。
  9. h264_timestamp: h264时间戳,后面专门介绍。
  10. ptv:用来指示h264_timestamp字段是否有效。本例中未填写h264_timestamp,所以ptv均为0(抓包中未标记)。

 

2. payload结构

为了便于理解后续部分,我们首先简单介绍下H264和RTP相关知识。

2.1 H264基础知识

H264帧由多个NALU单元组成,如下图所示,其中Start Code就是0x000001或0x00000001,NALU Header中包含该NALU的类型。

 

H264帧分为I帧、P帧、B帧三类,其中:

  • I帧不存在帧间依赖,可以单独解码成像;
  • P帧依赖本帧前面的I帧或P帧(这种依赖是从I帧依次传递过来的,所以中间任何一帧出错都会导致后续帧出错);
  • B帧不仅依赖前面的帧,还依赖后面的帧

如果一个码流中只有I帧和P帧,这种码流属于非交叉编码模式(Non-interleaved mode),帧的解码顺序和显示顺序是一致的;如果码流中包含了B帧,就成为了交叉编码模式(Interleaved mode),帧的解码顺序和显示顺序就不一定是一致的了。

下图中红色为I帧,蓝色为P帧,绿色为B帧。可以看到,第一个B帧在码流中的位置是2(Number in Stream order, 即解码顺序,从0开始),而显示顺序是1(Number in Display order,即显示顺序)。也就是说,它前面的P帧先解码,但要在它之后显示。

B帧使得解码顺序和显示顺序不再一致。记住这一点对后面理解AVTP中的两个时间戳有帮助。

2.2 RTP基础知识

 

RTP封装H264数据是以NALU为单位进行的,而不是以帧为单位进行的,相应规范是RFC 6184规范(RTP Payload Format for H.264 Video)。

RTP打包模式有下面三种:

  • Single NAL unit mode:单NALU模式,适用 H.241。
  • Non-interleaved mode:非交叉模式,NALU的解码顺序和显示顺序是一致的,先解码的NALU先显示。
  • Interleaved mode: 交叉模式,本模式下NALU的解码顺序和显示顺序是不一致的,比如有B帧的情况下。

RTP打包使用哪种模式,是由编码器决定的,不能随便填。

RTP包类型又包含以下几种:

  • a. 单个NALU:一个数据报文包含一个完整NALU的
  • b. 聚合多个NALU:一个数据报文中包含多个NALU,根据这些NALU的时间戳是否相同,又分为下面两种
    • STAP:一个数据报文包含多个NALU,这些NALU时间戳相同,又分为STAP-A方式和STAP-B方式
    • MTAP:一个数据报文包含多个NALU,这些NALU时间戳不同,又分为MTAP16方式和MTAP24方式
  • c. 分片方式:NALU太大,无法用一个数据包传输,需要分片,又分为FU-A和FU-B方式

打包模式与包类型之间的关系如下,并不能随便使用:

 

我们的视频数据是Non-interleaved mode模式,所以理论上可以使用上图中的NAL unit、STAP-A和FU-A三种包类型,但通常情况下不会把多个NALU聚合在一起发送(增加复杂度),所以实际只使用了NAL unit和FU-A两种包类型,前者用来封装较小不需要分片的NALU,后者用来封装需要分片的NALU。

2.3 AVTP封装h264_payload

AVTP的h264_payload是遵循RFC 6184规范(RTP Payload Format for H.264 Video)的。
前面提到,我们只使用了NAL unit和FU-A两种包类型,前者用来封装较小不需要分片的NALU(下图左半部分),后者用来封装需要分片的NALU(下图右半部分)。

 

二、媒体同步

3.1 AVTP Presentation Time

AVTP Presentation Time的含义是呈现时间,表示接收方在该时刻需要将AVTP数据包payload中的音视频数据送到应用层进行处理,比如解码播放。

假设报文经过下图发送参考平面(Ingress Time Reference Plan)的时刻是t1(基于gPTP时间),那么Presentation Time的值就是t1 + Max Transit Time。 假设该Presentation Time用gPTP表示为AS_sec(秒) + AS_ns(纳秒), 实际打在AVTP头部的时间戳为:(AS_sec × 109 + AS_ns) mod 232。

注:这个时间戳为什么要对gPTP时间做取模处理,规范中并未说明,猜测应该是为了节省字节。因为表示完整的gPTP时间需要占用10个字节,其中6字节用来表示秒,4字节用来表示纳秒,而现在只需要4字节即可。当然,该时间戳4秒就轮回了。

 

那么,Max Transit Time是如何定义的呢?如下图所示,如果音频源到两个扬声器的传输时间分别是t1、t2,Max Transit Time就是二者中的最大值。

 

Max Transit Time的通用定义如下,其中tn为Talker到第n个Listener的最大传输时间。

Max Transit Time = MAX(t1, t2, …, tn)

接下来以H264为例讲解AVTP的媒体同步机制,下图是H264 Over AVTP典型的处理流程:

 

3.2 展示时间同步(播放时间同步)

结合AVTP Presentation TimeMax Transit Time的定义,可以看到:它可以指示接收端在未来的某一时刻处理音视频数据;数据可以提前到(提前到的要等待,直到时刻AVTP Presentation Time到来才能被处理),但绝不能迟到(你说你在时间点AVTP Presentation Time到达,结果迟到了,只有被丢弃)。就像是一次准时开始的会议,提前到的要等待会议开始,迟到者无法听到前面的内容。在这种机制保障下,考虑下面的两个场景,是不是都可以达到同步效果?

3.3 媒体时钟同步

 

媒体时钟同步,解决的是按采集速度和播放速度一致的问题(相对时间同步的问题)。

视频的媒体时钟一般都是90KHz,理想情况下,大家以同样的频率震荡,但是随着时间的流逝或者环境影响,会漂移,这样就会导致talker和Listener的媒体时钟不同步,进而表现为播放不正常(播放的太快或太慢)。

媒体时钟恢复,是指Listener根据AVTP Presentation Time重建媒体时钟,使之和采集端保持同步,进而指导音视频以采集时的速率播放,流程如下:

  1. AVTP假设网络中各个节点的媒体时钟都是自由运行的(也就是相互之间不同步)。为了便于接收端恢复媒体时钟,在发送端,Talker把媒体时钟嵌入在展示时间戳中的(采样点对应gPTP的某个时刻),如下图所示:

     

  2. 在接收端,媒体时钟从展示时间戳中恢复(AVTP Presentation Time和本地gPTP时间对比,二者同步的时刻对应一个Media Clock的采样点),进而控制音视频的播放。

     

  3. 媒体时钟恢复模块示意图如下所示:

     

AVTP中也可以定义专门的Media Clock Stream,用来同步相关节点的媒体时钟,这里不再展开介绍。

3.4 h264_timestamp

AVTP中有了展示时间戳,为什么还要加上h264_timestamp时间戳?

在交叉编码模式(Interleaved mode)下,解码顺序和显示顺序是不一致的。如下图所示,视频数据是按照Frame0、Frame1的顺序依次采集的,接收端也要按这个顺序显示。

 

但是,由于存在B帧,编码器实际的输出顺序如下,接收端也要按照下面的顺序解码:

 

从上面的章节可以了解到,AVTP Presentation Time的作用是DTS(Decoding Time Stamp),在非交叉模式(Non-interleaved mode)下,是可以正常工作的;但是在交叉模式(Interleaved mode)下,由于解码顺序和显示顺序不一致,虽然能按正确的顺序解码,但是不能按正确的顺序显示。

为了解决这个问题,才加上了h264_timestamp,它也是遵循RFC 6184规范的(其实就是RTP头部的时间戳)。它充当的是PTS(Presentation Time Stamp)的角色,用以指示正确的显示顺序。

在非交叉模式下,该值可填充也可不填充。

三、参考资料

  1. H264 over RTP 的打包
  2. Understanding IEEE’s deterministic AV bridging standards
  3. 参考报文:gstream工具生成的报文
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wmzjzwlzs/article/details/124427890

智能推荐

874计算机科学基础综合,2018年四川大学874计算机科学专业基础综合之计算机操作系统考研仿真模拟五套题...-程序员宅基地

文章浏览阅读1.1k次。一、选择题1. 串行接口是指( )。A. 接口与系统总线之间串行传送,接口与I/0设备之间串行传送B. 接口与系统总线之间串行传送,接口与1/0设备之间并行传送C. 接口与系统总线之间并行传送,接口与I/0设备之间串行传送D. 接口与系统总线之间并行传送,接口与I/0设备之间并行传送【答案】C2. 最容易造成很多小碎片的可变分区分配算法是( )。A. 首次适应算法B. 最佳适应算法..._874 计算机科学专业基础综合题型

XShell连接失败:Could not connect to '192.168.191.128' (port 22): Connection failed._could not connect to '192.168.17.128' (port 22): c-程序员宅基地

文章浏览阅读9.7k次,点赞5次,收藏15次。连接xshell失败,报错如下图,怎么解决呢。1、通过ps -e|grep ssh命令判断是否安装ssh服务2、如果只有客户端安装了,服务器没有安装,则需要安装ssh服务器,命令:apt-get install openssh-server3、安装成功之后,启动ssh服务,命令:/etc/init.d/ssh start4、通过ps -e|grep ssh命令再次判断是否正确启动..._could not connect to '192.168.17.128' (port 22): connection failed.

杰理之KeyPage【篇】_杰理 空白芯片 烧入key文件-程序员宅基地

文章浏览阅读209次。00000000_杰理 空白芯片 烧入key文件

一文读懂ChatGPT,满足你对chatGPT的好奇心_引发对chatgpt兴趣的表述-程序员宅基地

文章浏览阅读475次。2023年初,“ChatGPT”一词在社交媒体上引起了热议,人们纷纷探讨它的本质和对社会的影响。就连央视新闻也对此进行了报道。作为新传专业的前沿人士,我们当然不能忽视这一热点。本文将全面解析ChatGPT,打开“技术黑箱”,探讨它对新闻与传播领域的影响。_引发对chatgpt兴趣的表述

中文字符频率统计python_用Python数据分析方法进行汉字声调频率统计分析-程序员宅基地

文章浏览阅读259次。用Python数据分析方法进行汉字声调频率统计分析木合塔尔·沙地克;布合力齐姑丽·瓦斯力【期刊名称】《电脑知识与技术》【年(卷),期】2017(013)035【摘要】该文首先用Python程序,自动获取基本汉字字符集中的所有汉字,然后用汉字拼音转换工具pypinyin把所有汉字转换成拼音,最后根据所有汉字的拼音声调,统计并可视化拼音声调的占比.【总页数】2页(13-14)【关键词】数据分析;数据可..._汉字声调频率统计

linux输出信息调试信息重定向-程序员宅基地

文章浏览阅读64次。最近在做一个android系统移植的项目,所使用的开发板com1是调试串口,就是说会有uboot和kernel的调试信息打印在com1上(ttySAC0)。因为后期要使用ttySAC0作为上层应用通信串口,所以要把所有的调试信息都给去掉。参考网上的几篇文章,自己做了如下修改,终于把调试信息重定向到ttySAC1上了,在这做下记录。参考文章有:http://blog.csdn.net/longt..._嵌入式rootfs 输出重定向到/dev/console

随便推点

uniapp 引入iconfont图标库彩色symbol教程_uniapp symbol图标-程序员宅基地

文章浏览阅读1.2k次,点赞4次,收藏12次。1,先去iconfont登录,然后选择图标加入购物车 2,点击又上角车车添加进入项目我的项目中就会出现选择的图标 3,点击下载至本地,然后解压文件夹,然后切换到uniapp打开终端运行注:要保证自己电脑有安装node(没有安装node可以去官网下载Node.js 中文网)npm i -g iconfont-tools(mac用户失败的话在前面加个sudo,password就是自己的开机密码吧)4,终端切换到上面解压的文件夹里面,运行iconfont-tools 这些可以默认也可以自己命名(我是自己命名的_uniapp symbol图标

C、C++ 对于char*和char[]的理解_c++ char*-程序员宅基地

文章浏览阅读1.2w次,点赞25次,收藏192次。char*和char[]都是指针,指向第一个字符所在的地址,但char*是常量的指针,char[]是指针的常量_c++ char*

Sublime Text2 使用教程-程序员宅基地

文章浏览阅读930次。代码编辑器或者文本编辑器,对于程序员来说,就像剑与战士一样,谁都想拥有一把可以随心驾驭且锋利无比的宝剑,而每一位程序员,同样会去追求最适合自己的强大、灵活的编辑器,相信你和我一样,都不会例外。我用过的编辑器不少,真不少~ 但却没有哪款让我特别心仪的,直到我遇到了 Sublime Text 2 !如果说“神器”是我能给予一款软件最高的评价,那么我很乐意为它封上这么一个称号。它小巧绿色且速度非

对10个整数进行按照从小到大的顺序排序用选择法和冒泡排序_对十个数进行大小排序java-程序员宅基地

文章浏览阅读4.1k次。一、选择法这是每一个数出来跟后面所有的进行比较。2.冒泡排序法,是两个相邻的进行对比。_对十个数进行大小排序java

物联网开发笔记——使用网络调试助手连接阿里云物联网平台(基于MQTT协议)_网络调试助手连接阿里云连不上-程序员宅基地

文章浏览阅读2.9k次。物联网开发笔记——使用网络调试助手连接阿里云物联网平台(基于MQTT协议)其实作者本意是使用4G模块来实现与阿里云物联网平台的连接过程,但是由于自己用的4G模块自身的限制,使得阿里云连接总是无法建立,已经联系客服返厂检修了,于是我在此使用网络调试助手来演示如何与阿里云物联网平台建立连接。一.准备工作1.MQTT协议说明文档(3.1.1版本)2.网络调试助手(可使用域名与服务器建立连接)PS:与阿里云建立连解释,最好使用域名来完成连接过程,而不是使用IP号。这里我跟阿里云的售后工程师咨询过,表示对应_网络调试助手连接阿里云连不上

<<<零基础C++速成>>>_无c语言基础c++期末速成-程序员宅基地

文章浏览阅读544次,点赞5次,收藏6次。运算符与表达式任何高级程序设计语言中,表达式都是最基本的组成部分,可以说C++中的大部分语句都是由表达式构成的。_无c语言基础c++期末速成