7月24日,以“新视界·连未来”为主题的2021全球互联网通信云大会(以下简称WICC 2021)在北京成功落下帷幕。来自主办方全球互联网通信云领导厂商融云的视频算法专家黄震坤在“RTC新技术与应用”技术分论坛中,分享了《基于人工智能的视频编码优化》的演讲。
图1 WICC 现场融云视频算法专家黄震坤发表演讲
根据美国思科公司的相关研究报告,到2022年,全球移动数据流量将达到每年930艾字节,相当于通过全球网络每5分钟传输一遍有史以来所有电影的流量,视频流量占移动数据流量的比例将飙升至79%。巨大的传输压力下,视频编码压缩技术就显得尤其重要。因此,本届 WICC黄震坤聚焦于视频压缩的前沿技术,针对不同场景需求,为开发者阐述了视频编码方向的最新研究成果、融云的探索实践,以及该领域未来的发展前景。
融云在监控场景的视频压缩技术及解决方案
WICC 2021上,黄震坤以交通监控视频场景为例,阐述了随着智慧交通的快速发展,交通监控视频的数据量呈现爆炸式增长,给现有的传输和存储系统带来了巨大的压力,因此,提高监控场景视频压缩的压缩效率显得至关重要。
黄震坤认为,要对交通监控视频进行高效压缩,就必须根据该场景特点,将背景区域和运动区域细致区分。典型的背景区域包括建筑、树木等,在画面中占比较大,且相对固化、变化不大;运动区域包括车辆、行人等,只占整个视频区域的一小部分。典型的监控视频如图2所示,运动的车辆即为前景区域。整体而言,视频的相邻帧之间的变化细微,应成为监控视频压缩关注的重点。
图2 典型的监控场景
针对这些特点,业界早期的做法是在重建帧中选择出长期参考帧,并与己有短期参考帧组合,一起供当前待编码帧做帧间预测的参考。但是,选取的长期参考帧可能包含有前景物体,导致背景帧“不干净”。
为了解决这个难点,融云采用 LaBGen-P 的方法提取背景帧,这是由于 LaBGen-P 采用了像素级中值滤波的机制,基于运动检测的选择机制,选择运动最小的像素作为背景像素。通过帧间差的运算,可提取到纯背景帧的视频效果。
并且,用 LaBGen-P 的方法提取背景帧,将获取的背景帧加入到长期参考帧列表,不但可以避免网损和解码错误会导致解码器出现错误,导致误差扩散到后续的P帧,而且利用反馈机制与长期参考帧相结合,还有助于修复丢失的视频数据。
实验表明,和原始没有加入背景帧的 OpenH264 编码器相比,可将标准测试集中的测试视频
CiscoVT2people_320x192_12fps.yuv,从原始的 56KB 减少到 54KB。
感兴趣区域的视频压缩技术研究模型及实践探索
不同的场景人们的关注重点会有所不同。仍以智慧交通为例,交警对于违章车辆的关注点是车牌号,车牌号是否清晰,将直接影响执法证据的收集是否有效。因此,在带宽有限的情况下,确保兴趣关注区域的质量是视频压缩技术的关键。
传统编码方法致力于对图像进行去相关处理,这种方法虽然可以达到去除信息冗余度的效果,但是忽略了视觉冗余。因此,在最新研究中,典型做法是,通过对视频进行目标检测来获取感兴趣区域,再对感兴趣区域分配更多的码率,从而提高该区域的编码质量。图3即为典型的采用目标检测技术检测到的感兴趣区域,并进行码率分配的效果,感兴趣区域的编码质量得到保证。
图3 典型的基于目标检测码率分配效果
如何向感兴趣区域分配更多的码率,黄震坤分别向开发者介绍了学术界代表武汉大学的理论研究和产业界代表融云的探索实践。
武汉大学在2021年提出了基于博弈论的码率分配方案模型,具体内容包括:
而融云的感兴趣区域的视频编码方案是,将运动区域检测和基于博弈论码率分配方案相结合,整合为基于场景的感兴趣区域检测和码率分配方案。这一方案的特点主要体现在训练不同的 yolo 模型,采用同一个预训练模型 yolo,训练不同的场景。
图4 融云感兴趣区域视频编码方案
具体地说,针对人的视频采用训练好的基于人的目标检测模型,针对车的视频采用训练好的基于车的目标检测模型。其中运动检测的方法选用Vibe,为每个像素点建立一个样本背景模型(背景模型中包含N 个样本值),计算待分类像素与背景模型的相似度,如果相似,则分类为背景。
图5 目标和运动检测结合的感兴趣区域提取效果
通过实验可以看出,提取了感兴趣区域之后,采用基于博弈论的方法分配感兴趣区域和非感兴趣区域的码率,最终在有限带宽的情况下,使得感兴趣区域的编码质量获得提高, 整体的编码质量也损失不大。具体效果见图6所示,人脸部分的量化系数比背景区域的量化系数要小,在带宽受限的情况下,能够保留人脸部分的细节。
图6 基于感兴趣区域的码率分配效果
视频压缩技术的最新研究和应用前景
目前在视频压缩的研究方面,主要是基于人工智能的深度学习技术和端到端的视频压缩框架。
深度学习技术替换混合编码框架模块,可用于码率分配、块划分以及帧内预测和帧间预测。以帧间预测为例,实验结果表明,与 HEVC 相比,基于深度学习所提出的方法在low delay P配置下,能达到平均1.7%(最高为8.6%)的码率减少。端到端的视频压缩框架最新研究成果是对现有深度学习视频压缩,只能利用少数的参考帧进行压缩的问题, 研究人员提出了重复自编码器和重复概率估计模型。
黄震坤介绍,这些技术目前都尚处于非常前沿的研究阶段,但拥有着非常广阔的应用前景:首先,采用深度学习网络替换视频压缩的混合编码框架,可以提高编码效率,在 WebRTC 中具有重要的应用价值;其次,深度强化学习网络对码率进行分配,将改善在使用 WebRTC 视频传输中的卡顿现象;第三,基于深度学习的带宽估计模型也将比传统的带宽估计方法更有优势。
结语
在实时音视频领域,视频压缩是非常重要的技术。随着5G基础设施的完善,新的视频应用场景不断涌现,视频压缩技术也在迭代。为了确保视频高质量和高传输效率,视频压缩技术要考虑存储、编解码、算力和带宽等因素在内的总成本,要在画质、码率和性能之间做平衡。随着 5G 基础设施的完善,新的视频应用场景不断涌现,视频压缩技术也会不断迭代创新。而融云将深度参与其中,引领发展!
好文章,需要你的鼓励
瑞典央行与金融机构及国家安全部门深化合作,共同应对网络威胁。今年5月,瑞典遭遇大规模分布式拒绝服务攻击,政府和金融机构受到严重冲击。总理克里斯特松承诺增加资金支持,建立更强大的公私合作伙伴关系。央行将举办第二届在线网络安全挑战峰会,鼓励金融机构提升网络安全能力。瑞典金融协会敦促建立危机管理机制,与国家网络安全中心等机构协调配合。
字节跳动发布Seedream 4.0多模态图像生成系统,实现超10倍速度提升,1.4秒可生成2K高清图片。该系统采用创新的扩散变换器架构,统一支持文字生成图像、图像编辑和多图合成功能,在两大国际竞技场排行榜均获第一名,支持4K分辨率输出,已集成至豆包、剪映等平台,为内容创作带来革命性突破。
工作压力源于大脑储存混乱而非系统。本文介绍5个ChatGPT提示词,帮你将工作压力转化为结构化行动:优先级排序任务清单、快速撰写专业邮件回复、从冗长文档中提取关键信息、生成问题解决方案、高效准备会议内容。通过系统化处理工作事务,将分散的精力转为专注执行,让大脑专注于决策而非重复劳动。
红帽公司研究团队提出危险感知系统卡(HASC)框架,为AI系统建立类似"体检报告"的透明度文档,记录安全风险、防护措施和问题修复历史。同时引入ASH识别码系统,为AI安全问题建立统一标识。该框架支持自动生成和持续更新,与ISO/IEC 42001标准兼容,旨在平衡透明度与商业竞争,建立更可信的AI生态系统,推动行业协作和标准化。