2021年5月,由阿里云联合英特尔共同主办,与优酷战略合作的“新内容 新交互”全球视频云创新挑战赛初赛圆满落幕。经过近三个月的激烈角逐,52支入围队伍,从全球23个国家的4600余支参赛队伍中脱颖而出,进入到复赛阶段的比拼中。
本次大赛,是全球首个聚焦于视频云技术在全行业的应用与创新领域的比赛,分为算法赛道和创新应用赛道两大板块。算法赛道以目前业界极为关注的视频分割为赛题,以期打造中国的“CVPR竞赛”;而应用创新赛道,则鼓励参赛选手从行业痛点出发,挖掘视频云技术在各个行业场景中的应用,创造出下一代音视频新场景。
业界大咖倾力加盟,视频云驱动下一代技术浪潮
“视频将会是像水电油一样的基础设施,成为各个行业必须具备的基础能力”这是大赛邀请的业界嘉宾一致的共识。
本届大赛邀请到了数十位国内外顶尖的视频云领域的专家,从赛题策划、作品评审、选手辅导等环节倾力加盟,成为助力视频云技术未来发展的智库。
视频云技术依托于云计算、网络通信、场景技术、人工智能等多领域的技术发展而逐渐成熟。特别是随着中国企业和社会的云化进程加快,5G技术的迅速普及,为视频信息的传播和爆发提供了基础条件。同时,从大众传播的角度来说,技术的发展创造出了新的内容,大众对于信息传播的可视化、可知化、可听化的需求日益加强,短视频、视频直播、云游戏、AR/VR等新的视频产品和场景不断诞生,也对技术的加速迭代和创新提出了新的需求。
海内外顶尖院校机构强强联手,共同引领场景创新
在本届大赛的参赛选手中,既有来自苏黎世联邦理工学院、南加州大学、帝国理工学院、清华大学、中国科学院大学等海内外数十所著名院校的科研团队,还有来自国家广电总局、国家天文台、联想集团、美团等业界专业机构的参与,可谓汇聚了国际视频云技术领域的精英力量。
参赛选手们的作品涉及在线教育、影视娱乐、公共服务、社交互动等多个领域,基于阿里云视频云的技术底座,结合行业痛点创造出了多样的创新场景应用。其中,有聚焦外卖行业食品安全的后厨实时直播、有打造线上新场景的3D全景云旅游、还有利用AI算法生成创意在线KTV等多个富有创意的作品。
除此之外,选手们还将关注点扩展到了公共安全、青少年健康、独居老人等社会热点问题,在作品中有利用视频分割技术搭建的汽车盲区监测系统、有关注独居老人安全的监控方案、还有改善青少年坐姿的预警检测……这些将视频云技术和生活场景融合的项目,令业界眼前一亮,体现了选手们对生活和社会的细致观察,用技术改变生活的创新思考。
比赛与产业结合,挖掘下一个音视频独角兽
本届大赛,还特别引进了业界专业的咨询公司、创投机构、创业导师,对大赛的优秀作品从产业的应用前景、商业的价值挖掘、技术的趋势引领等方面进行评估和指导,优秀项目不仅可以获得大赛官方的宣推资源,更有机会得到投资机构的青睐。
面对日益多元化的竞争赛道,越来越多的以音视频技术为基础服务的百亿、甚至千亿市值公司杀出重围,以ZOOM、抖音、快手、哔哩哔哩、Soul等一大批创业团队迅速成长成为垂直领域的巨头。并且,随着视频云技术边界的不断扩展,例如数字孪生、XR、数字艺术交互等新的领域也蓬勃发展,为产业不断带来惊喜。
相信通过此次大赛赛程的持续推进,必将会引领产业和技术对视频云创新的持续关注和投入,也会将吸引更多的资本和人才,推动下一个互联网mataverse时代的到来!
阿里云视频云,以“推动新内容新交互时代不断演进”为使命,在数字化时代,致力于成为音视频数智化的引领者、信息与交互的创新变革者。经过13年的发展,形成了视频直播、点播、音视频通信RTC、媒体处理、智能生产、云会议的全场景音视频解决方案,覆盖了从音视频智慧生产、高效处理、媒资管理、全球分发,到播放体验的全链路技术服务。
附复赛晋级名单


好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。