6月7日,国际人工智能顶会CVPR 2023举办的第一届大模型挑战赛(CVPR 2023 Workshop on Foundation Model:1st foundation model challenge)落下帷幕,本次比赛吸引了来自全球著名高校和知名企业的1024名参赛者。经过为期2个月的激烈角逐,天翼云AI团队(队名CTRL)在多任务大模型赛道中表现出色,荣获本届大赛冠军。

CVPR会议是由IEEE主办的关于计算机视觉和模式识别的国际学术会议,收录了该领域最新的研究成果和技术发展,是全球计算机视觉三大顶级会议之一。
传统的视觉模型生产流程通常采用单任务,从零开始训练,各个任务之间无法相互借鉴。由于单任务数据有限,导致模型的实际效果过于依赖任务数据分布,通常对于不同场景的泛化效果不佳。
近年来,大数据预训练技术迅速发展,通过利用大量数据学习通用知识并将其迁移到下游任务中的方法,本质上实现了不同任务之间的相互借鉴。基于海量数据获得的预训练模型具有较好的知识完备性,即使在下游任务中使用少量数据进行微调,仍然能够获得良好的效果。然而,基于预训练+下游任务微调的模型生产流程需要为每个任务单独训练模型,这在研发上消耗了大量资源。相比之下,多任务训练方案通过使用多个任务的数据训练一个功能强大的通用模型,可以直接应用于处理多个任务,从而有效提高模型生产效率和泛化能力。
在本次竞赛中,参赛者需要使用单一模型同时完成交通场景下的分类、检测和分割三个代表性任务的联合训练。天翼云AI团队在模型设计方面凭借丰富的算法开发经验,选择了参数量仅为第2名60%的预训练模型,用更少的参数却获得了更高的精度。
为了解决多任务训练中各分支损失函数和梯度不一致导致收敛缓慢的问题,天翼云AI团队采用了损失均衡和梯度尺度统一的方法,以此来平衡各任务分支的损失函数,并使梯度具有一致的尺度,从而提高模型的训练效率和收敛速度。此外,天翼云AI团队还通过精心设计的任务专属特征金字塔和注意力机制,使各分支任务能够利用骨干网络中对自身任务更有效的特征,进一步提升了整体模型的精度和性能。
通过以上模型设计和训练策略,天翼云AI团队在竞赛中取得了优异成绩,充分展示了在图像、音频及多模态领域的深厚积累和持续创新能力。未来,天翼云将继续在广阔的人工智能领域进行创新和探索,以更先进的技术和卓越的成果惠及更多用户,为千行百业的数字化发展提供支撑。
好文章,需要你的鼓励
Allen AI研究所联合多家顶尖机构推出SAGE智能视频分析系统,首次实现类人化的"任意时长推理"能力。该系统能根据问题复杂程度灵活调整分析策略,配备六种智能工具进行协同分析,在处理10分钟以上视频时准确率提升8.2%。研究团队创建了包含1744个真实娱乐视频问题的SAGE-Bench评估平台,并采用创新的AI生成训练数据方法,为视频AI技术的实际应用开辟了新路径。
联想推出新一代NVMe存储解决方案DE6600系列,包含全闪存DE6600F和混合存储DE6600H两款型号。该系列产品延迟低于100微秒,支持多种连接协议,2U机架可容纳24块NVMe驱动器。容量可从367TB扩展至1.798PiB全闪存或7.741PiB混合配置,适用于AI、高性能计算、实时分析等场景,并配备双活控制器和XClarity统一管理平台。
中科院团队首次系统评估了AI视觉模型在文本压缩环境下的理解能力,发现虽然AI能准确识别压缩图像中的文字,但在理解深层含义、建立关联推理方面表现不佳。研究通过VTCBench测试系统揭示了AI存在"位置偏差"等问题,为视觉文本压缩技术的改进指明方向。