近日,天池FT-Data Ranker竞赛落下帷幕,天翼云智能边缘事业部AI团队(后称天翼云AI团队)凭借在大语言模型(LLM)训练数据增强方面的卓越研究,荣获大语言模型微调数据竞赛——7B模型赛道冠军。
FT-Data Ranker竞赛是一场面向大语言模型研究、以数据为中心的竞赛,吸引了包括来自北京大学、Hantec等知名高校、研究机构、企业的近400支优秀队伍参赛。天翼云在激烈的角逐中脱颖而出,展现出强大的技术创新能力。
数据在大语言模型(LLM)的能力打造中发挥着至关重要的作用,更好地构建和处理数据集成为大语言模型领域研究的重点。本次竞赛的核心在于独立、精确地评估和提升数据集质量,加速形成基准驱动的数据开发流程,增强大语言模型数据处理能力,提高该领域对数据质量和数据优化的理解能力。本次竞赛特别关注微调(Fine-tuning)阶段的数据,要求参赛者对原始数据集进行清洗、过滤和增强,利用新数据集对特定模型进行微调,并在测试集上进行性能排名。
面向竞赛通用选择任务,天翼云AI团队自主构建了数据处理流程,使用多个文档去重、字符串过滤算子对低质的大规模原始语料进行处理,从而获得高质量的模型训练数据;同时,面向文本摘要任务,天翼云AI团队创新地采用范式迁移(Paradigm Transfer)和模型能力蒸馏(Distillation)的方法,在设定模型随机性为0的前提下,利用生成式模型将原始语料中的问答进行数据处理和迁移,作为摘要数据,间接扩充训练数据。基于以上方法和策略,团队在原始语料基础上构建了一个内容丰富、多样化的任务训练集,帮助模型更好地学习和理解竞赛任务。该方案的创新性和实用性得到了评委的高度认可。
本次竞赛团队采用的大语言模型训练数据增强技术,已在天翼云团队模型研发和生产业务中广泛应用。例如,在天翼云政务大模型“慧泽”的研发中,通过广泛采用训练数据增强策略和算法来提升模型的各项能力,使得“慧泽“具备了政务知识全面、意图理解能力强、应用广泛以及安全可靠等优势,可高效赋能政策咨询、政务导办、12345坐席辅助、智能办公等场景,助力提升城市治理水平。
未来,天翼云将继续推进人工智能相关技术创新以及实践应用,以更加全面、智能的产品与服务,赋能千行百业数字化转型。
好文章,需要你的鼓励
OpenAI在最新博客中首次承认,其AI安全防护在长时间对话中可能失效。该公司指出,相比短对话,长对话中的安全训练机制可能会退化,用户更容易通过改变措辞或分散话题来绕过检测。这一问题不仅影响OpenAI,也是所有大语言模型面临的技术挑战。目前OpenAI正在研究加强长对话中的安全防护措施。
北航团队推出VoxHammer技术,实现3D模型的精确局部编辑,如同3D版Photoshop。该方法直接在3D空间操作,通过逆向追踪和特征替换确保编辑精度,在保持未修改区域完全一致的同时实现高质量局部修改。研究还创建了Edit3D-Bench评估数据集,为3D编辑领域建立新标准,展现出在游戏开发、影视制作等领域的巨大应用潜力。
谷歌宣布计划到2026年底在弗吉尼亚州投资90亿美元,重点发展云计算和AI基础设施。投资包括在里士满南部切斯特菲尔德县建设新数据中心,扩建现有设施,并为当地居民提供教育和职业发展项目。弗吉尼亚州长表示这项投资是对该州AI经济领导地位的有力认可。此次投资是谷歌北美扩张战略的一部分。
宾夕法尼亚大学研究团队开发出PIXIE系统,这是首个能够仅通过视觉就快速准确预测三维物体完整物理属性的AI系统。该技术将传统需要数小时的物理参数预测缩短至2秒,准确率提升高达4.39倍,并能零样本泛化到真实场景。研究团队还构建了包含1624个标注物体的PIXIEVERSE数据集,为相关技术发展奠定了重要基础,在游戏开发、机器人控制等领域具有广阔应用前景。