大语言模型微调数据竞赛，天翼云斩获冠军！

近日，天池FT-Data Ranker竞赛落下帷幕，天翼云智能边缘事业部AI团队（后称天翼云AI团队）凭借在大语言模型（LLM）训练数据增强方面的卓越研究，荣获大语言模型微调数据竞赛——7B模型赛道冠军。

　　FT-Data Ranker竞赛是一场面向大语言模型研究、以数据为中心的竞赛，吸引了包括来自北京大学、Hantec等知名高校、研究机构、企业的近400支优秀队伍参赛。天翼云在激烈的角逐中脱颖而出，展现出强大的技术创新能力。

　　数据在大语言模型（LLM）的能力打造中发挥着至关重要的作用，更好地构建和处理数据集成为大语言模型领域研究的重点。本次竞赛的核心在于独立、精确地评估和提升数据集质量，加速形成基准驱动的数据开发流程，增强大语言模型数据处理能力，提高该领域对数据质量和数据优化的理解能力。本次竞赛特别关注微调（Fine-tuning）阶段的数据，要求参赛者对原始数据集进行清洗、过滤和增强，利用新数据集对特定模型进行微调，并在测试集上进行性能排名。

　　面向竞赛通用选择任务，天翼云AI团队自主构建了数据处理流程，使用多个文档去重、字符串过滤算子对低质的大规模原始语料进行处理，从而获得高质量的模型训练数据；同时，面向文本摘要任务，天翼云AI团队创新地采用范式迁移（Paradigm Transfer）和模型能力蒸馏（Distillation）的方法，在设定模型随机性为0的前提下，利用生成式模型将原始语料中的问答进行数据处理和迁移，作为摘要数据，间接扩充训练数据。基于以上方法和策略，团队在原始语料基础上构建了一个内容丰富、多样化的任务训练集，帮助模型更好地学习和理解竞赛任务。该方案的创新性和实用性得到了评委的高度认可。

　　本次竞赛团队采用的大语言模型训练数据增强技术，已在天翼云团队模型研发和生产业务中广泛应用。例如，在天翼云政务大模型“慧泽”的研发中，通过广泛采用训练数据增强策略和算法来提升模型的各项能力，使得“慧泽“具备了政务知识全面、意图理解能力强、应用广泛以及安全可靠等优势，可高效赋能政策咨询、政务导办、12345坐席辅助、智能办公等场景，助力提升城市治理水平。

　　未来，天翼云将继续推进人工智能相关技术创新以及实践应用，以更加全面、智能的产品与服务，赋能千行百业数字化转型。

来源：业界供稿

天翼云

0赞

好文章，需要你的鼓励

大语言模型微调数据竞赛，天翼云斩获冠军！

来源：业界供稿

2023

12/18

16:47

分享

点赞

科学家研究证明：我们并非生活在模拟现实中

苹果与博通签署高达300亿美元芯片采购协议

零信任网络访问如何从根本上消除隐性信任

Crusoe扩展AI平台：推出无服务器微调与自助推理部署

Oratomic完成3亿美元融资，仅需2万个量子比特造出实用量子计算机

Anthropic将Claude Cowork智能体扩展至网页端与移动端

OpenAI发布延迟模型，美国AI监管混乱引发企业隐忧

微软押注企业AI需要工程师而非庞大销售团队

Anthropic揭开Claude AI黑箱：J-space技术带来模型内部可见性突破

英格兰银行获授权监管亚马逊、谷歌等科技巨头

酷睿Ultra战力Plus，英特尔携九大合作伙伴亮相Bilibili World 2026

iOS 26.5.2正式发布，包含逾20项安全修复，Claude协助发现漏洞

天翼云CPU实例部署DeepSeek-R1模型最佳实践

国云注智 天翼云打造智算平台建设新样板

数据库市场或迎变局 天翼云TeleDB打造企业数据管理最优解

稳坐头把交椅 天翼云蝉联中国专属云服务市场第一

打通算力网络“最后一公里”天翼云以科技创新引领算力互联互通新趋势

智算云生态成果展亮相数字中国建设峰会，开启数智新篇章

武汉潮玩新去处 天翼云体验中心带你领略未来科技

穿越周期，天翼云IaaS+PaaS全年市场份额跃居中国公有云市场第三！

平均性能提升50%以上，天翼云第八代升级款弹性云主机重磅上线

2023年度技术卓越奖名单揭晓，天翼云TeleDB数据库荣誉上榜

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

国云注智天翼云打造智算平台建设新样板

数据库市场或迎变局天翼云TeleDB打造企业数据管理最优解

稳坐头把交椅天翼云蝉联中国专属云服务市场第一

武汉潮玩新去处天翼云体验中心带你领略未来科技