100天加速度阶跃星辰大模型“全家桶”首次亮相万亿参数性能逼近GPT-4

发布时间：2024-07-04 17:24:38 来源：

标签：

导读今天【100天加速度阶跃星辰大模型“全家桶”首次亮相万亿参数性能逼近GPT-4｜直击WAIC 2024】登上了全网热搜，那么【100天加速度阶跃星辰...

今天【100天加速度阶跃星辰大模型“全家桶”首次亮相万亿参数性能逼近GPT-4｜直击WAIC 2024】登上了全网热搜，那么【100天加速度阶跃星辰大模型“全家桶”首次亮相万亿参数性能逼近GPT-4｜直击WAIC 2024】具体的是什么情况呢，下面大家可以一起来看看具体都是怎么回事吧！

如果有100天，你能学会做什么？

AI效率工具“跃问”是这样告诉我的：利用100天的时间，可选择学会一门新的语言，如法语、西班牙语或日语；100天可学会一门编程语言，如Python；100天可学会演奏吉他、钢琴或小提琴等乐器；100天也可以学习绘画、摄影、视频制作、烹饪等等。

而跃问背后的缔造者“阶跃星辰”给出的答案是：从万亿参数规模以及多模态，到应用落地的大模型“全家桶”系列。

7月4日举行的2024世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）上，首次参展的阶跃星辰发布万亿级参数MoE（混合专家）大语言模型Step-2正式版，Step-1.5V多模态大模型，以及Step-1X 图像生成大模型。

不只是模型技术能力。同时在WAIC 2024期间，阶跃星辰还首秀与上影合作的AI互动体验，全面展示AI大模型的应用落地效果。

阶跃星辰创始人、CEO姜大昕认为，多模态理解和生成的统一是通向AGI（通用人工智能）的必经之路。模型参数量决定模型能力上限，Scaling Law 全面跨入万亿参数是通向 AGI 的另一核心，而通用大模型的能力决定了垂直领域大模型的上限。

随着新一轮 AI 技术革新浪潮席卷全球，越来越多的人认识到 AI 推动社会与经济发展中的巨大潜力，因此，作为国内领先的 AGI 公司，阶跃星辰正利用大模型技术和应用推动中国在全球 AI 领域的持续领先。

亮相100天，阶跃星辰“暴力”出万亿大模型奇迹

自计算机科学家图灵在20世纪50年代提出人工智能（AI）概念以来，这一领域便经历了数十年的技术迭代与沉淀。从最初的符号主义到后来的联结主义，再到如今深度学习的崛起，每一次技术的飞跃都为 AI 注入了新的活力。

2022年底，AI 聊天机器人ChatGPT的横空出世，就像是一场突如其来的盛夏大雨，以其前所未有的速度和影响力，迅速席卷全球，开启了 AI 的新纪元。

同时，这也让我们看到了生成式 AI 产业从青涩少年成长为壮年巨人的清晰轨迹。

2024年3月，成立不到一年的阶跃星辰带着Step-1千亿参数语言大模型，Step-1V千亿参数多模态大模型首次公开亮相，引发关注。

阶跃星辰创始人和 CEO 是前微软全球副总裁，微软亚洲互联网工程院首席科学家姜大昕博士，同时也是算法负责人。核心研发团队聚集来自微软、谷歌、字节、腾讯等公司的顶尖人才。公司以实现AGI为目标，专注研发通用大模型，基于自研通用大模型打造新一代“Ai +”应用，“智能阶跃，十倍每一个人的可能”。

时隔仅100天，阶跃星辰再度发力，推出万亿参数规模的大语言模型——Step-2正式版。

具体来说，阶跃星辰Step-2 万亿参数语言大模型正式版，采用MoE 混合专家模型架构，在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感全面逼近GPT-4。

阶跃星辰透露，其团队在设计 Step-2 MoE 架构时候选择迎难而上，采用创新算法架构，选择从头开始训练 MoE 模型，虽然训练难度高，但能获得更高的模型上限。

通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计，让 Step-2 中的每个“专家模型”都得到充分训练，不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分普通的Dense模型。

“千亿参数的GPT-3.5模型是一个重要的分水岭。要达到 GPT-4 的万亿规模参数，各个维度的要求都上了一个台阶。训练万亿模型需要的算力集群，高效稳定的训练，高质量的数据，加上驾驭新颖的 MoE 架构。这里面有任何一个短板，Scaling Law就很难攀登上去。”姜大昕告诉钛媒体App。

因此，万亿参数的大模型当然需要大量的数据、算力训练。在 Step-2 训练过程中，阶跃星辰系统团队突破了 6D 并行、极致显存管理、完全自动化运维等关键技术。

另外，此次阶跃星辰还发布全新Step-1.5V 多模态大模型，在多模理解和生成统一的技术路线上快速突破。

其中，相比此前的Step-1V，新的1.5V在感知能力、推理能力、视频理解能力等方面均有大幅升级。而且，Step-1X 图像生成大模型采用全链路自研的 DiT模型架构，包括600M、2B、8B（80亿）三种不同的参数量版本，提供给客户差异化和性价比选择。

比如这张具有中国元素的“上海东方明珠电视塔”，就是由Step-1X生成的。

值得一提的是，基于阶跃星辰Step系列通用大模型的技术创新和广泛的落地应用实力，阶跃星辰 Step 系列通用大模型荣获 WAIC 2024 SAIL 之星。

持续扩大商业化，大模型下半场争夺“第一梯队”

阶跃星辰不止提供超强的大模型能力和方案，应用落地层面也在持续扩大。

如果说ChatGPT引爆的2023年是世界发现生成式 AI 的一年。那么2024年，已经成为企业真正使用 AI 大模型和生成式 AI 技术并从中获得商业价值的一年。

作为新生产工具，AI 正融入社会生产各环节，在制造、医疗、教育、交通、农业等多个领域，人工智能已得到广泛应用，推动传统行业的转型升级和社会经济结构的变革。

数据显示，中国已经建成的2500多个数字化车间和智能工厂中，经过AI改造的工厂研发周期缩短了约20.7%、生产效率提升了约34.8%，大大提升了制造效率。另据世界经济论坛《2023年未来就业报告》估计，到2025年，自动化技术和 AI 在全球范围内将影响近40%的工作岗位。

今年3月，阶跃星辰团队公布了两款面向消费端的自研大模型产品——效率工具跃问和 AI 开放世界平台冒泡鸭，目前均已全面开放使用。

其中，钛媒体AGI用跃问提问“钛媒体是一家怎样的公司”、“上海有哪些标志性建筑”等问题，都可以得到逻辑清晰的回答。它不仅可以提供信息查询、语言学习、创意写作、图文解读等多样化服务，而且能够结合联网搜索、代码分析增强（POT）等能力，高效理解和回应用户的查询，提供连贯且相关的对话，帮助用户在工作、学习、生活等各种场景下解决问题。而“冒泡鸭”则提供了探索故事、创作角色，沉浸属于自己的开放世界的产品。

除此以外，今年WAIC期间，正值《大闹天宫》制作完成60周年，阶跃星辰联合上影联合推出了一款AI互动体验，将最先进的 AIGC 和大模型技术与《大闹天宫》情境深度融合，用当代全新视角领略中国传统文化的魅力、回顾经典动画作品艺术成就，同时也为广大创作者打开无限的想象空间。

“我把模型和产品的关系比喻成灵魂和皮囊。大家一定听过一句话，好看的皮囊千篇一律，有趣的灵魂万里挑一。我们希望灵魂能更加有趣一点才能显示出产品的不同。”姜大昕今年3月对钛媒体AGI表示。

同时，阶跃星辰在内容创作、金融财经等领域与合作伙伴达成深度合作，共同探索面向C端用户的创新应用。同时，阶跃星辰还推出开放平台“繁星计划”，面向行业优秀企业与开发团队开放 API，共同加速 AI 在行业场景的应用落地与繁荣。

当前，中国拥有万亿 AI 产业规模、13亿人的参与，而且中国政府全面鼓励 AI+产业发展，促使中国在 To C 端的 AI 应用会比To B 端有更大规模效应。而阶跃星辰顺势而为，利用从头自研的万亿大模型技术实力，推动中国 AI 产业蓬勃发展。

无论是大模型技术、研发、人才，还是大模型落地应用、规模化回报，从3月首次亮相到今天，Step系列模型矩阵从万亿参数到多模能力取得全面进展，围绕阶跃大模型，逐渐形成丰富的产业应用生态圈，重点行业领先落地。

因此，阶跃星辰已经成为“中国大模型创业公司第一梯队”。

姜大昕曾向钛媒体AGI等坦言，ChatGPT是一个划时代的技术变革，大模型创业之路非常长。“我一定要自己下场，以最快速、最灵活、最全面的方式来投身到变革中去。”

（作者｜林志佳，编辑｜胡润峰）

以上就是关于【100天加速度阶跃星辰大模型“全家桶”首次亮相万亿参数性能逼近GPT-4｜直击WAIC 2024】的相关内容了，希望对大家有所帮助！

猜你喜欢

最新文章