阿里也想做个“卖铲子”的人｜beplay官网体育注册界

阿里也想做个“卖铲子”的人

锌产业·

山竹

2023/11/08

在大模型时代，阿里既想像英伟达一样，成为那个“卖铲子”的人，也想通过“卖铲子”，继续成为下一个时代的平台型企业。

本文来自于微信公众号“锌产业”（ID：xinchanye2021），作者：山竹，beplay官网体育注册界经授权发布。

2023年的大模型之战，因算力需求之大，投入成本之高，被不少人视为巨头之间的掰手腕。

阿里的大模型是在今年4月面世，同年9月，阿里对外开源了7B/14B的通义千问大模型。

阿里云CTO周靖人说，“阿里是唯一一家主动宣布大模型开源的大公司。”

开源让阿里的大模型有了不一样。

不过，这一年，阿里在大模型上的重重布局，不只是想做个开源社区，而是也想成为那个“卖铲子”的人。

大模型的阿里往事

和国内大多数科技巨头一样，阿里涉足大模型相关技术领域，也并非从今年开始，而是可以追溯到四年前。

2018年10月，谷歌预训练大模型BERT发布，作为基于自家2017年发布的Transformer框架研发出的一种新型AI模型，BERT跳出了循环网络和卷积网络的经典AI范式，很好地发挥了“注意力机制”的结构特性，让AI模型第一次有了“通用”能力。

当时研发出BERT的谷歌两位科学家丝毫不留情面，狠狠地与OpenAI当时还惨不忍睹的初代GPT进行了一波对比。

BERT在当时风靡程度可以从两个方面窥见一斑：

首先，在AI刷榜成瘾的那几年，作为一个全新的NLP模型，BERT刷新了11项NLP性能纪录，成为了当年名副其实的最强NLP预训练模型；

其次是产业的疯狂跟进。

BERT发布仅仅一年后，Facebook的RoBERTa模型、斯坦福的ELECTRA模型，以及国内百度的ERNIE模型等就蜂拥而至。

阿里达摩院也是在2019年，在BERT基础上，推演出的预训练大语言模型structBERT。

自此之后，新的AI范式，也就是现在所谓的大模型，开始在不确定中悄悄成长。

在2019年踏足这一领域后，阿里在2021年推出了多模态大模型M6，又在2022年推出了“通义”大模型。

与此同时，为了研究大模型，阿里在达摩院内部整合机器智能、数据计算等实验室资源，以“通义千问”之名，构建起了通义实验室。

实际上，自M6开始，阿里大模型开启了自我进化之路，通义实验室通义千问负责人周畅在2023云栖大会上称，“我们最开始其实只是想做一个能看、听、说、使用工具的通用智能体。”

图片

而这，也是自1956年人工智能发展至今的几十年里，所有AI研究团队都在追逐的一个终极目标。

大模型新范式的出现，让这一领域不少科学家第一次感受到，他们离这一终极目标的距离，似乎已经很近。

从M6到通义千问

达摩院是阿里在2017年成立的一个科研属性的研究机构，背靠国内科技巨头，达摩院陆续汇聚了来自全球各领域的技术大牛。

尤其是人工智能领域，不少华人AI科学家，都曾被达摩院招入麾下。

这就不难理解，为什么2022年年初，达摩院能够对外发布模型、任务、结构统一的通用多模态模型M6-OFA。

在2022年9月的WAIC 2022上，时任达摩院副院长的周靖人称，M6-OFA正是通义大模型的底座。

然而，尽管这一模型在通用性上有了不小的进步，但就语言理解能力而言，这一模型始终无法很好地与人类进行自然交互。

直到这年11月，ChatGPT的出现，让达摩院同样在做大模型的AI科学家兴奋了起来，也是在这时，他们有了做通义千问的念头。

而阿里真正意义上的类ChatGPT大模型——通义千问的问世，是在阿里身处动荡之年的2023年。

2023年，从内部来看，阿里经历了架构调整、业务拆分、集团换帅，达摩院也经历了不小的人员流动和调整。

尤其是继杨红霞之后，原达摩院大模型团队另外两位核心人物司罗、徐盈辉的相继离职，让阿里新的大模型团队在百模大战前，进行了一次紧张的重新梳理。

从外部来看，在ChatGPT问世后，短短几个月里，迅国内速涌现出不少大模型明星团队，李开复、王慧文、李志飞、王小川等AI大牛带资入场，百度文心一言更是在这年3月迅速上线开启邀测，百模大战几乎瞬发。

阿里是在今年4月11日正式对外发布的类ChatGPT产品——通义千问，通义千问的发布，也宣告着阿里正式加入到了这场堪称“AI革命”的百模大战中。

时任阿里CEO的张勇这样解释这场变革：

“(大模型是)今天真正一项技术可能在未来十年二十年，形成重大历史契机、创造新产业的关头。”

于是，我们看到，在这之后，无论内部组织架构经历怎样复杂的调整，都没有影响阿里对大模型的团队、资源的巨量投入。

邀测顺利开启、新产品通义听悟、通义万相等相继发布，阿里核心业务钉钉、淘宝逐渐导入大模型，就连相对独立的C端品牌天猫精灵，也成了通义千问的试验田，早早传出了接入通义千问大模型的消息。

一切就像张勇在4月发布通义千问时说的那样，“阿里所有产品都将接入大模型(重新做一遍)已经成为阿里内部的共识。”

轮到钉钉做“试验田”

2023年，大模型急速发展，但不可否认的是，如今的大模型，仍处于商业化前夜。

要想将大模型生意做起来，各大公司必然需要一块试验田。和十年前云计算浪潮来临时，阿里首先将阿里云用到自家核心业务淘宝上一样，这次阿里再次对内下手。

只不过，这次最先被阿里选中的是钉钉。

被选上的钉钉受宠若惊，在通义千问发布仅仅一周后的春钉发布会上，钉钉总裁叶军笑称：

“以往我们钉钉做个产品，天天都是求着人家用，最近这一个月，每天都有人在在钉钉、微信上找我们说，能不能赶快(用大模型)做点功能给我们。”

也是在这场发布会上，叶军正式官宣“钉钉全面接入通义千问大模型”，并讨巧地用了一个程序员的标志性符号——“/”来命名嵌入到钉钉中的这一“大模型”功能。

这一被嵌入到钉钉中的名为“/”的功能当时被应用到了IM、文档、视频会议、应用开发等内嵌功能中，用以实现诸如写推广文案、生成配图、提取会议纪要、生成视频会议议程回顾、创建待办事项、发起群投票、生成表情包等功能。

可以看到，“钉钉”接入“通义千问”的过程和能力，与“微软Bing”接入“ChatGPT”本质类似，功能也相同。

不同的是，大模型为钉钉这样的应用带来了一次重生的机会。

作为钉钉的大家长，叶军对此深有体会。

“大家一直都说钉钉是一个非常臃肿的软件，钉钉的功能确实非常多，多到有时候我们都找不到在哪里，大模型为钉钉带来了一次跃迁的机会。”

也是借着这次大模型的机会，曾经在消费市场没什么存在感的钉钉，在这一年，收购了我来的钉钉推出了“钉钉个人版”。

钉钉个人版的独特之处在于，官方基于我来(钉钉收购的协同办公团队)在这个版本上打造了一个个人空间，用户在钉钉上通过大模型检索或生成的内容，都可以存到这个个人空间中。

叶军说，“将AI创作的内容存下来，基于AI创作的内容编辑修改(应用到编写邮件、方案创作中)，可能将是未来每个人工作的常态。”

这是钉钉基于大模型做出的改变，是叶军看到的钉钉的机会。

而钉钉，也成为阿里口中“国内第一个将大模型规模落地的应用”。

模型迭代两三事

互联网公司对技术感知度足够高，于是有了阿里快速跟进类ChatGPT大模型;

钉钉跑得足够快，于是有了几乎与阿里发布通义千问同时的官宣接入，甚至还手把手教了一遍各位“看官”如何在钉钉中用大模型。

不过，这些只是百模大战的开始。

在ChatGPT一路小步快跑，迅速更新到到了GPT-3.5、GPT-4一样，国内的大模型也一边公测、一边应用，一边也在快速进行模型迭代。

阿里是在上周的云栖大会上正式对外发布的通义千问2.0版本，在此之前，包括华为、百度、科大讯飞等大厂和独角兽都陆续更新了大模型的版本和能力。

从通义千问面世到2.0版本发布，中间经历了半年的时间，这半年是阿里与全球其他大模型团队紧张竞速的半年。

在这半年里，阿里从各个渠道不断努力招人来扩充通义实验室的战力，加紧技术研发和模型训练。

据周畅在云栖大会上透露，“由于资源有限，我们这半年整体是在围绕Scalling Law做技术探索。”

所谓Scalling Law(规模定理)，指的是算力、参数规模与模型测试损失之间的函数关系。

周畅所说的“围绕Scalling Law做技术探索”，实际上就是基于小模型研究数据分布、清晰规则、数据配比，在模型算力和参数规模扩大时，如何提升模型能力。

基于这些工作，周畅和他的团队将通义千问的预训练语料提升了一倍。

在预训练语料得到提升后，模型训练效率成了阻碍算法迭代的又一关键问题，而在大规模集群里，任务稳定性也存在很大挑战。

于是，阿里通义千问团队又通过对底层灵骏集群的稳定性、网络效率，中间层各种算子优化，以及框架层的设计机制进行了着重攻关。

基于这些工作，阿里通义千问团队又将模型训练效率提升了30%，训练稳定性提升了15%。

图片

而通过对Scalling Law的探索，通义千问团队最终将积累下来的这些经验应用到通义千问模型训练中，由此也就有了阿里上周发布的通义千问2.0。

不为模型，为工具

在上周云栖大会上，随着通义千问2.0的发布，周靖人还对外做了另外两项发布：

一项是整合了此前阿里基于通义千问的各类模型，统一对外梳理并发布了8大行业模型；

另一项则是更新并发布了阿里的大模型基础设施，包括模型训练平台PAI灵骏、模型推理与服务平台PAI灵积，以及大模型应用开发平台百炼。

然而，这些并不是最重要的。

锌产业认为，作为蔡崇信、王坚两位重回舞台见证阿里新时期的这场云栖大会，最重要的是，作为阿里大模型研发一号位的周靖人，明确了大模型时代阿里的定位：

——不是做一个C端产品(通义千问)，而是要将模型的能力释放出去，继续做B端生意。

基于这样的定位，周靖人也明确了阿里大模型的三个商业模式：

第一，为创业公司、高校和机构开发自己的通用大模型，提供算力、工具和服务；

第二，为有较强AI能力的团队和开发者提供模型开发平台，供这些团队和开发者结合自己的行业知识、第三方通用大模型，开发自己的专用大模型(基础模型)；

第三，为希望基于基础模型做二次开发的团队，提供基础模型和服务。

总结来看就是，阿里在大模型时代想做的是为想要开发“通用大模型”、“行业大模型”和“基于大模型的应用”的三类人群提供三样东西：

一曰工具，即算力平台、训练平台、开发平台，当然也包括其他各种云服务；

二曰模型，即“通义”家族，以及其他三方开发者开发出的各种基础模型；

三曰生态，即魔搭社区，通过魔搭社区既要做一个丰富的模型生态，也要做模型背后的开发者生态。

显然，在大模型时代，阿里既想像英伟达一样，成为那个“卖铲子”的人，也想通过“卖铲子”，继续成为下一个时代的平台型企业。

大模型平台企业人工智能

还可输入 300个字

发布留言