这周,对于国内的大模型行业而言可以说热闹非凡。先是腾讯混元大模型宣布正式开源。随后,来自阿里云的大模型产品通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,成为开源领域最强大模型之一。从学习到追赶,再到如今开源和国外一流大模型一较高下,国产大模型可以说终于进入核心竞技场,同时也预示着人工智能产业能够在更广泛场景应用的“下半场”要来了!
国产大模型边“赶路”边“开路”
从ChatGPT的一鸣惊人再到Sora的横空出世,人工智能大模型的出现,除了让大众对技术的未来有了重新的认识外,也为技术的发展开拓了全新的赛道,一时间涌入人工智能大模型领域的参与者可谓是络绎不绝,而在众多的“赶路”者中,国产大模型凭借着不懈地努力,已经在中文大模型赛道上成为了领跑者。
“根据权威基准OpenCompass的测评结果,通义千问2.5得分追平GPT-4 Turbo,是该基准首次录得国产大模型取得如此佳绩。”日前,阿里云正式发布通义千问2.5,据介绍,模型性能已经全面赶超GPT-4 Turbo。“这个版本代表了全方位能力的提升。在文档处理上,通义千问支持单次最长1000万字、100个文档,覆盖PDF、Word、Excel等多种文件格式,可解析标题、段落、图表等多种数据格式,让模型能够快速理解中间的内容,进行归纳总结。”阿里云智能集团首席技术官周靖人表示,在中文语境下,通义千问2.5的文本理解、文本生成、问答建议和安全风险等多项能力已经超越了GPT-4。
在业内人士看来,大模型技术爆发一年多以来,行业竞争态势可谓激烈而又多变,坚持在自研大模型方面的持续投入不仅体现了中国科技企业在新技术方面的重视,更是体现了在对新技术带来的发展空间方面,中国的科技企业有着更长远的布局。
就在阿里云发布新的通义千问2.5后不到一周,另一家国内科技企业巨头腾讯就宣布旗下的混元文生图大模型全面升级并对外开源,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。据介绍,这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。升级后的混元文生图大模型采用了与sora一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。据南方日报记者了解到,混元文生图大模型采用的DiT架构是基于Transformer架构的扩散模型,展现出了比其他大模型更好的扩展性,有助于进一步提升模型的生成质量及效率。
“我们原来其实走的是闭源这条路线,包括去年都是把模型迭代,再把接口开放给大家用。我们发现在开源社区能让大家都参与进来,这件事情是非常好的,大家共建这件事情能走得更快。”腾讯文生图负责人芦清林坦言,在大模型这条赛道上,腾讯这样的科技企业除了要将技术能力提升外,通过成为“开路”者的角色让大模型应用更广泛,不仅重要,也是必要。
开源助大模型走向“应用为王”
“如果现在任何一个应用或业务场景,还不考虑用AI技术的能力去整合,那短期或中期一定会有很多担忧和忧虑。”周靖人判断,在2026年,应用大模型的企业比例将从现在的5%暴增至80%。据周靖人透露,阿里内部各条战线也在拥抱AI,第一个阶段已经完成,但没有止境。“不管是淘系,还是钉钉、夸克等,都有自己的业务的场景,这不简简单单是一个AI能力,还涉及业务创新、产品创新。”
同样在内部将大模型的应用放在重要位置的还有腾讯。“腾讯的业务场景非常多,包括外部的,我们希望能在更广泛的应用场景用起来。”芦清林在谈到混元大模型开源后的应用场景时坦言,应用的落地才能体现投入大模型研发的价值。“去年我们非常深入地跟广告的场景做了一些协作,今年会跟社交包括QQ、企业微信很多业务场景做联动,跟他们合作做一些新的技术能力。同时还跟腾讯游戏做非常深的一些技术合作,也希望能在美术场景应用起来。”芦清林指出,腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。“此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业加速发展。”
互联网巨头们对大模型应用的先知先觉,同样被市场敏锐的察觉,而通过开源大模型,无论是传统行业还是创业者,都能够从大模型的应用中找到价值和机会。
据南方日报记者了解到,阿里云通义系列大模型已经服务了包括新浪微博、中国一汽、完美世界、蓝凌科技在内的9万家企业用户。
“小爱同学发布七年来,每天被唤醒超过2亿次,已精通连续对话、一句话多指令、高噪唤醒等功能。”小米集团小爱总经理王刚表示,“小爱还具备了多模态AI生成的能力,也会让手机、汽车等智能终端的多维度感知数据发挥出更多价值。”据介绍,如今汽车界的“网红”小米汽车SU7就是大模型应用的“生动例子”,“车上的‘小爱同学’可遵从乘客的自然语言指令,在车载中控屏画出‘小猫爬上窗台’等画面,增加亲子互动和乘车乐趣。通过优化算法、蒸馏模型,大模型在确保图片质量的前提下可做到5秒出图,将出图时间缩短一半。”
面对开源大模型带来的“应用为王”新趋势,周靖人认为智能技术的升级一定会催生一些新的业务场景,出现所谓的AI原生应用,这是技术发展必然的趋势。“如果只有当前的这些SaaS产品,没有新的创新,反而会变得不正常。”
“对于电商的商家而言,借助我们的工具,能够形成专属于商品的高效内容生成解决方案。”极睿科技CEO武彬向南方日报记者表示,借助开源大模型,能够让更多的创业者在不同的领域找到大模型应用的场景和机会,“我觉得各个行业都可以通过AI的能力来更高效、更健康、更良性地去发展。”
“随着AI技术的发展,模型能力的提升,会有越来越多的行业积极拥抱,在三个月、六个月后,能够看到全行业更大规模的爆发。”在周靖人看来,大模型的落地将是一个“never ending story”。
■产业观察
拼“开源”,比“低价”
国产大模型出路在哪?
国产大模型扎堆“放大招”可能是偶然,但是大家的方向却是必然的:无论是开源还是低价,目的都是希望自己的大模型能够获得更多的使用,得到更广泛的应用。而这里面的关键,则是大模型是否选择开源。
开源大模型允许任何人访问和使用源代码,而闭源大模型则由单一实体控制,通常需要付费使用。与iOS(苹果研发的闭源操作系统)和Android(谷歌旗下的开源操作系统)的发展历史相似。
和多年来科技领域的发展轨迹相同,当大模型被看作是和操作系统同样重要的“基础设施”后,自然就走到了“是否开源”的这个路口。
开源还是不开源,这个纯粹是企业的选择,也各有各的判断和支持者。
但是从iOS和Android的发展来看,显然如今Android的设备和应用数量要比iOS多得多,而且在不少人看来,正是因为有了开源的Android,移动互联网才会发展到今天这个繁荣的景象。但是另一边的iOS,也并非不成功,依靠着iOS带来的持续受益,苹果已经成为了这个地球上最赚钱的科技企业。
在今年,包括阿里云的通义千问和腾讯的混元大模型,都选择了开源的方式,希望成为未来大模型领域的Android,这对于用户而言无疑是件好事,毕竟会激发更多应用使用大模型,同时基于开源大模型也会有更多的原生应用诞生,这会让大模型更快地得到应用,让更多的用户能够更便捷更广泛地把大模型用起来。
而与此同时,闭源大模型也不是没有招,字节跳动依靠低价揽客,毕竟自己生态足够大,而价格又足够低的话,顾客和用户还是会有的。而百度更是坚定地认为“使用大模型不应该只看价格,更要看综合效果”,并重申“闭源大模型+公有云”比开源大模型性能更好、成本更低。
但是,如今无论是选择开源还是闭源的大模型,都不应该忽视iOS和Android背后两个科技巨头苹果和谷歌为系统性能所作出的努力,毕竟在当年的移动互联网操作系统之争,也是像今天大模型之争一样群雄并起的:黑莓的BlackBerry 10、Palm的webOS、三星的Bada、微软的Windows Phone、诺基亚的MeeGo等竞争对手和iOS与Android一样,在市场中有着雄心壮志,都有成为移动互联网主流的决心。但是如今看来,除了iOS和Android,就算其他操作系统背后也是巨头撑腰,也只是行业曾经的“参与者”。
所以从历史发展的进程不难看出,虽然大模型应用的趋势已经成为共识,但是谁能成为剩下来的“iOS与Android”,还要拼真正的实力。
毕竟就在各个中国大模型都在宣称已经赶超后,OpenAI“突发”官宣推出名为GPT-4o新旗舰AI模型,GPT-4o中的“o”代表“omni”,意为“全能”。OpenAI官网介绍称,GPT-4o向更自然的人机交互迈近了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。而另一边,微软也紧跟着推出了Gemini 1.5 Pro,不仅面向所有人开放,上下文窗口还从100万token直接一步迈向200万,一口气能读1500页PDF。
看着行业领先的领跑者的“硬实力”,国产大模型们还是得认清自己的问题,找到合适自己的路径,否则日后也只能是那些曾经的“参与者”。