大模型的未来,快手在自己身上找答案
2024 年上海举办的 WAIC(世界人工智能大会),带来了出租司机口中「上海整个上半年最堵的两天」,检票口久违的出现了许多黄牛,这一切都意味着国内对大模型的关注从 2023 年小圈子里的迅速升温,到现在的白热。
所有人都在想尽办法靠近大模型,所有公司都在寻找一种对大模型来说合适的描述方式,但从目前来看,大多都悻悻而归。大模型的潜力无可置疑,所以总会有带着好创意的亮眼产品和工具不断冒出来,但这些产品和工具往往没有长久生命,更像一种无法以点带面的零敲碎打。而对于怎么用大模型也在浪潮涌起之后开始失焦。
这中间,大模型与大模型初创公司之间的独特关系也开始怯魅。大模型竞争的入场券并不只握在大模型公司手里,反之,更多带着场景和需求入场的科技公司开始展现出后劲。以大模型为「锤」去找「钉子」的兴奋劲过去之后,大模型能力与我们当下所处的以互联网为底色的信息时代之间,最平顺的关系到底是什么,成了新的真问题。
01「一家以 AI 为核心的要素公司」
WAIC 上,快手展位中一个叫「AI 关小芳」的数字人被媒体和观众围的水泄不通,她正在像人类一样,能够察言观色并与观众实时对话,且带有 GPT-4o 不具备的表情和肢体动作,是一个真正意义的多模态输入输出的实时互动智能体。
快手展位「AI 关小芳」数字人 | 图片来源:视觉中国
而另一片场地上,快手视频生成大模型明星「可灵」发布了一系列重磅升级和 AIGC 短剧,台下欢呼声此起彼伏。
对外界来说,AI 能力是抽象的,带货主播和短剧显得更有体感;一家 AI 驱动的科技公司是抽象的,而从内容生产、内容匹配和内容分发所定义的一家内容平台公司则是具体的。
从内容生产到内容匹配和内容分发,快手从来都是一家以 AI 为核心的要素公司。WAIC 的快手分论坛上,快手高级副总裁、快手主站业务与社区科学线负责人盖坤重新强调了这一点,这是这家公司一切大模型战略的起点。
核心业务的性质决定了一家公司与 AI 能力的交集在哪里。
快手高级副总裁、快手主站业务与社区科学线负责人盖坤 | 图片来源:快手
即便具备 AI 的基因,一家业务成熟的公司向一种新技术的转身也往往并不会最快。2023 年,快手上的月活跃用户突破 7 亿,电商的全年 GMV 首次突破万亿规模,直播、短剧业务开始起势,新的技术对自身业务的重塑是风险与机遇并存。而当大模型作为一种新事物度过了最初的燥热,对这样一种技术的热捧也会回落到地面——我们到底该怎么用上大模型的能力?
重新强调了一家以 AI 为核心要素公司属性的快手,给出的回答是所有内容层面在 AI 能力上的升级。
「快手的短视频推荐是用户最容易看到的核心技术,做好推荐的背后还有两块重要的内容相关技术。首先是内容理解,做好推荐,我们需要对背后的内容进行深入的理解,所以这涉及到内容理解的技术;我们还需要激发大量的用户生产和创作视频,所以我们还要有非常深厚的内容生产技术。」
「所以整个快手的 AI 技术会围绕三大块:内容推荐、内容生产、内容理解。」盖坤表示。
快手的大模型战略非常具体——这场大模型的竞争,本质上比以往任何时候都更是一场内容之争。而这些已经在生态里显露头角的产品背后,是快手在 AI 层面的长期积累,以及迅速建立起的一个清晰的大模型家族。
02 大模型驱动的「AI 关小芳」
今年快手在大模型方面动作频频,其中很多人关注到了「AI 关小芳」。
目前快手是全球 Top2 的短视频直播平台,财报显示今年 Q1 快手日均 DAU 达到 3.94 亿,每个用户的日均使用时长达到了 129 分钟——也就是说有 4 亿用户每天大概花将近 2 小时在快手平台上,这占了中国互联网总时长将近 10%。
人的聚集之外,快手正在形成一个巨大的消费场景。无数的买家和卖家在快手平台进行电商交易,2023 年快手电商的月均动销商家数同比增长超 50%,全年营销客户数同比增长超 100%,电商和线上营销业务的增长均快于整体市场平均增速,其中去年四季度快手短视频电商商品交易总额的同比增速超 100%。除了 1.18 亿的全年 GMV,去年快手整年的总收入也已经突破了千亿,有 1135 亿的收入规模。
此时一个可以进一步拓宽直播电商想象力的数字人,理所当然的站在快手的舞台中央。
「AI 关小芳」是由 AI 驱动,使用快手全自研的快意大语言模型、ASR、TTS 大模型以及数字人驱动生成模型的多模态数字人智能体。可识别用户体征、语音、形态等信息,具有多模态感知能力与智能化决策及执行能力,并以完全拟真的语气、话术、表情、动作等进行回复。具备低延迟、高拟人表现力的特点,给用户与真人相似的沉浸式交互体验。
多模态互动能力让「AI 关小芳」的能够处理和理解多种类型的信息。
像人类感受世界的逻辑一样,「AI 关小芳」在感知能力方面使用自研的感知大模型和高性能感知专家模型,能够精确感知情绪、手势、人脸属性、头发、衣服和场景等信息。
在核心的语音识别能力上,「AI 关小芳」使用自研的新一代 ASR 大模型,融合了当前最先进的语音预训练方法,并依托海量优选音频数据打造而成。该模型不仅支持普通话、英语及多种方言,还以其卓越的性能表现和极低的推理时延脱颖而出,广泛应用于快手的多种场景。
理解了外部世界之后,受到考验的就是「AI 关小芳」的表达能力。
「AI 关小芳」已经不是木讷的问答机器。它在对话能力方面使用了自研的情感陪伴快意大模型,该模型使用海量人物卡和角色对话数据进行情感陪伴能力的微调,显著强化了模型在类人对话上的表现,该模型目前在类人对话评测榜单 CharacterEval 取得总分第一的结果。实际应用中,仅需要少量 system prompt 提示即可精准复刻人物的说话风格和内在性格,做到情商和智商兼备。结合自研的 embedding 模型和 RAG 系统,实现智能对话。
表达能力最终要落到语言的输出上。而在文本到语音转换(TTS)方面,「AI 关小芳」使用了自研的 TTS 大模型,支持中英文合成和任意音色克隆,只需 5 秒音频就能克隆一个人的音色以及发音习惯和语气,具有高度拟人逼真的效果,同时支持任意音色的歌唱。
在语言以外,面部和肢体渲染生成技术则够能支持多语言和多种情绪的表现。面部表情模型通过自研的基于 DIT 的表情生成模型,进行多层级多模态控制信号引导,能够准确表现多种语言的口型和丰富的情绪变化,如中性、高兴、愤怒、悲伤和惊讶等。此外,肢体动作不仅能够匹配语音节奏,还能表现复杂的语义动作,如「比心」和「生气叉腰」,甚至可以展示跳舞和唱歌等才艺。
在回答问答时,「AI 关小芳」的端到端响应延迟达到 1 秒级,这意味着你可以像和真实的人交流那样即时打断它,然后离开转换下一个话题。从沟通体验上来说已经远优于同类数字人产品效果。这是因为在工程架构方面,「AI 关小芳」实现了端云结合的技术架构设计,通过搭建分布式流媒体计算调度框架、自研大模型能力算子化适配和专有网络协议加速,支持用户双工和 AI 智能体多模态半双工交互。
「AI 关小芳」的背后是由快手全自研大模型支撑,这其中快意大语言模型作为数字人的大脑,发挥了重要的决策作用。
去年 3 月底至 4 月初,快手内部成立了一个联合项目组,致力于大模型技术的研发。到了 8 月份,快手发布了第一个大模型,命名为快意大模型。
「所有公司在去年年初对于大模型技术还是感到非常的陌生,甚至有非常强的神秘感」,快手副总裁大模型团队负责人张迪在谈到快意大模型最初的立项时说。从最早开始到现在,快意大模型已经研发出了四个版本,从早期的 13B 版本到 66B 版本,到现在主力应用的 175B 版本和多模态版本,经过了多个版本的研发快意大模型已经在快手内部应用在包括素材创作、AI 互动和内容生产等多个场景中,数字人「AI 关小芳」就是其能力具象化的应用之一。
快手副总裁、大模型团队负责人张迪 | 图片来源:快手
在核心的基础模型之下,底层的 IDC 算力中心到网络架构 AI 平台也都是快手自研。为了支持大模型的训练和推理,快手建立了一个万亿参数规模的大模型训练及推理基础设施。这个基础设施为大模型提供了必要的计算能力和存储资源,确保了模型的高效运行和持续优化。
而上层如何将 AI 能力连接到具体的应用场景则有快手自身的业务需求引路。快手构建了一个大模型服务系统和平台,这使得不同的业务部门能够方便地接入和利用大模型的能力。通过这个服务系统,快手能够快速响应市场变化,推出新功能,满足用户需求,并推动业务的持续增长和创新。
——某种程度上,这也是为业务反过来倒推基础模型如何收敛能力建立了一个通道。
「我非常有信心的说快手可能是国内在大模型应用上探索最深入的公司。」张迪在 WAIC 上表示。而提供底层能力的快意大模型,也与推荐大模型、视觉生成大模型一起形成了快手核心的大模型矩阵。
03 大模型矩阵
快手的 AI 基因与其内容分发机制背后不断打磨的推荐算法关系紧密,随着大模型能力灌入,以 transformer 架构重塑的推荐大模型成型。
快手在推荐大模型中构建了一个名为 Action Transformer(ACT)的神经网络。从名字入手非常好理解——在用户行为序列上用 Transformer 架构进行建模。「这里面遇到的挑战还是非常大的」,盖坤表示。
大家都知道大模型的响应是非常慢的,如果我们在用户数十万上百万行为序列上进行建模,如何能够在有效的计算资源下,能够在用户请求几百毫秒的响应要求下,能够把这个计算处理完,并且返回精确的结果?针对这个难点,我们原来基于 SIM 检索模块的架构会有一定程度上损失部分的信息。我们 ACT 创新的网络架构设计能够实现用户全生命周期近似百万行为序列的建模,能够让 Transformer 充分发挥用户行为序列上面的信息潜力。」
盖坤透露,目前快手的推荐大模型单次上线已经可以为快手 APP 每天带来 4 亿分钟以上的时长增长,也就是说用户在推荐大模型下会更喜爱快手推荐的内容。
而在视觉生成大模型方面,「可灵」的风头正劲。6 月 6 日「可灵」发布后,凭借出色的生成效果以及对物理规律的理解和表现能力迅速在国内和海外出圈。包括 Stability AI 前 CEO 和 YC 现 CEO 在内,很多 AI 领域的重磅人士开始关注到这款产品,抢先测试的机会一号难求。「可灵」的第一个版本发布两周后,6 月 21 日快手在 CVPR 现场发布了「可灵」新的图生视频和视频续写的能力,视频续写的长度可以达到 3 分钟,生成视频的尺寸选择也扩展到了 6:19、9:16 和 1:1 三种尺寸。
在 WAIC 现场,「可灵」迎来了一个月内的第三次重大升级。快手宣布,可灵的 AI 基础模型再度升级,推出更加清晰的高画质版,以及首尾帧控制、镜头控制等全新编辑能力,同时创作者单次生成的文生视频时长增加至 10s,这是业内对用户开放使用可实现的最长时长。
「可灵 AI」的 Web 端也已经正式上线。「可灵 AI」的 Web 端集成了文生图、文生视频和图生视频三种不同的生成方式,集成为一站式的视频和图像编辑服务。盖坤表示 Web 端的迅速推出,呼声来自大量「可灵」的使用者们。数据显示,已有约 70 万人申请邀测,30 万人拿到了使用权限,这些用户在过去一个月的时间里通过「可灵 AI」生成了超 700 万个视频。
快手视觉生成与互动中心负责人万鹏飞在介绍「可灵」背后技术方案时认为,AI 的视频生成效果会持续快速提升,逐步接近图形渲染和相机拍摄,将会对泛视频行业带来新的机遇。
快手视觉生成与互动中心负责人万鹏飞 | 图片来源:快手
一边是「可灵」的飞速进化,另一边是快手这次直接开源了图像生成大模型「可图」。
Sora 让外界对大模型多模态能力的关注点都聚焦在了视频生成上,但大模型的文生图能力或许在目前更具备使用价值。「可图」集成了快手在大语言模型领域的深厚积累,通过数十亿中文语料的训练,成为最懂中文的文生图模型,综合性能超越了 SDXL/SD3 等开源模型以及 Midjourney 等闭源模型。在今年 5 月末发布后,「可图」很快在智源研究院的能力测评中以 75.23 分位居文生图大模型领域的全球第二水平。
此次性能强劲的「可图」开源,本已逐渐显出规模的文生图大模型社区生态会添更多活力。
而与快手大模型矩阵逐渐形成并行的一条暗线是,快手对于大模型如何商业化的思考已经开始显现。
04 开始显现的良性循环
快手没有在「百模大战」中显得太过兴奋,但却是在推进大模型商业化上最有效率的大公司之一。这一点领导快手内部整个大模型团队的张迪想的非常清楚。
「我们花了非常多的钱做大模型的研发,我们不可能等到这个模型真正达到了所谓 AGI 的高度才能商业化应用,而是要阶段性投入到应用中,我非常期望形成基础模型研发和商业应用的良性循环。」
而这也是快手在这场大模型浪潮中清醒的地方。基础模型研发最终决定了大模型应用能力的上限,这是快手坚持基础模型自研并且对模型进展保持足够耐心的原因。但现实是基座模型不可能每天有质变发生,在这场仍旧漫长的从量变到质变的过程中,一家公司要在大模型研发中保持后劲,首先要从把模型研究拽离无止境的烧钱黑洞。
在「AI 关小芳」和快手展示的短剧里,很多人为其中的技术兴奋,也有一些人看到了快手大模型商业化的潜力。
这个良性循环在今年上半年已经开始显露出迹象。视频广告素材的应用、数字人直播类型应用、营销对话的应用这三个方向成为这场计划中的良性循环首先显现出来的三条脉络。
在广告领域,视频脚本生成,直播实时脚本生成,广告线索的克服技术与快手原有的数字技术结合,现在已经能够帮助商业化广告主低成本的生成高品质短视频和直播。盖坤透露,快手 AIGC 的广告消耗从 1 月份几乎可以忽略不计的程度,到 6 月份快速增长,现在月度日均值消耗将近 2000 万每天。
快手高级副总裁、快手主站业务与社区科学线负责人盖坤 | 图片来源:快手
包括女娲数字人、π数字员工在内的快手生态内的 AI 产品,在最近半年内已经帮助近 2 万商家在快手平台借助大模型能力实现智能化经营,获得不菲回报。快手商业化外循环和 AI 商业产品负责人刘逍透露,相比今年 1 月,今年 6 月的 AIGC 月活跃客户数增长了 8 倍,月 GMV 规模提升了 64 倍,平台 AIGC 广告收入规模提升了 12 倍。
「视频广告素材的应用、数字人直播类型应用、营销对话的应用,这三方面收入在公司广告收入大概是平稳在 2000 万每天,而到了 618,或者是游戏行业冲量的那几天,收入会达到峰值 3000 万每天的水平。日均广告消耗规模的 GMV 的规模也涨的非常快,大概是 84 倍的增长,这其中主要涨在数字人直播的带货规模。」刘逍表示。
05 尾声
大模型能力与我们当下所处的以互联网为底色的信息时代之间,最平顺的关系到底是什么?这个问题在大模型作为一种划时代的技术出现初期,或许就是无解的。只有等到对大模型充满诱惑的「黑箱」逐渐怯魅,当它的能力边界逐渐在与现实世界的碰撞中显露出来后告别了对它的盲目狂热之后,我们能够带着从前所有为人类带来普惠的技术一样平视它,最终把目光再次聚焦到自己身上,这个答案才会变的清晰起来。
在这一点上,快手给出了一个好答案。