启明创投合伙人周志峰:AIGC向何处狂飙
发布时间: 2023-07-11

2023年2月9日晚,由创业邦和XR产业投资联盟共同举办的“‘兔’飞猛进,未来可期——创业邦开年直播特辑”正式启动。

本次专场将针对2023年最热投资趋势,启动“XR&AIGC专场”。并邀请到高通创投中国区董事总经理、高通全球副总裁沈劲,启明创投合伙人周志峰,蓝驰创投合伙人曹巍现场连线,从创投角度深入探讨XR与AIGC的发展现状和投资思路。

启明创投合伙人周志峰在《AIGC向何处狂飙》的主题演讲中表示,GPT-3每做一次训练预估要460万美元。这几周爆火的ChatGPT,其一次训练的成本也是100多万美元。未来怎么解决算力成本问题?英伟达被美国政府限制向中国出口两代旗舰高算力芯片A100和H100。国产的高性能AI芯片能否在超大规模预训练模型的训练中发挥作用,什么时候能够发挥作用,是不是能够满足大规模集群的算力、互联带宽、算法适配和协同的需求,能不能降低成本?都是值得我们去观察的。

以下为演讲全文:

我是启明创投的周志峰,今天的分享主题是《2023年AIGC向何处狂飙》。大家一看这个名字也知道,《狂飙》是一个大热点,同时另外一个热点就是生成式人工智能的范例之一ChatGPT。

我希望从投资和创业的角度,跟大家分享生成式AI以及背后的技术和产业发展情况。

过去十年,启明创投一直是国内非常活跃地布局人工智能的投资机构,我们投资了很多AI公司,也已经在人工智能生成式技术和超大规模预训练模型技术上完成布局。其实过去一两个月里,媒体、投资机构、咨询公司都分享了很多对AI大模型的观点,启明创投认为,AIGC把人工智能技术带向了一个新的高度,是人工智能发展过程中一个非常重要的拐点。

这一波的AI或者AIGC的大众热潮是自2022年的夏天,从图文生成模型开始的。这是我用两个全球最流行的文字到图像生成模型-Midjourney和Stable Diffusion,生成我自己的各种各样风格的头像图。

近一两个月,生成式AI的主要热点,就是基于对话生成的ChatGPT大型语言模型。为了创业邦的这个开年直播,我向ChatGPT提问,让它帮我写了一段演讲开场白。这个过程中,我没有做任何的额外训练或微调,确实写得非常流畅,也非常符合直播的主题。

如果下一次还有这样的直播机会,我觉得我可以让AI学习一下我以前的讲演、发言等音频数据,融入创业邦直播的特点,用机器来合成出我的声音,用Stable Diffusion模型生成配合直播主题的我的虚拟容貌,用CLIP模型和StyleGAN模型把单帧图片扩展到完整的视频流,并且同步我的情绪、口型、手势、表情等等,然后用NeRF模型将我的虚拟人和空间背景合成。

制作出这样一整套AI生成视频流,我其实就不需要真正的出现在镜头前。近年加速发展的AI生成技术让我们真正感觉美好未来可期,这与10年前有着巨大的模式转变。

过去十年,AI企业主要集中判别式AI的领域。我们耳熟能详的AI企业和其核心技术,如图像识别、人脸识别或语音识别等,都是根据输入进行分析和判定。

但今天我们看到的这些则是生成式AI,根据输入能够生成全新的内容。从判别式AI到生成式AI,这是技术的一个很大的飞跃。

所以我们认为,2022年确实是AI技术发展过程中,星光璀璨的一年,它标志着AI技术发展到达了一个非常关键的拐点。

展开全文

从产业界的角度看,我查询了GitHub开源社区的数据,在去年文字到图片生成模型Stable Diffusion模型发布后,短短90天内,其开发者的认可度超过了3万次,但比特币Bitcoin和以太坊Ethereum的底层开源技术,则是用了八年的时间,才达到3万次的认可,这说明Stable Diffusion的开发者采纳速度远超其他技术。

回望技术发展的历史,电话用了75年才达到1亿用户,手机用了16年,Facebook用了4.5年,2011年推出的微信用了14个月。ChatGPT仅仅用了两个月时间,就在全球达到了1亿用户数,用户增长速度非常惊人。

ChatGPT近期的火爆,不由得让我们想起两三年前一个同样很火的应用Clubhouse,它是一个音频社交APP。它在2020年的年中上线,迅速累积了几千万的用户数,成立半年多,估值就达到了几十亿美元。但是在过去两年中,Clubhouse的用户的使用率下降了80%-90%。ChatGPT会不会也面临同样的问题,值得我们观察。

看到这些爆炸式增长的产品,总让我不由得思考,在未来几年AI技术究竟是会继续“烈火烹油,鲜花着锦”,还是最终“落了片白茫茫大地真干净”?这是一个非常值得我们去持续探讨和关注的一个话题。

接下来,我重点跟大家讲讲启明创投对于生成式AI的理解。基于过去两年多的研究,我们画出了这样一张产业架构图。基于这张图我想跟大家分享一下怎么理解生成式AI以及它背后的大模型在技术世界中的位置。

在这个基础上,也聊聊生成式AI与过去十年上一代AI技术的区别。然后,从投资人的角度,讲讲哪些子领域是更值得关注的。也包括这些不同的子领域如何能够建立长期的竞争优势,以及生成式AI在我们国家有哪些挑战和机会。

我们把整个生成式AI分成了三层。最底层称之为生成式AI的基础设施层。

工具链指的就是能够帮助生成式AI以及它背后的大模型去做加速、压缩的软硬件技术,目的是在大模型进行训练的过程中,帮其提升效率,降低成本,以及大模型在真正应用过程中更好地进行管理。工具链领域,海外公司有AnyScale,中国有像潞晨科技、面壁智能等创业公司。

右边的智算平台,主要指的是为生成式AI技术提供基础算力的平台。这一领域的参与者主要是科技大厂巨头。比如为Open AI提供了几亿美元算力的微软Azure,还有中国的阿里云、华为、曙光、浪潮等,都在中国各地建设了智算中心,核心是为AI提供底层算力。所以工具链与智算平台组成了整个生成式AI的第一层。

中间则是最重要的一层,我称为模型层,其中模型层又有三种类型。

最左边是闭源模型,美国的人工智能研究机构Open AI从GPT3模型以后,不再公开源代码和模型权重,而是把它的技术封装成服务,即允许用户调用其API,享受其AI能力。Open AI自己负责所有大模型的训练、推理,不断迭代。Open AI对外提供已经封装好的AI能力,第三方公司甚至是个人都可以调用。此外还有Cohere、Anthropic,Anthropic刚刚成立两周,就拿到了谷歌4亿美元的投资。

国内的代表企业,包括启明创投投资的智谱AI。智谱AI是跟清华大学、北京智源人工智能研究院等一些第三方机构合作,训练了几个千亿或万亿级别参数的大模型。包括最新推出的GLM-130B,这是一个1300亿参数的超大规模预训练模型。是国内大模型领域中,发展比较快的一家公司。此外,百度推出了文心大模型,它对外也是提供API,供第三方去调用使用。

本图由智谱AI结合主题生成

中间这个叫做开源模型及Model Hub,可以理解为大模型的技术社区。它有数十万个开源预训练模型供第三方开发者使用,并且不仅开源代码和模型权重,还提供了很多辅助开发工具、数据集等,类似于一个开源社区的商业模式。

美国那边起步比较早是Hugging Face,阿里云近期也发布了Model Scope。

最右边的是从自建模型到开发应用的端到端模式,指的是科技公司或创业企业针对一些特定的领域,自行完成寄出模型的开发,再针对目标市场和应用,进行模型、知识、和数据的特定优化,并开发出直接交付给用户的应用产品。比如国外的Adept、Runway,国内的澜舟科技,聆心智能,还有启明创投投资的无限光年,针对医疗领域做自己的模型和应用。

第三层是应用层。这些应用,依赖于第二层底座模型进行开发,这些应用公司不需要构建AI模型的能力,只需要调用第二层底座模型的服务,专注于自己的用户和场景,把应用做好就行。

比如Jasper AI,它是一个利用Open AI的能力,给广告主提供营销文案生成的企业,在过去两年发展非常快。去年,Jasper有将近1亿美元的收入。但它的AI能力并不是自己开发的,而是由第二层底座模型提供的。

启明创投投资的Gemsouls是一个利用Open AI大模型能力,做聊天机器人的企业。

这是我们对生成式AI生态的理解。把这个生态理解清楚了,就很容易看到生成式AI的未来。我特别喜欢北京智源人工智能研究院理事长张宏江博士说过的一个比喻,他觉得,过去的AI更多的是“大练模型“,也就是说每家科技公司都是各自独立研发专用小模型。比如人工智能四小龙,基本上是从零开始自建模型,然后自建模型之上的特定应用。

今天这一代的AI技术,叫做“练大模型”,底座模型是由某些特定的机构研发出超大规模的通用模型。这个模型不再是针对某一个专门应用开发的,它的训练数据是互联网上能够看到的所有数据,数据也不需要做特别的标注,训练也不需要监督,做出来的是通用人工智能能力,然后第三方基于底座模型,针对千万个应用场景去开发软件。

这是一个从“大练模型”到“练大模型”的范式转变,我觉得,这个

微信