仅在2024年3月一个月,就有三个华人创立的 AI 视频生成创企获得了融资,而且融资额都过了千万美金。
1、3月7日,总部位于英国伦敦的Haiper宣布产品上线,并已经完成1380万美金融资。Haiper 由两位曾供职于 Google 旗下 DeepMind 团队的华人工程师建立,提供免费的视频生成功能,最长可以生成2秒的高清视频,和最长4秒的标清视频。
2、3月13日,由前字节跳动视觉技术负责人创立的爱诗科技,完成一亿元人民币(约合1380万美金)左右的 A1轮融资,而其视频生成产品 Pixverse 已在海外上线,生成视频的时长为4秒,2月份的网站流量已经达到120万。
3. 3月24日,据 The Information 报道,去年下半年,凭借让霉霉说中文视频火起来的 AI 数字人产品 HeyGen 正在进行一轮6000万美元的融资,由曾经投资过 Uber 和 Snap 的知名 VC Benchmark 领投,完成此次融资后,HeyGen 的总估值将达到4.4亿美元。
而其实,“AI 视频融资热潮里华人密度尤其大”这个命题可以拆开去看,一个是 AI 视频的融资热,另一个是创业者里面的华人密度。
a16z Top50AI 产品中的视频
生成(蓝)和视频编辑产品(红)
而在上述几个领域中,AI 视频生成产品的用户接受度最低。在 a16z 刚刚发布的2023下半年 Top50AI 产品榜单中,上榜的5款 AI 视频产品中,只有 runway 一款是以视频生成为核心功能的,其他都是刚需属性更强的视频编辑产品。
而就算 runway 也在2023年12月网站流量达到峰值后,出现了明显下滑。
这说明 AI 生成视频没市场吗,显然不是。按照赋能逻辑,AI 在某个领域落地,其潜在机会和规模,应该参考其服务的赛道。
runway 的流量走势图(23.9-24.2)
而虽然,像 Runway、Pika,和后续切入市场的 Pixverse 生成的视频看上去很真实,也很酷炫。但是短短几秒钟时间+简单的镜头移动,对于绝大多数用户来说,除了体验一下之外,很难有使用场景。即便和一些创作者交流下来,他们也很难把这些 AI 产品融入工作流里面。在新鲜感过去后,访问量下滑也属合理。
就网上的信息和与 AI 视频产品创始人的对话内容来看,大家普遍认为,目前的 AI 视频生成大概在 GPT-2时代,也就是说,有一定技术突破,但是视频生成的时长和质量,还没有到能够落地应用和商业化的程度。
市面上几款常见模型的推理运算量估算,注:横坐标是输出内容的量,纵坐标是所需运算量,采用对数形式作图 | 图片来源:知乎
没落地,更别提商业化了,但硬币的另一面,“烧钱”却是实打实的。
从成本来看,Sora 的算力需求就比 GPT-4高出了好几个数量级。有网友根据 Sora 的公开数据做出了保守估算,训练 Sora 需要1.4万张 NVIDIA H100GPU 运行一个月,光这些芯片的价值就高达4.4亿美金......
其他产品虽然可能不像 Sora 一样走“大力出奇迹”的路径,但是算力成本远超其他类别 AI 模型是肯定的。
即便如此,赚不了钱、又烧钱的AI视频赛道仍受到了资本们的特别关注,2024年仅过了3个多月就有多达7款产品获得融资,总融资额达到2.18亿美金。
背后的原因,也刚好如上所述。有市场、但供给都不太行,有心气的 VC 们还是愿意搏一把的,而3月份资本的密集出手,还多亏于 Sora 这样头部产品带来的“清晰信号”。
具体来看的话,有市场,不只是上面说的 AI 落地到的视频赛道规模更大,还有 AI 视频模型更接近于 AGI 的一层逻辑。
而很多从业者认为,AGI 如果真正实现,则很多细分领域的应用层机会就消失了,也就是谁先做出来,可能会形成比较强的流量聚集效应,从风险投资的角度,资本肯定愿意搏一下,也就出现了 AI 视频融资热。
视频生成任务流程示意图,注:AI 在生成视频的过程中,一是要生成视频画面,这涉及 AI 视觉领域;二是需要理解并遵守 Prompt,这涉及自然语言处理;三是要保持视频的一致性、连贯性、合理性,这要求 AI 理解视频中的元素如何随时间变化及现实世界的物理规律,这考验 AI 综合学��及理解能力。此外,目前 Pika、Sora 等产品已经可以加入了声音生成的功能,AI 还需要保证画面、音频和文本描述的协调性。|图片由 ChatGPT 生成
而这个热潮出现在3月份,则是因为技术路径相较于之前清晰了不少。
技术路径收敛,AI 视频生成
已走过了从0到1的探索阶段
2024年 AI 视频生成产品融资情况|数据来源:AI产品榜(aicpb.com),红色为创始人为华人的AI视频产品
AI 这一波的融资,其实集中出现在3月前后,这与 Sora 这样通过摸索技术路径、实现了远高于之前同类产品的惊艳效果强关联。
根据对前谷歌 VideoPoet 项目负责人蒋路的一篇采访,AI 视频生成有两个主要的技术路径 Diffusion 和 Transformer,前者是 AI 生图的主要技术路径,而后者则是 GPT 等大语言模型(LLM)的主要技术路径。
在 Sora 出现前,在视频生成赛道中,两者被认为是泾渭分明的两条路径。90% 的研究者都在进行 Diffusion 路径的研究,但也有少量的研究者在做 Transformer 路径的研究,但基本上逃不出这两个方向。
Sora 的技术示意图|图片来源:知乎
而 Sora 的出现则让技术路线基本确定。Sora 是 Diffusion-Transformer 模型,等于把上述两种技术路径整合起来了。其中 Diffusion 的作用是细化和完善视频画面,而 Transformer 则用来处理和解析复杂的文本输入,并控制视频的逻辑连贯性。通过这种技术架构,Sora 可以按图像帧的时间序列来处理视频画面,就像 ChatGPT 按文字逻辑顺序处理文本一样。
有创业者说,看过 Sora 的论文后发现,原来泾渭分明的两种路线完成了交汇。而 Pixverse 的创始人王长虎则说:“Sora 让我们坚定了前进的方向。”
由于 AI 视频赛道目前的技术路径已经日趋清晰,免去了选错技术路径带来满盘皆输的风险。VC 虽然考虑收益,但更关注风险。
又为什么是华人?
AI 视频产品华人创业者的履历|信息来源:谷歌、领英
看几位创始人的履历,在创业之前就专注于 AI 或视觉相关技术,都有海外名校学习或国际化大厂供职的经验,拥有开���的国际视野。
除了这两项“基础素质”,作为华人的他们对视频赛道,也有着自己的理解。
在上一波互联网创业大潮中,视频,尤其是短视频赛道,是中国互联网企业优势所在,TikTok 已经成长为全球主流媒体之一,引得 Google、Meta 等社交巨头们竞相模仿。
随着短视频占据了人们越来越多的注意力,互联网变现的2个印钞机也随之转动,广告和电商。根据2023年的数据,字节的广告收入折合553亿美元,排在国内主要互联网企业的第一位,总营收1200亿美元,排名第三。
而在电商方面,2023年抖音电商的 GMV 在2.3万亿人民币左右(折合3220亿美元),在国内大概排在第四,海外的 TikTok Shop 有200亿美元。
作为华人,对于此要更敏感一些。纵观几款三月份获得融资的几