智通财经APP获悉,招商证券发布研究报告称,Sora打开AIGC在视觉领域的应用空间,算力网络供给持续短缺拉动硬件基础设施建设需求。该行测算训练Sora模型需要约7.09万张H100一个月的训练量。在推理侧,根据相关研究测算生成一张图的算力消耗约为256个词的消耗。由此推算生成一个1分钟时长短视频的算力消耗约是生成一次文字对话的千倍以上。该行认为中短期算力将持续处于短缺不能充分满足推理侧需求。
事件:2月16日OpenAI推出文生视频模型Sora,可以根据文本指令创建现实且富有想象力的场景,能够生成具有多个角色、特定类型的运动,以及主体和背景的准确细节的复杂场景的高清视频,并且时长可以达到一分钟。Sora的超预期表明Transformer模型在视觉领域的有效,为视觉模型的加速迭代奠定基础。
招商证券观点如下:
Sora模型展示效果惊艳,创立视觉模型里程碑。
与之前的视觉模型不同,OpenAI的Sora是视觉数据的通用模型,通过一次为模型提供多帧的预测,解决了一个具有挑战性的问题,即确保主题即使暂时离开视野也保持不变。它可以生成不同时长、长宽比和分辨率的视频和图像,而且最多可以输出长达一分钟的高清视频。Sora的核心优势:一致性、灵活性、稳定性。Sora能够灵活的生成各种像素各种画幅的图像,同时能够根据图像生成视频或者将视频内容扩充出新的视频。与其他模型相比Sora生成的时长达到1分钟的情况下还能保持前后主题的一致性是之前视觉模型所不具备的。同时Sora还涌现出对物理规律的理解能力,在没有人为约束的情况下生成的画面中满足物理学规则使得画面更加逼真。
视觉模型的GPT3时刻,模型迭代进入加速期。
Sora之前,虽然大语言模型随着GPT的成功逐渐成为主要研究方向,不过扩散模型仍在大语言模型占据主导地位。DALL·E、StableDiffusion等广泛使用的视觉模型都采用扩散模型。2023年谷歌提出大语言模型之所以在视频领域表现不佳的主要原因不在于模型本身而在于没有好的表达形式来转化视频,也证明了大语言模型在文生视频领域的可行性。Sora的突破之处在于基于DiT结构,结合了大语言模型和扩散模型的共同优点。使得Diffusion模型也能够规模化,证明GTP4式的大力出奇迹也能在视觉领域出现同样的“涌现”效果。Sora标志了扩散+语言大模型融合路线的成功,未来具有很大的迭代潜力,类似于GPT3的里程碑意义,沿着这条道路持续迭代未来1-2年内有望出现能生成效果更加逼真的视觉模型。
Sora大幅拉动算力需求,拉动硬件建设投资。
根据DiT模型创立者谢赛宁博士粗略测算,Sora模型的参数规模大约为30亿。根据对可训练数据量的研究成果,海外大型视频网站每分钟大约上传500小时视频内容。由此该行测算训练Sora模型需要约7.09万张H100一个月的训练量。在推理侧,根据相关研究测算生成一张图的算力消耗约为256个词的消耗。由此推算生成一个1分钟时长短视频的算力消耗约是生成一次文字对话的千倍以上。中短期算力将持续处于短缺不能充分满足推理侧需求。
投资建议:Sora打开AIGC在视觉领域的应用空间,算力网络供给持续短缺拉动硬件基础设施建设需求。
光模块环节该行重点推荐北美光模块核心供应商:中际旭创(300308.SZ)、新易盛(300502.SZ),及其上游核心供应商天孚通信(300394.SZ),及国产光芯片龙头源杰科技(688498.SH);
交换机环节该行建议关注交换机国产替代龙头紫光股份(000938.SZ)、锐捷网络(301165.SZ),同时建议关注国产交换机芯片龙头盛科通信(688702.SH),同时推荐国内ICT巨头中兴通讯(000063.SZ);
视频编解码环节该行建议关注视频编解码优质公司当虹科技(688039.SH)、维海德(301318.SZ)。
风险提示:核心计算参数假设不准确,Sora模型落地进度不及预期,行业竞争格局恶化