智通财经APP获悉,华创证券发布研究报告称,Sora虽然在训练模型上不需要太多参数,但实际应用由于推理生产视频过程中将涉及较大数据量的计算,同时为追求较高的视频生成效果,训练和推理过程中都需要进行尽量多次数的迭代计算,将释放大量算力需求,利好算力底座产业链,建议优先关注深度参与构建全球先进AI算力设施的光互联光模块企业,建议关注天孚通信(300394.SZ)、中际旭创(300308.SZ)。
事项:
2月16日,OpenAI发布文生视频大模型Sora。2月15日,Google发布Gemini新一代版本Gemini 1.5。
▍华创证券主要观点如下:
OpenAI发布文生视频大模型Sora,模型展现出诸多亮点。
Sora模型主要有以下功能:1)遵循用户文本生成长达1分钟的视频;2)参考图像衍生出视频内容;3)参考一段基础视频,更换视频环境、场景主题、拍摄手法等;4)向前拓展视频,可以生成视频开头部分且保持视频结尾的一致;5)将多个毫无关系的视频无缝连接到一起。相比此前已发布的文生视频大模型,Sora在多个方面取得突破,成为超越行业的领先AI应用。OpenAI在随后发布的技术研究文档中高度评价了Sora的意义,认为视频模型的持续扩展是一条构建物理世界和数字世界的高性能模拟器的有效途径。
Sora的核心三要素:Diffusion+Transformer+Patch。根据OpenAI的技术文档,Sora的模型本质是一个Diffusion Transformer,即同时应用到了Diffusion和Transformer两项技术,根据专家观点,模型可能仅有约30亿参数,可能表明训练Sora模型可能不需要太多算力,未来将出现非常快的迭代。Sora使用降维时空Patch统一视觉数据,保持视频/图片分辨率,提高生成内容的逻辑连贯性。Sora通过Patch方式可以对原始大小的数据进行训练,具有灵活采样、改善构图和取景等优势。
Google发布Gemini 1.5,超长token进一步拓展应用场景。
继2023年12月发布Gemini 1.0后,Google近期发布了Gemini 1.5版本,短时间内实现较大的迭代更新。本次更新最大的亮点为其最高支持100万tokens的上下文,在内部研究环境,Google成功测试了1000万tokens上下文。模型的上下文窗口越大,其可以接收和处理的信息就越多,从而使得输出的一致性、相关性和可用性更强,对于拓展模型应用具有很大的意义。
此外Gemini 1.5是一个MoE(Mixture of Experts,混合专家)模型,根据输入的类型,模型会决定最相关的专家网络来输出结果,因此能够更快且高质量地学习复杂任务,同时更高效地完成训练和提供服务。
投资建议:
1)随着Google Gemini 1.5和OpenAI Sora的发布,AI的大模型能力持续得到增强,现象级的AI应用有望逐步清晰呈现,AI商业闭环有望加速。特别对于视频类应用,由于其受众广泛,随着应用规模的推开,有望释放较大的市场增长弹性,同时视频占用流量资源较多,对上游计算、传输等基础设施的大量需求也有望得到释放。
2)Sora虽然在训练模型上不需要太多参数,但实际应用由于推理生产视频过程中将涉及较大数据量的计算,同时为追求较高的视频生成效果,训练和推理过程中都需要进行尽量多次数的迭代计算,将释放大量算力需求,利好算力底座产业链,建议优先关注深度参与构建全球先进AI算力设施的光互联光模块企业,建议关注天孚通信、中际旭创。
3)Sora的火爆出圈说明市场对于AI视频生成的高度关注,未来AI生成视频领域的用户规模和市场空间都值得期待。Sora的出现降低了优质视频的生产制造门槛,或将带来更大规模的视频创作热潮。此外Sora视频的创作和传播天然具有国际化条件,视频出海需求或有望提升。Sora等文生视频AI应用有望拉动视频流量规模进一步提升,释放更多带宽传输需求。建议重点关注受益逻辑更直接的内容分发网络CDN产业链,建议关注网宿科技。
风险提示:
AI技术发展不及预期、文生视频应用落地不及预期、行业监管风险、行业竞争加剧、光通信供应格局出现变动。