中信证券:OpenAI推出GPT新模型 端到端加速边缘侧落地

该行看好GPT-4o代表的多模态交互革命,建议重点关注未来1年内可能落地的端侧AI的相关机会,并持续关注应用在教育、音视频社交媒体等领域的相关落地情况。

智通财经APP获悉,中信证券发布研究报告称,OpenAI于北京时间2024年5月14日推出了其最新旗舰AI模型GPT-4o,在保持与GPT-4同等智能水平的基础上,实现了文本、图像和语音处理的全面提升,尤其是引入了业界领先的实时语音功能,同时OpenAI宣布将免费开放GPT-4o给所有用户,plus用户仅会优先体验部分功能以及享受每天更高的使用限额。GPT-4o作为一个原生多模态端到端模型,所有输入输出均由同一神经网络处理,同时整体API价格相比于前代也下降了50%,这为将大型语言模型部署到边缘设备提供了可行的技术路径。

该行认为GPT-4o的推出预示着交互方式的变革,实时语音输入与反馈将极大提升用户交互体验。该行看好GPT-4o代表的多模态交互革命,建议重点关注未来1年内可能落地的端侧AI的相关机会,并持续关注应用在教育、音视频社交媒体等领域的相关落地情况。

中信证券主要观点如下:

事件背景:

北京时间5月14日,OpenAI宣布推出其最新旗舰AI模型GPT-4o,该模型预计将在未来几周逐步融入OpenAI的全线产品。据OpenAI首席技术官穆里·穆拉蒂介绍,GPT-4o在保持与GPT-4同等智能水平的同时,在文本与图像处理上实现了显著提升,并新引入了实时语音功能。测试数据表明,GPT-4o已超越谷歌Gemini等竞争对手,成为市场上领先的多模态模型。虽然GPT-4o将向ChatGPT的免费用户提供,但使用上会存在一定限制。Plus用户将享受比免费用户多5倍的消息限制,而Team和Enterprise用户则享有更高限制。

模型概况:基础性能全方位提升,语音TTS成为最大亮点。

OpenAI研究员William Fedus在发布会中透露,GPT-4o即是此前在大模型竞技场进行A/B测试的模型之一,其elo分数较4月9日的GPT-4 turbo版本提升了4.8%,在语音生成与转换方面表现尤为出色。GPT-4o对音频输入的响应时间缩短至232毫秒,平均为320毫秒,接近人类的反应速度。该模型能够识别并响应用户的语调和语速,并在多人对话中准确区分不同发言人的语气风格及情感。在英文文本和代码处理上,GPT-4o与GPT-4 Turbo表现相当,但在非英语文本处理上取得了明显进步。此外,GPT-4o运行效率更高,使用成本较之前API降低了50%,在视觉和音频理解方面展现了更优越的性能。

端到端原生多模态:跨文本、视觉和音频端到端训练的模型,所有输入和输出由同一个神经网络处理。

GPT-4o是一个原生多模态融合模型,通过端到端训练,能够处理文本、音频和图像的任意组合输入,并生成相应的多模态输出。在语音翻译任务中,GPT-4o的表现超过了OpenAI的专业语音模型Whisper-V3以及谷歌和Meta的语音模型。对比此前ChatGPT处理语音信息的流程:首先将通过一个模型将语音转为文本,然后由GPT-4处理并生成文本,最后再由另一个模型将文本生成为语音,GPT-4o是一个完全重新训练的端到端模型,所有输入输出均由同一神经网络处理,模型可能使用了一种基于神经网络的流式编码技术,传输运动变化的Token。如果这个可能性成立,OpenAI后续可以在边缘设备上部署一个小型神经网络,并通过评定内容长短来为边缘端分配算力,这为后续可能的边缘端部署提供了切实可行技术手段。

交互革命:交互方式改变为端侧部署提供新的想象空间。

GPT-4o的更新预示着语言模型交互方式的变革,实时语音输入与反馈将极大提升用户交互体验。此前大模型的端侧部署有两个较大的问题:1)端侧交互模式受限,大多数端侧用户并不能接受一个需要打字输入的交互模式,而三段式的语音大模型延迟较高。2)端侧成本较高,在成本上无法支持频繁的端侧调用。而与以往的语音模型相比,GPT-4o真正解决了实时语音延迟问题,使得高性能大语言模型的端侧部署成为可能。同时在成本方面,GPT-4o也继续优化API价格,相比于前代继续降低50%,流式传输的神经网络也为更进一步控制成本提供了可能。此外,OpenAI已宣布,Plus用户将可立即在MacOS桌面端使用GPT-4o,而Windows和手机端的支持将在年内后续推出。

风险因素:

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

投资策略:

OpenAI推出GPT-4o印证了我们年初的判断,即OpenAI在2024年将重点发展易于商业化落地的多模态能力。GPT-4o的测试评分证明了端到端模型的商业潜力,我们认为这是实现商业化的最优路径。鉴于GPT-4o在语音转换和图片模态融合方面的能力,我们预计OpenAI将在年底前推出更多相关功能,并适配端侧AI。GPT-4o在智能度、延迟性和交互便捷度方面均优于Siri,其端到端设计保证了任务切换的一致性。当前挑战在于模型的进一步缩小以适应端侧硬件性能,我们预计这一过程需要半年到一年的时间。除了端侧机会,我们还建议关注教育和音视频社交媒体领域的应用落地情况。

智通声明:本内容为作者独立观点,不代表智通财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。更多最新最全港美股资讯,请点击下载智通财经App
分享
微信
分享
QQ
分享
微博
收藏