拓宽行业应用场景 多模态大模型加速通用AI进程

发布时间:2024-11-14 16:07:35 来源: sp20241114

人民网北京2月26日电 (焦磊)只需输入文本指令,便可生成60s的视频内容,并在画面效果、视频时长、流畅度和逻辑性等方面具备惊人效果……近日,OpenAI发布的文生视频大模型Sora迅速引发人们关注。业内分析认为,该项新产品或将促使大模型厂商加大对多模态大模型的研发投入,并进一步推动AGI(通用人工智能)进程。

一直以来,视频领域便是被普遍看好的AI应用落脚点之一。继可生成图文的ChatGPT之后,Sora的发布迎合了业内对多模态大模型的期待。

模态即每一种信息的来源或形式。人们在信息获取、环境感知、知识学习与表达等方面都是采用多模态的输入、输出方式。

华福证券研报表示,相比单模态,多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,更符合人类接收、处理和表达信息的方式,与人类交互方式更加灵活,表现得更加智能,能够执行更大范围的任务,有望推动AI迈向AGI。

此前,大模型在各个领域的应用主要集中在文生文、文生图之上,而在文生视频领域却进步缓慢。业内分析表示,此次Sora的发布,将促使多模态大模型成为生成式AI的重点发展方向。未来人机交互将通过文字、视觉、语音等多维度沟通,进而提升效率,逐渐向AGI方向迈进。

值得一提的是,国务院国资委日前召开“AI赋能产业焕新”中央企业人工智能专题推进会。会议提出,开展AI+专项行动,强化需求牵引,加快重点行业赋能,构建一批产业多模态优质数据集,打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态。

视频大模型的创新进步,也引起人们对相关内容行业变革的思考。

浦银国际分析认为,对于短视频,Sora提升了内容供给及创作质量,并有效降低了门槛和成本,或将进入“全民创作”时代。而长视频对内容质量等专业化要求较高,AI生成视频在精准度、可编辑性等方面仍需进一步打磨,长期发展空间广阔。

IDC中国研究总监卢言霞认为,Sora将最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域采用多模态大模型能力,辅助人类员工生成视频,既可以提高生产速度又可以提高生产数量,还可以创造全新的视觉感受,能够帮助企业真正实现降本增效、提升用户体验。

与图文相比,视频内容所包含的数据量巨大,因而引发人们对算力需求的关注。业内分析认为,AI视频对算力的需求将会是几何式增长,算力限制可能是影响文生视频类应用开放使用的重要因素。

卢言霞表示,多模态大模型对算力的消耗更高,算力的可获取性以及成本将是挑战之一。此外,多模态大模型将带来更严峻的安全挑战。一方面多模态大模型将读取更多的图像、视频类数据,这些图像视频数据是否合规是否安全,需要得到保障;另一方面,生成视频与真实世界之间的差异,需评估是否会影响到人身安全、社会稳定、企业安全等。

根据华泰证券研报,2023年实际诞生文生视频大模型达到数十个,全球用户数量超过百万级别,但目前多数视频模型仍处于产品早期阶段。从创作端看,市场上已公开的大多数模型出自初创公司和小型技术开发团队,包括Runaway、Pika等,且目前已呈现较为可观的完成效果和商业模式。(实习生张泊洋对此文亦有贡献)

(责编:王连香、吕骞)