
7 月 2 日,由中国文学艺术界联合会、中国作家协会、北京市人民政府指导,北京市广电局主办的第三届北京网络视听艺术大会在北京召开。
7 月 2 日,由中国文学艺术界联合会、中国作家协会、北京市人民政府指导,北京市广电局主办的第三届北京网络视听艺术大会在北京召开。微博 COO、新浪移动 CEO、微博技术委员会主席王巍受邀出席,分享了视频大模型的发展与应用,为网络视听艺术的高质量发展提供创新思路。
王巍在分享中指出,视频大模型的发展分为内容理解与内容生成两大方向:内容理解依托类似 ChatGPT 的自回归生成技术,如同人类的眼睛和大脑;内容生成则借助扩散生成模型,类似人类的双手创作。如今大模型已发展到多模态理解和生成使用同一套「大一统模型」来融合的状态,能够同时具备大脑、眼睛和双手,在短时间内读懂视频内容并生成相关内容互动。
「微博已经把大模型的多模态能力应用到视频理解当中。」王巍表示,「我们利用多模态大模型的 OCR 等能力理解视频内的数据、文字、图片等内容。结合人物识别技术与微博积累的人物画像数据,精准定位视频中的关键人物。同时通过场景化语义理解,识别视频中发生的事件、用户情绪,甚至是人说话的语气语调,以此判断内容属于八卦类的娱乐视频还是新闻类的叙事视频。同时还能理解多国语言、多种方言生成的相应的字幕。」
王巍还以微博智搜举例。「微博智搜结合微博实时热搜数据、历史沉淀数据以及微博账号信用体系,可以逻辑化地梳理出热点事件的前因后果,把事件脉络、网友精彩观点汇总呈现给用户。」王巍表示,在这个过程中,视频理解能够通过大模型的多模态理解和融合能力,快速检索到相关视频为图文内容做补充,让用户能够更全面立体地了解相关热点。
谈及视频生成,王巍认为,视频大模型能够在不久的将来大大提升视频创作能力,但短期内仍面临挑战。他举例,一个电影完全可以由 AI 生成,为什么现在 AI 生成的电影并不多?主要原因是目前视频生成技术在某些方面仍有缺陷,比如生成的人物和场景内容仍然有 AI 味,不像真实世界看到的景象;再比如细节失真,例如手部变形、快速运动中人体的扭曲等问题。这仍有待于模型进一步发展,才能真正产生高价值的应用。
关于视频大模型的未来发展趋势,王巍指出,随着算力与技术的持续突破,视频理解与生成技术有望实现深度融合,形成类似人类大脑的全面感知与整合能力。这一突破将推动智能创作迈入「所想即所得」的全新阶段。
来源:互联网