北京网络视听艺术大会丨微博王巍：未来智能创作将实现「所想即所得」

7 月 2 日，由中国文学艺术界联合会、中国作家协会、北京市人民政府指导，北京市广电局主办的第三届北京网络视听艺术大会在北京召开。微博 COO、新浪移动 CEO、微博技术委员会主席王巍受邀出席，分享了视频大模型的发展与应用，为网络视听艺术的高质量发展提供创新思路。

王巍在分享中指出，视频大模型的发展分为内容理解与内容生成两大方向：内容理解依托类似 ChatGPT 的自回归生成技术，如同人类的眼睛和大脑；内容生成则借助扩散生成模型，类似人类的双手创作。如今大模型已发展到多模态理解和生成使用同一套「大一统模型」来融合的状态，能够同时具备大脑、眼睛和双手，在短时间内读懂视频内容并生成相关内容互动。

「微博已经把大模型的多模态能力应用到视频理解当中。」王巍表示，「我们利用多模态大模型的 OCR 等能力理解视频内的数据、文字、图片等内容。结合人物识别技术与微博积累的人物画像数据，精准定位视频中的关键人物。同时通过场景化语义理解，识别视频中发生的事件、用户情绪，甚至是人说话的语气语调，以此判断内容属于八卦类的娱乐视频还是新闻类的叙事视频。同时还能理解多国语言、多种方言生成的相应的字幕。」

王巍还以微博智搜举例。「微博智搜结合微博实时热搜数据、历史沉淀数据以及微博账号信用体系，可以逻辑化地梳理出热点事件的前因后果，把事件脉络、网友精彩观点汇总呈现给用户。」王巍表示，在这个过程中，视频理解能够通过大模型的多模态理解和融合能力，快速检索到相关视频为图文内容做补充，让用户能够更全面立体地了解相关热点。

谈及视频生成，王巍认为，视频大模型能够在不久的将来大大提升视频创作能力，但短期内仍面临挑战。他举例，一个电影完全可以由 AI 生成，为什么现在 AI 生成的电影并不多？主要原因是目前视频生成技术在某些方面仍有缺陷，比如生成的人物和场景内容仍然有 AI 味，不像真实世界看到的景象；再比如细节失真，例如手部变形、快速运动中人体的扭曲等问题。这仍有待于模型进一步发展，才能真正产生高价值的应用。

关于视频大模型的未来发展趋势，王巍指出，随着算力与技术的持续突破，视频理解与生成技术有望实现深度融合，形成类似人类大脑的全面感知与整合能力。这一突破将推动智能创作迈入「所想即所得」的全新阶段。

来源：互联网

最新文章