您好!欢迎访问杭州优美景广告传媒有限公司!
4

快手可灵推出“音画同出”模型,AI视频创作进入一键生成时代

栏目:财经新闻 日期: 浏览:16335

一次生成,视频、人声、音效、环境氛围同步到位,可灵2.6模型正重新定义AI视频内容生产的工作流程。

快手旗下可灵AI正式发布视频生成2.6模型,这是国内首个实现“音画同出”的多模态生成系统。该模型能够单次生成同时输出画面、自然人声、匹配音效及环境氛围的完整视频,彻底改变了传统“先画面、后配音”的AI视频创作模式。

通过官方演示视频可见,一位摇滚歌手在舞台烟雾中紧握麦克风架,嘶吼演唱,电吉他 riff 与鼓点、观众欢呼声同步涌现,整个10秒片段由AI一次性生成。


01 、技术突破:音画同步生成,工作流革命

可灵2.6模型的核心突破在于实现了音视频的同步生成。传统AI视频生成需要先制作无声视频,再通过其他软件进行后期配音,流程繁琐且容易导致音画不同步。

新模型通过对物理世界声音与动态画面的深度语义对齐,确保语音节奏、环境音与画面动作紧密呼应。测评显示,可灵2.6在音画协同、音频质量和语义理解上表现亮眼,尤其在中文语音生成效果上保持全球领先

生成的音频音质干净、层次丰富,整体听感接近真实混音效果,能满足专业级创作对声音细节的高要求。

02 、功能详解:两大创作路径,四大应用场景

可灵2.6提供两条核心创作路径:

  • 文生音画:用户输入一段文字描述,模型自动生成包含画面、语音、配乐及环境音的完整视频。

  • 图生音画:上传静态图像,模型可使画面中的人物开口说话、配合动作,并同步生成相应语音与背景音效。

该模型适用于四大类内容创作场景:

  1. 单人独白:如商品展示、生活Vlog、新闻播报、演讲表达等

  2. 旁白解说:如产品讲解、赛事解说、纪录片旁白、故事讲述等

  3. 多人对白:如访谈节目、短剧对话等复杂交互场景

  4. 音乐表演:如独唱、说唱、合唱或乐器演奏等

03、 体验测评:中文语音与影像质量成亮点

根据实际测评,可灵2.6在中文语音生成与影像质量方面表现突出

模型能够准确理解并表达复杂中文对白和歌词。在测试案例中,模型生成的多人说唱片段节奏连贯,人物口型与歌词高度同步,甚至能处理“群口说唱+京剧”这类复杂表演形式。

可灵2.6继承了可灵2.5 Turbo模型的顶级影像质量,在美学表现、语义遵循、氛围渲染等方面维持了高水平。同时,它对运镜的支持十分出色,推拉摇移、环绕运动都能较好完成,即使在激进运镜要求下也能保持画面稳定流畅。

不过测评也指出,在多人同时说话或复杂音节场景中,口型同步偶有小错误,需多次生成以获得最佳效果。模型目前不支持上传音频或固定角色声线,是其当前的主要局限。

04 、商业应用:赋能多行业内容创作

可灵2.6的推出将为多个行业带来内容创作效率的革命性提升。

广告营销领域,模型可一键生成含有旁白介绍、演员对白、商品展示音效的综合广告短片,大幅降低拍摄成本和时间。

自媒体创作者而言,可借助多人对白能力创作访谈节目、剧情演绎等内容,利用音乐表演功能进行唱歌、说唱表演等创作,大幅降低创作门槛。

电商行业可通过单人独白、旁白解说等功能,高效完成商品展示和产品讲解视频,提升经营效率。

05 、战略布局:快手AI业务加速跑

可灵2.6的发布体现了快手在AI领域的战略投入和野心。在不久前的财报电话会上,快手CEO程一笑表示,可灵的愿景是“让每个人都能用AI讲出好故事”,公司将聚焦AI影视创作这一核心目标。

商业化方面,可灵AI表现超预期。预计2025年可灵收入将达到1.4亿美元,较年初目标提升超100%。

快手首席财务官金秉表示,在可灵收入增长与AI业务进展超预期的背景下,公司正不断追加算力投入,已多次扩充可灵在推理侧的算力,同时提升训练算力以保持技术前沿性。


随着可灵2.6模型的上线,视频内容创作的门槛被进一步降低。从自媒体博主到专业影视制作团队,都可以利用这一工具提升创作效率。

AI视频生成正从“玩具”变为实用工具,推动整个内容创作行业向更高效、更智能的方向发展。