快手可灵推出“音画同出”模型，AI视频创作进入一键生成时代

栏目：财经新闻日期： 2025-12-04 20:47 浏览：16780

一次生成，视频、人声、音效、环境氛围同步到位，可灵2.6模型正重新定义AI视频内容生产的工作流程。

快手旗下可灵AI正式发布视频生成2.6模型，这是国内首个实现“音画同出”的多模态生成系统。该模型能够单次生成同时输出画面、自然人声、匹配音效及环境氛围的完整视频，彻底改变了传统“先画面、后配音”的AI视频创作模式。

通过官方演示视频可见，一位摇滚歌手在舞台烟雾中紧握麦克风架，嘶吼演唱，电吉他 riff 与鼓点、观众欢呼声同步涌现，整个10秒片段由AI一次性生成。

01 、技术突破：音画同步生成，工作流革命

可灵2.6模型的核心突破在于实现了音视频的同步生成。传统AI视频生成需要先制作无声视频，再通过其他软件进行后期配音，流程繁琐且容易导致音画不同步。

新模型通过对物理世界声音与动态画面的深度语义对齐，确保语音节奏、环境音与画面动作紧密呼应。测评显示，可灵2.6在音画协同、音频质量和语义理解上表现亮眼，尤其在中文语音生成效果上保持全球领先。

生成的音频音质干净、层次丰富，整体听感接近真实混音效果，能满足专业级创作对声音细节的高要求。

可灵2.6提供两条核心创作路径：

该模型适用于四大类内容创作场景：

根据实际测评，可灵2.6在中文语音生成与影像质量方面表现突出。

模型能够准确理解并表达复杂中文对白和歌词。在测试案例中，模型生成的多人说唱片段节奏连贯，人物口型与歌词高度同步，甚至能处理“群口说唱+京剧”这类复杂表演形式。

可灵2.6继承了可灵2.5 Turbo模型的顶级影像质量，在美学表现、语义遵循、氛围渲染等方面维持了高水平。同时，它对运镜的支持十分出色，推拉摇移、环绕运动都能较好完成，即使在激进运镜要求下也能保持画面稳定流畅。

不过测评也指出，在多人同时说话或复杂音节场景中，口型同步偶有小错误，需多次生成以获得最佳效果。模型目前不支持上传音频或固定角色声线，是其当前的主要局限。

可灵2.6的推出将为多个行业带来内容创作效率的革命性提升。

在广告营销领域，模型可一键生成含有旁白介绍、演员对白、商品展示音效的综合广告短片，大幅降低拍摄成本和时间。

对自媒体创作者而言，可借助多人对白能力创作访谈节目、剧情演绎等内容，利用音乐表演功能进行唱歌、说唱表演等创作，大幅降低创作门槛。

电商行业可通过单人独白、旁白解说等功能，高效完成商品展示和产品讲解视频，提升经营效率。

可灵2.6的发布体现了快手在AI领域的战略投入和野心。在不久前的财报电话会上，快手CEO程一笑表示，可灵的愿景是“让每个人都能用AI讲出好故事”，公司将聚焦AI影视创作这一核心目标。

商业化方面，可灵AI表现超预期。预计2025年可灵收入将达到1.4亿美元，较年初目标提升超100%。

快手首席财务官金秉表示，在可灵收入增长与AI业务进展超预期的背景下，公司正不断追加算力投入，已多次扩充可灵在推理侧的算力，同时提升训练算力以保持技术前沿性。

随着可灵2.6模型的上线，视频内容创作的门槛被进一步降低。从自媒体博主到专业影视制作团队，都可以利用这一工具提升创作效率。

AI视频生成正从“玩具”变为实用工具，推动整个内容创作行业向更高效、更智能的方向发展。