1. 首页>>AI领域知识

京东开源JoyAI-Echo,AI长视频开始往“生产工具”走了

  **京东开源JoyAI-Echo,AI长视频开始往“生产工具”走了**

  AIGC发展到今天,生成几秒钟的AI视频,早就不稀奇了。真正一直没被啃下来的,是长视频。

  问题也很直接。短视频里模型偶尔“跑偏”,很多时候还不明显;一旦拉到几分钟,多镜头、多场景、多段语音连续切换,问题就全冒出来了。人物可能前后“变脸”,服装、发型和场景设定开始漂,说话人的音色也接不上。模型不是不会生成,而是很难在一整段叙事过程中,持续记住同一个角色、同一种声音和同一条剧情线。ScreenShot_2026-06-07_164902_977.jpg

  这也是为什么,长视频生成这些年看起来很热闹,真正进入生产流程的却不多,更别说大规模商业化落地。

  就在这个赛道集体卡住的时候,京东技术团队开源了长音视频生成框架**JoyAI-Echo**。从官方给出的信息看,这套框架盯住的不是“再做一个更炫的Demo”,而是长视频创作里几个最难绕开的核心问题:角色一致性、音色稳定性、生成速度和画面质量。与此同时,它还加上了可交互的Agent能力,试图把长视频生成从“一次性出片”推进到“能反复修改、持续迭代”的创作流程里。

  说白了,JoyAI-Echo想解决的,是AI视频能不能真正进入生产,而不是只停留在展示。

  ###长视频最难的,不是更长,而是别跑偏

  这两年短视频生成卷得很厉害,行业比拼的重点大多集中在画质、运镜、风格和物理合理性上,效果也确实在快速进步。

  但长视频完全不是把10秒视频简单拉长到几分钟这么轻松。它本质上是跨镜头、跨场景、跨动作的连续叙事。模型不仅要一直生成内容,还要在更长的时间维度里,把角色身份、外观、声音和剧情上下文都稳住。

  目前行业里的长视频生成,普遍还卡在几类典型问题上:人物前后不一致、音色忽高忽低、生成速度过慢,以及修改成本太高。这些问题背后,指向的其实是长时序生成的共性难题,比如错误累积、长程一致性弱,以及推理延迟高。

  最终结果就是,视频看上去能做出来,但一旦拉长,人物会跑偏,声音会漂,创作效率也撑不起真正的生产场景。ScreenShot_2026-06-07_164913_873.jpg

  ###用“记忆库”把角色和声音稳住

  JoyAI-Echo给出的第一套核心方案,是一套**跨模态音视频记忆库**。

  在团队看来,长视频生成最难啃的一块骨头,就是角色和声音前后不一致。传统方案通常依赖上下文窗口保存历史信息,但视频一长,早期内容会不断被后续信息稀释。模型也许还能记住最近几个镜头,却很难稳定保留几分钟之前的人物特征。

  JoyAI-Echo的思路不是继续把上下文做得更大,而是直接把最关键的身份信息单独存下来,并在后续生成中反复调用。

  这套记忆库记录的不只是人物长相,还会同步保存说话人的音色,并把两者绑定在一起。角色第一次出现时,系统会提取视觉和声音特征写入记忆库;后续每生成一个镜头,都会从记忆库里调取这些信息作为参考。为了兼顾效果和效率,记忆库也不会无限扩展,而是重点保留故事开头的关键镜头,以及最近生成的镜头。

  这个逻辑其实很像人自己记东西。不是把所有细节都硬塞进脑子里,而是抓住最重要的身份信息,在需要的时候准确调出来。

  这也成了JoyAI-Echo能实现5分钟长视频高一致性生成的基础。

  ###后训练提速,把推理效率往前推了7.5倍

  一致性只是第一步。长视频能不能真正落地,速度同样关键。

  为此,JoyAI-Echo团队在模型训练之外,又做了一套**记忆驱动的后训练流程**,目标是在不牺牲质量的前提下,把推理效率再往前推进一截。

  整个流程主要分三步:先通过SFT监督微调,让模型具备高质量音视频生成能力;再利用人类反馈强化学习,继续优化人物一致性、画面质量和音画同步;最后借助**DMD(DistributionMatchingDistillation)**技术,把复杂大模型的能力压缩到更高效的推理模型中。

  在这套体系里,DMD是最关键的一环。可以把它理解成一次“能力浓缩”:先让能力更强、但推理更慢的教师模型跑完整个生成流程,再让一个更轻量的学生模型去学习并复现这些结果。

  这样一来,原本需要大量扩散步骤才能完成的生成任务,被压缩成更少的推理步骤,同时尽量保留接近的生成效果。

  官方披露,仅DMD相关优化,就带来了约**7.5倍**的推理速度提升。

ScreenShot_2026-06-07_164852_473.jpg

  如果说跨模态音视频记忆库解决的是“别忘”,那这套后训练体系解决的,就是“别太慢”。

  ###把超分能力直接塞进生成链路

  除了稳定性和速度,长视频生成还有最后一道门槛:清晰度。

  过去业内常见的方案,是“视频生成+离线超分”两段式流程。也就是先把视频做出来,再交给独立超分模型处理。这样当然能提分辨率,但问题也很明显:又多了一轮推理,不仅等待时间更长,还可能让生成结果和超分结果之间出现偏差。

  JoyAI-Echo的做法,是把超分能力直接塞进生成链路里。

  按照介绍,系统会先生成720P视频和对应音频,再通过轻量化实时超分模块,一步完成高清视频和音频细节增强,最终直接输出**1K甚至2K分辨率**结果。

  这件事的意义很实际:清晰度提升,不再明显拖慢速度。对数字人直播、实时创作、内容互动这些对时延特别敏感的场景来说,这种取舍非常关键。

  ###DirectorAgent:不只是出片,还能改片

  JoyAI-Echo的另一项重点能力,是面向创作流程的**DirectorAgent**。

  现实中的影视制作,从来都不是一次完成的。剧本、分镜、拍摄、审片、返工和重拍,本来就是反复打磨的过程。但过去很多AI视频生成工具,基本还停留在“一次性出片”的阶段。只要某个镜头出了问题,创作者往往只能整条视频重来,不仅耗时,也很难保证前后内容一致。

ScreenShot_2026-06-07_164931_586.jpg

  DirectorAgent想改掉的,就是这种“推倒重来”的工作方式。

  按照设计,整套链路分为策划、生成、点评修改三个阶段。

  在策划阶段,Agent更像“编剧兼导演”。它先理解用户意图,再把一句自然语言需求扩展成完整故事框架,补充角色设定、场景信息和叙事逻辑,再进一步拆成镜头级规划,最后生成模型所需的结构化条件。

  到了生成阶段,Agent又像“现场导演”。它会根据当前镜头内容,从已生成的历史镜头里检索最相关的信息,再把这些参考内容与当前剧本状态一起整理成模型输入条件,让模型准确调用角色、场景和剧情上下文。

  进入点评和修改阶段后,无论是用户反馈,还是自动评价模型发现角色形象、动作表现、对白内容或音画同步出了偏差,Agent都能快速定位到具体镜头,只对受影响的部分进行重生成,而不需要把整条视频推倒重来。

  更关键的是,修改后的结果还会同步更新到后续剧情中,确保整条视频保持连贯。

  这就意味着,JoyAI-Echo不再只是一个负责“吐出视频”的模型,更像是一整套能策划、生成、返工和迭代的长视频创作系统。

  ###官方评测:多项指标领先

  从官方公布的评测结果看,JoyAI-Echo在长视频生成的多个关键指标上,确实拿出了比较强的表现。

  在用户盲测中,研究团队将JoyAI-Echo与代表性长视频模型做对比。结果显示,在长视频任务里,用户有**63.6%**的情况下更偏好JoyAI-Echo生成的视频画面;在音频质量维度,这一优势达到**81.7%**;提示词遵循偏好为**80.6%**;IP一致性偏好为**59.4%**。此外,它的语音准确率达到**0.8646**。

  即便放在人像短视频这个竞争最激烈的赛道中,JoyAI-Echo依然拿到了更高的视觉美学用户偏好,数据为**58.8%**,而对照模型为**26.5%**。

  官方据此认为,JoyAI-Echo已进入全球长视频生成领域第一梯队。

  ###开源,才是更大的信号

  比起一串技术指标,JoyAI-Echo其实还有一个更值得注意的地方:它选择了开源。

  这意味着,长视频生成不再只是少数头部公司的封闭能力,而开始变成一个可以被开发者、创作者和研究者共同验证、调用和持续迭代的开放工具。对这个还在快速变化的领域来说,开源不只是把代码放出来,更是在释放验证空间和共创能力。

  如果说过去的大模型解决的是“AI能不能生成视频”的问题,那么JoyAI-Echo现在试图回答的,是另一个更现实的问题:

  **AI能不能真正参与长视频内容生产。**

  从目前披露的结果看,这个答案已经越来越接近肯定。JoyAI-Echo带来的,不只是一套新的长视频模型框架,更像是一次AI视频生产范式的推进。

  当稳定记忆、实时交互、可控修改和高效生成开始同时出现,AI长视频也就不再只是技术展示,而是真的开始往生产工具的方向走了。


长按图片保存,扫码关注公众号

转载注明出处:http://www.wzimo.com/linggan/68.html

联系我们

在线咨询:点击这里给我发消息

微信号:13888888888

工作日:9:30-18:30,节假日休息