火山引擎发布豆包音频生成模型1.0 | AI日报


Sky Computing Lab发布FastWan-QAD,单卡5090上1.8秒生成5秒视频
Sky Computing Lab日前发布FastWan-QAD视频生成模型系列,基于FastVideo的量化感知蒸馏(QAD)方案训练。在单张NVIDIA GeForce RTX 5090显卡上,端到端生成一段5秒480P视频仅需1.8秒,推理速度显著领先同类方案。
据介绍,该模型在保持视频质量的同时大幅降低了计算开销,使得高质量视频生成在消费级硬件上成为可能。目前,模型、代码及博客均已开源,开发者可基于此进行进一步研究与二次开发。
网易有道发布Confucius4-TTS:14语种跨语种无口音语音克隆开源模型
网易有道正式推出“子曰4.0”TTS引擎Confucius4-TTS,声称是业内首个支持14种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需3秒音频即可实现零样本音色克隆,克隆音色与原声相似度超85%,任务准确度达97%。
该模型支持中文、英语等14种语言,首创音频Prompt情感克隆迁移能力。底层采用GPT式语义大模型、SSL预训练特征与ECAPA-TDNN说话人编码器、FlowMatching框架。目前模型已全量开源(Apache协议),并提供54GB资源包供本地部署。
火山引擎发布豆包音频生成模型1.0,支持多角色对白与情绪编排
火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。
该模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长可保持音色统一。目前该模型已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。
Mistral AI发布OCR 4:支持170种语言与全自托管部署,OlmOCRBench得分85.20
Mistral AI日前正式发布OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。该模型支持170种语言、10个语系,可单容器全自托管部署。
在OlmOCRBench基准测试中,OCR 4得分85.20,独立标注者偏好率平均达72%。定价方面,每1000页收费4美元,Batch API可享50%折扣。用户可通过API或Mistral Studio的Document AI调用该服务。
IBM开源CUGA轻量级智能体框架
IBM正式开源CUGA(Configurable Generalist Agent),一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建CugaAgent,大幅降低智能体开发门槛。
该框架内置计划-执行-反思循环,在AppWorld(2025年7月—2026年2月)和WebArena(2025年2月—9月)基准上排名第一。
Runway推出Seedance 4K等三款新模型
Runway日前推出三款新模型:Seedance 4K、Seedance Mini及Kling 3.0 Turbo,官方宣称“全球最佳模型,汇聚一处”。三款新品已同步上线。
其中Seedance 4K主打超高清视频生成,Seedance Mini面向轻量高效场景,Kling 3.0 Turbo则在生成速度与质量之间实现新平衡。Runway同步推出限时优惠,使用优惠码30RUNWAY可享前三个月七折。随着视频生成赛道竞争日趋激烈,Runway通过多产品线布局覆盖从专业创作到快速原型的不同需求层级。
“无限制OCR”开源项目上线,实现单次长时域解析能力
Unlimited OCR项目日前在GitHub上线,主打“单次长时域解析”(One-Shot Long-Horizon Parsing)能力,旨在一次性处理长时间跨度的OCR任务。
该项目突破传统OCR逐帧或分段处理的局限,通过端到端方式一次性解析长序列内容,在处理长文档、长视频字幕提取等场景中具有潜在应用价值。
Claude Code v2.1.187发布:增强沙箱凭证安全,修复多项稳定性问题
Claude Code v2.1.187正式发布,新增sandbox.credentials设置,可阻止沙箱化命令读取凭证和秘密环境变量,进一步增强代码执行安全性。模型选择器及相关参数现已支持组织配置的模型限制,选中受限模型时显示“受组织设置限制”提示。全屏模式下选择菜单新增鼠标点击支持。
修复方面,本次更新解决了--resume在-p无模型回合时失败、--json-schema和工作流智能体结构化输出循环、远程MCP工具调用5分钟无响应后阻塞、Remote会话启动延迟约2.7秒、转文/中日韩文本粘贴乱码、子智能体深度追踪不准确、被杀智能体工作树注册残留未清理等多个问题,整体稳定性和用户体验显著提升。

Anthropic推出Claude Tag:在Slack中通过@Claude实现AI协作
Anthropic日前推出Claude Tag,一种在Slack频道中通过@Claude委托任务的全新协作方式。Claude可记住频道上下文,支持多用户交互,经授权后可自动学习其他频道和数据源。开启“环境”行为后,能主动更新未解决的线程或任务,支持异步工作,可自主推进项目数小时甚至数天。
即日起,Claude Tag面向Claude Enterprise和Team客户提供Beta版。管理员可精细控制工具和渠道访问权限,设置Token消耗限额,并查看所有操作日志。

字节跳动内部已大规模落地AI Coding,业务持续收缩聚焦大模型
火山引擎总裁谭待表示,AI Coding(人工智能辅助编程)已成为大模型泛化能力的核心体现,具备产业逻辑支撑,市场给予高估值是合理的。
谭待透露,字节新推出的豆包2.1Pro模型已正式跨过“生产级生产力”质变点,多项评测指标稳定超越Anthropic旗下标杆模型,部分指标与海外高阶版本持平,已能落地芯片RTL开发等真实工业级代码迭代任务。目前,字节跳动内部已大规模落地AI Coding生产流程。
OpenAI 推出「修补地球」计划,用 AI助力开源社区提升网络安全
6月23日,OpenAI宣布推出一项名为「修补地球」(Patch the Planet)的全新计划,旨在借助人工智能技术帮助开源社区提升网络安全防护能力、防范代码漏洞。该计划名称化用了1995年经典影片《黑客》中的标志性台词「入侵地球」(Hack the Planet)。
OpenAI将与知名网络安全公司Trail of Bits展开合作,由Trail of Bits的安全技术人员直接对接开源项目维护者,排查代码中的潜在风险,同时搭配OpenAI自研的Codex Security等安全工具开展辅助检测工作。
Groq获6.5亿美元融资转型AI推理云服务商,此前以200亿美元向英伟达授权LPU技术
当地时间6月22日,AI初创企业Groq宣布完成新一轮6.5亿美元融资,并将正式转型为AI推理云服务供应商(CSP)。约六个月前,Groq曾与英伟达签署了一份非独家授权协议,以200亿美元总价向后者授权其LPU(语言处理单元)推理技术,部分团队人员随之加入英伟达。
Oracle因AI应用裁员21000人,债务驱动云基础设施投资
据Ars Technica报道,Oracle(甲骨文)因AI应用战略调整裁员21,000人。此次裁员与公司通过债务融资大规模投资云基础设施的举措密切相关。
分析指出,Oracle正加速向AI和云计算领域转型,通过大规模基础设施投资争夺AI算力市场份额,但同时也面临人力成本优化和组织架构调整的压力。此次大规模裁员反映出传统企业软件巨头在AI浪潮下转型的阵痛,即在重金投入云与AI基建的同时,必须对传统业务线进行结构性收缩。
五眼联盟联合警告:AI驱动网络威胁数月内将影响普通用户
6月22日,五眼联盟(美国、英国、加拿大、澳大利亚、新西兰)网络安全部门联合发布警告,称即将到来的新一代AI模型将显著降低编写复杂攻击代码的门槛,自动化智能体可全天候扫描互联网漏洞,大幅缩短安全窗口期。
警告指出,AI驱动的超个性化钓鱼诈骗已在亚太地区蔓延,印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI,个人用户开启多因素认证、删除闲置账户以降低风险敞口。
GitHub联合开源联盟呼吁修改加州AI透明度法案,保护开源许可证永久性
GitHub联合Black Forest Labs、Hugging Face与Mozilla Corporation组成开源联盟,呼吁对加州AI透明度法案(SB 942,拟由SB 1000修正)进行针对性修改。联盟认为,当前草案要求开发者在下游用户未履行透明度义务时撤销开源许可证,这与开源许可证“永久不可撤销”的核心性质相冲突。
OpenAI携手Appia Foundation推动先进AI共享标准建设
OpenAI日前宣布,将通过Appia Foundation支持制定先进AI领域的共享标准,涵盖评估框架、安全实践与全球合作等关键方向。
此举是OpenAI在AI治理与安全领域持续布局的一部分。通过参与标准化建设,OpenAI旨在推动行业在模型评估、安全实践和跨国协作方面形成共识,以应对AI技术快速发展带来的治理挑战。















