DeepSeek V4 将引入峰谷定价,低价模型进入资源调度阶段
标签:模型定价 / 成本治理
摘要: DeepSeek V4 正式版计划于 7 月中旬上线,并拟在 API 调用中引入峰谷定价机制:北京时间 9:00-12:00、14:00-18:00 为高峰时段,高峰期价格为平时的 2 倍。这个变化不等于 DeepSeek 放弃低价路线,而是说明大模型服务已经开始按算力拥塞程度做资源治理。企业若把 AI 接入核心流程,需要提前设计低峰批处理、缓存复用和多模型路由,否则单纯比较基础单价会低估真实成本波动。
Kimi 明确 B 端商业化路径,模型厂商与交付生态分工更清晰
标签:企业智能体 / 商业化
摘要: 月之暗面 Kimi B 端负责人黄震昕近日解释了公司的企业级策略:Kimi 会重点投入底层模型、API 架构和 Agent 产品,不把自身变成重交付公司。其成本叙事也从“标价便宜”转向“实际使用效率”,例如通过高 KV-Cache 命中率降低长文本与高频调用成本。对企业客户而言,这意味着选模型时要同时评估模型能力、调用成本、生态伙伴交付能力和长期服务边界。
美团 LongCat-2.0 开源,国产算力上的万亿参数模型继续推进
标签:开源模型 / 国产算力
摘要: 美团发布并开源 LongCat-2.0,官方信息显示其总参数量达 1.6T,平均激活约 48B,并原生支持 1M 超长上下文。该模型强调在五万卡国产算力集群上完成训练和推理,重点面向 Agentic Coding、长文档理解和复杂任务规划。它的意义不只在参数规模,更在于验证国产算力、分布式稳定性和面向企业自动化任务的工程体系。
华为 openPangu-2.0-Flash 开源,昇腾生态补齐 Agent 底座样本
标签:开源模型 / 算力生态
摘要: 华为宣布 openPangu-2.0-Flash 模型正式开源,上线模型权重、基础推理代码及训推算子。该版本总参数量 92B、激活参数量 6B,openPangu 2.0 系列支持 512K 上下文,并规划 Pro 与 Flash 两个版本服务不同场景。对企业而言,这类开源不仅提供模型选择,也提供在国产硬件上做训练、推理和部署优化的参考路径。
小红书 RedKnot 推理引擎开源,长上下文竞争转向系统效率
标签:推理引擎 / 长上下文
摘要: 小红书技术团队开源 RedKnot 推理引擎,重点解决长上下文场景中的 KV Cache 内存与吞吐压力。其方案将 KV Cache 沿注意力头维度拆解,并结合头分类稀疏、稀疏 FFN 和 SegPagedAttention 等机制,以提升首字生成速度和单卡并发能力。对需要处理合同、知识库、代码库和长报告的企业来说,推理引擎的效率可能比模型榜单排名更直接影响可用性和成本。
平安银行、腾讯云与中国银联推出“AI 智算卡”,算力消费开始产品化
标签:AI 商业化 / 金融权益
摘要: 平安银行联合腾讯云、中国银联推出面向 AI 算力消费的“AI 智算卡”借记卡,并计划在 7 月开放申请。产品将金融账户、算力套餐、模型调用和 WorkBuddy 权益打包,覆盖文本生成、图像理解、代码辅助等个人与轻办公场景。这说明 AI 算力正在从开发者采购项变成金融权益与消费产品,也会推动企业员工自带 AI 工具的治理问题更早出现。
Push Security 披露 OpenAI 组织邀请钓鱼,AI 协作入口成为新攻击面
标签:AI 安全 / 身份治理
摘要: Push Security 披露,攻击者创建与目标公司同名的 OpenAI 组织,并通过 OpenAI 官方通知邮箱向员工发送邀请,以诱导其进入伪造的 AI 工作环境。由于邮件来源和验证机制看起来正常,传统邮件安全策略很难直接识别。企业在部署 ChatGPT、Claude、Cursor、Codex 等协作工具时,需要把组织邀请、Owner 权限、外部工作区和异常支付信息纳入安全审查。
Meta 限制工程师使用 Claude 与 Codex,代码助手进入合规边界管理期
标签:代码助手 / 数据合规
摘要: Meta 被曝限制部分 AI 工程师使用 Claude Code 与 OpenAI Codex,核心原因并非成本,而是担心外部模型输出、内部代码和训练数据之间产生法律与合规风险。随着代码助手深入研发流程,企业不能只讨论提效,还要明确哪些代码、数据、提示词和模型输出可以进入内部资产。对大型研发组织而言,AI 编程工具需要接入权限分级、日志留存和供应商条款审查。
谷歌限制 Meta 访问 Gemini,算力短缺影响平台间合作
标签:算力供给 / 云服务
摘要: 报道称,谷歌因云端算力紧张限制 Meta 访问 Gemini 模型,影响 Meta 部分内部安全与审核自动化项目。无论事件细节如何,它都揭示了一个现实:前沿模型能力不仅受算法影响,也受芯片、电力、数据中心和供应商优先级约束。企业在关键流程中接入外部模型时,应预设容量不足、访问受限和模型切换的应急方案。
亚马逊调整 Anthropic 模型计费,Token 成为企业 AI 成本核心口径
标签:云服务 / Token 计费
摘要: 亚马逊拟将其云平台上的 Anthropic 模型服务由按计算小时收费转向按 Token 数量计费,并计划明年生效。按 Token 计费能更贴近大模型实际资源消耗,但也会让长上下文、反复重试和低质量提示词的成本更透明。企业需要把提示词压缩、上下文裁剪、缓存命中和输出长度控制纳入应用设计,而不是等账单异常后再补救。
谷歌 AI 概览加入热门新闻轮播,搜索正在重新平衡 AI 摘要与媒体来源
标签:搜索分发 / 内容生态
摘要: 谷歌在部分用户的 AI Overviews 中加入“热门新闻”轮播,把实时新闻链接嵌入 AI 摘要区域。这个调整回应了出版商对 AI 摘要截流的担忧,也说明搜索产品正在尝试把生成式回答与来源推荐重新绑定。对企业内容团队来说,未来 SEO 不只是关键词排名,还包括权威来源、实时性、结构化内容和被 AI 摘要引用后的转化设计。
Cursor 推出移动端应用,Agent 编程从桌面 IDE 延伸到随身任务管理
标签:AI 编程 / 移动办公
摘要: Cursor 发布移动端 AI 编码应用,用户可在手机上查看、推动和调整智能体编程任务。移动端并不意味着在小屏幕上完成复杂开发,而是把需求澄清、任务排队、结果审阅和轻量修改从桌面 IDE 中拆出来。研发团队如果引入这类工具,需要同步设计代码审查、权限隔离和生产环境变更流程,避免“随手批准”带来的工程风险。
美国拟限制 AI 公司出售健康数据,敏感数据商业化边界继续收紧
标签:隐私治理 / 数据合规
摘要: 美国拟推动立法,限制 AI 公司向数据中间商出售健康数据,反映出医疗、健康和个人敏感信息在 AI 训练与商业化中的监管压力正在上升。对企业来说,数据合规不只是隐私政策文本,而是要落实到数据采集授权、用途边界、供应商转售限制和模型训练隔离。凡涉及员工健康、客户画像和医疗咨询的 AI 应用,都应优先做数据最小化和合规审查。
