BEIYOO·AI 简报：算力进入精细化计费，国产模型加速企业级落地

DeepSeek V4 将引入峰谷定价，低价模型进入资源调度阶段

标签：模型定价 / 成本治理

摘要： DeepSeek V4 正式版计划于 7 月中旬上线，并拟在 API 调用中引入峰谷定价机制：北京时间 9:00-12:00、14:00-18:00 为高峰时段，高峰期价格为平时的 2 倍。这个变化不等于 DeepSeek 放弃低价路线，而是说明大模型服务已经开始按算力拥塞程度做资源治理。企业若把 AI 接入核心流程，需要提前设计低峰批处理、缓存复用和多模型路由，否则单纯比较基础单价会低估真实成本波动。

Kimi 明确 B 端商业化路径，模型厂商与交付生态分工更清晰

标签：企业智能体 / 商业化

摘要：月之暗面 Kimi B 端负责人黄震昕近日解释了公司的企业级策略：Kimi 会重点投入底层模型、API 架构和 Agent 产品，不把自身变成重交付公司。其成本叙事也从“标价便宜”转向“实际使用效率”，例如通过高 KV-Cache 命中率降低长文本与高频调用成本。对企业客户而言，这意味着选模型时要同时评估模型能力、调用成本、生态伙伴交付能力和长期服务边界。

美团 LongCat-2.0 开源，国产算力上的万亿参数模型继续推进

标签：开源模型 / 国产算力

摘要：美团发布并开源 LongCat-2.0，官方信息显示其总参数量达 1.6T，平均激活约 48B，并原生支持 1M 超长上下文。该模型强调在五万卡国产算力集群上完成训练和推理，重点面向 Agentic Coding、长文档理解和复杂任务规划。它的意义不只在参数规模，更在于验证国产算力、分布式稳定性和面向企业自动化任务的工程体系。

华为 openPangu-2.0-Flash 开源，昇腾生态补齐 Agent 底座样本

标签：开源模型 / 算力生态

摘要：华为宣布 openPangu-2.0-Flash 模型正式开源，上线模型权重、基础推理代码及训推算子。该版本总参数量 92B、激活参数量 6B，openPangu 2.0 系列支持 512K 上下文，并规划 Pro 与 Flash 两个版本服务不同场景。对企业而言，这类开源不仅提供模型选择，也提供在国产硬件上做训练、推理和部署优化的参考路径。

小红书 RedKnot 推理引擎开源，长上下文竞争转向系统效率

标签：推理引擎 / 长上下文

摘要：小红书技术团队开源 RedKnot 推理引擎，重点解决长上下文场景中的 KV Cache 内存与吞吐压力。其方案将 KV Cache 沿注意力头维度拆解，并结合头分类稀疏、稀疏 FFN 和 SegPagedAttention 等机制，以提升首字生成速度和单卡并发能力。对需要处理合同、知识库、代码库和长报告的企业来说，推理引擎的效率可能比模型榜单排名更直接影响可用性和成本。

平安银行、腾讯云与中国银联推出“AI 智算卡”，算力消费开始产品化

标签：AI 商业化 / 金融权益

摘要：平安银行联合腾讯云、中国银联推出面向 AI 算力消费的“AI 智算卡”借记卡，并计划在 7 月开放申请。产品将金融账户、算力套餐、模型调用和 WorkBuddy 权益打包，覆盖文本生成、图像理解、代码辅助等个人与轻办公场景。这说明 AI 算力正在从开发者采购项变成金融权益与消费产品，也会推动企业员工自带 AI 工具的治理问题更早出现。

Push Security 披露 OpenAI 组织邀请钓鱼，AI 协作入口成为新攻击面

标签：AI 安全 / 身份治理

摘要： Push Security 披露，攻击者创建与目标公司同名的 OpenAI 组织，并通过 OpenAI 官方通知邮箱向员工发送邀请，以诱导其进入伪造的 AI 工作环境。由于邮件来源和验证机制看起来正常，传统邮件安全策略很难直接识别。企业在部署 ChatGPT、Claude、Cursor、Codex 等协作工具时，需要把组织邀请、Owner 权限、外部工作区和异常支付信息纳入安全审查。

Meta 限制工程师使用 Claude 与 Codex，代码助手进入合规边界管理期

标签：代码助手 / 数据合规

摘要： Meta 被曝限制部分 AI 工程师使用 Claude Code 与 OpenAI Codex，核心原因并非成本，而是担心外部模型输出、内部代码和训练数据之间产生法律与合规风险。随着代码助手深入研发流程，企业不能只讨论提效，还要明确哪些代码、数据、提示词和模型输出可以进入内部资产。对大型研发组织而言，AI 编程工具需要接入权限分级、日志留存和供应商条款审查。

谷歌限制 Meta 访问 Gemini，算力短缺影响平台间合作

标签：算力供给 / 云服务

摘要：报道称，谷歌因云端算力紧张限制 Meta 访问 Gemini 模型，影响 Meta 部分内部安全与审核自动化项目。无论事件细节如何，它都揭示了一个现实：前沿模型能力不仅受算法影响，也受芯片、电力、数据中心和供应商优先级约束。企业在关键流程中接入外部模型时，应预设容量不足、访问受限和模型切换的应急方案。

亚马逊调整 Anthropic 模型计费，Token 成为企业 AI 成本核心口径

标签：云服务 / Token 计费

摘要：亚马逊拟将其云平台上的 Anthropic 模型服务由按计算小时收费转向按 Token 数量计费，并计划明年生效。按 Token 计费能更贴近大模型实际资源消耗，但也会让长上下文、反复重试和低质量提示词的成本更透明。企业需要把提示词压缩、上下文裁剪、缓存命中和输出长度控制纳入应用设计，而不是等账单异常后再补救。

谷歌 AI 概览加入热门新闻轮播，搜索正在重新平衡 AI 摘要与媒体来源

标签：搜索分发 / 内容生态

摘要：谷歌在部分用户的 AI Overviews 中加入“热门新闻”轮播，把实时新闻链接嵌入 AI 摘要区域。这个调整回应了出版商对 AI 摘要截流的担忧，也说明搜索产品正在尝试把生成式回答与来源推荐重新绑定。对企业内容团队来说，未来 SEO 不只是关键词排名，还包括权威来源、实时性、结构化内容和被 AI 摘要引用后的转化设计。

Cursor 推出移动端应用，Agent 编程从桌面 IDE 延伸到随身任务管理

标签：AI 编程 / 移动办公

摘要： Cursor 发布移动端 AI 编码应用，用户可在手机上查看、推动和调整智能体编程任务。移动端并不意味着在小屏幕上完成复杂开发，而是把需求澄清、任务排队、结果审阅和轻量修改从桌面 IDE 中拆出来。研发团队如果引入这类工具，需要同步设计代码审查、权限隔离和生产环境变更流程，避免“随手批准”带来的工程风险。

美国拟限制 AI 公司出售健康数据，敏感数据商业化边界继续收紧

标签：隐私治理 / 数据合规

摘要：美国拟推动立法，限制 AI 公司向数据中间商出售健康数据，反映出医疗、健康和个人敏感信息在 AI 训练与商业化中的监管压力正在上升。对企业来说，数据合规不只是隐私政策文本，而是要落实到数据采集授权、用途边界、供应商转售限制和模型训练隔离。凡涉及员工健康、客户画像和医疗咨询的 AI 应用，都应优先做数据最小化和合规审查。