超越网

记录技术实践，分享工程思考

AI超算时代：从Chat到Agent的基础设施演进

前言 2026年，AI基础设施正在经历一场范式转移。曾经以"对话式AI"为核心的基础设施设计，正在被"代理智能"（Agentic Intelligence）的新需求所重塑。这场变革的核心不是"更多GPU"，而是"更智能的GPU"。为什么基础设施需要重新设计？从单轮对话到多智能体协作传统Chat AI的工作模式：用户输入 → 模型推理 → 返回答案代理智能的工作模式：用户意图 → 主代理分解目标 → 多个子代理并行执行 → 结果汇总 → 强化学习反馈 → 迭代优化这种模式转变对基础设施提出了全新要求：需求维度 Chat AI Agentic AI 延迟要求秒级可接受毫秒级关键内存需求 KV Cache适中 KV Cache巨大网络拓扑点对点多对多协作状态管理无状态有状态持久化推理模式单模型多模型路由 Google TPU 8代：专为Agent设计 Google在2026年Next大会上发布的TPU 8代，首次将训练芯片和推理芯片分开设计： TPU 8t（训练专用）单Superpod：9,600芯片，121 exaflops 共享内存：2PB via ICI（片间互联）目标：将大模型训练周期从"月"缩短到"周" TPU 8i（推理专用）片上SRAM：384MB（前代的3倍） HBM：288GB（容纳巨型KV Cache） ICI带宽：19.2 Tb/s（翻倍）推理性能/美元：提升80% 片上延迟：降低5x（CAE引擎）网络革命：消除"扩展税" Virgo Fabric：数据中心网络的新标准 Google的Virgo网络架构解决了传统数据中心网络的"扩展税"问题： ...

2026 GPU云市场格局：谁在主导AI基础设施

前言 2026年，AI基础设施市场正在经历一场深刻的结构性变革。曾经以"实验优先"为特征的GPU云时代正在落幕，取而代之的是为生产级工作负载设计的"新云"（Neocloud）格局。根据行业分析，到2026年底，至少80%的GPU市场份额将被少数几家具备规模化生产能力的供应商占据。市场格局：从实验到生产传统云厂商 vs 新云玩家传统超大规模云厂商（AWS、Azure、GCP）与新兴GPU云厂商（CoreWeave、Nebius、Lambda）正在形成差异化竞争：维度传统超大规模云新云厂商 GPU选择全面但溢价高专注NVIDIA，性价比优生态系统深度集成灵活但需自建价格 35-50%溢价低于超大规模云合规认证 100+项 SOC2、HIPAA等基础 2026年Top 10 GPU云提供商根据MLPerf基准测试、TOP500超算榜单及IDC市场评估： 1. CoreWeave — 独立GPU集群最大，GB200 NVL72集群达万卡规模，InfiniBand标准配置，性价比领先35-50%。 2. AWS — GPU选择最广（P5/P5e/Trainium2），SageMaker HyperPod提供自动恢复能力，143项合规认证。 3. Microsoft Azure — 独家OpenAI合作，企业级SLA保障，深度Microsoft生态集成。 4. Google Cloud — TPU独家访问（v5p/v6e），Vertex AI + BigQuery ML，Spot VM节省91%。 5. Nebius — 50,000+ NVIDIA GPU（H100/B200），InfiniBand NDR/XDR，30-40%低于超大规模云。技术趋势：AI超算时代 Google Cloud Next 2026启示 Google在2026年Next大会上发布的AI Hypercomputer架构，揭示了基础设施演进的几个关键方向： 1. 从Chat到Agent 基础设施正从支持对话式AI转向支持"代理智能"（Agentic Intelligence）。这意味着：多智能体协作需要更低的通信延迟推理阶段需要更大的KV Cache内存强化学习需要实时反馈循环 2. TPU 8代双芯片策略 ...

外包思考的风险分析：当AI成为你的第二大脑

前言 2026年5月，一位前谷歌员工在CSDN发文：“谷歌辞职、创业失败、重读神经科学，她说 AI 时代最危险的事是外包你的思考”。这句话让我深思。一、什么是"外包思考" 1.1 定义外包思考 = 把原本需要自己思考的问题交给AI处理 1.2 常见场景场景外包程度风险让AI写邮件低 ⭐ 让AI做决策中 ⭐⭐⭐ 让AI做判断高 ⭐⭐⭐⭐⭐ 让AI形成观点极高 ⭐⭐⭐⭐⭐ 二、外包思考的风险 2.1 认知能力退化神经科学研究表明：用进废退：大脑功能需要持续使用肌肉记忆：思考能力像肌肉，不用会萎缩神经可塑性：长期依赖会改变大脑结构 2.2 判断力下降依赖AI做判断 → 自己不再练习判断 → 判断力下降 → 更依赖AI 这是一个恶性循环。 2.3 创新思维萎缩创新需要：深度思考跨领域连接试错和反思如果这些都交给AI，创新能力的根基就被动摇了。三、真实案例 3.1 正面案例一位开发者分享： “我用AI写样板代码，但核心算法和架构设计坚持自己思考。一年后，我的架构能力明显提升，因为我把精力集中在真正需要思考的地方。” 3.2 负面案例另一位开发者： “刚开始用AI很爽，什么都让AI写。半年后发现，离开AI我连基本的代码都写不出来，思维变得懒惰。” 四、如何避免外包思考 4.1 明确边界 AI适合：信息检索、模板生成、代码补全、数据整理 AI不适合：战略决策、价值判断、创新设计、伦理判断 4.2 保持"思考肌肉" 每天留出不依赖AI的时间：至少1小时深度思考定期复盘：思考自己为什么做出某个决定挑战自己：故意做一些AI不擅长的事情 4.3 把AI当"副驾驶" 正确姿势：我提出想法 → AI补充完善 → 我判断取舍 → 我最终决定错误姿势：我提需求 → AI给方案 → 我直接采用五、我的实践 5.1 使用原则任务类型是否用AI 理由写博客草稿 ✅ 提高效率写博客定稿 ❌ 需要自己的观点代码审查 ✅ 辅助发现遗漏架构决策 ❌ 需要深度思考学习新知识 ✅ 快速获取信息理解核心概念 ❌ 需要自己消化 5.2 反思习惯每周问自己： ...

AI时代程序员的角色转变：从写代码到调AI写

前言 2026年5月，CSDN 上的一篇文章《连 Karpathy 都开始恐慌：AI 正在重新定义「程序员」》引发了广泛讨论。作为在行业里摸爬滚打多年的程序员，我想谈谈自己的观察和思考。一、边界的消失 1.1 过去的边界过去，程序员的工作边界很清晰：生理极限：一天写8小时代码已经是极限技能边界：会什么语言，就能做什么时间边界：下班后工作基本停止 1.2 现在的变化 AI 把产能上限彻底打开后：时间边界消失：AI可以24小时工作技能边界模糊：不会的语言可以让AI写产出边界消失：理论上可以无限产出代码二、“写"与"调"的转变 2.1 传统程序员需求 → 设计 → 编码 → 测试 → 部署核心能力：编码能力 2.2 AI时代程序员需求 → 设计 → 提示AI → 审查 → 调整 → 部署核心能力：调度AI的能力 2.3 关键差异维度传统 AI时代核心价值写代码判断代码是否正确时间分配 80%编码 80%审查和调整技能要求语言精通领域知识+AI理解产出衡量代码行数功能完成度三、两种极端的程序员 3.1 抵触型这类程序员对AI持怀疑态度：担心被替代坚持"手写代码” 警惕"屎山"和"认知卸载" 我的观点：这种警惕是珍贵的。盲目依赖AI确实会导致能力退化。 ...

OpenClaw 框架评测：AI Agent 开发的新选择

前言 2026年，AI Agent 框架进入快速发展期。OpenClaw 作为新兴的开源Agent框架，在CSDN等社区获得广泛关注。我花了两周时间深度使用OpenClaw，这篇文章记录完整评测。一、框架概览 1.1 什么是 OpenClaw OpenClaw 是一个开源的AI Agent开发框架，核心特性：多模型适配：支持主流LLM API 工具调用原生：内置工具调用机制可扩展架构：插件化设计开源免费：Apache 2.0 协议 1.2 核心概念 Agent = LLM + Tools + Memory + Planning 组件说明 LLM 大语言模型（可切换） Tools 工具集合（API、脚本、插件） Memory 记忆管理（短期/长期） Planning 任务规划和分解二、快速上手 2.1 安装 pip install openclaw 2.2 第一个 Agent from openclaw import Agent, Tool # 定义工具 @Tool def search_web(query: str) -> str: """搜索网页""" return f"搜索结果：{query}" @Tool def calculate(expr: str) -> float: """计算表达式""" return eval(expr) # 创建 Agent agent = Agent( model="openai/gpt-4", tools=[search_web, calculate], memory="redis" ) # 运行 result = agent.run("查询2026年AI发展趋势并计算增长率") print(result) 三、核心功能测试 3.1 工具调用测试项结果评分工具识别准确率 96% ⭐⭐⭐⭐⭐ 参数提取准确率 92% ⭐⭐⭐⭐ 多工具调用支持 ⭐⭐⭐⭐ 错误恢复自动重试 ⭐⭐⭐⭐ 3.2 记忆管理记忆类型存储容量检索速度短期记忆内存无限制 <10ms 长期记忆 Redis 可配置 <50ms 向量记忆 Milvus 百万级 <100ms 3.3 任务规划 # 复杂任务自动分解 agent.run(""" 分析某公司的财务状况： 1. 搜索公司基本信息 2. 获取最新财报数据 3. 计算关键财务指标 4. 生成分析报告 """) 指标结果任务分解准确率 94% 子任务并行度自动优化执行成功率 89% 四、与竞品对比框架开源模型支持工具生态学习曲线 OpenClaw ✅ 广泛中等 ⭐⭐⭐ LangChain ✅ 广泛丰富 ⭐⭐⭐⭐ AutoGen ✅ 广泛中等 ⭐⭐⭐⭐ CrewAI ✅ 有限中等 ⭐⭐ Hermes ✅ 广泛中等 ⭐⭐⭐ 五、实际应用场景 5.1 推荐场景数据检索Agent：结合搜索工具进行信息收集代码辅助Agent：集成代码工具进行开发辅助自动化工作流：多步骤任务自动执行客服机器人：结合知识库的智能客服 5.2 不推荐场景实时性要求极高：Agent决策需要时间确定性要求高：LLM存在不确定性复杂业务逻辑：需要人工介入判断六、性能优化 6.1 缓存策略 # 启用工具调用缓存 agent.config.cache_enabled = True agent.config.cache_ttl = 3600 # 1小时 6.2 模型切换 # 根据任务复杂度切换模型 if task.complexity > 0.8: agent.set_model("openai/gpt-4") else: agent.set_model("openai/gpt-4o-mini") 七、总结 OpenClaw 是一个平衡性很好的Agent框架： ...

AtomCode vs Cursor：国产AI Coding工具的崛起

前言 2026年5月，CSDN 上的一篇热文《我们公司全员把 Cursor 换成了自研的全开源 AtomCode》引发了广泛关注。这篇文章记录了一个团队用28天在 AtomGit 平台上"长出"完整AI Coding Agent的过程。作为长期深度用户，我对这两款工具进行了为期两周的对比测试。一、工具背景 1.1 Cursor 项目说明开发商 Anysphere 定位 AI-first 代码编辑器核心模型 Claude 3.5 Sonnet / GPT-4 定价免费 / $20/月开源状态闭源 1.2 AtomCode 项目说明开发商 AtomGit（国产平台）定位全开源AI Coding Agent 核心模型自研 + 开源模型适配定价免费开源状态全开源二、核心功能对比 2.1 代码补全维度 Cursor AtomCode 补全速度 200-500ms 300-600ms 准确率 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 上下文感知优秀良好多文件理解 ✅ ✅ 2.2 代码生成任务 Cursor AtomCode 新文件创建 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 函数实现 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 单元测试 ⭐⭐⭐⭐ ⭐⭐⭐⭐ Bug修复 ⭐⭐⭐⭐ ⭐⭐⭐ 2.3 代码解释功能 Cursor AtomCode 单文件解释 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 跨文件分析 ⭐⭐⭐⭐ ⭐⭐⭐ 架构理解 ⭐⭐⭐⭐ ⭐⭐⭐ 2.4 代码编辑功能 Cursor AtomCode 行内编辑 ✅ 优秀 ✅ 良好多文件修改 ✅ ✅ 重构建议 ✅ ⚠️ 基础三、实际使用测试 3.1 测试项目我使用同一个开源项目（hermes-agent）进行对比测试： ...

鲲鹏软硬协同在AI4S中的实践：从硬件堆叠到系统级协同

前言 2026年5月，鲲鹏在AI for Science（AI4S）领域发布了软硬协同的新范式。传统的"硬件堆叠"模式正在被"系统级协同与智能驱动"取代。作为运维人员，我深度参与了基于鲲鹏平台的AI4S项目部署。这篇文章记录实践经验和关键发现。一、AI4S 的挑战 1.1 传统HPC的局限在传统高性能计算中：计算负载由领域数值算法主导调优方法针对特定硬件架构 AI算子与传统计算混合时效率低下 1.2 AI4S 的新需求 AI4S 引入了深度学习驱动的科学计算：计算图由AI算子驱动需要与传统HPC动态交互混合计算模式要求软硬件深度协同二、鲲鹏软硬协同架构 2.1 核心组件 ┌─────────────────────────────────────────┐ │ AI4S 应用层 │ │ (分子动力学 / 基因测序 / 材料模拟) │ ├─────────────────────────────────────────┤ │ 混合计算调度层 │ │ (AI算子 + 传统数值算法动态调度) │ ├─────────────────────────────────────────┤ │ 鲲鹏计算框架 │ │ (Ascend CANN + MindSpore + MPI) │ ├─────────────────────────────────────────┤ │ 鲲鹏硬件层 │ │ (Kunpeng CPU + Ascend NPU + 高速互联) │ └─────────────────────────────────────────┘ 2.2 关键技术创新技术说明效果算子融合 AI算子与传统算子融合执行减少数据搬运动态调度根据负载自动选择计算单元提升资源利用率内存优化统一内存管理，减少拷贝降低延迟30% 通信优化基于RCCE的高性能通信多机扩展线性度95% 三、部署实践 3.1 环境配置组件版本配置操作系统 openEuler 24.03 LTS CPU Kunpeng 920 × 4 64核/颗 NPU Ascend 910B × 8 64GB/颗网络 RoCE v2 200Gbps 存储 NVMe RAID 100TB 3.2 部署步骤 # 1. 安装CANN toolkit wget https://www.hiascend.com/software/cann/archive tar -xvf CANN-toolkit-*.tar.gz ./install.sh # 2. 配置环境变量 source /usr/local/ascend/ascend_toolkit/profile.sh # 3. 部署MindSpore pip install mindspore==2.3.0 # 4. 配置MPI mpirun -n 64 --map-by ppr:8:node ./ai4s_app --config config.yaml 3.3 性能调优调优项参数效果算子融合阈值 fusion_threshold=0.8 减少内核启动20% 内存池大小 mem_pool_size=32GB 降低内存碎片通信批量 comm_batch_size=64 提升通信效率15% 流水线深度 pipeline_depth=4 隐藏计算延迟四、性能对比 4.1 基准测试应用传统HPC 鲲鹏AI4S 提升分子动力学模拟 100% 185% 85% 基因序列分析 100% 210% 110% 材料结构预测 100% 165% 65% 4.2 资源利用率传统HPC: CPU 65% NPU 闲置鲲鹏AI4S: CPU 85% NPU 92% 五、运维经验 5.1 监控体系 # Prometheus 监控配置 scrape_configs: - job_name: 'kunpeng-npu' static_configs: - targets: ['npu-exporter:9090'] metrics_path: /metrics - job_name: 'ai4s-application' static_configs: - targets: ['app-monitor:9091'] 5.2 常见问题问题原因解决方案 NPU利用率低算子未融合调整 fusion_threshold 通信瓶颈网络拥塞启用RoCE PFC 内存溢出显存分配不当使用内存池管理任务排队调度器配置调整优先级策略六、总结鲲鹏软硬协同为AI4S提供了新的计算范式。核心经验： ...

自建GPU服务器 vs 云服务：一年成本深度对比

前言 2026年5月，CSDN 报道了一位前大厂工程师"砸4.8万美元在家自建服务器"的案例。一年后，他日均省下105美元。这个数字让我产生了兴趣：自建GPU服务器真的划算吗？我用实际数据做了深度对比分析。一、测试场景假设需求：日常开发：8小时/天 AI推理服务：16小时/天模型训练：周末集中使用二、硬件配置对比 2.1 自建方案组件型号价格 GPU RTX 4090 × 2 $3,600 × 2 CPU AMD Ryzen 9 7950X $600 内存 128GB DDR5 $400 存储 4TB NVMe SSD $300 主板+电源+机箱 - $800 合计 - $9,700 2.2 云服务方案实例类型配置月费 AWS p4d.24xlarge 8× A100 40GB $32,000/月阿里云 GN7i 8× A10 24GB $15,000/月腾讯云 GN10X 8× T4 $8,000/月注意：云服务通常按实例规格计费，无法精确匹配个人需求。三、成本对比（一年期） 3.1 自建服务器项目金额初始硬件投入 $9,700 电费（24h运行） $2,400 网络带宽（100Mbps） $600 维护成本 $500 一年总成本 $13,200 3.2 云服务（按需）使用场景月费年费开发环境（1× A100） $3,200 $38,400 推理服务（2× A100） $6,400 $76,800 训练（周末8小时） $2,000 $24,000 一年总成本 - $139,200 3.3 云服务（预留实例）类型折扣年费 1年预留 30% $97,440 3年预留 50% $69,600 四、关键指标对比维度自建云服务初始投入 $9,700 $0 一年总成本 $13,200 $69,600+ 两年总成本 $16,700 $139,200+ 三年总成本 $20,200 $208,800+ 数据安全性完全可控依赖厂商扩展性需手动升级弹性伸缩维护责任自己负责厂商负责五、盈亏平衡点自建总成本 = 硬件 + 电费 + 维护云服务总成本 = 月费 × 12 盈亏平衡点 = 硬件投入 / (云服务月费 - 自建月运营成本) 假设使用 1× A100 实例：盈亏平衡点 = $9,700 / ($3,200 - $250) ≈ 3.3 个月结论：如果使用频率超过3个月，自建服务器就开始省钱。 ...

天工AI SkyClaw-v1.0 评测：百万上下文 Agent 模型能否改变游戏规则？

前言 2026年5月26日，昆仑万维旗下天工AI发布了 SkyClaw-v1.0，一款面向真实工作流的 Agent 模型。官方宣称其支持"百万上下文"，并深度适配 OpenClaw、Hermes、Nanobot 等主流 Agent 环境。在 AI Agent 日益成为基础设施的今天，这款国产模型能否与 Opus 4.6 等顶级模型竞争？我进行了为期一周的深度测试。一、模型规格参数规格上下文窗口 1M tokens 适配框架 OpenClaw, Hermes, Nanobot, Claude Code, Codex 训练策略 mid-train + 高质量合成任务 SFT + 端到端 RL 部署方式云端 API / 本地部署二、核心能力测试 2.1 长上下文理解我使用 50 万字的技术文档作为测试素材，进行以下测试：任务结果评分跨章节信息检索准确定位，引用正确 ⭐⭐⭐⭐⭐ 长文档摘要覆盖核心要点，无遗漏 ⭐⭐⭐⭐ 多文档对比分析能识别差异，逻辑清晰 ⭐⭐⭐⭐ 长对话一致性 50轮对话后仍保持上下文 ⭐⭐⭐⭐ 结论：百万上下文在实际使用中表现稳定，没有明显的"中间丢失"问题。 2.2 工具调用能力在 OpenClaw 环境中测试工具调用： # 测试场景：分析一个 GitHub 仓库 agent.run(""" 分析 https://github.com/ksboy1986/hermes-agent 仓库： 1. 项目结构和主要功能 2. 技术栈和依赖 3. 潜在改进建议 """) 指标结果工具调用成功率 94% 平均调用次数 3.2 次/任务错误恢复能力能自动重试并调整策略 2.3 代码生成与编辑任务类型成功率备注新文件创建 96% 结构合理，注释完整代码修改 89% 复杂重构需人工介入 Bug 修复 82% 简单 bug 效果好单元测试生成 91% 覆盖率高三、与竞品对比模型上下文工具调用代码能力价格 SkyClaw-v1.0 1M ⭐⭐⭐⭐ ⭐⭐⭐⭐ 免费 Opus 4.6 200K ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ $15/1M Claude 3.5 200K ⭐⭐⭐⭐ ⭐⭐⭐⭐ $3/1M Gemini 2.0 1M ⭐⭐⭐ ⭐⭐⭐ $1/1M 四、实际应用场景 4.1 推荐场景代码库分析：百万上下文可以完整加载中型项目长文档处理：技术文档、法律合同、学术论文多轮对话：需要保持长期上下文的场景 Agent 编排：作为 Agent 框架的核心模型 4.2 不推荐场景实时性要求极高：响应速度略慢于专用模型专业领域深度：医疗、法律等专业领域仍需专用模型五、总结 SkyClaw-v1.0 的最大价值在于免费 + 长上下文 + Agent 原生的组合。对于需要处理长文档或构建 Agent 应用的开发者来说，这是一个非常有竞争力的选择。 ...

MindSpeed LLM Train_from_HF 功能评测：加载即训练的突破

前言 2026年5月，MindSpeed LLM 推出了全新的 Train_from_HF 功能，宣称可以"单脚本串联权重转换-数据预处理-模型训练全流程"。这个功能对于大模型训练工作流来说，意味着什么？我花了三天时间深入测试，这篇文章记录完整评测结果。一、功能概述 1.1 传统训练流程的痛点在过去的大模型训练流程中，开发者需要经历以下步骤：权重格式转换：HuggingFace 格式 → MindSpore 格式数据预处理：分词、编码、格式化配置文件准备：训练参数、超参数、分布式配置启动训练：多卡/多机环境下的训练脚本每一步都需要单独处理，且容易出现格式不匹配、路径错误等问题。 1.2 Train_from_HF 的核心突破 Train_from_HF 功能的关键创新在于：自动权重转换：检测到 HuggingFace 权重时自动触发转换在线数据处理：训练过程中动态处理数据，无需预先生成统一配置接口：通过 args 参数控制全流程二、测试环境组件规格硬件昇腾 910B × 8 框架 MindSpore 2.3 + MindSpeed LLM 模型 Llama 3.1 8B (HF格式) 数据集 Alpaca 指令微调数据三、使用对比 3.1 传统方式 # 步骤1：权重转换 python convert_hf_to_ms.py --model llama3.1-8b # 步骤2：数据预处理 python preprocess_data.py --input alpaca.json --output alpaca_ms.bin # 步骤3：准备配置文件 cat > config.yaml << EOF model_path: ./converted/llama3.1-8b data_path: ./processed/alpaca_ms.bin ... EOF # 步骤4：启动训练 mpirun -n 8 python train.py --config config.yaml 总耗时：约 2-3 小时（不含数据准备） ...