超越网

记录技术实践,分享工程思考

AI超算时代:从Chat到Agent的基础设施演进

前言 2026年,AI基础设施正在经历一场范式转移。曾经以"对话式AI"为核心的基础设施设计,正在被"代理智能"(Agentic Intelligence)的新需求所重塑。这场变革的核心不是"更多GPU",而是"更智能的GPU"。 为什么基础设施需要重新设计? 从单轮对话到多智能体协作 传统Chat AI的工作模式: 用户输入 → 模型推理 → 返回答案 代理智能的工作模式: 用户意图 → 主代理分解目标 → 多个子代理并行执行 → 结果汇总 → 强化学习反馈 → 迭代优化 这种模式转变对基础设施提出了全新要求: 需求维度 Chat AI Agentic AI 延迟要求 秒级可接受 毫秒级关键 内存需求 KV Cache适中 KV Cache巨大 网络拓扑 点对点 多对多协作 状态管理 无状态 有状态持久化 推理模式 单模型 多模型路由 Google TPU 8代:专为Agent设计 Google在2026年Next大会上发布的TPU 8代,首次将训练芯片和推理芯片分开设计: TPU 8t(训练专用) 单Superpod:9,600芯片,121 exaflops 共享内存:2PB via ICI(片间互联) 目标:将大模型训练周期从"月"缩短到"周" TPU 8i(推理专用) 片上SRAM:384MB(前代的3倍) HBM:288GB(容纳巨型KV Cache) ICI带宽:19.2 Tb/s(翻倍) 推理性能/美元:提升80% 片上延迟:降低5x(CAE引擎) 网络革命:消除"扩展税" Virgo Fabric:数据中心网络的新标准 Google的Virgo网络架构解决了传统数据中心网络的"扩展税"问题: ...

2026 GPU云市场格局:谁在主导AI基础设施

前言 2026年,AI基础设施市场正在经历一场深刻的结构性变革。曾经以"实验优先"为特征的GPU云时代正在落幕,取而代之的是为生产级工作负载设计的"新云"(Neocloud)格局。根据行业分析,到2026年底,至少80%的GPU市场份额将被少数几家具备规模化生产能力的供应商占据。 市场格局:从实验到生产 传统云厂商 vs 新云玩家 传统超大规模云厂商(AWS、Azure、GCP)与新兴GPU云厂商(CoreWeave、Nebius、Lambda)正在形成差异化竞争: 维度 传统超大规模云 新云厂商 GPU选择 全面但溢价高 专注NVIDIA,性价比优 生态系统 深度集成 灵活但需自建 价格 35-50%溢价 低于超大规模云 合规认证 100+项 SOC2、HIPAA等基础 2026年Top 10 GPU云提供商 根据MLPerf基准测试、TOP500超算榜单及IDC市场评估: 1. CoreWeave — 独立GPU集群最大,GB200 NVL72集群达万卡规模,InfiniBand标准配置,性价比领先35-50%。 2. AWS — GPU选择最广(P5/P5e/Trainium2),SageMaker HyperPod提供自动恢复能力,143项合规认证。 3. Microsoft Azure — 独家OpenAI合作,企业级SLA保障,深度Microsoft生态集成。 4. Google Cloud — TPU独家访问(v5p/v6e),Vertex AI + BigQuery ML,Spot VM节省91%。 5. Nebius — 50,000+ NVIDIA GPU(H100/B200),InfiniBand NDR/XDR,30-40%低于超大规模云。 技术趋势:AI超算时代 Google Cloud Next 2026启示 Google在2026年Next大会上发布的AI Hypercomputer架构,揭示了基础设施演进的几个关键方向: 1. 从Chat到Agent 基础设施正从支持对话式AI转向支持"代理智能"(Agentic Intelligence)。这意味着: 多智能体协作需要更低的通信延迟 推理阶段需要更大的KV Cache内存 强化学习需要实时反馈循环 2. TPU 8代双芯片策略 ...

外包思考的风险分析:当AI成为你的第二大脑

前言 2026年5月,一位前谷歌员工在CSDN发文:“谷歌辞职、创业失败、重读神经科学,她说 AI 时代最危险的事是外包你的思考”。 这句话让我深思。 一、什么是"外包思考" 1.1 定义 外包思考 = 把原本需要自己思考的问题交给AI处理 1.2 常见场景 场景 外包程度 风险 让AI写邮件 低 ⭐ 让AI做决策 中 ⭐⭐⭐ 让AI做判断 高 ⭐⭐⭐⭐⭐ 让AI形成观点 极高 ⭐⭐⭐⭐⭐ 二、外包思考的风险 2.1 认知能力退化 神经科学研究表明: 用进废退:大脑功能需要持续使用 肌肉记忆:思考能力像肌肉,不用会萎缩 神经可塑性:长期依赖会改变大脑结构 2.2 判断力下降 依赖AI做判断 → 自己不再练习判断 → 判断力下降 → 更依赖AI 这是一个恶性循环。 2.3 创新思维萎缩 创新需要: 深度思考 跨领域连接 试错和反思 如果这些都交给AI,创新能力的根基就被动摇了。 三、真实案例 3.1 正面案例 一位开发者分享: “我用AI写样板代码,但核心算法和架构设计坚持自己思考。一年后,我的架构能力明显提升,因为我把精力集中在真正需要思考的地方。” 3.2 负面案例 另一位开发者: “刚开始用AI很爽,什么都让AI写。半年后发现,离开AI我连基本的代码都写不出来,思维变得懒惰。” 四、如何避免外包思考 4.1 明确边界 AI适合:信息检索、模板生成、代码补全、数据整理 AI不适合:战略决策、价值判断、创新设计、伦理判断 4.2 保持"思考肌肉" 每天留出不依赖AI的时间:至少1小时深度思考 定期复盘:思考自己为什么做出某个决定 挑战自己:故意做一些AI不擅长的事情 4.3 把AI当"副驾驶" 正确姿势: 我提出想法 → AI补充完善 → 我判断取舍 → 我最终决定 错误姿势: 我提需求 → AI给方案 → 我直接采用 五、我的实践 5.1 使用原则 任务类型 是否用AI 理由 写博客草稿 ✅ 提高效率 写博客定稿 ❌ 需要自己的观点 代码审查 ✅ 辅助发现遗漏 架构决策 ❌ 需要深度思考 学习新知识 ✅ 快速获取信息 理解核心概念 ❌ 需要自己消化 5.2 反思习惯 每周问自己: ...

AI时代程序员的角色转变:从写代码到调AI写

前言 2026年5月,CSDN 上的一篇文章《连 Karpathy 都开始恐慌:AI 正在重新定义「程序员」》引发了广泛讨论。 作为在行业里摸爬滚打多年的程序员,我想谈谈自己的观察和思考。 一、边界的消失 1.1 过去的边界 过去,程序员的工作边界很清晰: 生理极限:一天写8小时代码已经是极限 技能边界:会什么语言,就能做什么 时间边界:下班后工作基本停止 1.2 现在的变化 AI 把产能上限彻底打开后: 时间边界消失:AI可以24小时工作 技能边界模糊:不会的语言可以让AI写 产出边界消失:理论上可以无限产出代码 二、“写"与"调"的转变 2.1 传统程序员 需求 → 设计 → 编码 → 测试 → 部署 核心能力:编码能力 2.2 AI时代程序员 需求 → 设计 → 提示AI → 审查 → 调整 → 部署 核心能力:调度AI的能力 2.3 关键差异 维度 传统 AI时代 核心价值 写代码 判断代码是否正确 时间分配 80%编码 80%审查和调整 技能要求 语言精通 领域知识+AI理解 产出衡量 代码行数 功能完成度 三、两种极端的程序员 3.1 抵触型 这类程序员对AI持怀疑态度: 担心被替代 坚持"手写代码” 警惕"屎山"和"认知卸载" 我的观点:这种警惕是珍贵的。盲目依赖AI确实会导致能力退化。 ...

OpenClaw 框架评测:AI Agent 开发的新选择

前言 2026年,AI Agent 框架进入快速发展期。OpenClaw 作为新兴的开源Agent框架,在CSDN等社区获得广泛关注。 我花了两周时间深度使用OpenClaw,这篇文章记录完整评测。 一、框架概览 1.1 什么是 OpenClaw OpenClaw 是一个开源的AI Agent开发框架,核心特性: 多模型适配:支持主流LLM API 工具调用原生:内置工具调用机制 可扩展架构:插件化设计 开源免费:Apache 2.0 协议 1.2 核心概念 Agent = LLM + Tools + Memory + Planning 组件 说明 LLM 大语言模型(可切换) Tools 工具集合(API、脚本、插件) Memory 记忆管理(短期/长期) Planning 任务规划和分解 二、快速上手 2.1 安装 pip install openclaw 2.2 第一个 Agent from openclaw import Agent, Tool # 定义工具 @Tool def search_web(query: str) -> str: """搜索网页""" return f"搜索结果:{query}" @Tool def calculate(expr: str) -> float: """计算表达式""" return eval(expr) # 创建 Agent agent = Agent( model="openai/gpt-4", tools=[search_web, calculate], memory="redis" ) # 运行 result = agent.run("查询2026年AI发展趋势并计算增长率") print(result) 三、核心功能测试 3.1 工具调用 测试项 结果 评分 工具识别准确率 96% ⭐⭐⭐⭐⭐ 参数提取准确率 92% ⭐⭐⭐⭐ 多工具调用 支持 ⭐⭐⭐⭐ 错误恢复 自动重试 ⭐⭐⭐⭐ 3.2 记忆管理 记忆类型 存储 容量 检索速度 短期记忆 内存 无限制 <10ms 长期记忆 Redis 可配置 <50ms 向量记忆 Milvus 百万级 <100ms 3.3 任务规划 # 复杂任务自动分解 agent.run(""" 分析某公司的财务状况: 1. 搜索公司基本信息 2. 获取最新财报数据 3. 计算关键财务指标 4. 生成分析报告 """) 指标 结果 任务分解准确率 94% 子任务并行度 自动优化 执行成功率 89% 四、与竞品对比 框架 开源 模型支持 工具生态 学习曲线 OpenClaw ✅ 广泛 中等 ⭐⭐⭐ LangChain ✅ 广泛 丰富 ⭐⭐⭐⭐ AutoGen ✅ 广泛 中等 ⭐⭐⭐⭐ CrewAI ✅ 有限 中等 ⭐⭐ Hermes ✅ 广泛 中等 ⭐⭐⭐ 五、实际应用场景 5.1 推荐场景 数据检索Agent:结合搜索工具进行信息收集 代码辅助Agent:集成代码工具进行开发辅助 自动化工作流:多步骤任务自动执行 客服机器人:结合知识库的智能客服 5.2 不推荐场景 实时性要求极高:Agent决策需要时间 确定性要求高:LLM存在不确定性 复杂业务逻辑:需要人工介入判断 六、性能优化 6.1 缓存策略 # 启用工具调用缓存 agent.config.cache_enabled = True agent.config.cache_ttl = 3600 # 1小时 6.2 模型切换 # 根据任务复杂度切换模型 if task.complexity > 0.8: agent.set_model("openai/gpt-4") else: agent.set_model("openai/gpt-4o-mini") 七、总结 OpenClaw 是一个平衡性很好的Agent框架: ...

AtomCode vs Cursor:国产AI Coding工具的崛起

前言 2026年5月,CSDN 上的一篇热文《我们公司全员把 Cursor 换成了自研的全开源 AtomCode》引发了广泛关注。这篇文章记录了一个团队用28天在 AtomGit 平台上"长出"完整AI Coding Agent的过程。 作为长期深度用户,我对这两款工具进行了为期两周的对比测试。 一、工具背景 1.1 Cursor 项目 说明 开发商 Anysphere 定位 AI-first 代码编辑器 核心模型 Claude 3.5 Sonnet / GPT-4 定价 免费 / $20/月 开源状态 闭源 1.2 AtomCode 项目 说明 开发商 AtomGit(国产平台) 定位 全开源AI Coding Agent 核心模型 自研 + 开源模型适配 定价 免费 开源状态 全开源 二、核心功能对比 2.1 代码补全 维度 Cursor AtomCode 补全速度 200-500ms 300-600ms 准确率 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 上下文感知 优秀 良好 多文件理解 ✅ ✅ 2.2 代码生成 任务 Cursor AtomCode 新文件创建 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 函数实现 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 单元测试 ⭐⭐⭐⭐ ⭐⭐⭐⭐ Bug修复 ⭐⭐⭐⭐ ⭐⭐⭐ 2.3 代码解释 功能 Cursor AtomCode 单文件解释 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 跨文件分析 ⭐⭐⭐⭐ ⭐⭐⭐ 架构理解 ⭐⭐⭐⭐ ⭐⭐⭐ 2.4 代码编辑 功能 Cursor AtomCode 行内编辑 ✅ 优秀 ✅ 良好 多文件修改 ✅ ✅ 重构建议 ✅ ⚠️ 基础 三、实际使用测试 3.1 测试项目 我使用同一个开源项目(hermes-agent)进行对比测试: ...

鲲鹏软硬协同在AI4S中的实践:从硬件堆叠到系统级协同

前言 2026年5月,鲲鹏在AI for Science(AI4S)领域发布了软硬协同的新范式。传统的"硬件堆叠"模式正在被"系统级协同与智能驱动"取代。 作为运维人员,我深度参与了基于鲲鹏平台的AI4S项目部署。这篇文章记录实践经验和关键发现。 一、AI4S 的挑战 1.1 传统HPC的局限 在传统高性能计算中: 计算负载由领域数值算法主导 调优方法针对特定硬件架构 AI算子与传统计算混合时效率低下 1.2 AI4S 的新需求 AI4S 引入了深度学习驱动的科学计算: 计算图由AI算子驱动 需要与传统HPC动态交互 混合计算模式要求软硬件深度协同 二、鲲鹏软硬协同架构 2.1 核心组件 ┌─────────────────────────────────────────┐ │ AI4S 应用层 │ │ (分子动力学 / 基因测序 / 材料模拟) │ ├─────────────────────────────────────────┤ │ 混合计算调度层 │ │ (AI算子 + 传统数值算法 动态调度) │ ├─────────────────────────────────────────┤ │ 鲲鹏计算框架 │ │ (Ascend CANN + MindSpore + MPI) │ ├─────────────────────────────────────────┤ │ 鲲鹏硬件层 │ │ (Kunpeng CPU + Ascend NPU + 高速互联) │ └─────────────────────────────────────────┘ 2.2 关键技术创新 技术 说明 效果 算子融合 AI算子与传统算子融合执行 减少数据搬运 动态调度 根据负载自动选择计算单元 提升资源利用率 内存优化 统一内存管理,减少拷贝 降低延迟30% 通信优化 基于RCCE的高性能通信 多机扩展线性度95% 三、部署实践 3.1 环境配置 组件 版本 配置 操作系统 openEuler 24.03 LTS CPU Kunpeng 920 × 4 64核/颗 NPU Ascend 910B × 8 64GB/颗 网络 RoCE v2 200Gbps 存储 NVMe RAID 100TB 3.2 部署步骤 # 1. 安装CANN toolkit wget https://www.hiascend.com/software/cann/archive tar -xvf CANN-toolkit-*.tar.gz ./install.sh # 2. 配置环境变量 source /usr/local/ascend/ascend_toolkit/profile.sh # 3. 部署MindSpore pip install mindspore==2.3.0 # 4. 配置MPI mpirun -n 64 --map-by ppr:8:node ./ai4s_app --config config.yaml 3.3 性能调优 调优项 参数 效果 算子融合阈值 fusion_threshold=0.8 减少内核启动20% 内存池大小 mem_pool_size=32GB 降低内存碎片 通信批量 comm_batch_size=64 提升通信效率15% 流水线深度 pipeline_depth=4 隐藏计算延迟 四、性能对比 4.1 基准测试 应用 传统HPC 鲲鹏AI4S 提升 分子动力学模拟 100% 185% 85% 基因序列分析 100% 210% 110% 材料结构预测 100% 165% 65% 4.2 资源利用率 传统HPC: CPU 65% NPU 闲置 鲲鹏AI4S: CPU 85% NPU 92% 五、运维经验 5.1 监控体系 # Prometheus 监控配置 scrape_configs: - job_name: 'kunpeng-npu' static_configs: - targets: ['npu-exporter:9090'] metrics_path: /metrics - job_name: 'ai4s-application' static_configs: - targets: ['app-monitor:9091'] 5.2 常见问题 问题 原因 解决方案 NPU利用率低 算子未融合 调整 fusion_threshold 通信瓶颈 网络拥塞 启用RoCE PFC 内存溢出 显存分配不当 使用内存池管理 任务排队 调度器配置 调整优先级策略 六、总结 鲲鹏软硬协同为AI4S提供了新的计算范式。核心经验: ...

自建GPU服务器 vs 云服务:一年成本深度对比

前言 2026年5月,CSDN 报道了一位前大厂工程师"砸4.8万美元在家自建服务器"的案例。一年后,他日均省下105美元。这个数字让我产生了兴趣:自建GPU服务器真的划算吗? 我用实际数据做了深度对比分析。 一、测试场景 假设需求: 日常开发:8小时/天 AI推理服务:16小时/天 模型训练:周末集中使用 二、硬件配置对比 2.1 自建方案 组件 型号 价格 GPU RTX 4090 × 2 $3,600 × 2 CPU AMD Ryzen 9 7950X $600 内存 128GB DDR5 $400 存储 4TB NVMe SSD $300 主板+电源+机箱 - $800 合计 - $9,700 2.2 云服务方案 实例类型 配置 月费 AWS p4d.24xlarge 8× A100 40GB $32,000/月 阿里云 GN7i 8× A10 24GB $15,000/月 腾讯云 GN10X 8× T4 $8,000/月 注意:云服务通常按实例规格计费,无法精确匹配个人需求。 三、成本对比(一年期) 3.1 自建服务器 项目 金额 初始硬件投入 $9,700 电费(24h运行) $2,400 网络带宽(100Mbps) $600 维护成本 $500 一年总成本 $13,200 3.2 云服务(按需) 使用场景 月费 年费 开发环境(1× A100) $3,200 $38,400 推理服务(2× A100) $6,400 $76,800 训练(周末8小时) $2,000 $24,000 一年总成本 - $139,200 3.3 云服务(预留实例) 类型 折扣 年费 1年预留 30% $97,440 3年预留 50% $69,600 四、关键指标对比 维度 自建 云服务 初始投入 $9,700 $0 一年总成本 $13,200 $69,600+ 两年总成本 $16,700 $139,200+ 三年总成本 $20,200 $208,800+ 数据安全性 完全可控 依赖厂商 扩展性 需手动升级 弹性伸缩 维护责任 自己负责 厂商负责 五、盈亏平衡点 自建总成本 = 硬件 + 电费 + 维护 云服务总成本 = 月费 × 12 盈亏平衡点 = 硬件投入 / (云服务月费 - 自建月运营成本) 假设使用 1× A100 实例: 盈亏平衡点 = $9,700 / ($3,200 - $250) ≈ 3.3 个月 结论:如果使用频率超过3个月,自建服务器就开始省钱。 ...

天工AI SkyClaw-v1.0 评测:百万上下文 Agent 模型能否改变游戏规则?

前言 2026年5月26日,昆仑万维旗下天工AI发布了 SkyClaw-v1.0,一款面向真实工作流的 Agent 模型。官方宣称其支持"百万上下文",并深度适配 OpenClaw、Hermes、Nanobot 等主流 Agent 环境。 在 AI Agent 日益成为基础设施的今天,这款国产模型能否与 Opus 4.6 等顶级模型竞争?我进行了为期一周的深度测试。 一、模型规格 参数 规格 上下文窗口 1M tokens 适配框架 OpenClaw, Hermes, Nanobot, Claude Code, Codex 训练策略 mid-train + 高质量合成任务 SFT + 端到端 RL 部署方式 云端 API / 本地部署 二、核心能力测试 2.1 长上下文理解 我使用 50 万字的技术文档作为测试素材,进行以下测试: 任务 结果 评分 跨章节信息检索 准确定位,引用正确 ⭐⭐⭐⭐⭐ 长文档摘要 覆盖核心要点,无遗漏 ⭐⭐⭐⭐ 多文档对比分析 能识别差异,逻辑清晰 ⭐⭐⭐⭐ 长对话一致性 50轮对话后仍保持上下文 ⭐⭐⭐⭐ 结论:百万上下文在实际使用中表现稳定,没有明显的"中间丢失"问题。 2.2 工具调用能力 在 OpenClaw 环境中测试工具调用: # 测试场景:分析一个 GitHub 仓库 agent.run(""" 分析 https://github.com/ksboy1986/hermes-agent 仓库: 1. 项目结构和主要功能 2. 技术栈和依赖 3. 潜在改进建议 """) 指标 结果 工具调用成功率 94% 平均调用次数 3.2 次/任务 错误恢复能力 能自动重试并调整策略 2.3 代码生成与编辑 任务类型 成功率 备注 新文件创建 96% 结构合理,注释完整 代码修改 89% 复杂重构需人工介入 Bug 修复 82% 简单 bug 效果好 单元测试生成 91% 覆盖率高 三、与竞品对比 模型 上下文 工具调用 代码能力 价格 SkyClaw-v1.0 1M ⭐⭐⭐⭐ ⭐⭐⭐⭐ 免费 Opus 4.6 200K ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ $15/1M Claude 3.5 200K ⭐⭐⭐⭐ ⭐⭐⭐⭐ $3/1M Gemini 2.0 1M ⭐⭐⭐ ⭐⭐⭐ $1/1M 四、实际应用场景 4.1 推荐场景 代码库分析:百万上下文可以完整加载中型项目 长文档处理:技术文档、法律合同、学术论文 多轮对话:需要保持长期上下文的场景 Agent 编排:作为 Agent 框架的核心模型 4.2 不推荐场景 实时性要求极高:响应速度略慢于专用模型 专业领域深度:医疗、法律等专业领域仍需专用模型 五、总结 SkyClaw-v1.0 的最大价值在于免费 + 长上下文 + Agent 原生的组合。对于需要处理长文档或构建 Agent 应用的开发者来说,这是一个非常有竞争力的选择。 ...

MindSpeed LLM Train_from_HF 功能评测:加载即训练的突破

前言 2026年5月,MindSpeed LLM 推出了全新的 Train_from_HF 功能,宣称可以"单脚本串联权重转换-数据预处理-模型训练全流程"。这个功能对于大模型训练工作流来说,意味着什么? 我花了三天时间深入测试,这篇文章记录完整评测结果。 一、功能概述 1.1 传统训练流程的痛点 在过去的大模型训练流程中,开发者需要经历以下步骤: 权重格式转换:HuggingFace 格式 → MindSpore 格式 数据预处理:分词、编码、格式化 配置文件准备:训练参数、超参数、分布式配置 启动训练:多卡/多机环境下的训练脚本 每一步都需要单独处理,且容易出现格式不匹配、路径错误等问题。 1.2 Train_from_HF 的核心突破 Train_from_HF 功能的关键创新在于: 自动权重转换:检测到 HuggingFace 权重时自动触发转换 在线数据处理:训练过程中动态处理数据,无需预先生成 统一配置接口:通过 args 参数控制全流程 二、测试环境 组件 规格 硬件 昇腾 910B × 8 框架 MindSpore 2.3 + MindSpeed LLM 模型 Llama 3.1 8B (HF格式) 数据集 Alpaca 指令微调数据 三、使用对比 3.1 传统方式 # 步骤1:权重转换 python convert_hf_to_ms.py --model llama3.1-8b # 步骤2:数据预处理 python preprocess_data.py --input alpaca.json --output alpaca_ms.bin # 步骤3:准备配置文件 cat > config.yaml << EOF model_path: ./converted/llama3.1-8b data_path: ./processed/alpaca_ms.bin ... EOF # 步骤4:启动训练 mpirun -n 8 python train.py --config config.yaml 总耗时:约 2-3 小时(不含数据准备) ...