AI for Computing迎来破局者，国产黑马智子芯元两个月融了两轮！

9710点击 2026-06-22 16:09

很多科学突破，最开始都来自一个朴素的问题：人类终于算得动了。天文学需要计算行星轨道，生物医药需要计算分子相互作用，现代 AI 需要在海量参数、数据和反馈中寻找更优解……

科学发现和工业生产看起来相隔很远，但背后都离不开同一件事：把复杂世界转化为可以被计算、搜索和验证的问题。从这个角度来看，人类科学和工业的发展史，也是一部计算效率不断跃迁的历史。

人类不断发明工具来加速计算，从手算、算盘、机械计算器，到通用计算机和芯片，逐渐从手动人脑转移到自动化工具。后来，计算加速又进入硬件架构跃迁阶段：从 CPU 到 GPU，从单机到集群，从串行到并行，承接规模化的计算任务。

到了今天，新的瓶颈出现了。以大模型、智能体、具身智能、科学计算为代表的行业场景，把计算需求推向新的数量级。但硬件制程、功耗和成本约束越来越明显，单纯靠硬件扩张很难持续换来线性的效率提升。计算加速需要进入新的阶段：用 AI 来自动优化计算本身。

在这样的背景下，智子芯元所处的 AI for Computing（人工智能驱动的计算）赛道变得尤为重要。

这家成立于 2025 年 8 月的初创公司通过「大模型 + 运筹优化 + 算法自动发现」的技术范式，打造能够全面掌控复杂计算系统的智能体，将横跨软硬件各层级的复杂度从人类工程师手中全面接管，让计算芯片参数表上的理论峰值转化为使用场景中真实有效的实际算力。

在单点提速之外，AI for Computing 更深层的价值在于计算能力的跃迁将重构底层生产力，更多过去卡在计算环节的高价值产业开始具备规模化落地的可能。

就在今日，智子芯元正式官宣完成数千万元天使 + 轮融资。而在不到两个月之前，这家公司才拿到了数千万元天使轮融资，两轮累计融资近亿。

新一轮融资由鼎峰科创（武岳峰创投）、英诺科创基金、首程资本领投，老股东同创伟业等机构超额追投。

AI for Computing，为加速计算而生

AI for Computing 的出现，是计算系统复杂度上升之后的必然结果。

过去行业谈算力，更关心芯片参数、集群规模和理论峰值。但在真正进入生产环境之后，问题变得更具体：同样一批芯片，跑不同的模型、框架与业务负载，实际表现可能完全不同。

这种变化首先来自软硬件体系的高速更迭。芯片架构、编译器、推理框架与通信网络等都在变化，任何一侧更新，都会带来新的适配和调优问题。

其次，高水平性能优化人才稀缺。真正能同时理解算法、系统、硬件并把优化结果交付到生产环境的人不多。过去，这类工作主要依赖少数专家的反复排查、调参和验证。但随着系统层级越来越多，靠人工经验逐层优化接近效率上限。

更重要的是，计算任务本身正在变复杂。AI 应用从对话式交互走向智能体执行，模型推理也随之从单次问答延伸到长链路任务。持续规划、工具调用、文件读写和多轮执行，都会让计算负载变得更加动态、碎片化，也更取决于端到端系统效率。

理论上，最优的算力交付方案，应该根据具体计算资源和目标场景来特化设计。但现实中，工程师很难为每一个模型、每一套硬件、每一种业务负载都重新做一遍深度优化。优化空间太大，人工试错成本太高。

因此，AI for Computing 要解决的核心问题，就是让 AI 接管更多计算优化与系统统筹环节，加快整体计算流程。

智子芯元正是沿着这个方向展开，用 AI 释放每一块芯片中的有效算力，将过去依赖少数专家经验的性能优化沉淀成可自动化搜索与发现、可硬件验证、可规模交付的端到端工具链。打造 AI 时代的计算加速基础设施，成为它的核心使命。

而在国产算力生态中，AI for Computing 又有更具体的产业紧迫性。

国产 AI 芯片路线更加多元，不同厂商有不同的硬件架构、软件栈和开发工具。另外，国内客户的需求分散，模型厂商优先关心在 CUDA 上的性能效果，云厂商和 AIDC（人工智能数据中心）关心集群利用率，政企私有化客户更看重稳定交付和本地化部署。

这也解释了为什么这件事很难完全由芯片厂商独立完成。它们最理解自己的芯片，也会优化底层软件和开发工具，但其工作重心在于「筑底而非建楼」，受限于精力，不可能包揽上层应用适配。在真实场景里，芯片要面对大量具体而分散的适配瓶颈，靠单一厂商的通用工具包无法面面俱到。

在这种情况下，智子芯元承担起了国产算力精装修商的角色，帮助芯片厂商、大模型厂商、云厂商、AIDC 和政企私有化客户，把「卡能用」这件事做扎实。

AI + 运筹，让计算系统自己找到最优解

让卡能用、打造计算时代的核心基础设施，智子芯元的这两大愿景，正在通过其独有的技术路线来实现。

按照这一路线，它构建起了一个能够掌控计算系统的智能体：先理解计算任务和硬件约束，再自动发现可能的算法和实现路径，最后通过真实硬件反馈不断验证、筛选和迭代，实现自动化推进的计算加速过程。

这套技术路线具体可以拆成三步来看：

一是看清计算任务。

一个计算任务进入系统后，首先要被拆解成可分析、可优化、可评测的对象，比如时延、吞吐量、功耗。在真实计算系统中，性能瓶颈可能藏在很多地方：内存访问不够高效、并行调度没有展开，或者是算子实现、编译路径、推理框架与硬件适配出了问题。因此，第一步是让 AI 透彻理解计算任务与系统本身，否则后面的性能优化很容易变成盲试。

二是自动搜索与算法发现。

计算加速的难点在于，优化空间极其庞大。同一个计算任务往往有大量可能的实现方式，靠工程师经验逐一尝试，不仅效率低，也很难覆盖真实业务复杂多变的场景。这就来到了第二步：在一个巨大的实现空间里自动搜索合适的计算路径，甚至发现过去没有的新实现方式。

一方面，AI 提供通用理解和生成能力，包括理解任务、生成候选方案、补齐不同场景下的实现思路。

另一方面，运筹优化提供的则是在复杂约束条件下进行数学建模和优化搜索的能力。我们可以将它理解为工厂排产：每道工序要用哪台设备、什么时候开始、前后顺序怎么安排，资源冲突如何避免，都要考虑进来。放到计算系统里，这样的排产管理对应的就是算子、计算路径、编译策略和硬件资源之间的协同关系。

这样一来，系统可以在多重约束下寻找更接近性能上限的实现路径，并能够自动发现新的算法结构、计算路径或实现方式。

三是硬件验证。

计算加速不能只在静态分析或模拟环境里进行。一个算法是否真有效，还是要回到真实芯片、真实框架和真实业务负载中验证。作为智子芯元技术路线中的重要组成：硬件的反馈，让优化过程完成了从经验工程走向自动化工程的关键一环。

从需求到交付，计算加速跑成自动闭环

遵循上文的技术范式，智子芯元打造的计算时代的核心基础设施，落在了其核心产品「KernelCAT 自动化计算加速平台」上。

作为面向计算加速任务的智能体，KernelCAT 的核心能力是把用户的自然语言需求转化为可执行、验证与交付的优化流程。

当模型、算子、计算图、业务负载、目标硬件和性能目标接入后，它会先分析计算依赖、资源约束、硬件特征和潜在优化空间，再结合 AI 生成、运筹优化、强化学习和硬件反馈，搜索候选方案，最后在真实硬件上验证结果。

这套流程可以概括为四步：「分析 — 编码 — 上板调优 — 交付」，将计算加速中的复杂环节串成一个自动闭环。

更重要的是，KernelCAT 面向的是一整类计算加速任务。过去，一次模型迁移或硬件适配可能需要工程师反复查文档、写代码、编译、跑测试、看 profiling、调参，并且每换一个模型、框架或硬件，很多工作又得重新来一遍。它解决的正是这些重复、细碎但影响交付效率的工作：让系统自动接管底层复杂流程，快速完成 POC、跑通框架适配，并根据真实业务负载优化。

KernelCAT 家族中的 Kerminal 已经展现出了强大的自动计算加速能力，它是一套智能体系统，把模型能力、工具调用、代码执行、硬件反馈和任务流程组织在一起。

并且，Kerminal 没有针对单一榜单进行专项适配，凭借更底层的通用能力和深度优化能力，它能够在多个主流 benchmark 中取得领先表现。

其中在评估 AI 加速 GPU 内核优化的基准 KernelBench 中，Kerminal 取得了 SOTA 成绩，正确率、平均加速比与几何平均加速比三项核心指标均位居榜首。此外在 CANN-Bench 中体现得更明显，Kerminal 在总计 53 个任务中的 50 个完成 profiling，35 个完全通过，41 个通过率超过 95%，仅有 1 个任务报错。

更进一步看，Kerminal 展现出的能力并不只是工程排列组合。在测试任务中，如果目标硬件上的常规实现方式在大值域和特殊值场景（如 NaN）下精度不达标，它可以在没有人工提示的情况下，自主放弃原有实现，改用多项式逼近重新实现目标，并通过反复测试和迭代让精度达标。这一点很关键，它说明 Kerminal 有能力用数学思维自主探索新的实现路径。

这种能力经受住了不同芯片平台的考验，它生成和优化的 tile 算子已合并至昇腾官方 CANN 算子库 ops-math。reshape_and_cache_kernel_flash 算子从 vLLM CUDA 版本迁移到昇腾后，性能也从 14us 优化到 2.58us，提升 5.4 倍。

计算加速能力也在具体产业场景大显身手。比如在具身智能和机器人等端侧场景，RDK S100 开发板部署 DeepSeek R1 1.5B，端到端 2 小时闭环完成，吞吐性能较仓库基线提升 1.5 倍；在 AI for Science 场景，TorchFold 长序列昇腾部署实现峰值内存降低 70%、速度提升 50%；DSDP 分子盲对接模型完成 CUDA 生态向鲲鹏平台的迁移适配后，推理性能提升 138 倍。

这些成功的案例表明，KernelCAT 已经将行之有效的自动化计算加速方案沉淀为一套可复用、可跨平台迁移的产品能力。

并且随着 AI 深度介入加速过程，计算系统里原本按清晰层级优化的方式不够用了。未来稀缺的，是穿透不同层级、在繁杂业务中找准最优实现路径的能力。KernelCAT 的出现让计算加速从单点调优走向了系统级优化。

写在最后

从科学研究到工业生产，我们将见证高价值产业被计算能力重新定义。很多过去难以推进的事情，并不是理论上不可能，究其原因是计算跟不上。

诸如蛋白结构预测、新药筛选、工业仿真、机器人策略迭代，它们很大程度上依赖对复杂世界进行建模、搜索、验证和优化。计算能力大幅提升之后，产业变化不只体现在效率层面。

一方面，这些高价值场景将可被计算，转化为数学建模、算法搜索和系统优化问题；另一方面，计算变得更快、更便宜、更稳定，使这些能力能够真正进入业务流程。

智子芯元所处赛道的长期价值，也正在这里。

这些既是提升有效算力所面临的系统性门槛，也是智子芯元试图打开的空间。对于一家成立不到一年的初创公司来说，需要具备跨理论、算法、系统和硬件的前瞻判断。

智子芯元恰恰拥有了这样的复合背景，它更像是一支带有 Neo Lab 气质的研究型创业团队，围绕着 AI for Computing，将 AI、运筹优化、高性能计算、智能体和系统工程放到同一套技术体系中推进。这种技术底色不是凭空而来，团队具备从模型训练、模型能力提升、运筹优化到 Agentic 系统的全栈技术积累，并依托深圳市大数据研究院与河套学院的孵化支持，同时聘请罗智泉院士担任学术指导。

与此同时，从算力供给侧的芯片厂商、云厂商、AIDC，到模型与应用供给侧的模型厂商，再到终端需求侧的政企私有化客户，分布在产业链不同环节的各方都有为 AI for Computing 买单的理由：将纸面上的算力转化为可交付的有效算力。

此次的天使 + 轮融资，不只代表资本市场对一家新公司的关注，它们更看重的是：AI for Computing 带来的持续算力提升将成为释放新的科学、工业和智能化生产力的变量。

文章来自于"机器之心"，作者 "杜伟"。

关键词: AI新闻 , AI芯片 , 智子芯元 , AI算力优化

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md