本周 AI 项目推荐:UXBench、MemLens、RoadmapBench…下一代模型,需要下一代 Benchmark
本周 AI 项目推荐:UXBench、MemLens、RoadmapBench…下一代模型,需要下一代 Benchmark我们最近在重新思考一件事:到底什么样的 Benchmark,才值得今天继续做?
搜索
我们最近在重新思考一件事:到底什么样的 Benchmark,才值得今天继续做?
硬氪获悉,AI厨房机器人品牌「栗上LISSOME」(以下简称“栗上”)近日完成数千万元人民币A轮融资。本轮融资由红杉中国、Brizan Ventures领投,老股东及HKX等机构跟投。此前,栗上已累计获得来自李泽湘教授的清水湾基金、高秉强教授、挑战者资本、高锋耐心资本、XbotPark宁波基地等机构的数千万元融资。
第一款AI原生健身硬件,究竟该长着一副怎样的面孔?!他试图向那些明知道该流汗、却总能找出一万个借口逃避的人出售一个名叫BodyPark的真人私教服务平台,以及一款叫做 ATOM的口袋AI私教机——BodyPark 刚推出的全新智能健身硬件。
从v0.7开始,我先给 Humanize PPT 划了一条边界。把渲染PPT页面外包给下游的Skill。Humanize PPT负责把大纲,逐页意图,视频和图片素材的坑位和演讲稿,整理成结构化的 JSON 与 Markdown,再交给下游 Skill 原生渲染。
这是葬AI起号以来工作量最大的一篇文章。为了严肃评测国产模型的能力,我自研了一个Benchmark,完整测试了智谱、Qwen、Kimi、Minimax、Deepseek这些最新国产模型,还引入了境外势力Claude作对照组。
今年开年以来,不管是硅谷、还是国内的 AI 投资圈子,都不太敢投 AI 应用了。
根据我长期使用的观察,0.3 倍率说是用 Kiro 逆向出来的 Claude,2.0 倍率说是正经 Claude Max 号池接出来的。听起来后者肯定更靠谱。我一开始也这么想的。毕竟倍率差了快七倍,价格摆在那,总不至于拿假货糊弄人吧。
之前预告过的那个「手机上的 Markdown / HTML 阅读器」做完了,叫 即览。
近日,来自清华大学智能产业研究院(AIR)的团队联合北京智源研究院(BAAI)、北京大学、南京大学等机构构建了一个基准:GeoCodeBench。这是一个面向 3D 几何计算机视觉的 PhD 级 coding benchmark,
在上午 11 点开始的英伟达 GTC Taibei 2026 大会现场,黄仁勋拿出了英伟达与微软联手打造的 PC 产品。在细数了将近 1 个小时已有成果之后,黄仁勋终于开讲今天的重头戏:一款迄今为止全球性能最强、能效最高的轻薄型 Windows PC。