谷歌掀语音Agent新纪元!开口就是生产力,Siri的最强外挂来了?
谷歌掀语音Agent新纪元!开口就是生产力,Siri的最强外挂来了?昨日凌晨,谷歌正式推出其最高质量的音频和语音模型——实时语音模型Gemini 3.1 Flash Live,并在Gemini App、Search Live以及Google AI Studio中同步开放,其中后者以预览版本向开发者提供。
搜索
昨日凌晨,谷歌正式推出其最高质量的音频和语音模型——实时语音模型Gemini 3.1 Flash Live,并在Gemini App、Search Live以及Google AI Studio中同步开放,其中后者以预览版本向开发者提供。
就在刚刚,据彭博社报道,iOS 27 将引入一套名为「Extensions」的新机制,允许用户通过设置面板,把 Google Gemini、Anthropic Claude 等第三方 AI 接入 Siri,就像现在调用 ChatGPT 一样直接从 Siri 发起请求。
看过 HBO 神剧《硅谷》(Silicon Valley)的朋友,想必都对那个名为 Pied Piper(魔笛手)的虚构公司念念不忘。
AI带来最大的惊喜,是帮助你完成很多梦。
Salesforce最近在推的Einstein Agent,定位已经从Copilot(副驾驶)转向了真正的Agent(代理)。他们的客户服务Agent可以独立处理客户请求,销售Agent可以自主跟进线索。Google也在Workspace中推出了类似能力,Agent能够独立完成邮件处理、日程安排等任务。这不是个例,而是整个行业都在经历的范式转变。
谷歌DeepMind刚刚为Gemini API放了一个大招:内置工具和自定义函数终于可以在同一次调用里混着用了。再加上跨工具的「上下文环流」和Google Maps原生接入,Agent开发的编排噩梦正在终结。
Google 最近发了 Gemini Embedding 2,他们第一个原生多模态向量模型。文本、图像、视频、音频、文档,全部映射到同一个 3072 维向量空间。这是 Omni Embedding(全模态向量模型)的大趋势:一个架构吃下所有模态,从 jina-embeddings-v4 到 Omni-Embed-Nemotron 再到 Omni-5,大家都在往这个方向收敛。
3月12日(周四),《纽约时报》发布了最新进展:“牛油果”(Avocado)模型确定再次推迟发布。据知情人士透露,Meta 继续开发数月的全新“前沿级”AI 模型,在推理、编程和写作的内部测试中,表现不及 Google、OpenAI 和 Anthropic 等竞争对手的领先模型。
所见即所学。
OpenClaw 火爆的盛况至今仍在持续,在国内甚至出现了排队在腾讯总部楼下等待安装 OpenClaw 的场景,让人感叹「一代人有一代人的领鸡蛋」。