WeChat Share Icon

Google 终于动手了!Gemini 新功能接管浏览器,连鼠标都不用点了

2026年1月9日

2026 年的打工人,或许真的不需要再练“Ctrl+C/Ctrl+V”的手速了。

当 Google 昨天悄悄在 Chrome 142 Dev 版上线那个名为“Mariner”的蓝色小按钮时,我甚至能听到全球数百万 RPA 脚本在哀嚎。这一次,Gemini 不再是一个只会聊天的 Chatbot,它长出了“手”和“眼”,直接接管了你的浏览器。

这不仅是一次各种大模型能力的炫技,更是一场关于“人机交互”权的血腥再分配。

  • 接管浏览器: Gemini 可自主完成订票、填表、甚至跨网站比价等复杂操作。
  • 效率飞跃: 以前需要 20 分钟的“搜-读-填”流程,现在只需 30 秒。
  • Agent 化: Chrome 不再是展示网页的窗口,而是你的 AI 代理操作台。

01. 🚨 被“网页”困住的肉体凡胎

承认吧,你每天至少有 3 个小时是在做“数字搬运工”。

为了订一张出差的高铁票,你需要打开 12306、打开公司 OA 系统、打开飞书日历,然后在三个标签页之间来回复制粘贴。为了写一份竞品分析,你需要打开 20 个网页,忍受着弹窗广告,用肉眼从海量的 HTML 垃圾中寻找那一两行关键数据。

我们的大脑是用来思考战略的,但我们的双手却被这些毫无价值的点击和滚动绑架了。每一秒钟的机械操作,都是对人类智能的羞辱。而屏幕后的互联网巨头们,还在试图用更复杂的 UI 设计,把你留在他们的围墙花园里多点几下广告。

02. 🔍 UI 的消亡史

为什么 Gemini “接管”浏览器会这么震撼?因为这是 AI 第一次试图绕过 GUI(图形用户界面)。

过去 40 年,不管是 Windows 还是 Mac,无论是 APP 还是 Web,本质上都是这是为“人眼”和“鼠标”设计的交互逻辑。按钮要做大,颜色要醒目,流程要分步。但对于计算机来说,这些都是累赘。

Gemini 的“计算机使用”(Computer Use)能力,实际上是把网页直接“翻译”成了 API。它不看按钮长得好不好看,它只看 DOM 树里的功能定义。当它帮你订票时,它不需要像你一样去寻找“提交”按钮在哪,它直接向后端发送了最精准的请求。

📊 人工操作 vs Gemini Agent 效率对比

任务类型人工操作步骤耗时 (分钟)Gemini 自动操作耗时 (秒/Min)效率提升
酒店比价打开3个APP -> 筛选 -> 记录 -> 对比15 min一键指令 -> 输出 Excel20 sec🚀 45x
发票报销截图 -> 识别 -> 填单 -> 核对10 min自动抓取邮件 -> 填入 OA10 sec🚀 60x
竞品调研搜索 -> 阅读 -> 摘录 -> 汇总60 min遍历网页 -> 生成简报2 min🚀 30x

“数据来源:Promevo Gemini Productivity Guide & Internal Benchmark”

03. ⚙️ 把浏览器变成“外骨骼”

现在的 Chrome 142,已经不是一个简单的浏览器了。Google 在里面塞进了一个完整的 Agent Runtime 环境。

当你按下那个蓝色的 Mariner 按钮,Gemini 会瞬间对当前页面进行语义分析。它知道这个输入框是“出发地”,那个下拉菜单是“报销类别”。更可怕的是,它拥有跨 Tab 的记忆。它记得你在 Gmail 里看到的会议时间,所以当它在携程订票时,会自动避开那个时间段。

这就像是给你的大脑装了一套“外骨骼”装甲。你只需要发出“我想去上海出差”这个意图,剩下的所有战术动作——查票、比价、填单、支付——都由这套外骨骼自动完成。

04. 🔬 生产力的“奇点”时刻

如果说 GPT-4 是让 AI 学会了说话,那么 Gemini 的这一步,是让 AI 学会了“做事”。

在这个新范式下,只要是通过浏览器完成的工作,理论上都可以被 Agent 化。对于企业来说,这意味着每一个员工的产出上限被彻底打破。以前一个销售一天只能填 50 张单子,现在他只需要审核 500 张由 Agent 填好的单子。

这不仅仅是快,这是商业模式的降维打击。那些依然靠“让用户多点几次”来卖广告的网站,将面临灭顶之灾;而那些拥抱 Agent 协议,主动把接口暴露给 AI 的服务,将获得巨大的流量红利。

05. 🧭 交互权的再次转移

从命令行到图形界面,我们用了 20 年;从 PC 到移动触摸,我们用了 10 年;从 APP 到 AI Agent,可能只需要 3 年。

Google 这一刀,切的是所有 SaaS 软件的命脉。当浏览器本身变成了操作系统,当 AI 变成了唯一的入口,那些费尽心机设计的 APP 界面,可能真的要成为历史博物馆里的陈列品了。

❝ 最好的界面,就是没有界面。最好的操作,就是不用操作。 ❞ —— 硅基君 @ 端侧异变

06. 💡 别做“数字旧人类”

在这个 AI 接管浏览器的前夜,我们该做点什么?

  1. 标准化你的工作流:Agent 目前最擅长的是有明确规则的流程。把你工作中重复的部分梳理成 SOP(标准作业程序)。
  2. 拥抱 Markdown 和 API:学会用结构化的语言描述你的需求。给 AI 下指令,就像是在写代码,越精确,执行越完美。
  3. 尝试 Early Access:去申请 Chrome Dev 版的 Mariner 资格,不仅是尝鲜,更是让你的思维先人一步适应“人机协作”的新节奏。

如果 AI 能帮你自动订票、填表,你敢把信用卡授权给它吗?

  • A. 敢,效率第一,省下的时间去摸鱼
  • B. 不敢,万一它给我订了总统套房咋办?
  • C. 只敢让它填表,支付那一步必须我亲自按指纹

鼠标,这个陪伴了人类 60 年的输入设备,可能也是时候准备退休了。Gemini 的“自动驾驶”让我们看到,未来的互联网,或许真的不需要我们亲自“冲浪”。我们只需要告诉 AI 我们要去哪里,然后,静静地欣赏窗外的风景。


参考资料

  1. Google DeepMind, “Project Mariner: Autonomous Agents for the Open Web”, 2026.
  2. Promevo, “Gemini for Google Workspace Productivity Guide”, 2026.
  3. Medium, “2026 Guide to Production-Grade AI Agents”, 2026.