人工智能体即将接管电脑

来源:EETOP

Anthropic、OpenAI与谷歌希望让智能体代替人类处理线上事务。

近两年多来,ChatGPT的发布引发了生成式人工智能的热潮。如今,许多人的浏览器或手机里都有一个神通广大的人工智能助手随时等着回答问题,这已不再像当时那样令人兴奋了。下一轮技术竞争的焦点,是能代你执行操作的人工智能体。尽管程序员等高级用户已经开始使用这类代理式人工智能,但普通消费者尚未接触到这样的助手。

不过,这种局面即将改变。Anthropic、谷歌DeepMindOpenAI近期相继展示了能像人类用户一样操作电脑的实验性模型,它们能上网搜索信息、填写表格、点击按钮。在人类用户的简单指引下,它们还可以完成订购杂货、叫车、比价购物或预订度假航班等任务。虽然这些早期模型功能有限且未大范围发布,但它们揭示了人工智能的进化方向。

“就像这样,人工智能正在自主操作。”OpenAI的首席执行官萨姆·奥尔特曼(Sam Altman)在观看一个演示视频时说。在视频里,OpenAI的智能体Operator成功登录OpenTable(美国的一个网上订餐平台)网站,查询旧金山餐厅信息,并检索晚上7点是否可以预订双人餐位。

匹兹堡卡内基梅隆大学的机器学习副教授扎卡里·利普顿(Zachary Lipton)指出,人工智能体已嵌入到了面向销售人员、医生和律师等不同企业用户的专业软件中。但他表示,迄今为止还没有“能利用笔记本电脑处理日常事务”的人工智能体,“其中最有趣的是,人们愿意交出控制权的可能性。”

Anthropic公司率先公布了这项新功能。202410月,该公司宣布其Claude聊天机器人现已具备“像人类一样操作电脑”的能力。该公司强调,该模型的这项功能作为公开测试版发布,且仅面向基于Anthropic大语言模型开发工具和产品的开发者。Claude可通过解析用户看到的屏幕截图来导航,并计算将光标移动至特定位置所需的像素距离,然后进行操作。Anthropic的发言人表示,Claude可在任何计算机及桌面应用程序中完成此类操作。

谷歌DeepMind紧随其后,在谷歌Gemini 2.0语言模型的基础上推出了其Mariner项目。202412月,该公司展示了Mariner,但称其为“早期研究原型”,并且目前仅向“可信测试者”提供。作为额外的防护措施,Mariner目前仅在Chrome浏览器内运行,并且仅限活动标签页。也就是说,用户处理其他任务时,它无法在后台运行。虽然这一限制似乎有违人工智能助手节省时间的初衷,但这可能只是开发早期阶段的暂时性情况。

此外,20251月,OpenAI推出了其计算机使用智能体(CUAOperatorOpenAI称其为“研究性预览版”,目前仅向每月支付200美元使用OpenAI高级服务的用户开放,不过该公司表示正在努力拓展其应用。Operator团队的工程师亚什·库马尔(Yash Kumar)表示,该工具基本上可以与任何网站协同工作。“我们从浏览器开始,是因为大部分工作都是通过浏览器完成的。”库马尔说。但他指出,“我们也训练了计算机使用智能体,因此有可能将其扩展到”其他桌面应用程序。

与其他产品类似,Operator依靠思维链推理来接收指令,并将其分解为一系列可以完成的任务。如果需要更多信息来完成某项任务(比如用户更想要购买紫洋葱还是黄洋葱),它就会暂停并提示用户输入。在执行预订餐厅座位或提交购物订单等最终步骤之前,它也会请求确认。

计算机使用智能体目前还无法完成的一些任务有登录网站、同意服务条款、解析验证码,以及输入信用卡或其他支付信息。如果遇到这些障碍中的任何一个,智能体就会将控制权交还给人类用户。OpenAI指出,用户输入登录或支付信息时,Operator不会截取浏览器的屏幕截图。

3家公司都表示,完全让人工智能操作电脑可能会带来安全风险。Anthropic特别提出了对提示词注入攻击的担忧,即恶意行为者可能在用户提示中添加某些内容,导致模型采取意外行动。“由于Claude可以解析联网计算机的截图,因此它可能会接触到包含提示词注入攻击的内容。”Anthropic在一篇博客中写道。

卡内基梅隆大学的利普顿指出,这些公司并未透露太多关于计算机使用智能体及其工作原理的信息,因此难以评估相关风险。“如果有人能让你的计算机操作程序执行恶意操作,这是否意味着他们已经入侵了你的计算机?”他质疑道,如果是这样,不法分子何不直接采取行动?

不过利普顿表示,考虑到我们在线上会进行各种操作和交易,“不难想象,某些行为可能会使用户陷入困境。”他举例道,“谁会成为第一个受害者,例如醒来发现(他的智能体)给他买了一个车队?”

虽然这些公司都未公布计算机使用智能体大范围发布的时间表,但消费者在2025年很有可能接触到这项技术,可能是通过大型人工智能公司,也可能是通过提供平替方案的初创企业。

OpenAI的库马尔表示这是一个激动人心的时刻,Operator标志着人类与人工智迈向协作式未来的重要一步。在谈及通用人工智能(AGI)这个长期被期待(同时也倍受忌惮)的终极目标时,他说:“它是通往通用人工智能道路的跳板。使用人类用户日常交互所用界面和工具的能力可以拓宽人工智能的实用性,帮助人们节省处理日常事务的时间。”

还记得2013年那部极富预见性的电影《她》吗?我们似乎正在逐渐接近影片开场时的世界,那个嗓音魅惑的萨曼莎尚未对主角耳语之前的时代。在那个时代,所有人都配备着乏味但实用的人工智能助手,它们负责阅读和回复信息,处理各种琐事。人工智能公司真切地实现了这个目标后,创造“萨曼莎”无疑会成为他们的下一个目标。

文章来源于悦智网,作者Eliza Strickland

报名邀请

特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。

上一篇:高通孟樸:AI为芯片业带来结构性新需求
免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。

2、如因作品内容、版权和其他问题请与本站管理员联系,我们将在收到通知后的3个工作日内进行处理。