OpenAI深夜大招暴打Manus!智能體全家桶殺器一統(tǒng)API,4行代碼輕松上手

新智元
1 評(píng)論 1908 瀏覽 6 收藏 33 分鐘
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

OpenAI給開(kāi)發(fā)者的深夜大禮:一套全新API和工具上線,智能體的開(kāi)發(fā)更簡(jiǎn)單了!從此無(wú)需從不同來(lái)源拼湊各種底層API。一個(gè)全新API、三個(gè)內(nèi)置工具,以及一個(gè)開(kāi)源SDK,讓智能體開(kāi)發(fā)進(jìn)入next level。

Manus掀起的智能體風(fēng)暴,再次逼急了OpenAI。凌晨,OpenAI突然開(kāi)啟線上直播,正式放出開(kāi)發(fā)者自主構(gòu)建智能體的大禮包——

一個(gè)全新API、三個(gè)內(nèi)置工具,以及一個(gè)開(kāi)源SDK。

具體包括:

  • 全新Responses API?:將Chat Completions API簡(jiǎn)單性與Assistants API工具使用功能相結(jié)合,用于構(gòu)建智能體
  • 內(nèi)置三大工具:網(wǎng)絡(luò)搜索?、文件搜索?和計(jì)算機(jī)使用
  • 全新Agents SDK?:用于編排單智能體和多智能體工作流程
  • 集成可視化工具:用于追蹤和檢查智能體工作流程執(zhí)行情況

以往,開(kāi)發(fā)者構(gòu)建一款智能體應(yīng)用,需要從不同來(lái)源拼湊各種底層API。

這個(gè)過(guò)程不僅耗時(shí)耗力,就像搭積木一樣「搖搖欲墜」,如果一個(gè)環(huán)節(jié)出錯(cuò),搭出的智能體系統(tǒng)隨時(shí)可能崩盤(pán)。

而現(xiàn)在,OpenAI推出的Responses API和一系列工具,直接簡(jiǎn)化了核心智能體的邏輯、編排和交互。

與o1 Pro、Deep Research、Operator不同,Responses API是一個(gè)「統(tǒng)一API」,可支持多輪交互和工具調(diào)用。

其中,「網(wǎng)絡(luò)搜索工具」可讓模型即時(shí)訪問(wèn)互聯(lián)網(wǎng)信息,與驅(qū)動(dòng)ChatGPT Search是同一個(gè)工具,在Simple QA中,經(jīng)過(guò)微調(diào)后的GPT-4o拿下90%高分,GPT-4o mini得分為88%。

「文件搜索工具」曾在Assistance API中推出,便捷上傳、分塊、嵌入文檔,以及RAG?,F(xiàn)在,新增了兩個(gè)新功能「元數(shù)據(jù)過(guò)濾」和「直接搜索端點(diǎn)」。

「計(jì)算機(jī)使用工具」在API中被稱(chēng)為Operator,并配備了專(zhuān)門(mén)的計(jì)算機(jī)使用模型(CUA),跟ChatGPT中的Operator使用的是同一款。

結(jié)果顯示,模型在多項(xiàng)基準(zhǔn)測(cè)試中刷新了SOTA——OSWorld中成功率38.1%,在WebArena中達(dá)到58.1%,在WebVoyager基于網(wǎng)絡(luò)的交互中達(dá)到87%。

從今天開(kāi)始,計(jì)算機(jī)使用工具研究預(yù)覽版,將向3-5級(jí)?的特定開(kāi)發(fā)者開(kāi)放,輸入價(jià)格3美元/每百萬(wàn)個(gè)token,輸出價(jià)格12美元/每百萬(wàn)個(gè)token。

另外,奧特曼開(kāi)源的諾言終于兌現(xiàn)了一部分——Agents SDK?,簡(jiǎn)化多智能體工作流管理。

OpenAI還預(yù)告,未來(lái)幾周和幾個(gè)月里,還計(jì)劃發(fā)布更多工具和功能,進(jìn)一步簡(jiǎn)化和加速在平臺(tái)上構(gòu)建智能體應(yīng)用。

OpenAI現(xiàn)場(chǎng)演示:幾大全新工具,構(gòu)建更強(qiáng)大智能體

ChatGPT中已經(jīng)推出的兩個(gè)智能體,我們并不陌生。一個(gè)是可以瀏覽網(wǎng)頁(yè)、完成各種任務(wù)的Operator,一個(gè)是能針對(duì)任何主題生成詳細(xì)報(bào)告的Deep Research。

但現(xiàn)在,OpenAI希望把這些工具和更多工具以API的形式發(fā)布給開(kāi)發(fā)者。

過(guò)去一年里,OpenAI也已經(jīng)推出了高級(jí)推理、多模態(tài)交互、新的安全技術(shù)等全新功能,這就已經(jīng)打好了構(gòu)建智能體所需要的復(fù)雜多步驟任務(wù)的基礎(chǔ)。

然而,有很多客戶卻反饋說(shuō),這些功能很難直接轉(zhuǎn)換為可以直接工作的智能體,而是需要大量的大量的提示詞迭代和自定義編排邏輯,而且缺乏足夠的可見(jiàn)性和內(nèi)置支持。

而今天這套全新工具,將把智能體構(gòu)建帶入next level。

首先介紹的,就是網(wǎng)絡(luò)搜索工具。

它允許OpenAI的模型訪問(wèn)互聯(lián)網(wǎng)上的信息,保證用戶得到的結(jié)果是最新的和準(zhǔn)確的。

網(wǎng)絡(luò)搜索工具與驅(qū)動(dòng)ChatGPT Search的是同一個(gè)工具,它在底層由一個(gè)經(jīng)過(guò)微調(diào)的模型驅(qū)動(dòng),此模型就是經(jīng)過(guò)微調(diào)的GPT-4o 或4o mini。

它非常擅長(zhǎng)處理從網(wǎng)絡(luò)獲取的大量數(shù)據(jù),找到相關(guān)的信息片段,并在響應(yīng)中清晰地引用它們。

在Simple QA中,GPT-4o達(dá)到了90%的最佳水平。

接下來(lái)介紹的,是文件搜索工具。

負(fù)責(zé)展示的OpenAI研究者表示,這是自己最喜歡的工具。

去年,OpenAI就在Assistance API中推出了文件搜索工具,為開(kāi)發(fā)者提供簡(jiǎn)便的方式來(lái)上傳、分塊和嵌入文檔,并且輕松實(shí)現(xiàn)RAG操作。

而今天,他們?cè)谖募阉鞴ぞ咧型瞥鰞蓚€(gè)新功能。

第一個(gè)是元數(shù)據(jù)過(guò)濾。此功能讓用戶可以為文件添加屬性,輕松篩選出與查詢(xún)最相關(guān)的內(nèi)容。

第二個(gè)是直接搜索端點(diǎn)。這樣我們就可以直接搜索您的向量存儲(chǔ),而無(wú)需先通過(guò)模型過(guò)濾查詢(xún)。也就是說(shuō),我們可以使用網(wǎng)絡(luò)搜索來(lái)處理公共數(shù)據(jù),用文件搜索來(lái)處理私有數(shù)據(jù)了。

第三個(gè)介紹的,就是Computer Use工具。

它是API中的Operator,可以讓你控制正在操作的計(jì)算機(jī),比如一個(gè)虛擬機(jī),或者僅有圖形用戶界面而沒(méi)有API訪問(wèn)權(quán)限的傳統(tǒng)應(yīng)用程序。

如果想要自動(dòng)化這類(lèi)任務(wù),并在此基礎(chǔ)上構(gòu)建應(yīng)用程序,就可以直接使用Computer Use。

Responses?API

另外,OpenAI還希望從基本原則出發(fā),為這些工具設(shè)計(jì)最佳的API。

2023年推出的Chat Completions和GPT-3.5 Turbo中,所有的API交互都僅限于文本輸入和輸出。

此后,OpenAI又引入了多模態(tài)功能,包括圖像、音頻。

此外,像o1 Pro、Deep Research Operator這樣的產(chǎn)品,都需要在后臺(tái)執(zhí)行多輪模型交互和多次工具調(diào)用。

因此,他們希望構(gòu)建一個(gè)足夠靈活的API基礎(chǔ)接口,能支持多輪交互和工具調(diào)用。

這個(gè)新的API,就被命名為Responses API。

在此前的Chat Completions中,只需選擇上下文,選擇一個(gè)模型,就能獲得響應(yīng)。

而接下來(lái),研究者將展示如何用Responses API構(gòu)建一個(gè)個(gè)人造型師助手。

然后就可以直接問(wèn)它:現(xiàn)在時(shí)尚圈的最新流行趨勢(shì)是什么?

不過(guò),它還應(yīng)該了解用戶的個(gè)人喜好。

為此,他們建立了一個(gè)向量存儲(chǔ)庫(kù),里面記錄了團(tuán)隊(duì)成員的日常穿搭記錄。

在操作中,可以篩選向量存儲(chǔ)中的文件,只顯示與目標(biāo)用戶相關(guān)的內(nèi)容。

然后就可以問(wèn)造型助手:Ilan喜歡穿什么,你能總結(jié)一下嗎?

它立刻給出了準(zhǔn)確的總結(jié)。

但是要打造一個(gè)更好的助手,我們還需要讓他能從網(wǎng)上獲取最新數(shù)據(jù)。為此,就要添加網(wǎng)絡(luò)搜索工具。

接下來(lái),他們考驗(yàn)了是否能用文件搜索工具,來(lái)了解Kevin小哥的穿衣喜好,然后用網(wǎng)絡(luò)搜索工具找到附近讓他感興趣的商店。

模型調(diào)用了文件搜索工具,了解Kevin的穿衣風(fēng)格,然后調(diào)用網(wǎng)絡(luò)搜索工具,根據(jù)他的位置——東京,尋找他喜歡的商店。

讓人驚喜的是,模型只用了一次API調(diào)用,就在東京找到了好幾家巴塔哥尼亞專(zhuān)賣(mài)店,完全符合Kevin的品味。

但是,這還不夠!

一個(gè)稱(chēng)職的個(gè)人造型助手,應(yīng)該可以直接幫你購(gòu)物。

為此,他們添加了Computer Use工具,要求助手幫Kevin買(mǎi)一件黑色巴塔哥尼亞夾克。

在電腦本地運(yùn)行Docker容器后,把截圖發(fā)給模型,它就會(huì)分析計(jì)算機(jī)的狀態(tài),發(fā)出下一步指令。

研究者執(zhí)行操作后,再拍一張截圖發(fā)給模型,它就會(huì)循環(huán)操作,直到任務(wù)完成。

Agents?SDK

在實(shí)際開(kāi)發(fā)任務(wù)中,應(yīng)用會(huì)更復(fù)雜,比如我們需要開(kāi)發(fā)一個(gè)客服智能體,它要能處理退款,還能回答常見(jiàn)的客服問(wèn)題、處理訂單和賬單。

為此,OpenAI去年已經(jīng)發(fā)布了一個(gè)名為Swarm的SDK,讓智能體的協(xié)同調(diào)度變得簡(jiǎn)單。

今天,他們家決定將Swarm升級(jí)為Agents SDK。

研究者Ilan介紹說(shuō),自己曾投入大量時(shí)間合作企業(yè)和開(kāi)發(fā)者,幫他們構(gòu)建智能體,也親身體會(huì)到看似簡(jiǎn)單的想法想落地卻十分復(fù)雜。

Agents SDK的理念就是:保持簡(jiǎn)單,同時(shí)用直觀簡(jiǎn)便的方式構(gòu)建更復(fù)雜強(qiáng)大的功能。

比如接下來(lái)的考驗(yàn)就是,不小心訂了太多件巴塔哥尼亞的衣服,所以需要退貨。

本來(lái),可以直接添加一個(gè)退貨工具,在提示詞中指示就能實(shí)現(xiàn)了,但這就存在一個(gè)問(wèn)題:業(yè)務(wù)邏輯都混在一起,會(huì)讓智能體更難測(cè)試。

而如果采用多智能體腳本,就能獨(dú)立開(kāi)發(fā)和測(cè)試各個(gè)模塊。

為此,他們專(zhuān)門(mén)引入了一個(gè)退貨智能體。

Swarm中特別受歡迎的標(biāo)準(zhǔn)Python函數(shù),都被引入了Agents SDK。

現(xiàn)在,他們已經(jīng)有了一個(gè)造型師智能體,和一個(gè)退貨智能體,然后需要實(shí)現(xiàn)一個(gè)簡(jiǎn)單卻強(qiáng)大的概念——任務(wù)交接。

它的強(qiáng)大之處就在于,一個(gè)智能體處理對(duì)話后,將其轉(zhuǎn)交給另一個(gè)智能體時(shí),對(duì)話內(nèi)容保持不變,只需在后臺(tái)替換指令和工具,這就能為對(duì)話的每個(gè)環(huán)節(jié)加載上下文。

整個(gè)流程是這樣的:分類(lèi)智能體將任務(wù)轉(zhuǎn)到了客服智能體,然后客服智能體主動(dòng)調(diào)用了getPastOrders函數(shù),讓我們看到了Kevin所有的巴塔哥尼亞商品。

本來(lái)這種情況需要手動(dòng)添加調(diào)試語(yǔ)句的,但Agents SDK的一大優(yōu)勢(shì)就是內(nèi)置了監(jiān)控和追蹤功能。

在儀表盤(pán)中,我們可以看到所有具體交接的過(guò)程

以上展示的,都是Agents SDK 提供的開(kāi)箱即用功能,它甚至還配置了安全防護(hù)機(jī)制和生命周期事件處理。

而且,它是一個(gè)開(kāi)源框架。只需執(zhí)行pip install openai-agents,就可以安裝使用了。

在結(jié)束之前,Ilan實(shí)際執(zhí)行了一下退款操作。

「你知道嗎?抱歉了,Kevin。把這些都退掉吧。」Ilan打趣的說(shuō)?!改俏掖┦裁囱剑縆evin要被凍著了,」現(xiàn)場(chǎng)大家都笑了出來(lái)。

「是啊,讓我們看看。商品還真不少。好了,退回這么多巴塔哥尼亞的商品確實(shí)需要點(diǎn)時(shí)間。」Ilan開(kāi)始執(zhí)行退款。

他在智能體中打出了「get rid of all of them」指令。幾秒鐘后,Kevin的巴塔哥尼亞就全都退款成功了。

「那么系統(tǒng)內(nèi)部是如何運(yùn)作的?如何進(jìn)行調(diào)試?如何更深入地了解整個(gè)過(guò)程?」Kevin問(wèn)道。

對(duì)此,Ilan回答說(shuō),「我們可以通過(guò)追蹤界面來(lái)查看所有這些信息。這提供了一種非常簡(jiǎn)潔直觀的方式來(lái)構(gòu)建這類(lèi)應(yīng)用?!?/p>

統(tǒng)一API,4行代碼即可上手

Responses API是OpenAI最新的API基礎(chǔ)組件,旨在利用OpenAI內(nèi)置的工具構(gòu)建智能體。

它結(jié)合了Chat Completions的簡(jiǎn)單性與Assistants API的工具使用能力。隨著模型能力不斷發(fā)展,他們相信Responses API將為開(kāi)發(fā)者構(gòu)建具備自主能力的應(yīng)用提供更加靈活的基礎(chǔ)。

通過(guò)一次Responses API調(diào)用,開(kāi)發(fā)者即可借助多個(gè)工具和模型交互回合,解決日益復(fù)雜的任務(wù)。

作為開(kāi)始,Responses API將支持新的內(nèi)置工具,包括網(wǎng)頁(yè)搜索、文件搜索和計(jì)算機(jī)使用。

這些工具旨在協(xié)同工作,將模型與現(xiàn)實(shí)世界連接起來(lái),從而更高效地完成任務(wù)。

此外,它還帶來(lái)了若干易用性改進(jìn),比如統(tǒng)一的基于項(xiàng)目的設(shè)計(jì)、更簡(jiǎn)單的多態(tài)機(jī)制、更直觀的流式事件,以及SDK輔助功能(例如response.output_text),以便輕松獲取模型生成的文本輸出。

Responses API專(zhuān)為那些希望在應(yīng)用中輕松結(jié)合OpenAI模型和內(nèi)置工具的開(kāi)發(fā)者設(shè)計(jì),避免了集成多個(gè)API或外部供應(yīng)商的復(fù)雜性。

這個(gè)API還使得數(shù)據(jù)更易于存儲(chǔ)在OpenAI平臺(tái)上,以便開(kāi)發(fā)者通過(guò)追蹤(tracing)和評(píng)估(evaluations)等功能衡量智能體的性能。

此外,他們也特別提醒,即使數(shù)據(jù)存儲(chǔ)在OpenAI上,他們的模型默認(rèn)也不會(huì)使用企業(yè)的數(shù)據(jù)進(jìn)行訓(xùn)練。

從今天起,所有開(kāi)發(fā)者均可使用Responses API,且無(wú)額外使用費(fèi)用——相關(guān)的token和工具調(diào)用將按照他們定價(jià)頁(yè)面上的標(biāo)準(zhǔn)費(fèi)率計(jì)費(fèi)。

下圖是Responses API調(diào)用文本模型的價(jià)格。全部模型的定價(jià)可以參考他們的定價(jià)頁(yè)面。

地址:https://platform.openai.com/docs/pricing

如需了解更多,可以查看Responses API快速入門(mén)指南。

地址:https://platform.openai.com/docs/quickstart?api-mode=responses

2年磨一劍

OpenAI的研究員Atty Eleti還在X上分享了設(shè)計(jì)Responses API的故事。

如今,模型不再局限于文本,而是多模態(tài)——能處理圖像、音頻,甚至更多。

他們具備了智能體的能力,可以調(diào)用一個(gè)或多個(gè)工具,甚至在「說(shuō)話」之前會(huì)「思考」。

這些變化,讓OpenAI過(guò)去兩年開(kāi)發(fā)的Chat Completions API和Assistants API的短板暴露無(wú)遺。

Atty還貼出了一張加班圖

Chat Completions API是一個(gè)無(wú)狀態(tài)的API,每次調(diào)用都需要傳遞全部上下文,對(duì)于多模態(tài)數(shù)據(jù)效率極低。

而且,它也不支持工具調(diào)用,流式處理的實(shí)現(xiàn)異常復(fù)雜Assistants API雖然支持工具,但由于設(shè)計(jì)過(guò)于復(fù)雜,高抽象帶來(lái)的學(xué)習(xí)曲線讓人望而卻步。

后臺(tái)處理的架構(gòu)雖然強(qiáng)大,卻犧牲了速度。

由此,?Responses API誕生了,它是OpenAI過(guò)去兩年經(jīng)驗(yàn)結(jié)晶,集合了前者簡(jiǎn)潔性和后者強(qiáng)大功能,既容易上手,又能滿足復(fù)雜需求。

只需4行代碼,即可上手?Responses API,文件搜索、網(wǎng)絡(luò)搜索、函數(shù)調(diào)用、結(jié)構(gòu)化輸出功能,只要一個(gè)參數(shù)就搞定。

這對(duì)現(xiàn)有API意味著什么

· Chat Completions?API?

OpenAI依舊為Chat Completions API添加新模型和功能。不需要使用內(nèi)置工具的開(kāi)發(fā)者,可以放心使用Chat Completions。

只要新模型的功能不依賴(lài)于內(nèi)置工具或多次模型調(diào)用,就會(huì)持續(xù)在Chat Completions中發(fā)布這些新模型。

不過(guò),Responses API是Chat Completions的超集,且具備相同出色的性能,因此,對(duì)于新的集成,OpenAI建議開(kāi)發(fā)者優(yōu)先選擇Responses API。

·?Assistants?API

根據(jù)開(kāi)發(fā)者在Assistants API測(cè)試版期間的反饋,OpenAI將其關(guān)鍵的改進(jìn)融入到了Responses API,使其更加靈活、快速且易于使用。

目前,OpenAI正致力于實(shí)現(xiàn)Assistants API與Responses API之間完整的功能對(duì)齊,包括對(duì)Assistant和Thread等對(duì)象,以及Code Interpreter工具的支持。

當(dāng)這一進(jìn)程完成后,OpenAI計(jì)劃正式宣布棄用Assistants API,預(yù)計(jì)在2026年中停止使用。

屆時(shí),他們將提供清晰的遷移指南,幫助開(kāi)發(fā)者從Assistants API平穩(wěn)遷移到Responses API,同時(shí)完整保留所有數(shù)據(jù)并遷移應(yīng)用程序。

在OpenAI正式宣布棄用Assistants API之前,仍將繼續(xù)為其提供新的模型更新。

Responses API中的內(nèi)置工具

網(wǎng)絡(luò)搜索

當(dāng)使用GPT-4o和GPT-4o mini模型時(shí),網(wǎng)絡(luò)搜索功能可作為內(nèi)置工具,并支持與其他工具或函數(shù)調(diào)用進(jìn)行組合使用。

值得一提的是,Responses API中的網(wǎng)絡(luò)搜索,使用的是和「ChatGPT搜索」同款的模型。

基于此,開(kāi)發(fā)者可以獲得快速、最新的答案,并附帶來(lái)自網(wǎng)絡(luò)的清晰相關(guān)引用。

const response = await openai.responses.create({
   model: “gpt-4o”,
   tools: [ { type: “web_search_preview” } ],
   input: “What was a positive news story that happened today?”,
});
console.log(response.output_text);

在早期測(cè)試中,開(kāi)發(fā)者利用網(wǎng)絡(luò)搜索構(gòu)建了各種應(yīng)用場(chǎng)景,包括購(gòu)物助手、研究智能體和旅行預(yù)訂助手——所有需要網(wǎng)絡(luò)實(shí)時(shí)信息的應(yīng)用。

API中使用網(wǎng)絡(luò)搜索生成的響應(yīng)包含源鏈接,如新聞文章和博客文章,讓用戶能夠深入了解更多信息。通過(guò)這些清晰的內(nèi)聯(lián)引用,用戶可以更直觀地獲取信息,同時(shí)內(nèi)容所有者也獲得了接觸更廣泛受眾的新機(jī)會(huì)。

任何網(wǎng)站或發(fā)布者都可以選擇在API的網(wǎng)絡(luò)搜索中顯示。

目前,所有開(kāi)發(fā)者都可在Responses API預(yù)覽版中使用網(wǎng)絡(luò)搜索工具,并且還可以在Chat Completions API中直接使用微調(diào)搜索模型gpt-4o-search-preview和gpt-4o-mini-search-preview。

價(jià)格方面,GPT-4o搜索每千次查詢(xún)起價(jià)30美元,4o mini搜索每千次查詢(xún)起價(jià)25美元。

文件搜索

文件搜索工具支持多種文件類(lèi)型、查詢(xún)優(yōu)化、元數(shù)據(jù)過(guò)濾和自定義重排序,可以提供快速、準(zhǔn)確的搜索結(jié)果。

而且,通過(guò) Responses API,只需幾行代碼就能完成集成。

在經(jīng)過(guò)改進(jìn)的文件搜索的加持下,開(kāi)發(fā)者可以輕松地從大量文檔中檢索相關(guān)信息。

const productDocs = await openai.vectorStores.create({
   name: “Product Documentation”,
   file_ids: [file1.id, file2.id, file3.id],
});

const response = await openai.responses.create({
   model: “gpt-4o-mini”,
   tools: [{
       type: “file_search”,
       vector_store_ids: [productDocs.id],
   }],
   input: “What is deep research by OpenAI?”,
});

console.log(response.output_text);

文件搜索工具可用于多種實(shí)際場(chǎng)景,包括使客服人員輕松訪問(wèn)常見(jiàn)問(wèn)題解答、幫助法律助理為專(zhuān)業(yè)人士快速參考往期案例,以及協(xié)助編程智能體查詢(xún)技術(shù)文檔。

同樣的,所有的開(kāi)發(fā)者都可以在Responses API中使用文件搜索工具。

此外,OpenAI還為向量存儲(chǔ)API對(duì)象添加了新的搜索端點(diǎn),可以直接查詢(xún)數(shù)據(jù)用于其他應(yīng)用程序和API。

價(jià)格方面,每千次查詢(xún)?yōu)?.50美元,文件存儲(chǔ)費(fèi)用為0.10美元/GB/天,首個(gè)GB免費(fèi)。

計(jì)算機(jī)使用(CUA)

為了構(gòu)建能夠完成計(jì)算機(jī)任務(wù)的智能體,開(kāi)發(fā)者可以在Responses API中使用計(jì)算機(jī)使用工具,該工具由支持Operator的計(jì)算機(jī)使用智能體(CUA)模型提供支持。

如前所述,這個(gè)研究預(yù)覽版模型在多項(xiàng)基準(zhǔn)上刷新了SOTA。

內(nèi)置的計(jì)算機(jī)使用工具能夠捕獲模型生成的鼠標(biāo)和鍵盤(pán)操作,讓開(kāi)發(fā)者能夠?qū)⑦@些操作直接轉(zhuǎn)換為環(huán)境中的可執(zhí)行命令,從而實(shí)現(xiàn)計(jì)算機(jī)任務(wù)的自動(dòng)化。

const response = await openai.responses.create({
   model: “computer-use-preview”,
   tools: [{
       type: “computer_use_preview”,
       display_width: 1024,
       display_height: 768,
       environment: “browser”,
   }],
   truncation: “auto”,
   input: “I’m looking for a new camera. Help me find the best one.”,
});

console.log(response.output);

開(kāi)發(fā)者可以使用計(jì)算機(jī)使用工具,來(lái)自動(dòng)化基于瀏覽器的工作流程,如執(zhí)行網(wǎng)絡(luò)應(yīng)用程序的質(zhì)量保證或在傳統(tǒng)系統(tǒng)中執(zhí)行數(shù)據(jù)錄入任務(wù)。

對(duì)于那些缺乏API和標(biāo)準(zhǔn)化數(shù)據(jù)的企業(yè),就可以利用計(jì)算機(jī)使用工具自動(dòng)化復(fù)雜的運(yùn)營(yíng)流程。

在最近與一家主要社區(qū)服務(wù)組織的試點(diǎn)項(xiàng)目中,Luminai僅用幾天時(shí)間就實(shí)現(xiàn)了申請(qǐng)?zhí)幚砗陀脩糇?cè)流程的自動(dòng)化——這是傳統(tǒng) RPA(機(jī)器人流程自動(dòng)化)經(jīng)過(guò)數(shù)月努力都難以實(shí)現(xiàn)的。

在去年通過(guò)Operator推出CUA之前,OpenAI進(jìn)行了廣泛的安全測(cè)試和紅隊(duì)測(cè)試,解決了三個(gè)關(guān)鍵風(fēng)險(xiǎn)領(lǐng)域:濫用、模型錯(cuò)誤和前沿風(fēng)險(xiǎn)。

為了應(yīng)對(duì)通過(guò)API將CUA功能擴(kuò)展到本地操作系統(tǒng)帶來(lái)的風(fēng)險(xiǎn),他們又進(jìn)行了額外的安全評(píng)估和紅隊(duì)測(cè)試。

研究人員還為開(kāi)發(fā)者添加了多重防護(hù)措施,包括防止提示詞注入的安全檢查、敏感任務(wù)的確認(rèn)提示、環(huán)境隔離工具,以及增強(qiáng)對(duì)潛在違規(guī)行為的檢測(cè)。

盡管采取了這些防護(hù)措施,但模型在非瀏覽器環(huán)境中仍可能出現(xiàn)意外錯(cuò)誤。

例如,CUA在OSWorld中成功率僅為38.1%,這表明該模型在操作系統(tǒng)任務(wù)自動(dòng)化方面尚未達(dá)到高度可靠性。

因此在這些場(chǎng)景中,OpenAI建議還需要有人類(lèi)的監(jiān)督。

開(kāi)源Agents SDK

除了構(gòu)建智能體的核心邏輯并為其提供工具訪問(wèn)權(quán)限以確保實(shí)用性外,開(kāi)發(fā)者還需要管理智能體工作流程。

全新Agents SDK簡(jiǎn)化了多智能體工作流程的管理,較2024年發(fā)布的實(shí)驗(yàn)性SDK Swarm?有了顯著改進(jìn)。

目前,Swarm在GitHub上已經(jīng)有19k星,?已被開(kāi)發(fā)者社區(qū)廣泛采用,并在多個(gè)客戶中成功部署。

項(xiàng)目地址:https://github.com/openai/swarm

此次,Agents SDK的改進(jìn)包括:

  • 智能體:易于配置的LLM,具有清晰的指令和內(nèi)置工具
  • 交接:智能體之間的智能控制轉(zhuǎn)移
  • 防護(hù)機(jī)制:可配置的輸入輸出驗(yàn)證安全檢查
  • 追蹤和可視化:通過(guò)可視化智能體執(zhí)行軌跡來(lái)調(diào)試和優(yōu)化性能

from agents import Agent, Runner, WebSearchTool, function_tool, guardrail

@function_tool
def submit_refund_request(item_id: str, reason: str):
   # Your refund logic goes here
   return “success”

support_agent = Agent(
   name=”Support & Returns”,
   instructions=”You are a support agent who can submit refunds […]”,
   tools=[submit_refund_request],
)

shopping_agent = Agent(
   name=”Shopping Assistant”,
   instructions=”You are a shopping assistant who can search the web […]”,
   tools=[WebSearchTool()],
)

triage_agent = Agent(
   name=”Triage Agent”,
   instructions=”Route the user to the correct agent.”,
   handoffs=[shopping_agent, support_agent],
)

output = Runner.run_sync(
  starting_agent=triage_agent,
   input=”What shoes might work best with my outfit so far?”,
)

Agents SDK適用于各種實(shí)際應(yīng)用場(chǎng)景,包括客戶支持自動(dòng)化、多步驟研究、內(nèi)容生成、代碼審查和銷(xiāo)售潛客開(kāi)發(fā)。

例如,Coinbase?使用Agents SDK快速開(kāi)發(fā)并部署了 AgentKit,這是一個(gè)讓AI智能體能夠無(wú)縫連接加密錢(qián)包和各種區(qū)塊鏈活動(dòng)的工具包。

Coinbase僅用幾小時(shí)就將其開(kāi)發(fā)者平臺(tái)SDK的自定義操作集成到了一個(gè)功能完備的智能體中。

AgentKit的精簡(jiǎn)架構(gòu)簡(jiǎn)化了添加新智能體操作的流程,讓開(kāi)發(fā)者能夠更專(zhuān)注于有價(jià)值的集成,而不是消耗在復(fù)雜的智能體配置上。

Agents SDK可與Responses API和Chat Completions API協(xié)同工作。

同時(shí),該SDK也支持其他提供商的模型,只要它們提供Chat Completions類(lèi)型的API端點(diǎn)。

開(kāi)發(fā)者現(xiàn)在就能將其集成到Python代碼庫(kù)中,Node.js支持也即將推出。

在設(shè)計(jì)Agents SDK 時(shí),OpenAI團(tuán)隊(duì)從社區(qū)中其他優(yōu)秀項(xiàng)目獲得啟發(fā),包Pydantic?、Griffe?和MkDocs?。

2025年,無(wú)疑是智能體元年。

OpenAI最新動(dòng)向,已經(jīng)釋放出了一個(gè)清晰的信號(hào),標(biāo)志著ChatGPT和開(kāi)發(fā)者工具從簡(jiǎn)單問(wèn)答系統(tǒng),升級(jí)為能在現(xiàn)實(shí)世界中實(shí)際行動(dòng)的助手。

參考資料:

https://x.com/OpenAI/status/1899476049584599462

編輯:編輯部 HNYZ

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號(hào):【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 國(guó)內(nèi)不是已經(jīng)有各種智能體搭建平臺(tái)了嗎,請(qǐng)問(wèn)文章中的跟國(guó)內(nèi)有啥區(qū)別

    來(lái)自浙江 回復(fù)
专题
11611人已学习12篇文章
任何理论都有它的局限性和前提条件,没有一种方法论是永远有效的。品牌方法论一直处在变化阶段,它随着时代发展的变化而变化。本专题的文章分享了品牌方法论。
专题
15765人已学习15篇文章
本专题的文章分享了B端组件的设计指南。
专题
20000人已学习14篇文章
好的用户成长体系可以促进用户活跃、增强用户粘性、留住用户和帮助企业更好地了解用户对产品的使用情况。本专题的文章提供了搭建用户成长体系的思路。
专题
13835人已学习12篇文章
为了推动公司业务的正常运转操作,我们需要建立一定的业务模型来推动运作。本专题的文章分享了如何构建业务模型。
专题
31214人已学习16篇文章
在线教育的现状、趋势和未来。
专题
14567人已学习14篇文章
BI的核心价值在于满足企业不同人群对数据查询、分析和探索的需求,从而帮助企业更好的管理与决策。本专题的文章分享了BI系统概述。