紅杉資本訪談OpenAI團隊：首次披露ChatGPT Agent研發(fā)內(nèi)幕

時間：2025-07-25 14:54:30 發(fā)布：tgy 來源：騰訊科技第一對焦：紅杉資本

　　【ZiDongHua 之“方案應用場”收錄關鍵詞：紅杉資本 OpenAI 智能體 ChatGPTAgent 】

　　紅杉資本訪談OpenAI團隊：首次披露ChatGPT Agent研發(fā)內(nèi)幕

　　7月23日消息，紅杉資本日前舉辦了一場對話會，與OpenAI ChatGPT Agent團隊成員深入探討其技術創(chuàng)新與未來潛力。對話由紅杉資本兩位合伙人索尼婭·黃（Sonya Huang）和勞倫·里德（Lauren Reeder）共同主持，參與ChatGPT Agent發(fā)布活動的OpenAI團隊成員伊薩?富爾福德（Isa Fulford）、凱西·楚（Casey Chu）和孫之清（Edward Sun）參加。

　　在這場對話中，他們分享了ChatGPT Agent的開發(fā)歷程，探討了ChatGPT Agent如何結(jié)合Deep Research和Operator的優(yōu)勢，實現(xiàn)跨領域任務的高效執(zhí)行。他們還討論了ChatGPT Agent的安全保障措施以及廣泛的應用場景。

　　按照OpenAI的設想，ChatGPT Agent將具備更強的獨立判斷能力，能夠根據(jù)每個用戶的習慣和需求提供定制化服務，并支持語音、文字、圖像等多種交流方式。未來，OpenAI將打造通用超級智能體，能夠處理人類在計算機上的近乎所有任務。

　　以下為對話內(nèi)容精簡版：

　　主持人：今天，我們將與OpenAI團隊的富爾福德、凱西·楚和孫之清共同探討AI Agent的演進歷程。你們開發(fā)了全新的ChatGPT Agent，請介紹一下它的核心功能和重大突破。

　　富爾福德：感謝邀請我們參加節(jié)目。ChatGPT Agent是Deep Research和Operator團隊協(xié)作開發(fā)的成果。這款AI Agent能夠執(zhí)行復雜且耗時長達一小時的多步驟任務。我們?yōu)樗鋫淞艘粋€虛擬計算機環(huán)境，集成了文本瀏覽、視覺瀏覽、終端訪問和API集成等功能，所有這些工具共享狀態(tài)，類似于人類使用計算機時多個應用程序共享文件系統(tǒng)。

　　這種設計讓ChatGPT Agent能夠靈活處理各種復雜任務，顯著提升效率和能力。我們對這款模型在多輪對話中的表現(xiàn)尤為滿意，它能持續(xù)處理任務并不斷改進。未來，我們希望進一步增強個性化和記憶功能，使ChatGPT Agent能夠在無需用戶主動發(fā)起的情況下執(zhí)行任務。

　　誕生與演進

　　主持人：能否分享一下這個項目的起源故事？它是如何開始的？

　　凱西·楚：這個項目源于Deep Research和Operator兩個產(chǎn)品的結(jié)合。2025年1月，我們發(fā)布了Operator，它能夠執(zhí)行在線購物等互聯(lián)網(wǎng)任務。

　　兩周后，我們推出了Deep Research，專注于瀏覽和綜合網(wǎng)絡信息，生成帶有引文的詳細研究報告。在制定未來發(fā)展路線時，我們意識到這兩個產(chǎn)品可以互補。

　　Operator擅長處理視覺交互，例如點擊網(wǎng)頁元素，而Deep Research更擅長處理文本信息，例如閱讀長篇文章。用戶反饋顯示，他們希望Deep Research能訪問付費內(nèi)容，而Operator已具備這種能力。因此，將兩者結(jié)合是一個自然而然的選擇。

　　孫之清：我們的團隊通過統(tǒng)一Deep Research和Operator的架構(gòu)，實現(xiàn)了能力的巨大飛躍。所有工具共享狀態(tài)，用戶可以在文本分析、視覺瀏覽和代碼執(zhí)行之間流暢切換。我們沒有預先編程工具的使用模式，而是通過強化學習，在數(shù)千個虛擬機上讓模型自行發(fā)現(xiàn)最佳策略。

　　這種方法使ChatGPT Agent能夠與用戶協(xié)作數(shù)小時，提出澄清問題并接受任務中的更正，極大地擴展了與AI智能體的交互方式。我們還面臨安全性和任務復雜性等挑戰(zhàn)，例如日期選擇對AI仍是一個難題。小型團隊通過精心的數(shù)據(jù)篩選實現(xiàn)了突破，表明AI發(fā)展進入了一個新階段，產(chǎn)品洞察與計算能力同樣重要。

　　富爾福德：ChatGPT Agent能夠執(zhí)行需要人類耗費大量時間的復雜任務。我們?yōu)樗峁┝艘粋€虛擬計算機環(huán)境，包含多種工具：文本瀏覽器（類似于Deep Research工具），用于高效獲取在線信息；視覺瀏覽器（類似于Operator工具），能夠與圖形用戶界面交互，支持點擊、輸入表單、滾動和拖動等操作；以及終端工具，用于運行代碼、分析文件、生成電子表格或幻燈片等成果物。

　　此外，通過API集成，ChatGPT Agent可以訪問GitHub、Google Drive、SharePoint等服務，所有工具共享狀態(tài)，類似于人類計算機上的應用程序共享文件系統(tǒng)。這種設計使ChatGPT Agent能夠靈活應對復雜任務，為用戶提供強大支持。

　　主持人：能否詳細談談這個結(jié)合的過程？如何實現(xiàn)“1+1大于2”的效果？

　　凱西·楚：我們的團隊分別開發(fā)了Operator和Deep Research。Operator擅長處理視覺交互，例如在網(wǎng)頁上點擊或填寫表單，但不擅長閱讀長篇文章；Deep Research則擅長高效瀏覽和綜合文本信息，但難以處理交互性強的視覺元素。我們注意到用戶在Operator上嘗試Deep Research類型的任務，例如“研究旅行然后預訂”。

　　因此，將兩者結(jié)合是自然的選擇。我們不僅融合了這兩個工具，還加入了終端工具、圖像生成工具和API調(diào)用功能，使ChatGPT Agent能夠執(zhí)行更廣泛的任務。例如，終端工具可以運行命令進行計算，圖像生成工具可以為幻燈片添加視覺元素，API調(diào)用可以生成PowerPoint演示文稿。

　　孫之清：這種結(jié)合顯著增強了ChatGPT Agent的能力。例如，它可以用文本瀏覽器高效搜索信息，然后切換到視覺瀏覽器查看或交互元素，甚至在終端中運行代碼生成成果物。所有工具共享狀態(tài)，使ChatGPT Agent能夠像人類一樣無縫操作不同應用程序。

　　我們的團隊成員埃里克（Eric）分析了用戶在Operator上的提示，發(fā)現(xiàn)許多任務涉及Deep Research類型的需求，例如“研究旅行然后預訂”，這進一步驗證了結(jié)合的必要性。

　　多場景任務能力

　　主持人：ChatGPT Agent的具體應用場景有哪些？用戶如何使用它？

　　富爾福德：我們有意設計了一個開放式的智能體，命名為“ChatGPT Agent”，鼓勵用戶探索其潛力。我們訓練它處理Deep Research任務，例如生成詳細報告；訓練它完成Operator任務，例如預訂航班或在線購物；以及數(shù)據(jù)分析任務，例如創(chuàng)建電子表格或幻燈片。其靈活性讓我們期待用戶會發(fā)現(xiàn)更多未曾預料的用途。

　　例如，Deep Research用戶意外發(fā)現(xiàn)了代碼搜索功能。我們希望ChatGPT Agent在消費者和企業(yè)場景中都能發(fā)揮作用，例如幫助專業(yè)用戶生成詳細報告，或為個人用戶規(guī)劃活動。無論是消費者等待30分鐘獲取詳細報告，還是企業(yè)用戶在工作中使用，它都能勝任。

　　凱西·楚：我個人用它處理Google Docs中的數(shù)據(jù)，生成展示數(shù)據(jù)的幻燈片。另一個有趣的案例是，我用它研究古DNA領域的新進展。由于該領域信息分散且缺乏綜合參考資料，ChatGPT Agent能夠從網(wǎng)絡上收集信息，綜合成報告或幻燈片，極大地簡化了我的工作。

　　孫之清：我用它進行在線購物，尤其是需要視覺瀏覽的場景，例如通過搜索過濾器查看商品或選擇款式。它在規(guī)劃活動方面也非常有用，例如安排行程或活動。我最喜歡的購物任務是購買衣服，因為許多網(wǎng)站需要視覺瀏覽器來處理搜索過濾器或查看商品外觀。

　　主持人：你們之前還展示了一個很酷的案例，能否分享一下？

　　富爾福德：當然！我們的同事讓ChatGPT Agent基于網(wǎng)絡信息估算OpenAI的估值，生成財務模型，包括電子表格、總結(jié)分析和展示結(jié)果的幻燈片。這個任務耗時28分鐘，展示出它處理長時間任務的能力。ChatGPT Agent的預測相當大膽，而且幻燈片的質(zhì)量令人印象深刻！

　　凱西·楚：這個案例開啟了一種新范式：用戶提出任務后可以離開，ChatGPT Agent在一段時間后返回詳細報告。隨著ChatGPT Agent變得更具自主性，任務時間可能更長，這是一個很好的例證。

　　主持人：28分鐘已經(jīng)很長了！你們有更長時間的任務嗎？如何確保ChatGPT Agent長時間運行不偏離軌道？

　　孫之清：我最近運行了一個長達一小時的任務，可能是我們見過的最長時間任務。為了確保穩(wěn)定性，我們開發(fā)了工具擴展ChatGPT Agent的上下文長度，使其記錄任務進展，逐步完成復雜任務。

　　此外，我們設計了靈活的人機交互機制，用戶可以隨時糾正ChatGPT Agent、提供額外指令或要求狀態(tài)更新。例如，用戶可以要求它總結(jié)當前進展，或補充指令，例如“我只想要藍色運動鞋”。

　　富爾福德：這種協(xié)作模式模仿了人們通過Slack溝通的方式。ChatGPT Agent會在需要時詢問權限或澄清問題，例如在執(zhí)行破壞性操作或需要登錄時征求用戶同意。

　　我們的界面還允許用戶實時監(jiān)控ChatGPT Agent的操作，甚至在任務完成后接管虛擬計算機環(huán)境，例如登錄賬戶或輸入信用卡信息。這種“觀察同事操作并隨時接手”的體驗非常直觀，增強了用戶對ChatGPT Agent的控制感。

　　訓練與突破

　　主持人：從技術角度看，ChatGPT Agent是如何訓練的？

　　凱西·楚：我們采用了強化學習（RL）技術，在虛擬機環(huán)境中為它提供文本瀏覽器、GUI瀏覽器、終端和圖像生成工具等。

　　我們設計了復雜任務，讓ChatGPT Agent通過試驗發(fā)現(xiàn)最佳工具使用策略，并根據(jù)任務完成的質(zhì)量和效率給予獎勵。例如，ChatGPT Agent可能先用文本瀏覽器搜索餐廳信息，再用GUI瀏覽器查看菜品和預訂可用性，或從網(wǎng)站下載數(shù)據(jù)后在終端中處理。這種共享狀態(tài)的工具設計使ChatGPT Agent能夠無縫切換工具，完成多樣化任務。

　　富爾福德：與以往的工具使用不同，所有工具共享狀態(tài)，類似于人類在計算機上使用多個應用程序。這種設計使ChatGPT Agent能高效處理互聯(lián)網(wǎng)、文件系統(tǒng)和代碼等交互任務。我們沒有預先指定工具使用規(guī)則，而是讓模型通過強化學習自行發(fā)現(xiàn)最佳策略，效果近乎神奇。強化學習的數(shù)據(jù)需求遠小于預訓練，我們通過精心篩選的高質(zhì)量數(shù)據(jù)集教授模型新技能。

　　孫之清：強化學習非常數(shù)據(jù)高效，我們只需少量高質(zhì)量數(shù)據(jù)集就能教授新技能。例如，我們創(chuàng)建了多樣化的任務集，包括查找小眾信息、撰寫長篇報告等。只要能評估輸出質(zhì)量，強化學習就能有效提升性能。為了讓Operator功能表現(xiàn)良好，我們在過去兩三年里投入大量時間，使模型能夠理解視覺元素和頁面交互，為當前的ChatGPT Agent奠定了基礎。

　　主持人：這種強化學習方法是OpenAI訓練AI智能體的標準方法嗎？

　　富爾福德：我們認為這種方法潛力巨大。這次發(fā)布是我們團隊合作后的最簡可行產(chǎn)品（Minimum Viable Product，MVP），但已展現(xiàn)強大能力。例如，幻燈片生成功能已非常出色，感謝眾多團隊成員的努力。我們相信通過同樣的技術可以進一步提升，但可能還需引入其他技術。

　　凱西·楚：這種方法非常神奇，同樣的強化學習算法適用于Deep Research、Operator以及現(xiàn)在的計算機使用ChatGPT Agent。我們在短時間內(nèi)取得了這些成果，未來還有很大提升空間。

　　主持人：強化學習在交互性方面有什么特別的訓練方法嗎？

　　孫之清：我們主要關注端到端性能，從用戶提示到任務完成。ChatGPT Agent在與用戶交互方面表現(xiàn)良好，部分原因是我們在訓練中納入了多樣化的任務軌跡。用戶可隨時干預，提供澄清或更正，它也能根據(jù)反饋調(diào)整行為。

　　主持人：早期的World of Bits項目（OpenAI開發(fā)的通用AI訓練平臺）嘗試用強化學習控制鼠標路徑，但問題過于復雜?，F(xiàn)在有什么變化使這個問題變得可解？

　　孫之清：ChatGPT Agent的開發(fā)可追溯到2017年的World of Bits項目，我們戲稱其為“World of Bits 2”。最大的變化是訓練規(guī)模的提升，無論是預訓練還是強化學習，計算量可能增加了數(shù)十萬倍。數(shù)據(jù)規(guī)模和計算能力的提升使我們的目標得以實現(xiàn)。

　　如何防止“失控”

　　主持人：ChatGPT Agent在執(zhí)行外部操作時，如何確保安全性和可靠性？

　　富爾福德：由于ChatGPT Agent能夠與外部世界交互，例如訪問網(wǎng)站或調(diào)用API，安全是核心關注點。

　　相比Deep Research的只讀模式，ChatGPT Agent可能引發(fā)更大風險，例如在完成任務時執(zhí)行意外的破壞性操作，如購買100個不同選項以確保用戶滿意。為此，我們實施了多層次安全措施，包括內(nèi)部和外部紅隊測試、實時監(jiān)控系統(tǒng)（類似于防病毒軟件）以及快速響應新威脅的協(xié)議。我們特別關注生物風險等嚴重問題，例如防止ChatGPT Agent被用于創(chuàng)建生物武器。

　　凱西·楚：互聯(lián)網(wǎng)充滿風險，存在釣魚攻擊、欺詐等威脅。我們的模型經(jīng)過安全訓練，能識別部分風險，但有時可能過于急于完成任務而被欺騙。我們開發(fā)了一個實時監(jiān)控系統(tǒng)，檢查ChatGPT Agent的行為，若發(fā)現(xiàn)可疑操作（如訪問異常網(wǎng)站），會立即暫停任務。

　　此外，我們有協(xié)議快速響應新威脅，類似于更新防病毒軟件。感謝公司生物風險團隊的緩解工作，我們進行了數(shù)周的紅隊測試，確保模型不會被用于有害用途。

　　富爾福德：安全訓練是一個跨團隊努力，涉及安全、治理、法律、研究和工程團隊。我們在每個層面實施了防護措施，并將繼續(xù)迭代以應對新威脅。例如，我們確保ChatGPT Agent在執(zhí)行敏感操作（如登錄銀行賬戶）前會征求用戶許可。

　　背后的團隊協(xié)作

　　主持人：開發(fā)團隊是如何協(xié)作的？規(guī)模如何？

　　富爾福德：我們的團隊由Deep Research和Operator的研究與應用團隊合并而成，總?cè)藬?shù)并不多。Deep Research團隊最初只有3-4人，Operator團隊約6-8人，加上由亞什?庫馬爾（Yash kumar）領導的優(yōu)秀工程和產(chǎn)品設計團隊。研究與應用團隊緊密合作，從定義產(chǎn)品功能到模型訓練均以用戶場景為導向。這種小團隊協(xié)作使我們在短時間內(nèi)取得了顯著成果。

　　凱西·楚：研究與應用團隊的界限并不嚴格。應用工程師參與模型訓練，研究人員也參與模型部署。這種跨職能合作使項目充滿活力，團隊氛圍非常好。富爾福德和我是老朋友，這種默契也促進了團隊合作。

　　孫之清：小團隊能成就大事。我們在幾個月內(nèi)完成了這個項目，研究與應用團隊從一開始就共同定義產(chǎn)品功能，確保以用戶需求為導向。雖然ChatGPT Agent尚未完全實現(xiàn)所有目標，但這種框架使我們能夠快速迭代。

　　主持人：訓練過程中最大的挑戰(zhàn)是什么？

　　孫之清：訓練的穩(wěn)定性是一個巨大挑戰(zhàn)。Deep Research只涉及文本瀏覽和Python，而ChatGPT Agent需同時處理多種新工具，如GUI瀏覽器、終端、圖像生成工具和API調(diào)用，所有這些都在同一虛擬機環(huán)境中運行。我們需要同時運行成千上萬的虛擬機訪問網(wǎng)絡，經(jīng)常遇到網(wǎng)站宕機、API限制或網(wǎng)絡容量不足等問題。

　　例如，某些網(wǎng)站可能因流量過載而暫時不可用，或者API調(diào)用因速率限制而失敗，這要求我們在訓練中加入魯棒性機制，確保ChatGPT Agent能處理這些異常情況。盡管面臨這些挑戰(zhàn)，我們通過優(yōu)化虛擬機環(huán)境和改進訓練算法，最終成功訓練了模型，使其在多樣化任務中表現(xiàn)出色。

　　富爾福德：未來，我們希望進一步提升ChatGPT Agent的多輪對話能力、個性化和記憶功能。目前，所有任務都由用戶發(fā)起，但我們設想ChatGPT Agent未來能夠自主識別用戶需求并主動執(zhí)行任務。例如，它可能根據(jù)用戶歷史行為預測需求，自動生成報告或規(guī)劃活動。

　　我們也在探索新的用戶界面和交互模式，例如更直觀的非聊天式交互方式、語音指令或圖形化界面等，以提升用戶體驗。此外，我們計劃優(yōu)化ChatGPT Agent的上下文管理，使其在長時間任務中更好地保持任務連貫性，同時減少對計算資源的依賴。

　　凱西·楚：從編碼角度看，我發(fā)現(xiàn)ChatGPT Agent在代碼搜索和小型代碼編輯方面表現(xiàn)優(yōu)異，因為它能準確讀取文檔并減少幻覺。例如，它可以通過API訪問GitHub，搜索特定代碼庫并提取相關代碼片段。我用它處理類似o3的交互式編碼任務，而Codex更適合解決明確定義的問題。用戶會發(fā)現(xiàn)更多新用例，如Deep Research用戶發(fā)現(xiàn)的代碼搜索功能。

　　未來，我們希望ChatGPT Agent在編程任務中進一步提升，比如支持更復雜的代碼調(diào)試或自動化生成完整應用程序。此外，我們正在研究如何讓ChatGPT Agent更好地理解用戶意圖，例如在代碼編輯中自動推斷用戶想要的功能，而無需詳細指令。

　　打造通用超級智能體

　　主持人：你們會開發(fā)專門的子智能體，例如財務分析智能體或活動策劃智能體，還是堅持單一超級智能體的愿景？

　　富爾福德：我們傾向于打造一個通用的超級智能體。如果一個智能體能根據(jù)需求靈活調(diào)用所有工具，就像一位全能的首席幕僚，這將是簡單高效的解決方案。

　　我們的訓練數(shù)據(jù)顯示，不同任務之間存在正向遷移，例如在購物任務中學習到的視覺交互技能可應用于研究任務中的網(wǎng)頁導航。因此，單一智能體模型在擴展性和通用性上更具潛力。我們希望通過持續(xù)優(yōu)化，讓ChatGPT Agent能夠無縫處理從簡單查詢到復雜工作流的各種任務，減少用戶對多個專用模型的依賴。

　　凱西·楚：雖然在產(chǎn)品發(fā)布時，定制化模型可能有市場價值，但從訓練角度看，通用智能體能更好地利用技能的可遷移特性。例如，ChatGPT Agent在購物任務中可能使用終端進行預算計算，無需專門的財務分析工具。我們也在探索如何通過強化學習進一步提高它的泛化能力，例如讓它在遇到全新任務時快速適應，而無需大量額外訓練數(shù)據(jù)。未來，ChatGPT Agent可能通過學習用戶反饋，動態(tài)調(diào)整其行為模式，進一步提升任務完成的精準度。

　　孫之清：我們的目標是讓ChatGPT Agent處理人類在計算機上執(zhí)行的幾乎所有任務。用戶甚至可以要求它‘嘗試在網(wǎng)上賺錢’，盡管目前執(zhí)行尚不完美。我們將通過迭代部署提高任務完成的質(zhì)量和準確性。例如，我們計劃優(yōu)化ChatGPT Agent在復雜任務中的決策過程，減少錯誤操作的可能性，同時提高其在動態(tài)環(huán)境中的適應能力。此外，我們希望通過用戶反饋和實際使用數(shù)據(jù)，持續(xù)改進ChatGPT Agent的性能，使其在處理跨領域任務時更加智能和高效。

　　主持人：展望未來，你們對ChatGPT Agent的愿景是什么？

　　富爾福德：我們?yōu)镃hatGPT Agent提供了涵蓋人類在計算機上所能完成大部分任務的工具集。我們將致力于提升模型在多樣化任務上的表現(xiàn)，優(yōu)化用戶交互體驗，探索新的交互模式，例如更個性化的記憶功能或自主任務發(fā)起。

　　我們希望ChatGPT Agent未來能夠自主感知并響應用戶需求。例如，ChatGPT Agent可能根據(jù)用戶日程自動規(guī)劃會議，或根據(jù)歷史偏好推薦個性化解決方案。

　　凱西·楚：我們對改進用戶界面和體驗感到興奮。當前基于聊天的交互僅是起點，未來可能有更多創(chuàng)新交互方式，例如基于手勢或多模態(tài)輸入的界面。

　　我們希望用戶發(fā)現(xiàn)ChatGPT Agent的新能力，如Deep Research用戶發(fā)現(xiàn)的代碼搜索功能。例如，ChatGPT Agent在數(shù)據(jù)科學任務中已超越人類基準，感謝同事約翰·布萊克曼（John Blackman）在電子表格和數(shù)據(jù)分析方面的努力。未來，我們計劃讓ChatGPT Agent在數(shù)據(jù)處理和可視化方面進一步提升，例如自動生成交互式儀表板。

　　孫之清：自1月發(fā)布Operator以來，我們顯著提高了點擊和表單填寫的準確性，盡管日期選擇等任務仍有改進空間。我們?yōu)镃hatGPT Agent提供了通用工具集，涵蓋人類在計算機上的大部分任務。未來的挑戰(zhàn)是確保模型在所有任務上表現(xiàn)出色，并開發(fā)新的交互范式，例如更自然的語音交互或?qū)崟r協(xié)作工具。我們期待用戶與ChatGPT Agent形成更自然的協(xié)作關系，開啟AI智能體的新時代。

　　主持人：非常感謝你們的分享！祝賀新產(chǎn)品發(fā)布，期待看到它的更多精彩表現(xiàn)?。ㄎ腎騰訊科技特約編譯無忌編輯I 海倫）

　　AI能量站匯集AI應用實踐的基礎科普與教程，覆蓋全球熱門公司、頂尖科學家、研究員以及市場機構(gòu)輸出的人工智能的基礎理論、技術研究、價值對齊理論和產(chǎn)業(yè)發(fā)展報告，以及全球的AI監(jiān)管政策。幫助AI小白入門，替進階選手跟蹤最新的AI知識。

我要收藏

點個贊吧

自動對焦：OpenAI 智能體 ChatGPTAgent

咨詢詳情：如需咨詢文中涉及的相關產(chǎn)品或解決方案詳情，請加微信：ZiDongHuaX 。

微信聯(lián)盟：OpenAI微信群、智能體微信群、ChatGPTAgent微信群，各細分行業(yè)微信群：點擊這里進入。

鴻達安視：水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器　　　　　　查看各品牌在細分領域的定位宣傳語