AIGC開放社區(qū) 2024-11-14 12:04:34
彭博今天消息,OpenAI正準(zhǔn)備推出一款代號為“Operator”的全新AI Agent產(chǎn)品,可以自動執(zhí)行各種復(fù)雜操作,包括編寫代碼、預(yù)訂旅行、自動電商購物等。
根據(jù)內(nèi)部員工爆料,OpenAI領(lǐng)導(dǎo)層預(yù)計將在2025年1月發(fā)布該產(chǎn)品,同時會為開發(fā)人員開放API接口。
彭博表示,OpenAI一直在進(jìn)行幾個與智能體相關(guān)的研究項目。其中一位人士表示,最接近完成的將是一個在網(wǎng)絡(luò)瀏覽器中執(zhí)行任務(wù)的通用工具。
OpenAI這一計劃的發(fā)布,是整個行業(yè)向智能體推進(jìn)的一部分。最近微軟、谷歌、Anthropic都相繼發(fā)布了功能強(qiáng)大的AI Agent。
尤其是Anthropic發(fā)布的“Computer Use”直接顛覆了人機(jī)交互,通過API開發(fā)者可以讓Claude像人類一樣使用計算機(jī)控制鼠標(biāo)、鍵盤,包括查看屏幕、移動光標(biāo)、點(diǎn)擊按鈕和輸入文本等操作。
例如,用戶可以讓Claude去搜索網(wǎng)頁上的信息、在電子表格中填寫數(shù)據(jù);或者打開軟件進(jìn)行特定的操作;也能協(xié)助開發(fā)人員執(zhí)行重復(fù)性任務(wù)、測試代碼等,整個流程Claude會根據(jù)指令自動執(zhí)行相應(yīng)的操作。
目前,Computer use主要依靠API來驅(qū)動自動化指令,當(dāng)開發(fā)者通過API向Claude發(fā)送指令時,Claude會運(yùn)用其自然語言處理能力解析指令。其內(nèi)部語言模型會對指令文本進(jìn)行詞法、句法和語義分析,例如,對于“使用計算機(jī)中的數(shù)據(jù)填寫在線表格”這樣的指令,Claude會識別出關(guān)鍵動作是填寫表格以及數(shù)據(jù)來源是計算機(jī)中的數(shù)據(jù)。
這一過程類似它在處理文本生成任務(wù)時對語義的理解,只是此時語義重點(diǎn)在于計算機(jī)操作。會基于預(yù)訓(xùn)練過程中學(xué)到的語言模式和知識,將指令意圖映射到對應(yīng)的計算機(jī)操作概念上,預(yù)訓(xùn)練的知識包括常見的計算機(jī)操作術(shù)語、軟件功能描述等,以便準(zhǔn)確把握開發(fā)者希望它執(zhí)行的操作。
而OpenAI在明年發(fā)布的“Operator”很可能會在Computer use的基礎(chǔ)之上進(jìn)行大幅度創(chuàng)新和應(yīng)用簡化,擴(kuò)大AI Agent的使用范圍和應(yīng)用場景。
封面圖片來源:視覺中國-VCG31N2008743681
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP