AI智能體到底是什麼?
如果你想點一杯咖啡外送到家,使用傳統的手機App,你的操作流程大概率是這樣的:打開外賣App,輸入咖啡(或咖啡品牌),找到一家滿意的店鋪,選擇想喝的品類,選擇是否去冰、是否減糖,輸入或選擇送達地址,點擊下單,輸入密碼或人臉識別付款……
但如果手機搭載了AI Agent(AI智能體或AI代理),你只需對著手機說一句「幫我點一杯咖啡盡快送到家」,不用再進行任何操作,它便能主動識別你所處的位置,打開外賣App,準確猜測你的喜好選擇咖啡品牌、品類,並自動完成付款……
2025世界人工智能大會(WAIC 2025)7月26日在上海開幕,AI智能體成為與會者熱議的話題。事實上,自大模型開始比拼落地應用後,AI智能體便反覆被提及。那聽了這麼多,AI智能體到底是什麼?目前發展到哪個階段了?
和傳統智能助手有何區別?
「你可以將其理解為一個『全方位的秘書』。」高通公司AI產品技術中國區負責人萬衛星用一句通俗易懂的話向中新經緯解釋何為AI智能體。他提到,AI智能體的「全方位」,是指它不僅能幫你完成簡單的垂類任務,而且能處理覆蓋生活、工作等方方面面的複雜任務。
「AI智能體會讓生活和工作更簡單、更美好。」萬衛星表示,用戶只需說一句話,Agent就能自動完成任務,讓工作生活都變得更輕鬆,而它的感知性和專屬化,能真正做到「想你所想」。
據中國銀河證券6月發布的研報,摩根士丹利發布的深度研究報告《AI Agents Knocking at the Door》提到,AI Agents不再僅僅是輔助人類的工具,它們將越來越多地成為執行任務和做出決策的主體,從簡單的自動化工具進化為具備自主理解、行動和學習能力的「數字勞動力」。該篇報告將AI Agents視為能夠感知環境、規劃任務、調用工具,並靈活迭代的自主軟件。
AI智能體不僅是一個簡單的應用程序,也是一個完整的系統。「完成一個看似簡單的任務,AI智能體往往需要至少4個步驟。」萬衛星以AI智能體「點咖啡」舉例,當用戶發布語音指令時,智能體首先要通過語音轉文字模塊,將指令轉成文字信息;然後調用相當於「大腦」的大模型,理解指令意圖;接著搜尋個性化記憶,自主了解用戶習慣在哪個App點咖啡、喜歡什麼口味的咖啡、家庭地址等信息;最後查詢數據庫把信息補齊後生成提示詞,調用點咖啡的軟件接口或者在App裡點擊完成相關操作。
萬衛星介紹,模擬點擊是目前AI智能體的運行方式之一。簡單言之,就是AI智能體模仿人的點擊操作,但人不用親自動手,只需下達指令就行。這種模式下,智能體完成整個任務耗時多少主要取決於操作步驟的多少,比如需要翻幾個頁面。「目前能看到一些指標顯示,單步操作已經大概能控制在2秒以內了。」
在萬衛星看來,和「我說一句,它回一句」的傳統智能助手相比,AI智能體扮演的更像是一個統籌決策者的角色。他介紹,聊天機器人和語音助手比較依賴於專業且明確的指令,完成的任務是單一清晰的,並且在解決任務時仍舊以人的決策為主。
在「人為主、AI 為輔」的任務解決模式下,AI 只負責執行。但像個「小秘書」的AI智能體改變了這一模式,它要幫用戶解決複雜問題,而不是一步一步和用戶交互著完成。萬衛星稱,真正的AI智能體應該以「AI為主、人為輔」的方式解決問題,即人只需要發布任務,或者最後驗收結果就行,盡量讓機器和AI承擔更多主體工作。