近期,人工智能領(lǐng)域的發(fā)展勢(shì)頭強(qiáng)勁,一系列創(chuàng)新成果如雨后春筍般涌現(xiàn),其中DeepSeek R1、OpenAI的CUA以及Manus尤為引人注目,引發(fā)了業(yè)界的廣泛討論。
在這些創(chuàng)新中,Manus以其獨(dú)特的設(shè)計(jì)思路吸引了眾多關(guān)注。該系統(tǒng)基于“虛擬機(jī)+多Agent協(xié)同”的架構(gòu),通過(guò)整合GPT-4、Claude 3等大模型的API,實(shí)現(xiàn)了任務(wù)的動(dòng)態(tài)分配與模型調(diào)用。Manus不僅突破了傳統(tǒng)AI助手僅生成建議的局限,還提出了“Less Structure, More Intelligence”的交互理念,通過(guò)自然語(yǔ)言接口降低了使用門檻。用戶可以通過(guò)簡(jiǎn)單的指令,實(shí)現(xiàn)從需求輸入到成果交付的端到端閉環(huán)。
然而,盡管Manus展現(xiàn)出了巨大的潛力,但它仍存在一些不足之處。其中最顯著的是“幻覺(jué)累加”問(wèn)題。由于Agent本質(zhì)上是多次大模型問(wèn)答的串并聯(lián),如果單次問(wèn)答的準(zhǔn)確率不高,多次串聯(lián)后最終回答的準(zhǔn)確性將大幅下降。Manus在任務(wù)執(zhí)行過(guò)程中還出現(xiàn)了數(shù)據(jù)硬編碼錯(cuò)誤等問(wèn)題,這在一定程度上影響了其工作效果。
與此同時(shí),OpenAI推出的CUA模型也引起了廣泛關(guān)注。CUA模型融合了GPT-4o的視覺(jué)能力和強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的高級(jí)推理能力,能夠自主操作電腦,完成任務(wù)分解、計(jì)劃制定和自我調(diào)整等一系列動(dòng)作。CUA的運(yùn)作原理非常直觀,它同時(shí)接受文本指令和屏幕截圖兩種模態(tài)的輸入,生成一系列動(dòng)作指令,如點(diǎn)擊屏幕上的特定點(diǎn)、輸入文字等。電腦接收到指令并完成操作后,將新的屏幕截圖和任務(wù)指令返回給CUA,如此循環(huán)往復(fù)直至獲得最終答案。
為了從根本上解決Manus等工具不足的問(wèn)題,Anthropic推出了MCP協(xié)議。MCP定義了應(yīng)用程序和AI模型之間交換上下文信息的方式,使得開(kāi)發(fā)者能夠以一致的方式將各種數(shù)據(jù)源、工具和功能連接到AI模型。MCP之于AI,類似于TCP/IP之于互聯(lián)網(wǎng),它為AI模型提供了統(tǒng)一的通信接口,從而打開(kāi)了Agent能力的天花板。隨著越來(lái)越多的工具和服務(wù)接入MCP協(xié)議,未來(lái)AI能夠直接調(diào)用的工具將呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。
DeepSeek R1的論文也提到了后訓(xùn)練將成為大模型訓(xùn)練管線中的重要組成部分。這一觀點(diǎn)已經(jīng)逐漸成為行業(yè)共識(shí)。數(shù)據(jù)被視為AI時(shí)代的化石燃料,因?yàn)槿祟愔挥幸粋€(gè)互聯(lián)網(wǎng)。因此,如何高效利用有限的數(shù)據(jù)資源,成為AI發(fā)展的關(guān)鍵問(wèn)題。強(qiáng)化學(xué)習(xí)在后訓(xùn)練中扮演了重要角色,它能夠使大模型在自我涌現(xiàn)復(fù)雜推理行為的過(guò)程中,逐漸從“快思考”轉(zhuǎn)變?yōu)椤奥伎肌保瑥亩鼫?zhǔn)確地解決問(wèn)題。
2025年的人工智能領(lǐng)域正經(jīng)歷著前所未有的變革。Manus、CUA和MCP等創(chuàng)新成果的出現(xiàn),標(biāo)志著AI正朝著更加智能化、自主化的方向發(fā)展。未來(lái)兩年,AI的發(fā)展速度將非常陡峭,我們期待著更多創(chuàng)新成果的出現(xiàn),共同見(jiàn)證這一歷史性的時(shí)刻。
Copyright 2025 //m.ahlmtdl.com/ 版權(quán)所有 豫ICP備2021037741號(hào)-1 網(wǎng)站地圖 联系方式:waqwez@163.com