基于一段文本提問時,人類和大模型會基于截然不同的思維模式給出問題。大模型喜歡那些需要詳細解釋才能回答的問題,而人類傾向于提出更直接、基于事實的問題。
如果要你負責企業(yè)培訓,培訓結束需要出一份考試題目,那如今你可以選擇將培訓材料交給大模型,由大模型來負責出題并給出參考答案。
不過由大模型給出的考題,和人類出的題目究竟有沒有差別,以及有哪些差別?
最近,加州大學伯克利分校、沙特阿拉伯阿卜杜拉國王科技城(KACST)和華盛頓大學的研究人員發(fā)表了一項研究,首次系統(tǒng)評價了大模型提問的能力,并指出大模型和人類的提問模式存在顯著差異。
論文地址:https://arxiv.org/pdf/2501.03491
評價提問的四個維度
這項研究基于維基百科的文本,將文本拆分為 86 萬個段落,之后通過亞馬遜 Mechanical Turk 眾包平臺,由人類參與者為每個段落撰寫對應的題目及答案,人類給出的文本將作為評估大模型的基準。
圖 1:大模型出題并評價的模式
之后,研究人員將這些段落交給主流的大模型,包括閉源的 GPT-4o 和開源的 LLaMA-3.1-70b-Instruct,由大模型根據(jù)段落內容及上下文提問,之后對問題的評價也由大模型進行。
對問題的評價共包含 6 個指標,分為 2 組。前三個標準評估問題本身,而第二組標準負責評估反映問題質量的潛在答案。首先介紹與答案無關的標準。
1. 問題類型
對于人類來說,選擇問哪個問題具有主觀性。這項研究定義了十種問題類型,例如驗證 / 確認問題,具體事實與數(shù)據(jù)問題及身份和歸屬問題等。
2. 問題長度
主要測量的是組成問題的單詞數(shù)量。除了直接比較人類和大模型所生成的問題長度外,該研究還考察了問題長度與問題類型之間的關系。
3. 上下文覆蓋率
上下文通常包括多個句子,問題可能只針對一個句子中的一個事實,或者需要跨越多個句子進行推理。這項標準旨在反映問題覆蓋文本內容的長度,研究還分析了在生成過程中,大模型是否會有傾向性地關注上下文中的哪些特定部分。
4. 可回答程度
一個問題的關鍵質量標準是它是否可以在特定知識的基礎上被精確地回答。具體來說,生成的提問應在提供上下文的情況下可回答,而非是模棱兩可的。
5. 罕見性
大模型是在互聯(lián)網(wǎng)上廣泛可用的常識上進行訓練。因此,即使沒有明確提供上下文,大模型仍然可以進行提問,因此需要評估問題相對于其預訓練數(shù)據(jù)的罕見程度,從而判斷大模型究竟是有的放矢地提問,還是問給出一些泛泛而談的問題。
6. 答案所需的長度
除了問題長度外,所需答案的長度是衡量提問模式的一個更有效的指標。然而,由于生成模型的回答往往冗長且包含很多無用細節(jié),所以首先要明確提示模型提供最短的文本作為回答,并指導模型在一定的字數(shù)限制內生成答案。此外,研究者還會對這些答案進行額外評估,以確定是否可以用更少的詞達到相同的質量評級。
大模型 vs.人類,問題差異在哪
研究結果顯示,首先:在問題類型上,與人類相比,大模型更傾向于提出需要描述性、更長答案的問題,大約 44% 的人工智能生成問題是這一類。
這可能是因為大模型在訓練過程中接觸到了大量描述性文本。而人類傾向于提出更直接、基于事實的問題,例如核查具體的事實和數(shù)字,或者人物、地點、事件等。
而在問題長度上,,大模型生成的問題長度更長,而且不同模型對問題長度的偏好有所不同,例如 GPT-4o 生成的描述性問題更長。而人類生成的問題更短,且不同類型的問題間長度差異較大。
圖 2:大模型提問的問題長度,前兩行是人類參與者的問題長度
而在上下文覆蓋上,人類產生的問題能更全面地覆蓋上下文信息,包括句子級別和詞語級別。這意味著相比人類,大模型的提問難以更全面地覆蓋所有文本,往往會揪著一個細節(jié)去提問。
圖 3:大模型和人類提出問題對應的上下文在句子和單詞層面的覆蓋比
更值得關注的是,大模型更關注文本的前部和后部,而忽略中間部分,這一點之前的研究也有提及。
圖 4,大模型提問對不同位置的段落的覆蓋情況
對于提出的問題是否可以被解答,需要根據(jù)上下文信息分別判斷。如果提問所依據(jù)的文本包含了背景介紹,此時大模型生成的問題通常有清晰的答案。而如果文本中缺少上下文信息,缺乏常識的大模型生成的問題的可回答性會顯著下降,甚至有些問題無法回答。
圖 5,對比文本包含上下文以及不包含上下文時,大模型提出的問題時具有可回答度的評分分布
類似的,由于生成模型的特性,大模型生成的問題通常需要更長的答案、包含更多細節(jié)。同時大模型生成的答案可壓縮性較差:盡管可以壓縮,但仍然需要比人類更長的答案。
圖 6:大模型和人類提出問題對應的回答的長度
研究 AI 提問的意義
這項研究中,交給 AI 提問的只是一個段落,而非具有更豐富上下文的文章。未來的研究,需要考察的是大模型面對更長的文本,甚至是多篇長文本組成的書籍時會提出怎樣的問題,并考察不同閱讀難度、不同學科背景的文本。
如今 AI 生成的提問在商業(yè)產品中變得越來越普遍。例如,亞馬遜的購物助手會建議與產品相關的問題,而搜索引擎 Perplexity 和 X 的聊天機器人 Grok 則使用后續(xù)問題來幫助用戶深入了解主題。
由于 AI 問題具有于區(qū)別于人類提問者的獨特模式,我們就可以據(jù)此測試 RAG 系統(tǒng),或識別 AI 系統(tǒng)何時在編造事實。
對大模型提問模式的了解,還可以幫助用戶編寫更好的提示詞,無論是希望 AI 生成更類人的問題,還是要求有特定特征的問題。
隨著人們越來越依賴大模型,本文最初描述的基于大模型出考試題,將會在未來變得越來越普遍,進而潛移默化地影響人類學生的思考模式,也許會讓我們的下一代變得啰啰嗦嗦,或者看文章時只關注特定細節(jié),尤其是頭尾部的(考核中的重點)。
不過大模型的提問模式也是可以微調的,知道了大模型提問和人類的差異,我們就可以有針對性地進行改變。
參考資料:
https://arxiv.org/pdf/2501.03491
Copyright 2025 //m.ahlmtdl.com/ 版權所有 豫ICP備2021037741號-1 網(wǎng)站地圖