国产精品视_精品国产免费,中文字幕在线播放第一页,菠萝蜜网站在线观看

八星手游網(wǎng) → 首頁 → 免費攻略 → UC-伯克利等最新研究：大語言模型就是比人類啰嗦-“提問的藝術”仍難參透

基于一段文本提問時，人類和大模型會基于截然不同的思維模式給出問題。大模型喜歡那些需要詳細解釋才能回答的問題，而人類傾向于提出更直接、基于事實的問題。

如果要你負責企業(yè)培訓，培訓結束需要出一份考試題目，那如今你可以選擇將培訓材料交給大模型，由大模型來負責出題并給出參考答案。

不過由大模型給出的考題，和人類出的題目究竟有沒有差別，以及有哪些差別？

最近，加州大學伯克利分校、沙特阿拉伯阿卜杜拉國王科技城（KACST）和華盛頓大學的研究人員發(fā)表了一項研究，首次系統(tǒng)評價了大模型提問的能力，并指出大模型和人類的提問模式存在顯著差異。

論文地址：https://arxiv.org/pdf/2501.03491

評價提問的四個維度

這項研究基于維基百科的文本，將文本拆分為 86 萬個段落，之后通過亞馬遜 Mechanical Turk 眾包平臺，由人類參與者為每個段落撰寫對應的題目及答案，人類給出的文本將作為評估大模型的基準。

圖 1：大模型出題并評價的模式

之后，研究人員將這些段落交給主流的大模型，包括閉源的 GPT-4o 和開源的 LLaMA-3.1-70b-Instruct，由大模型根據(jù)段落內容及上下文提問，之后對問題的評價也由大模型進行。

對問題的評價共包含 6 個指標，分為 2 組。前三個標準評估問題本身，而第二組標準負責評估反映問題質量的潛在答案。首先介紹與答案無關的標準。

1. 問題類型

對于人類來說，選擇問哪個問題具有主觀性。這項研究定義了十種問題類型，例如驗證 / 確認問題，具體事實與數(shù)據(jù)問題及身份和歸屬問題等。

2. 問題長度

主要測量的是組成問題的單詞數(shù)量。除了直接比較人類和大模型所生成的問題長度外，該研究還考察了問題長度與問題類型之間的關系。

3. 上下文覆蓋率

上下文通常包括多個句子，問題可能只針對一個句子中的一個事實，或者需要跨越多個句子進行推理。這項標準旨在反映問題覆蓋文本內容的長度，研究還分析了在生成過程中，大模型是否會有傾向性地關注上下文中的哪些特定部分。

4. 可回答程度

一個問題的關鍵質量標準是它是否可以在特定知識的基礎上被精確地回答。具體來說，生成的提問應在提供上下文的情況下可回答，而非是模棱兩可的。

5. 罕見性

大模型是在互聯(lián)網(wǎng)上廣泛可用的常識上進行訓練。因此，即使沒有明確提供上下文，大模型仍然可以進行提問，因此需要評估問題相對于其預訓練數(shù)據(jù)的罕見程度，從而判斷大模型究竟是有的放矢地提問，還是問給出一些泛泛而談的問題。

6. 答案所需的長度

除了問題長度外，所需答案的長度是衡量提問模式的一個更有效的指標。然而，由于生成模型的回答往往冗長且包含很多無用細節(jié)，所以首先要明確提示模型提供最短的文本作為回答，并指導模型在一定的字數(shù)限制內生成答案。此外，研究者還會對這些答案進行額外評估，以確定是否可以用更少的詞達到相同的質量評級。

大模型 vs.人類，問題差異在哪

研究結果顯示，首先：在問題類型上，與人類相比，大模型更傾向于提出需要描述性、更長答案的問題，大約 44% 的人工智能生成問題是這一類。

這可能是因為大模型在訓練過程中接觸到了大量描述性文本。而人類傾向于提出更直接、基于事實的問題，例如核查具體的事實和數(shù)字，或者人物、地點、事件等。

而在問題長度上，，大模型生成的問題長度更長，而且不同模型對問題長度的偏好有所不同，例如 GPT-4o 生成的描述性問題更長。而人類生成的問題更短，且不同類型的問題間長度差異較大。

圖 2：大模型提問的問題長度，前兩行是人類參與者的問題長度

而在上下文覆蓋上，人類產生的問題能更全面地覆蓋上下文信息，包括句子級別和詞語級別。這意味著相比人類，大模型的提問難以更全面地覆蓋所有文本，往往會揪著一個細節(jié)去提問。

圖 3：大模型和人類提出問題對應的上下文在句子和單詞層面的覆蓋比

更值得關注的是，大模型更關注文本的前部和后部，而忽略中間部分，這一點之前的研究也有提及。

圖 4，大模型提問對不同位置的段落的覆蓋情況

對于提出的問題是否可以被解答，需要根據(jù)上下文信息分別判斷。如果提問所依據(jù)的文本包含了背景介紹，此時大模型生成的問題通常有清晰的答案。而如果文本中缺少上下文信息，缺乏常識的大模型生成的問題的可回答性會顯著下降，甚至有些問題無法回答。

圖 5，對比文本包含上下文以及不包含上下文時，大模型提出的問題時具有可回答度的評分分布

類似的，由于生成模型的特性，大模型生成的問題通常需要更長的答案、包含更多細節(jié)。同時大模型生成的答案可壓縮性較差：盡管可以壓縮，但仍然需要比人類更長的答案。