四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

記者會(huì)被AI取代嗎？每日經(jīng)濟(jì)新聞大模型年度評(píng)測(cè)報(bào)告發(fā)布：沒(méi)有“全能選手”，幻覺(jué)問(wèn)題難解

每日經(jīng)濟(jì)新聞 2024-11-13 23:38:39

每經(jīng)記者王嘉琦每經(jīng)實(shí)習(xí)記者宋欣悅每經(jīng)編輯蘭素英

2024年11月14日，2024智媒體50人成都會(huì)議暨每經(jīng)20周年財(cái)經(jīng)媒體峰會(huì)在蓉舉行。會(huì)議上，《每日經(jīng)濟(jì)新聞大模型年度評(píng)測(cè)報(bào)告》正式發(fā)布。

在此之前，2024年6月25日，《每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)報(bào)告》第1期發(fā)布，對(duì)15款市面主流大模型在“財(cái)經(jīng)新聞標(biāo)題創(chuàng)作”“微博新聞寫(xiě)作”“文章差錯(cuò)校對(duì)”“財(cái)務(wù)數(shù)據(jù)計(jì)算與分析”四個(gè)新聞采編應(yīng)用場(chǎng)景的能力進(jìn)行了評(píng)測(cè)。

2024年9月6日，《每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)報(bào)告》第2期發(fā)布，重點(diǎn)考察大模型在“金融數(shù)學(xué)計(jì)算”“商務(wù)文本翻譯”“財(cái)經(jīng)新聞閱讀”三個(gè)新聞采編應(yīng)用場(chǎng)景的能力。

與前兩期評(píng)測(cè)一樣，《每日經(jīng)濟(jì)新聞大模型年度評(píng)測(cè)報(bào)告》繼續(xù)以大模型在新聞采編場(chǎng)景的應(yīng)用能力為評(píng)測(cè)目標(biāo)，但為了更精準(zhǔn)對(duì)接采編人員的實(shí)際需求，本次評(píng)測(cè)以“采寫(xiě)編審和短視頻創(chuàng)作的新聞生產(chǎn)全流程”為場(chǎng)景，包括大模型設(shè)計(jì)采訪提綱——撰寫(xiě)新聞稿件——校對(duì)稿件差錯(cuò)——提煉稿件標(biāo)題——改寫(xiě)短視頻文本五個(gè)細(xì)分場(chǎng)景。通過(guò)大模型在新聞生產(chǎn)全流程的介入，評(píng)測(cè)出“誰(shuí)是新聞生產(chǎn)全流程的最優(yōu)秀大模型”，用直觀的評(píng)測(cè)結(jié)果，對(duì)采編人員在工作中選用適合的大模型工具提供實(shí)戰(zhàn)參考。

本次評(píng)測(cè)設(shè)置的五個(gè)細(xì)分應(yīng)用場(chǎng)景具體如下：

（1）設(shè)計(jì)采訪提綱：旨在考察大模型能否幫助記者擬定采訪提綱，輔助記者采訪工作。

（2）撰寫(xiě)新聞稿件：旨在考察大模型圍繞既定的多份材料，能否創(chuàng)作一篇新聞稿件。

（3）校對(duì)稿件差錯(cuò)：旨在考察大模型能否檢查出新聞稿件中的錯(cuò)別字，語(yǔ)法、數(shù)字、標(biāo)點(diǎn)符號(hào)等差錯(cuò)。

（4）提煉稿件標(biāo)題：旨在考察大模型能否根據(jù)稿件內(nèi)容，提煉新聞標(biāo)題，特別是制作適合在微信等新媒體平臺(tái)傳播的新媒體風(fēng)格標(biāo)題。

（5）改寫(xiě)短視頻文本：旨在考察大模型能否根據(jù)一篇文字新聞稿件，改寫(xiě)成適合短視頻發(fā)布的文案。

每經(jīng)大模型評(píng)測(cè)小組為五個(gè)細(xì)分場(chǎng)景制定了對(duì)應(yīng)的評(píng)價(jià)維度和評(píng)分指標(biāo)。每日經(jīng)濟(jì)新聞10余名首席、高級(jí)、資深記者編輯根據(jù)評(píng)價(jià)維度和評(píng)分指標(biāo)，對(duì)各款大模型在五個(gè)細(xì)分場(chǎng)景中的表現(xiàn)進(jìn)行評(píng)分，匯總各場(chǎng)景得分，最終得到參評(píng)大模型總分。

需要指出的是，本期評(píng)測(cè)是通過(guò)各款大模型的API端口，并在默認(rèn)溫度下完成。與公眾用戶(hù)使用的大模型C端對(duì)話工具存在差異。但是評(píng)測(cè)結(jié)果對(duì)用戶(hù)在具體場(chǎng)景中選擇合適的大模型工具，依然具有重要參考價(jià)值。

本期評(píng)測(cè)均在“雨燕智宣AI創(chuàng)作+”測(cè)試臺(tái)上進(jìn)行，一共有12款國(guó)內(nèi)大模型參與。

評(píng)測(cè)時(shí)間為2024年10月18日，因此參評(píng)大模型均為截至10月18日的最新版本。

評(píng)測(cè)結(jié)果顯示，騰訊混元hunyuan-turbo以379.53的總分位居榜首，緊隨其后的是智譜GLM-4-Plus獲得368.6分，字節(jié)跳動(dòng)doubao-pro-32k（240828版本）獲得363分。

在五個(gè)細(xì)分場(chǎng)景方面，各家模型展現(xiàn)出不同的優(yōu)勢(shì)：

在設(shè)計(jì)采訪提綱場(chǎng)景中，騰訊混元hunyuan-turbo與昆侖萬(wàn)維天工SkyChat-3.0兩款模型均取得了93.33分的佳績(jī)，并列第一。

在撰寫(xiě)新聞稿件場(chǎng)景中，智譜GLM-4-Plus以98分的高分拔得頭籌。

在校對(duì)稿件差錯(cuò)場(chǎng)景中，智譜GLM-4-Plus以60分的成績(jī)位居首位。

在提煉稿件標(biāo)題方面，深度求索DeepSeek-V2.5模型以55.2分的成績(jī)領(lǐng)先其他模型。

在改寫(xiě)短視頻文本場(chǎng)景中，騰訊混元hunyuan-turbo再次展現(xiàn)其強(qiáng)勁實(shí)力，以95分的成績(jī)位列第一。

閱讀完整報(bào)告請(qǐng)?jiān)L問(wèn)：每日經(jīng)濟(jì)新聞大模型年度評(píng)測(cè)報(bào)告。

結(jié)論一：暫無(wú)一款大模型能高質(zhì)量完成采編全流程工作

截至目前，每日經(jīng)濟(jì)新聞一共推出三期大模型評(píng)測(cè)報(bào)告，覆蓋12項(xiàng)新聞采編應(yīng)用場(chǎng)景，但從結(jié)果來(lái)看，沒(méi)有一款大模型能在所有場(chǎng)景中均排名前列。

正如人類(lèi)一樣，各款大模型的長(zhǎng)處與短板各不相同。比如，有的大模型擅長(zhǎng)財(cái)務(wù)數(shù)據(jù)計(jì)算，但在新聞標(biāo)題提煉中卻排名末尾；有的大模型擅長(zhǎng)英譯漢，卻在漢譯英方面能力平平。

在新聞生產(chǎn)的關(guān)鍵環(huán)節(jié)，如本期評(píng)測(cè)中的“撰寫(xiě)新聞稿件”“校對(duì)稿件差錯(cuò)”“提煉新聞標(biāo)題”、第一期評(píng)測(cè)中的“財(cái)務(wù)數(shù)據(jù)計(jì)算與分析”和第二期評(píng)測(cè)中的“金融數(shù)學(xué)計(jì)算”等應(yīng)用場(chǎng)景，多數(shù)大模型生成結(jié)果的差錯(cuò)頻出，要保證新聞稿件的高質(zhì)量、無(wú)差錯(cuò)，還必須由人工審核、把關(guān)。

目前市面上還沒(méi)有一款大模型能夠高質(zhì)量、全流程完成新聞采編場(chǎng)景的所有工作，換句話說(shuō)，世界上還沒(méi)有“AI記者”。

結(jié)論二：大模型“幻覺(jué)”未解，錯(cuò)誤更隱蔽

盡管各款大模型已經(jīng)多次迭代升級(jí)，但依然解決不了“一本正經(jīng)地胡說(shuō)八道”的幻覺(jué)問(wèn)題。

最初的大模型“幻覺(jué)”問(wèn)題比較明顯。隨著產(chǎn)品不斷迭代，大模型生成文本質(zhì)量逐漸提升，但文本中的錯(cuò)誤也越發(fā)隱蔽。比如，在“撰寫(xiě)新聞稿件”場(chǎng)景中，大模型會(huì)在不起眼處改變?nèi)宋锏穆毼换蛱摌?gòu)事件發(fā)生的時(shí)間。例如在本期評(píng)測(cè)中，部分大模型將9月24日“星巴克咖啡公司宣布調(diào)整其中國(guó)領(lǐng)導(dǎo)層結(jié)構(gòu)”的時(shí)間，誤寫(xiě)成9月30日。再比如在第二期評(píng)測(cè)“金融數(shù)學(xué)計(jì)算”場(chǎng)景中，即便是得分第一的大模型也會(huì)在個(gè)別題目中給出了正確的計(jì)算公式，卻依然得出錯(cuò)誤的答案。

對(duì)于一篇高質(zhì)量新聞稿件來(lái)說(shuō)，上述問(wèn)題都可能是“致命”的差錯(cuò)。目前，AI生成內(nèi)容已經(jīng)大規(guī)模出現(xiàn)在互聯(lián)網(wǎng)中。這就要求新聞媒體要進(jìn)一步完善新聞內(nèi)容真實(shí)性審核機(jī)制，更需要加強(qiáng)內(nèi)容把關(guān)。

結(jié)論三：“冷面”的大模型難判斷新聞價(jià)值

閱讀一篇稿件，挖掘出最重要的新聞點(diǎn)，然后提煉和制作標(biāo)題，在這方面，大模型與經(jīng)驗(yàn)豐富的編輯相比，差距不小。

在本期評(píng)測(cè)的“提煉稿件標(biāo)題”場(chǎng)景中，大模型得分普遍偏低。其生成的標(biāo)題多顯得中規(guī)中矩。在本期評(píng)測(cè)的“提煉稿件標(biāo)題”場(chǎng)景中，大模型得分普遍偏低。其生成的標(biāo)題多顯得中規(guī)中矩。例如大模型提煉的《“星巴克中國(guó)新篇章：80后劉文娟接任CEO，引領(lǐng)咖啡巨頭迎挑戰(zhàn)”》《“星巴克中國(guó)換帥：80后劉文娟接棒CEO，直面市場(chǎng)挑戰(zhàn)與變革”》等標(biāo)題。

另外，評(píng)測(cè)中發(fā)現(xiàn)，大模型提煉的新聞標(biāo)題，往往充斥著一些“高大上”的抽象概念詞匯，無(wú)法挖掘文章中最重要的新聞點(diǎn)和有價(jià)值的信息，文字空洞，很難吸引讀者的眼球。

此外，在“撰寫(xiě)新聞稿件”場(chǎng)景中，大模型生成的文本較為生硬，“機(jī)器痕跡”較明顯，缺乏情感和個(gè)性化的表達(dá)。

從現(xiàn)階段來(lái)看，大模型在閱讀文章方面，難以具備對(duì)一篇稿件新聞點(diǎn)的準(zhǔn)確和深層次把握，容易停留在淺層次的理解。因此，新聞點(diǎn)和新聞價(jià)值的判斷，包括采寫(xiě)有溫度、有故事、有人情味的厚重稿件，仍然離不開(kāi)記者、編輯的人工介入和悉心打磨。

結(jié)論四：不同采編場(chǎng)景選擇最適合的大模型

三期大模型評(píng)測(cè)的場(chǎng)景基本可以分為輔助性場(chǎng)景（如財(cái)經(jīng)新聞閱讀、文本翻譯、設(shè)計(jì)采訪提綱等）和關(guān)鍵性場(chǎng)景（如撰寫(xiě)新聞稿件、校對(duì)稿件差錯(cuò)、提煉新聞標(biāo)題等）。

三期評(píng)測(cè)的結(jié)果表明，絕大部分大模型在設(shè)計(jì)采訪提綱、改寫(xiě)短視頻文案、英漢翻譯、文章閱讀以及微博新聞寫(xiě)作等輔助性場(chǎng)景中普遍表現(xiàn)良好。例如，“改寫(xiě)短視頻文案”場(chǎng)景中，所有參與評(píng)測(cè)的12款大模型均取得超過(guò)80分的成績(jī)；而“設(shè)計(jì)采訪提綱”場(chǎng)景中，有8款大模型的得分高于80分。在第二期評(píng)測(cè)的“商務(wù)本文翻譯”場(chǎng)景中，13款大模型得分都高于80分，在“財(cái)經(jīng)新聞閱讀”場(chǎng)景中，13款大模型得分高于70分。

而在撰寫(xiě)新聞稿件、校對(duì)稿件差錯(cuò)、提煉新聞標(biāo)題等新聞生產(chǎn)關(guān)鍵性場(chǎng)景的能力則明顯不足。比如，在“校對(duì)稿件差錯(cuò)”場(chǎng)景中，僅一款大模型得分達(dá)到60分。在“提煉新聞標(biāo)題”場(chǎng)景中，沒(méi)有一款大模型得分達(dá)到60分。

因此，記者、編輯可以根據(jù)采編工作的不同環(huán)節(jié)，不同場(chǎng)景，選擇最適合的大模型，讓部分場(chǎng)景實(shí)現(xiàn)采編工作AI化，提升工作效率。

結(jié)論五：新聞媒體主導(dǎo)：打造垂直領(lǐng)域的“AI記者”

對(duì)比三期大模型評(píng)測(cè)結(jié)果不難發(fā)現(xiàn)，國(guó)內(nèi)大模型通過(guò)持續(xù)迭代，能力穩(wěn)步提升。同時(shí)，各家大模型之間的差距也在逐步縮小，每個(gè)模型都展現(xiàn)出獨(dú)特的優(yōu)勢(shì)。但這些大模型都屬于通用大模型，并非為新聞媒體、采編工作量身定制。

造成大模型“幻覺(jué)”問(wèn)題嚴(yán)重的一大原因，在于訓(xùn)練文本和數(shù)據(jù)質(zhì)量不高，其中包含不少信息錯(cuò)誤。而新聞工作對(duì)準(zhǔn)確性要求極高。這一短板直接限制了大模型在新聞?lì)I(lǐng)域的應(yīng)用。然而，新聞媒體在長(zhǎng)期的新聞報(bào)道中已經(jīng)積累的大量高質(zhì)量新聞稿件和數(shù)據(jù)，這恰恰為研發(fā)適合新聞采編工作的大模型工具提供了得天獨(dú)厚的優(yōu)勢(shì)。

因此，自主訓(xùn)練和主導(dǎo)研發(fā)大模型工具變得尤為重要，借此，新聞媒體不僅能夠最大限度地確保大模型訓(xùn)練數(shù)據(jù)的質(zhì)量和生成邏輯的準(zhǔn)確性，還能保證大模型生成內(nèi)容的可控性，使其更好地契合媒體自身的屬性和特色。

在研發(fā)方法上，可以將采編全流程拆分成數(shù)十個(gè)環(huán)節(jié)，如采訪、翻譯、稿件寫(xiě)作、提煉摘要和校對(duì)差錯(cuò)等。根據(jù)各環(huán)節(jié)的具體工作目標(biāo)、方法和要求，對(duì)大模型進(jìn)行專(zhuān)項(xiàng)訓(xùn)練，以形成一系列單任務(wù)或垂類(lèi)AI工具。最終，將這些單任務(wù)AI工具打包匯集，則可以打造出一整套新聞采編AI工具。

每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)小組

2024年11月

??????????

接下來(lái)，“每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)小組”將繼續(xù)深入探索大模型的無(wú)限可能，從實(shí)際應(yīng)用場(chǎng)景出發(fā)，對(duì)各個(gè)大模型進(jìn)行全方位的評(píng)測(cè)，并定期推出專(zhuān)業(yè)報(bào)告，帶來(lái)最前沿的洞察和發(fā)現(xiàn)。

在此，我們誠(chéng)摯地邀請(qǐng)您，加入評(píng)測(cè)項(xiàng)目。

如果您是研發(fā)企業(yè)，想要展示自家大模型的實(shí)力，與其他大模型進(jìn)行比拼，請(qǐng)將參評(píng)大模型的詳細(xì)信息發(fā)送至我們的郵箱：damoxing@nbd.com.cn。

如果您是大模型的使用者，請(qǐng)告訴我們您希望在哪些場(chǎng)景中使用大模型，或者希望我們測(cè)試大模型的哪些能力。打開(kāi)每日經(jīng)濟(jì)新聞App，在“個(gè)人中心”——“意見(jiàn)反饋”欄中留下您的想法和需求。

期待您的參與，共同探索大模型的無(wú)限可能。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

模型大模型經(jīng)濟(jì)

上一篇文章

“中國(guó)版英偉達(dá)”摩爾線程開(kāi)啟IPO之路：今年已有3家芯片獨(dú)角獸接受上市輔導(dǎo)，生態(tài)自主是業(yè)界更需翻越的山

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

比特幣首次突破9萬(wàn)美元大關(guān) 年內(nèi)價(jià)格翻倍比特幣市值超越沙特阿美躋身全球資產(chǎn)排名第七位

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專(zhuān)區(qū)

加入我們
招聘專(zhuān)頁(yè)

Copyright ? 2024 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專(zhuān)區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國(guó)互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn