四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

每日經(jīng)濟(jì)新聞
今日?qǐng)?bào)紙

每經(jīng)網(wǎng)首頁 > 今日?qǐng)?bào)紙 > 正文

誰是最強(qiáng)“AI記者”?每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)報(bào)告(第1期)發(fā)布

每日經(jīng)濟(jì)新聞 2024-06-26 23:06:53

生成式AI大模型正在深刻改變媒體行業(yè),為內(nèi)容創(chuàng)作與傳播帶來了革命性的變化。

那么,面對(duì)“百模大戰(zhàn)”,面對(duì)市面上數(shù)量眾多的大模型,媒體行業(yè)工作者或內(nèi)容創(chuàng)作者,究竟該如何選擇大模型?在內(nèi)容創(chuàng)作的特定場(chǎng)景選擇哪個(gè)大模型?

面對(duì)上述困惑,近期,由30余位每日經(jīng)濟(jì)新聞優(yōu)秀記者、編輯和子公司每經(jīng)科技工程師組建的“每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)小組”,對(duì)市場(chǎng)上主流大模型在財(cái)經(jīng)新聞工作場(chǎng)景中的表現(xiàn)與能力進(jìn)行了歷時(shí)2個(gè)月的深入評(píng)測(cè),并推出《每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)報(bào)告》(第1期)。

“每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)小組”此次選取了GPT4.0、百度文心、月之暗面等15款市場(chǎng)主流的國(guó)內(nèi)外大模型進(jìn)行測(cè)試。圖為2023世界人工智能大會(huì)上的百度文心大模型展臺(tái)。視覺中國(guó)圖

《每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)報(bào)告》(第1期)顯示,國(guó)產(chǎn)大模型正在全面趕超海外大模型,零一萬物的Yi-Large成為最大“黑馬”,在“財(cái)經(jīng)新聞標(biāo)題創(chuàng)作”“微博新聞寫作”“文章差錯(cuò)校對(duì)”“財(cái)務(wù)數(shù)據(jù)計(jì)算與分析”四大應(yīng)用場(chǎng)景的總分排名第一?;梅角笏鱀eepSeek-V2、百川智能Baichuan4則在“財(cái)務(wù)數(shù)據(jù)計(jì)算與分析”場(chǎng)景顯示出強(qiáng)大的數(shù)據(jù)計(jì)算和分析能力。而一直備受各界推崇的GPT4.0在本次評(píng)測(cè)中表現(xiàn)不佳,甚至在“財(cái)經(jīng)新聞標(biāo)題創(chuàng)作”場(chǎng)景中排名墊底。

每日經(jīng)濟(jì)新聞作為中國(guó)主流財(cái)經(jīng)媒體,早在2020年就提出“AI化+視頻化”的科技智媒轉(zhuǎn)型戰(zhàn)略,陸續(xù)推出每經(jīng)AI快訊系統(tǒng),每經(jīng)AI電視,雨燕智宣——AI短視頻自動(dòng)生成平臺(tái),智能媒資庫(kù)等一系列AI產(chǎn)品,贏得市場(chǎng)贊譽(yù)。同時(shí),在生成式AI爆發(fā)后,每經(jīng)眾多采編人員深耕大模型領(lǐng)域,涌現(xiàn)了30余位優(yōu)秀的提示工程師和技術(shù)工程師。專業(yè)的財(cái)經(jīng)新聞采編能力與不斷深耕的AI技術(shù)能力,為大模型評(píng)測(cè)提供了堅(jiān)實(shí)保障。

后續(xù),“每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)小組”將圍繞更多的大模型應(yīng)用場(chǎng)景,定期發(fā)布大模型評(píng)測(cè)報(bào)告。

《每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)報(bào)告》的目的,是關(guān)注企業(yè)和個(gè)人用戶的實(shí)際需求,通過評(píng)測(cè)大模型在實(shí)際應(yīng)用場(chǎng)景中的表現(xiàn),進(jìn)而幫助用戶在工作、學(xué)習(xí)、生活等場(chǎng)景中,找到最合適的大模型工具,提升效率。

為此,“每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)小組”選取了GPT4.0、百度文心、月之暗面等15款市場(chǎng)主流的國(guó)內(nèi)外大模型,圍繞“財(cái)經(jīng)新聞標(biāo)題創(chuàng)作”“微博新聞寫作”“文章差錯(cuò)校對(duì)”“財(cái)務(wù)數(shù)據(jù)計(jì)算與分析”四個(gè)財(cái)經(jīng)新聞的主要應(yīng)用場(chǎng)景進(jìn)行測(cè)評(píng)。評(píng)測(cè)均通過各款大模型API端口,在每經(jīng)科技自主開發(fā)的“雨燕智宣AI創(chuàng)作+”大模型測(cè)試臺(tái)上進(jìn)行。評(píng)測(cè)結(jié)果出來后,由15位每日經(jīng)濟(jì)新聞資深記者和編輯進(jìn)行嚴(yán)格人工核準(zhǔn)、評(píng)分和排名。

評(píng)測(cè)結(jié)果顯示,零一萬物的Yi-Large成為“黑馬”,總分排名第一。Anthropic Claude 3 Opus和幻方求索DeepSeek-V2分居第二、第三。各個(gè)大模型在不同場(chǎng)景和不同任務(wù)中的表現(xiàn)差異明顯。GPT4.0的表現(xiàn)令人意外,僅名列倒數(shù)第五。

每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)小組 2024年6月

15款大模型參與本期評(píng)測(cè)


結(jié)論一:國(guó)產(chǎn)大模型正全面趕超

國(guó)產(chǎn)大模型正逐漸展現(xiàn)出其競(jìng)爭(zhēng)力。與國(guó)外大模型相比,它們?cè)诙鄠€(gè)任務(wù)上的表現(xiàn)已經(jīng)顯示出趕超之勢(shì)。

國(guó)產(chǎn)大模型在多個(gè)測(cè)試場(chǎng)景中排名靠前。商湯商量SenseChat-5三次占據(jù)前五席位,兩次擊敗谷歌Gemini 1.5 Pro。在國(guó)外模型中,Anthropic Claude 3 Opus同樣在三個(gè)測(cè)評(píng)場(chǎng)景中排名前五,谷歌Gemini 1.5 Pro在“財(cái)經(jīng)新聞標(biāo)題創(chuàng)作”和“文章差錯(cuò)校對(duì)”兩個(gè)場(chǎng)景中排名第一。令人意外的是,一直備受各界推崇的GPT4.0卻在本次評(píng)測(cè)中整體表現(xiàn)不佳,在每個(gè)場(chǎng)景中都未能斬獲前五名,甚至在“財(cái)經(jīng)新聞標(biāo)題創(chuàng)作”中排名墊底。

“財(cái)經(jīng)新聞標(biāo)題創(chuàng)作”場(chǎng)景中,商湯商量SenseChat-5、字節(jié)豆包Doubao-pro-32k和百度ERNIE 4.0等,在信息提煉準(zhǔn)確度和重要新聞點(diǎn)突出方面與谷歌的Gemini 1.5 Pro不相上下。

“微博新聞寫作”場(chǎng)景中,百度文心ERNIE4.0、商湯SenseChat-5等模型的總分與國(guó)外模型Anthropic Claude 3 Opus并列第一。

“文章差錯(cuò)校對(duì)”場(chǎng)景中,零一萬物的YiLarge是唯一一款得分超過100分的國(guó)產(chǎn)大模型。國(guó)產(chǎn)大模型比國(guó)外大模型更能理解漢語句式和表達(dá)規(guī)范。但在查找并修改錯(cuò)別字、標(biāo)點(diǎn)使用不當(dāng)、數(shù)字和量詞錯(cuò)誤、事實(shí)和信息錯(cuò)誤等要求更精準(zhǔn)的任務(wù)方面,還有提升空間。

“財(cái)務(wù)數(shù)據(jù)計(jì)算和分析”場(chǎng)景中,Anthropic Claude 3 Opus總分雖領(lǐng)先,但對(duì)幻方求索DeepSeek-V2和零一萬物Yi-Large的優(yōu)勢(shì)并不大。尤其是幻方求索DeepSeek-V2成為此場(chǎng)景評(píng)測(cè)中一匹“黑馬”,其“財(cái)務(wù)數(shù)據(jù)分析”能力突出。

結(jié)論二:大模型各有專長(zhǎng)

不同模型在特定場(chǎng)景、特定維度、特定指標(biāo)上的表現(xiàn)差異顯著。體現(xiàn)了它們?cè)诟髯灶I(lǐng)域的專長(zhǎng)。

例如,谷歌Gemini 1.5 Pro在“財(cái)經(jīng)新聞標(biāo)題創(chuàng)作”和“文章差錯(cuò)校對(duì)”兩大場(chǎng)景中排名第一。在“微博新聞寫作”場(chǎng)景中,該模型整體排名靠后。

Anthropic Claude 3 Opus、幻方求索DeepSeek-V2、百川智能Baichuan4則顯示出了強(qiáng)大的數(shù)據(jù)計(jì)算能力。

結(jié)論三:跨語言環(huán)境下差異明顯

以“微博新聞寫作”場(chǎng)景為例,百度文心ERNIE 4.0、商湯商量SenseChat-5與Anthropic Claude 3 Opus并列第一。這反映了國(guó)產(chǎn)大模型在微博這一國(guó)內(nèi)社交媒體場(chǎng)景下的卓越表現(xiàn)。國(guó)產(chǎn)大模型更能夠準(zhǔn)確把握微博用戶的內(nèi)容偏好和交流方式,生成符合平臺(tái)特性和用戶期待的微博文案。

相比之下,谷歌Gemini 1.5 Pro在微博寫作的運(yùn)營(yíng)維度上得分為0,可能源于其對(duì)微博平臺(tái)特性和用戶行為的不熟悉。

在中文語境之下,GPT4.0在全部4個(gè)場(chǎng)景中的排名均不理想。這一現(xiàn)象突顯了大模型在跨語言和文化環(huán)境中的適應(yīng)性問題,也表明了國(guó)產(chǎn)大模型在本土化應(yīng)用上具有天然優(yōu)勢(shì)。

結(jié)論四:信息提取能力參差不齊

從文章中準(zhǔn)確提取關(guān)鍵信息,是對(duì)大模型能力的一項(xiàng)關(guān)鍵挑戰(zhàn)。本期評(píng)測(cè)中“文章差錯(cuò)校對(duì)”場(chǎng)景包含了對(duì)這一能力的測(cè)試。

谷歌Gemini 1.5 Pro憑借其在錯(cuò)別字、標(biāo)點(diǎn)使用不當(dāng)、數(shù)字和量詞錯(cuò)誤、事實(shí)和信息錯(cuò)誤的查找和糾錯(cuò)方面與其他大模型拉開了差距。

相比之下,零一萬物Yi-Large在病句查找和糾錯(cuò)方面則位居首位,本可以挑戰(zhàn)谷歌Gemini 1.5 Pro,但在錯(cuò)誤查找方面的表現(xiàn)拖了后腿。

大模型信息提取能力的差異可能與模型的訓(xùn)練數(shù)據(jù)、算法設(shè)計(jì)以及對(duì)語言細(xì)微差別的捕捉能力有關(guān)。增強(qiáng)大模型的信息提取能力,可以提高其生成結(jié)果的準(zhǔn)確度,更能讓大模型適用于對(duì)準(zhǔn)確性要求極高的新聞工作。

報(bào)告完整版以及測(cè)評(píng)題目,評(píng)分指標(biāo)細(xì)則及部分案例,可訪問:每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)報(bào)告(第1期)

接下來,“每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)小組”將繼續(xù)深入探索大模型的無限可能,從實(shí)際應(yīng)用場(chǎng)景出發(fā),對(duì)各個(gè)大模型進(jìn)行全方位評(píng)測(cè),并定期推出專業(yè)報(bào)告,帶來最前沿的洞察和發(fā)現(xiàn)。

在此,我們誠(chéng)摯地邀請(qǐng)您,加入評(píng)測(cè)項(xiàng)目。

如果您是研發(fā)企業(yè),想要展示自家大模型的實(shí)力,與其他大模型進(jìn)行比拼,請(qǐng)將參評(píng)大模型的詳細(xì)信息發(fā)送至我們的郵箱:damoxing@nbd.com.cn。

如果您是大模型的使用者,請(qǐng)告訴我們您希望在哪些場(chǎng)景中使用大模型,或者希望我們測(cè)試大模型的哪些能力。打開每日經(jīng)濟(jì)新聞App,在“個(gè)人中心”——“意見反饋”欄中留下您的想法和需求。

期待您的參與,共同探索大模型的無限可能。

封面圖片來源:視覺中國(guó)

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

模型 大模型 經(jīng)濟(jì) Ai

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0