清華大學(xué)發(fā)布《大語言模型綜合性能評估報告》 :GPT-4第一,文心一言更懂中文

2023-08-10 23:52:13閱讀()IT之家
推薦題庫

近日,清華大學(xué)新聞與傳播學(xué)院教授、博士生導(dǎo)師沈陽所在團(tuán)隊發(fā)布了《大語言模型綜合性能評估報告》(下文簡稱“報告”),報告顯示總得分率GPT-4第一,百度文心一言在三大維度20項指標(biāo)中綜合評分國內(nèi)第一,超越ChatGPT,其中中文語義理解排名第一,部分中文能力超越GPT-4。

據(jù)了解,報告本次評估選取了GPT-4、ChatGPT 3.5、文心一言、通義千問、訊飛星火、Claude、天工7個大語言模型,圍繞生成質(zhì)量、使用與性能、安全與合規(guī)三大維度,全面考察大語言模型上下文理解、中文語義理解、誤導(dǎo)信息識別、邏輯推理、內(nèi)容安全性、隱私保護(hù)等20項指標(biāo)。綜合來看,文心一言語義理解能力突出,特別是具備更好的中文理解能力,更懂中國文化,同時時效性強(qiáng)、內(nèi)容安全把握細(xì)微,這源于其知識增強(qiáng)、檢索增強(qiáng)和對話增強(qiáng)的技術(shù)創(chuàng)新。

在生成質(zhì)量方面,基于對語義理解、輸出表達(dá)、適應(yīng)泛化的綜合評測,文心一言得分率76.98%,僅次于GPT-4,領(lǐng)先于包括ChatGPT在內(nèi)的其他大語言模型。其中,在部分中文語義理解方面,文心一言以92%的得分率排名榜首。

在安全合規(guī)方面,基于對內(nèi)容安全性、偏見和公平性、隱私保護(hù)等綜合評測,文心一言得分率 78.18%,與GPT-4并列排名第一。


掃一掃,手機(jī)繼續(xù)看
    特別聲明:文章多為招考官網(wǎng)轉(zhuǎn)載,如有侵權(quán)請聯(lián)系!
    部分?jǐn)?shù)據(jù)為彩果考試網(wǎng)(m.diethotels.com)收集整理,轉(zhuǎn)載或復(fù)制請注明出處!-彩果考試網(wǎng)-