我校蒙古文智能信息處理技術(shù)國家地方聯(lián)合工程研究中心4篇論文被ACL 2025錄用,其中2篇主會、2篇findings,分別聚焦知識圖譜表示學習、多模態(tài)虛假新聞檢測、大語言模型偏見消除、共情對話語音合成,4篇論文第一作者分別是內(nèi)蒙古大學計算機學院(軟件學院)、人工智能學院李江(博士生)、胡樹國(碩士生)、蘭天(碩士生)、胡一帆(博士生)。ACL(Annual Meeting of the Association for Computational Linguistics)是人工智能自然語言處理(Natural Language Processing,NLP)領(lǐng)域最權(quán)威的國際會議之一,是CCF A類會議。
(1)A Mutual Information Perspective on Knowledge Graph Embedding(主會)
作者:李江, 蘇向東*, 多澤華, 蘭天, 郭曉濤, 高光來
內(nèi)蒙古大學計算機學院
論文提出一種基于互信息的知識圖譜嵌入表示方法。 知識圖譜 (KGs) 在人工智能應(yīng)用中潛力巨大,知識圖譜嵌入 (KGE) 技術(shù)旨在通過向量化實體和關(guān)系來預(yù)測缺失鏈接。然而,現(xiàn)有 KGE 方法在處理1-N 和 N-1 等復(fù)雜關(guān)系模式時,常面臨高組內(nèi)相似性、語義信息丟失和推理能力不足等局限。為克服這些挑戰(zhàn),本論文提出了一種新型的知識圖譜嵌入方法,其核心是引入互信息 (MI) 最大化策略,以顯著增強實體和關(guān)系的語義表示能力。通過最大化知識三元組 (h, r, t)中不同組件(例如 (h, r) 與 t)之間的互信息,該方法不僅能有效保留幾何結(jié)構(gòu),更能顯著提升模型表示復(fù)雜語義關(guān)系的能力,有效緩解高組內(nèi)相似性問題。在多個基準數(shù)據(jù)集上的廣泛實驗驗證了我們方法的有效性,性能優(yōu)于多種基線模型。這項工作為知識圖譜嵌入提供了一個新穎的理論與實踐結(jié)合的解決方案,為提升模型在復(fù)雜語義理解和推理任務(wù)中的提供新的視角。

(2)Synergizing LLMs with Global Label Propagation for Multimodal Fake News Detection(主會)
作者:胡樹國1,胡駿2*,張懷文1
1 內(nèi)蒙古大學計算機學院, 2 新加坡國立大學
論文提出一種基于全局標簽傳播網(wǎng)絡(luò)(GLPN)的多模態(tài)虛假新聞檢測新方法。當前多模態(tài)虛假新聞檢測技術(shù)面臨兩個問題:1)現(xiàn)有標簽傳播方法局限于訓練集內(nèi)部標簽,難以利用測試集數(shù)據(jù)輔助標簽傳播;2)大模型生成的偽標簽置信度波動大,直接融合易引入噪聲。 針對這些問題,研究團隊創(chuàng)新性地:1)重新設(shè)計全局標簽傳播機制,采用全局隨機掩碼方式,同步利用訓練集與測試集數(shù)據(jù)實現(xiàn)標簽的動態(tài)傳播;2)開發(fā)基于置信度篩選的偽標簽優(yōu)化方法,僅保留高置信度的測試集偽標簽用于高質(zhì)量的全局標簽傳播。 實驗表明,該方法在Twitter、PHEME和Weibo數(shù)據(jù)集上較現(xiàn)有方法取得顯著提升,顯著優(yōu)于現(xiàn)有方法。

(3)McBE: A Multi-task Chinese Bias Evaluation Benchmark for Large Language Models(findings)
作者:蘭天, 蘇向東*, 劉旭, 王瑞瑞,暢珂,李江, 高光來
內(nèi)蒙古大學計算機學院
論文提出一個多任務(wù)中文偏見評估基準(McBE)。隨著大型語言模型(LLMs)在各種自然語言處理任務(wù)中應(yīng)用的日益廣泛,其內(nèi)在的偏見逐漸在交互過程中暴露出來,評估大模型中的偏見對于減輕其倫理風險至關(guān)重要?,F(xiàn)在大多數(shù)現(xiàn)有的偏見評估數(shù)據(jù)集都集中在英語和北美文化上,它們的內(nèi)容并不完全適用于其他文化?;谥形暮椭袊幕臄?shù)據(jù)集非常稀缺。更重要的是,這些數(shù)據(jù)集通常只支持單一評估任務(wù),無法從多個方面評估大模型中的偏見,缺乏綜合視角。為了解決這些問題,本論文提出一個多任務(wù)中文偏見評估基準(McBE),包括4,077個偏見評估實例,涵蓋12個單一偏見類別,和5個評估任務(wù),并將這12個單一偏見類別劃分為82個子類別,提供廣泛的類別覆蓋,更全面的偏見評估。

(4)Chain-Talker: Chain Understanding and Rendering for Empathetic Conversational Speech Synthesis(findings)
作者:胡一帆1,劉瑞1*,任意2,殷翔2,李海洲3
1 內(nèi)蒙古大學計算機學院, 2字節(jié)跳動(新加坡),3香港中文大學(深圳)
論文提出一種模擬人類情感感知和表達過程的共情對話語音合成(Conversational Speech Synthesis , CSS)框架,為實現(xiàn)共情人機交互提供了創(chuàng)新解決方案。當前生成式CSS模型由于情感感知能力不足和離散語音編碼信息冗余等問題,導致情感感知和表達可解釋性不足。為解決上述問題,我們?yōu)镃SS任務(wù)提出了模擬人類認知的鏈式情感感知和表達框架ChainTalker。“情感理解”從對話歷史中推導上下文感知的情感語言描述,以增強情感理解可解釋性;“語義理解”通過序列化預(yù)測生成緊湊的語義編碼;“共情渲染”通過整合這兩個組件來合成富有表現(xiàn)力的語音,增強情感表達可解釋性?;贜CSSD, MultiDialog和DailyTalk三個基準數(shù)據(jù)集的實驗表明,Chain-Talker在生成更具表現(xiàn)力和共情力的語音方面優(yōu)于現(xiàn)有方法,而CSS-EmCap為穩(wěn)健的對話情感建模提供了有力支持。

上述研究工作獲得了國家自然科學基金項目、內(nèi)蒙古大學駿馬計劃項目、內(nèi)蒙古自治區(qū)高校青年科技英才等項目的支持。
供稿:計算機學院(軟件學院) 編輯:武濤 審核:劉雪峰 終審:阿茹娜