北京語言大學國家語言資源監測與研究平面媒體中心

北京語言大學國家語言資源監測與研究平面媒體中心於2004年6月30日成立,是教育部語言文字信息管理司與北京語言大學共建的研究中心,也是國家語言資源與監測研究系列的第一個研究中心。

在北京語言大學國家重點學科語言及套用語言學及計算機科學的優勢學科基礎上,我中心以獨立實體單位的形式,與國內該系列的其他研究中心共同合作開展工作。以語言資源建設為基礎,通過對語言資源的開發、對語言生活狀況的調查、媒體語言的動態監測,為國家語言政策的制定提供了數據基礎,為語言生活、語言教學、語言信息處理提供服務。
資源及平台建設
1、國家語言資源動態流通語料庫DCC
目前規模為55億字次,每年遞增5億字次,採樣國內15-18份報紙。自2016年起DCC將採樣全國100+份報紙,涵蓋中國各省市,每年遞增20億+字次。該語料庫具有歷時、動態更新、實態記錄等特點,可提供任意詞語的歷時使用分布數據,是語言生活研究、服務與套用的歷時大數據。基於DCC,建立了多個計算、檢索及可視化平台如:DCC中文歷時檢索平台;SCP語義雲歷時計算平台該平台基於word embedding與全局搭配信息,能夠計算辭彙語義的歷時變化;CCC傳統文化元素流通指數計算平台,能夠從時間與地理兩個維度對傳統文化元素在現代媒體中的流通使用情況進行分析、對比及可視化展示。
2、語義依存關係標註語料庫
該語料庫人工標註語義依存關係,目前規模三萬句,是語言文字信息技術與套用的深層次語義資源。2015年,基於該語料庫,成功組織了國際評測Semeval 2015中文語義關係評測任務。
3、科技文獻語料庫
目前涵蓋計算機、醫學、機械三個學科。其中,論文11萬+篇,7萬+篇為歷時數據資源,教材635部,其中計算機學科教材126部,醫學學科教材389部,機械學科教材120部。該語料庫是術語規範化及科技元素調查的數據資源。基於該語料庫,建設了科技術語調查監測平台TIM。
4、網路文學歷時語料庫
涵蓋玄幻、奇幻、都市、歷史、網遊、軍事等各個分類,收集了從2003年至今的22萬部網路文學小說,共120億+字次。
社會服務與研究成果
依託以上資源與平台,中心進行語言監測及語言生活系列研究,聯合完成了2005年~2015年度的“報紙、廣播電視、網路(新聞)用字用語調查報告”,發現了大規模媒體語料的用字用語規律,並與中國傳媒大學合作提取年度新詞語。中心聯合多家單位,多次向社會發布“春夏季中國主流報紙十大流行語”,“年度中國主流報紙十大流行語”;“年度中國媒體流行語”,與“漢語盤點”合併發布年度流行語,與光明日報聯合進行教育盤點,在社會上引起了較大的反響,中央電視台、北京電視台、新華社等多家媒體都進行了實時報導。
中心參與《中國語言生活狀況報告》綠皮書(2010-至今)編寫工作,統計並完成其中年度字詞語相關工作,合作進行新詞語數據統計,媒體年度用字用語光碟數據統計等。支持語言政策諮詢與參考,向國家提供資政報告被採納十餘篇。支持語言相關科研項目及課題研究數十項。2007年,我中心獲得國家語委“全國語言文字先進集體”稱號。
中心研究的領域包括語言資源監測的理論、方法與技術;漢語信息處理的語義資源建設研究;自然語言處理、社會計算等。以語言資源建設為基礎,研究、開發服務於語言狀況調查、漢語信息處理及社會計算的資源建設與關鍵技術。科研團隊承擔/完成國家社科基金、國家自然科學基金、教育部人文社科項目國家語委等國家級省部級各類項目十餘項,在核心期刊、國內國際會議上發表論文150餘篇,完成著作多部,培養了幾十名碩士博士。

相關詞條

熱門詞條

聯絡我們