哈爾濱工業大學信息檢索研究中心

哈爾濱工業大學信息檢索研究中心(HIT-CIR) 成立於2000 年9月1日,隸屬於計算機科學與技術學院。信息檢索研究中心主任為劉挺教授,研究人員包括秦兵教授、張宇副教授、車萬翔講師/博士,信息檢索研究中心的研究方向包括文本檢索、文本挖掘、語言分析、跨語言檢索和跨媒體檢索五個方面。

基本介紹

  • 中文名:哈爾濱工業大學信息檢索研究中心
  • 成立於:2000 年9月1日
  • 研究機構:300多家
  • 論文:100餘篇
中心介紹,成員介紹,研究組,項目列表,發表論文,

中心介紹

哈工大信息檢索研究中心 以認知心理學和機器學習為理論,以語言分析為基礎研究,以信息抽取、文本檢索、跨語言/媒體檢索為套用研究,以精準搜尋與挖掘系統為套用系統平台。研究中心已完成和現承擔的國家自然科學基金、國家863、國際合作、企業合作等課題40餘項。在這些項目的支持下打造出“語言技術平台LTP”,並免費共享給300多家研究機構。
研究中心堅持理論研究與技術開發互動同步發展的原則,一方面在向技術極限挑戰的過程中撰寫高質量的論文,一方面將陸續完成的階段性成果適時地轉化為實用技術。研究中心近年來發表論文100餘篇,包括連續在自然語言處理頂級會議ACL上發表多篇論文,積極參加國內外技術評測,並取得優異成績,包括CoNLL'2009七國語言的句法語義分析評測的第一名。中心主要通過與企業合作,採取將技術嵌入企業的產品中的方式,實現研究的價值,回報社會。雙語例句檢索、漢語分詞等一批技術已經陸續轉化到金山詞霸和金山WPS軟體中。
研究中心努力營造濃厚的學術氛圍,悉心培養優秀學子。目前研究中心有15名博士生,17名碩士生,學生中3人獲微軟學者獎學金,1人被評為微軟“十大”優秀實習生,多人次獲得美國數學建模競賽獎、IBM獎學金、計算機世界獎學金、羅克維爾獎學金等。
研究中心與國內外10餘家相關的研究機構和企業保持著密切而友好的合作關係。哈工大信息檢索研究中心是一個充滿活力的團隊,她渴望向國內和國際的同行們學習,也願意儘自己的努力為中文信息處理領域的發展做出貢獻。

成員介紹

李生
教授/博士生導師
信息檢索研究中心主任
劉挺
教授/博士生導師
兼職教授/博士生導師:王海峰博士
教師: 秦兵(TM)(教授/博士生導師)、張宇(TR)(副教授/博士)、車萬翔(LA)(講師/博士)、陳毅恆(TM)(講師/博士)
博士後:趙世奇(CL)(與百度公司聯合培養)
博士生
2007級博士生:趙妍妍(TM)、伍大勇(TR)
2008級博士生:和為(CL)、李正華(LA)、郭宇航(LA)、宋巍(TR)、戈馬(衣索比亞)(TR)
2009級博士生:薛涵、付博、付瑞吉(LA)
2010級博士生:張梅山(LA)、孟雷(TM)、張偉男(TR)
碩士生
2009級碩士生:丁效(TM)、張文斌(TR)、王莉峰(TM)、陳鑫(LA)、趙靜(LA)、張牧宇(TM)、占飛(CL)、韓中華(LA)、康維鵬(TR)
2010級碩士生:胡 燊(TM)、郭 江(LA)、唐國華(LA)、謝毓彬(TR)、唐都鈺(TM)、高漢東(TR)、張一博(TM)、羅磊(TR)、陳煒鵬(TM)、王彪(TM)
2011級碩士生:宋原(TM)、張健(TR)、劉安安(TM)、趙江江(TM)、鄧知龍(LA)、陸子龍(LA)、焦揚、王沛(TM)、慕福楠(TR)、劉飛
軟體學院
本科生
2007級本科生:李豪、張傑、張偉
2008級本科生:陳敏、劉一佳

研究組

文本挖掘(TM組)
組長:秦兵
主要研究方向信息抽取、意見挖掘、自動文摘以及文本分類聚類技術。研究重點包括指代消解、實體關係抽取、事件抽取、意見挖掘等。文本挖掘組在2003年國家863組織的技術評測中獲得“自動文摘”第一名。在2008年的TAC評測中的子任務之一Update Summary評測中名列前茅。在第一屆中文傾向性分析評測“中文文本傾向性相關要素抽取”的Lenient和Strict評價體系下分別取得了第1名和第2名。已經完成高校合作項目“多文檔自動文摘”,企業合作項目“文本分類和聚類”等。目前正在承擔國家863項目“基於實體關係的文本內容挖掘及集成平台”,微軟基金項目以及企業合作項目等。
文本檢索組(TR組)
組長:張宇
重點研究問答系統(涉及本體知識的自動構建),以及話題檢測與跟蹤(涉及個性化檢索),已完成多項國家項目,包括國家自然科學基金項目“開發域問答式信息檢索技術研究”,863項目“中文信息模糊匹配技術”,以及多項國家信息內容安全項目,開發了人物搜尋演示系統。
語言分析(LA組)
組長:車萬翔
語言分析是以句子為單位將輸入文本轉換為內部表達的分析過程,包括分詞、詞性標註、命名實體識別、依存句法分析、詞義消歧、語義角色標註等。在詞義消歧方面提出基於等價偽詞的詞義消歧方法,依存分析和語義角標註色獲得2008年CoNLL評測第2名,已授權金山公司使用漢語分詞等七項技術。目前承擔國家863課題“語言技術平台”,國家自然科學基金“漢語依存分析”,“漢語語義角色標註”,“漢語詞義消歧”等。
跨語言組(CL組)
組長:劉挺(兼)
副組長:和為
跨語言(Cross Language: CL)組主要研究為信息檢索服務的機器翻譯和複述技術。CL組在複述領域已做了一些嘗試並取得了初步的成果,2007年發表2篇IJCAI論文,2008年發表2篇ACL論文。

項目列表

基於實例動態泛化的共指消解,60975055,國家自然科學基金面上項目,2010-2012
漢語依存句法分析若干關鍵技術研究,60803093,國家自然科學青年基金,2009—2011
基於實體關係的文本內容挖掘與集成技術平台,2008AA01Z144,863計畫探索類專題項目,2008-2010
基於XML的分層互動式中文處理開放平台,2006AA01Z145,863計畫探索類專題項目,2007-2008
漢語語義角色標註方法研究,60675034, 國家自然科學基金面上項目,2007-2009
中文文本分類、聚類、文摘系統, 深圳騰訊公司,2006
網頁地理與新聞信息抽取, NEC中國研究院,2006
中文詞義消歧技術研究, 東芝中國研發中心,2005-2006
基於等價偽詞的漢語全文無指導詞義消歧技術研究,60575042, 國家自然科學基金面上項目,2006-2008
中文短語及簡單句的複述技術研究, 60503072, 國家自然科學基金面上項目,2006-2008
英文複述技術研究, 微軟亞洲研究院,2005-2006
語料庫授權, 東芝中國研發中心,2005
簡繁轉換等七項技術授權金山WPS專業版使用,珠海金山軟體公司,2005
多文檔自動文摘, IBM中國,2005
問答式信息檢索技術理論與方法, 60435020, 國家自然科學基金重點項目“問題理解與答案抽取”子課題,2005-2008
金山線上客服系統, 北京金山軟體公司,2004-2006
開放域問答式信息檢索技術研究, 國家自然科學基金,2003-2004
中文信息模糊匹配技術, 863項目,2003
語料庫加工, 東芝中國研發中心,2003
基於依存分析的中文自動校對系統, 863子項目, 2003
開放域問答式信息檢索技術研究, 校基金,2002
信息產業部項目若干,2001-2006

發表論文

2008年發表論文22篇
2007年發表論文19篇
2006年發表論文13篇
2005年發表論文25篇
2004年發表論文20篇
2001年-2003年發表論文18篇
2000年及以前發表論文10篇

相關詞條

熱門詞條

聯絡我們