面向非結構化文本的知識發現

基本介紹

內容簡介

《面向非結構化文本的知識發現》從句法這一層面人手，基於面向網路獲取的英漢雙語平行語料這一非結構化數據。

作者簡介

王東波，男，1981年生於山東省菏澤市，201 2年6月獲南京大學信息管理學院情報學博士學位，現為南京農業大學信息科學技術學院講師。近年來在國內外期刊與會議上發表學術論文35篇。研究領域主要包括自然語言處理、文本挖掘和信息計量。主持或參與南京大學研究生創新基金項目、863項目、自然科學基金項目、社會科學基金項目、教育部和其他項目八項。

圖書目錄

第一章引言
一課題提出
二研究意義
三研究方法
四研究技術路線
五研究創新點
六本書結構和所用資源
第二章相關研究綜述
一面向網路獲取相關英漢雙語平行語料的概述
二辭彙句法功能分布的相關研究概況
三短語結構知識抽取的相關研究綜述
四類別知識挖掘的相關研究
第三章面向網路的英漢雙語平行語料庫自動構建
一確定獲取語料網站和制定抓取辭彙底表
二網頁的抓取和英漢雙語平行語料的抽取
第四章辭彙句法功能分布複雜度呈現規律的知識挖掘
一辭彙句法功能分布複雜度統計數據源簡介和句法結構調整
二辭彙句法功能分布複雜度的獲取
三辭彙句法功能分布複雜度的洛特卡現象揭示
第五章基於英漢雙語平行語料庫的短語結構知識抽取——以介賓短語結構為例
一英漢雙語介賓短語結構句法特徵統計分析
二有關介賓短語結構知識抽取模型構建的相關介紹和預處理
三介賓短語結構知識抽取模型的確定和英漢雙語介賓短語結構知識的抽取
第六章基於英漢雙語平行語料庫的複雜短語級類別知識挖掘
一面向英漢雙語專門複雜短語平行語料的聚類和詞幹或詞形算法確定
二語料的預處理和相關統計
三面向英漢雙語複雜短語平行語料的詞性選擇
四基於英漢雙語複雜短語平行語料的類別知識挖掘
結語
參考文獻
附錄1 賓州大學英語樹庫的詞性標記
附錄2賓州大學漢語樹庫的詞性標記
附錄3清華大學樹庫詞性標記
附錄4漢語自身特徵模板
附錄5英語自身特徵模板
附錄6漢語添加特徵模板
附錄7英語添加特徵模板
附錄8 中國科學院和北京大學核心詞性標註集
附錄9 BNC統計語料樣例
後記

面向非結構化文本的知識發現

基本介紹

基本介紹

內容簡介

作者簡介

圖書目錄

相關詞條

熱門詞條