文本挖掘原理

文本挖掘原理

《文本挖掘原理》是2010年11月1日科學出版社出版的書籍。本書主要記錄了文本挖掘開發和使用文本挖掘系統的方法技巧。

基本介紹

  • 書名:文本挖掘原理
  • 作者程顯毅
  • ISBN:9787030293060
  • 定價:45.00元
  • 出版社:科學出版社
  • 出版時間:2010年11月1日
  • 開本:16
內容簡介,編輯推薦,圖書目錄,

內容簡介

《文本挖掘原理》首先討論了文本挖掘的總體結構以及文本挖掘預處理算法,然後深入地研究了文本挖掘核心操作,最後探討真實世界中文本挖掘的主要套用和DIAL,彌補了理論和實踐的脫節。在資訊時代,存儲大量數據比較容易。通過Web、企業內部網、電傳新。聞獲得的文本數量在急劇增加,這導致信息過載。然而,數據量雖然增加了,但可用的信息卻在減少。文本挖掘是一個新的令人振奮的研究領域,其試圖通過綜合數據挖掘、機器學習、自然語言處理、信息檢索和知識管理等技術來解決信息過載問題。
文本挖掘包括文本集合的預處理(文本分類、信息抽取)、中間結果存儲、中間結果分析技術(分布分析、聚類、趨勢分析、關聯規則抽取)和最終結果的可視化。它與關聯分析類似,為人們提供了分析海量文本數據的新工具,並且通過學習模式來指導抽取實體關係。
《文本挖掘原理》主要可供對文本挖掘感興趣的本科高年級學生、研究生、研究人員和專業開發人員參考,對從事文本挖掘開發和使用文本挖掘系統的人也會有很大幫助。

編輯推薦

大量文檔集內容的預處理包括特徵抽取、文本分類、文本聚類等。文本分類和文本聚類研究的成果比較多,本書只作簡單介紹;而對特徵生成、特徵選擇和特徵抽取,本書進行深入地討論。
信息抽取是文本挖掘的核心操作,目前的主要研究方向是命名實體識別、實體關係抽取和事件抽取。實體關係抽取是文本挖掘的關鍵任務,所以本書用大量篇幅討論了實體關係發現技術。
由於文本挖掘強調用戶互動到知識發現過程的集成性,因此,本書最後討論了文本挖掘結果可視化方法,並介紹了一種文本挖掘語言——DIAL。

圖書目錄

前言
第1章 文本挖掘概述
1.1 文本挖掘的產生背景
1.2 文本
1.2.1 文本格式
1.2.2 動態文本集
1.3 文本挖掘的概念
1.4 文本挖掘的任務
1.4.1 文本挖掘預處理
1.4.2 文本模式挖掘
1.4.3 挖掘結果可視化
1.5 文本挖掘系統的通用體系結構
第2章 文本表示
第3章 文本挖掘預處理——文本分類
第4章 文本挖掘預處理——文本聚類
第5章 文本挖掘核心操作——信息抽取
第6章 文本挖掘核心操作——關係抽取
第7章 文本挖掘核心操作——關聯分析
第8章 文本挖掘結果的可視化
第9章 文本挖掘的套用
第10章 專門用於文本挖掘的信息抽取語言——DIAL
參考文獻

相關詞條

熱門詞條

聯絡我們