文本挖掘預處理相關基礎技術分析與套用研究

基本信息,內容簡介,

基本信息

作 者:孫道軍
書號/ISBN: 978-7-5092-1420-6
出版時間: 2015-11 版次: 1版
定 價: ¥ 39.00
裝 幀: 平裝
字 數: 200千字 頁數: 250

內容簡介

本著作將在對比分析並發現現有文本挖掘技術存在不足的基礎上,提出改進文本預處理精度的算法。文中涉及的主要技術包括文本收集、文本預處理、處理後的文本的中文分詞、預抽取訓練樣本及使用KNN方法進行文本訓練和文本分類等。通過對系統功能的分析,本研究把系統分成了文本預處理、中文分詞、文本特徵向量的提取、文本特徵向量的訓練和分類等四部分。本課題實現了文本收集、文本預處理和中文分詞等文本挖掘的關鍵技術,並在研究的基礎上提出了一套特徵抽取及文本挖掘的方案,為後續的研究奠定了基礎。

相關詞條

熱門詞條

聯絡我們