文本挖掘

文本挖掘

《文本挖掘》是 2009年08月由人民郵電出版社出版的圖書,作者是學者費爾德曼。該書中涵蓋了核心文本挖掘操作、文本挖掘預處理技術、分類、聚類、信息提取、信息提取的機率模型、預處理套用、可視化方法、連結分析、文本挖掘套用等內容,很好地結合了文本挖掘的理論和實踐。

基本介紹

  • 書名:文本挖掘
  • 作者:費爾德曼
  • ISBN:9787115205353
  • 定價:69元
  • 出版社: 
  • 出版時間: 2009年08月
  • 開本: 16開
內容簡介,作者簡介,文本挖掘工具,

內容簡介

《文本挖掘(英文版)》是一部文本挖掘領域名著,作者為世界知名的權威學者。《文本挖掘(英文版)》非常適合文本挖掘、信息檢索領域的研究人員和實踐者閱讀,也適合作為高等院校計算機及相關專業研究生的數據挖掘和知識發現等課程的教材。
文本挖掘

作者簡介

Ronen FeIdmarl,機器學習、數據挖掘和非結構化數據管理的先驅人物。以色列Bar一liarl大學數學與計算機科學系高級講師、數據挖掘實驗室主任,Clearforest公司(主要為企業和政府機構開發下一代文本挖掘套用)合作創始人、董事長,現在還是紐約大學斯特恩商學院的副教授。
James Sanger風險投資家,商業數據解決方案、網際網路套用和IT安全產品領域公認的行業專家。他於1982年與人合夥創立了ABS Vetllures公司。此前,他是DB Capital紐約公司的常務董事他本科畢業於賓夕法尼亞大學,研究生就讀於牛津大學和利物浦大學他是IEEE和美國人工智慧協會(AAAI)會員。

文本挖掘工具

DMC Text Filter是HYFsoft推出的純文本抽出通用程式庫,DMC Text Filter可以從各種各樣的文檔格式的數據中或從插入的OLE對象中,完全除掉特殊控制信息,快速抽出純文本數據信息。便於用戶實現對多種文檔數據資源信息進行統一管理,編輯,檢索和瀏覽。
DMC Text Filter採用了先進的多語言、多平台、多執行緒的設計理念,支持多國語言(英語,中文簡體,中文繁體,日本語,韓國語),多種作業系統(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多種文字集合代碼(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多種形式的API功能接口(檔案格式識別函式,文本抽出函式,檔案屬性抽出函式,頁抽出函式,設定User Password的PDF檔案的文本抽出函式等),便於用戶方便使用。用戶可以十分便利的將本產品組裝到自己的應用程式中,進行二次開發。通過調用本產品的提供的API功能接口,實現從多種文檔格式的數據中快速抽出純文本數據。

相關詞條

熱門詞條

聯絡我們