模式分析的核方法

模式分析的核方法

模式分析是從一批數據中尋找普遍關係的過程。它逐漸成為許多學科的核心,從神經網路到所謂句法模式識別,從統計模式識別到機器學習和數據挖掘,模式分析的套用覆蓋了從生物信息學到文檔檢索的廣泛領域,從複雜的生物信息學到相對簡單的文檔檢索等。《模式分析的核方法》包括三部分:這個領域的基本概念;若干基於核的算法;若干核函式。適用於所有從事模式識別、機器學習、神經網路及其套用的學生、教師和研究人員。

基本介紹

  • 中文名:模式分析的核方法
  • 譯者:趙玲玲
  • ISBN:9787111178538
  • 頁數:306
基本信息,編輯推薦,圖書簡介,圖書目錄,前言,譯者序,

基本信息

英文名: Kernel Methods for Pattern Analysis
作者: (英)肖-泰勒 / (美)克瑞斯天尼
譯者: 趙玲玲
ISBN: 9787111178538
頁數: 306
定價: 48.00
出版社: 機械工業出版社
裝幀: 平裝
出版日期: 2006年1月1日

編輯推薦

模式分析是從一批數據中尋找普遍關係的過程。它逐漸成為許多學科的核心,從神經網路到所謂句法模式識別,從統計模式識別到機器學習和數據挖掘,模式分析的套用覆蓋了從生物信息學到文檔檢索的廣泛領域,從複雜的生物信息學到相對簡單的文檔檢索等。 本書所描述的核方法為所有這些學科提供了一個有力的和統一的框架,推動了可以用於各種普遍形式的數據(如字元串、向量、文本等)的各種算法的發展,並可以用於尋找各種普遍的關係類型(如排序、分類、回歸和聚類等)。本書有兩個主要目的。首先,它為專業人員提供了一個包容廣泛的工具箱,其中包含各種易於實現的算法、核函式和解決方案。許多算法給出了MATLAB編碼,可適用於許多領域的模式分析任務。其次,它為學生和研究人員提供了一個方便的入門嚮導,去了解基於核的模式分析這個迅速發展的領域。書中舉例說明了如何針對新的特定套用手工寫出一個算法或核函式,同時還給出了為完成此任務所需的初步方案及數學工具。
本書分三部分。第一部分介紹了這個領域的基本概念,書中不僅給出了一個展開的入門例子,而且還闡述了這種方法的主要理論基礎。第二部分包含了若干基於核的算法,從最簡單的到較複雜的系統,例如核偏序最小二乘法、正則相關分析、支持向量機、主成分分析等。第三部分描述了若干核函式,從基本的例子到高等遞歸核函式、從生成模型導出的核函式(如HMM)和基於動態規劃的串匹配核函式,以及用於處理文本文檔的特殊核函式。

圖書簡介

本書詳細介紹基於核的模式分析的基本概念及其套用,主要內容包括:主要理論基礎,若干基於核的算法,從最簡單的到較複雜的系統,例如核偏序最小二乘法、典型相關分析、支持向量機、主成分分析等。還描述了若干核函式,從基本的例子到高等遞歸核函式,從生成模型導出的核函式(如HMM)到基於動態規劃的串匹配核函式,以及用於處理文本文檔的特殊核函式等。
本書適用於所有從事模式識別、機器學習、神經網路及其套用的學生、教師和研究人員。

圖書目錄

第一部分 基本概念
第1章 模式分析
1.1 數據中的模式
1.1.1 數據
1.1.2 模式
1.2 模式分析算法
1.2.1 模式的統計穩定性
1.2.2 通過重新編碼檢測模式
1.3 利用模式
1.3.1 整體的策略
1.3.2 常見模式分析任務
1.4 小結
1.5 進一步閱讀和高級主題
第2章 核方法概要
2.1 概述
2.2 特徵空間中的線性回歸
2.2.1 原始線性回歸
2.2.2 原始嶺回歸和對偶嶺回歸
2.2.3 由核定義的非線性特徵映射
2.3 其他例子
2.3.1 算法
2.3.2 核
2.4 核方法的模組性
2.5 本書的路線圖
2.6 小結
2.7 進一步閱讀和高級主題
第3章 核的性質
3.1 內積和半正定矩陣
3.1.1 希爾伯特空間
3.1.2 Gram矩陣
3.2 核的描述
3.3 核矩陣
3.4 核的構造
3.4.1 核函式上的運算
3.4.2 核矩陣上的運算
3.5 小結
3.6 進一步閱讀和高級主題
第4章 檢測穩定的模式
4.1 集中度不等式
4.2 容量和正則化:Rademacher理論
4.3 基於核的類的模式穩定性
4.4 一種實用的方法
4.5 小結
4.6 進一步閱讀和高級主題
第二部分 模式分析算法
第5章 特徵空間中的基本算法
5.1 均值和距離
5.1.1 一種簡單的新穎檢測算法
5.1.2 一種簡單的分類算法
5.2 計算投影:Gram-Schmidt法、QR法和Cholesky法
5.3 衡量數據的分散度
5.4 Fisher判別式分析Ⅰ
5.5 小結
5.6 進一步閱讀和高級主題
第6章 利用特徵分解法做模式分析
6.1 奇異值分解
6.2 主成分分析
6.2.1 核主成分分析
6.2.2 主成分分析的穩定性
6.3 最大協方差的方向
6.4 廣義特徵向量問題
6.5 典型相關分析
6.6 Fisher判別式分析Ⅱ
6.7 用於線性回歸的方法
6.7.1 偏最小二乘法
6.7.2 核偏最小二乘法
6.8 小結
6.9 進一步閱讀和高級主題
第7章 利用凸最佳化法做模式分析
7.1 最小封閉超球體
7.1.1 包含點集的最小超球體
7.1.2 新穎檢測的穩定性
7.1.3 包含大部分點的超球體
7.2 用於分類的支持向量機
7.2.1 最大間隔分類器
7.2.2 軟間隔分類器
7.3 用於回歸的支持向量機
7.3.1 回歸的穩定性
7.3.2 嶺回歸
7.3.3 ε-不敏感回歸
7.4 線上分類和回歸
7.5 小結
7.6 進一步閱讀和高級主題
第8章 排列、聚類和數據可視化
8.1 發現排列關係
8.1.1 批排列
8.1.2 線上排列
8.2 發現特徵空間中的聚類結構
8.2.1 衡量聚類質量
8.2.2 貪婪解:k-均值法
8.2.3 鬆弛解:譜方法
8.3 數據可視化
8.4 小結
8.5 進一步閱讀和高級主題
第三部分 構造核
第9章 基本的核和核的類型
9.1 封閉形式的核
9.2 ANOVA核
9.3 來自圖的核
9.4 圖結點上的擴散核
9.5 集合上的核
9.6 實數上的核
9.7 隨機化核
9.8 其他的核類型
9.8.1 來自連續嵌入的核
9.8.2 一般結構上的核
9.8.3 來自生成信息的核
9.9 小結
9.10 進一步閱讀和高級主題
第10章 文本核
10.1 從詞包到語義空間
10.1.1 表示文本
10.1.2 語義問題
10.2 向量空間核
10.2.1 設計語義核
10.2.2 設計接近度矩陣
10.3 小結
10.4 進一步閱讀和高級主題
第11章 用於結構化數據的核
11.1 比較串和序列
11.2 譜核
11.3 所有子序列核
11.4 固定長度的子序列核
11.5 間隙加權的子序列核
11.5.1 樸素實現法
11.5.2 高效實現法
11.5.3 關於主題的變形
11.6 動態規劃以外的方法:基於trie-樹的核
11.6.1 p-譜核的trie-樹的計算
11.6.2 基於trie-樹的不匹配核
11.6.3 基於trie-樹的限制性間隙加權核
11.7 用於結構化數據的核
11.7.1 比較樹
11.7.2 結構化數據:一個框架
11.8 小結
11.9 進一步閱讀和高級主題
第12章 來自生成模型的核
12.1 P-核
12.1.1 條件獨立和邊際化
12.1.2 表示多元分布
12.1.3 由隱藏二項式模型生成的固定長度的串
12.1.4 由隱藏Markov模型生成的固定長度的串
12.1.5 配對隱藏Markov模型核
12.1.6 隱藏樹模型核
12.2 Fisher核
12.2.1 從機率到幾何
12.2.2 隱藏Markov模型的Fisher核
12.3 小結
12.4 進一步閱讀和高級主題
附錄A 正文中省略的證明
附錄B 數學符號約定
索引
參考文獻

前言

對數據模式的研究與科學研究一樣有非常漫長的歷史。例如,考慮一下在天文學上取得重大突破的約翰尼斯·克卜勒(Johannes Kepler),他闡明了著名的三大行星運動定律,我們可以把這三個定律看做是克卜勒從第谷·布拉赫(Tycho Brahe)編纂的大量的觀測數據中發現的關係。
同樣地,對於自動搜尋模式的期望的歷史至少與計算一樣漫長。人們運用許多科學方法和工程方法,比如統計學、機器學習和數據挖掘等等,已在著手處理這個問題了。
模式分析(pattern analysis)處理的是(自動)檢測和辨別數據中的關係這一問題。在模式分析領域,大多數統計方法和機器學習方法都假定,數據以向量形式存在,關係可以被表達成分類規則、回歸函式或者聚類結構;人們通常把這些方法統稱為“統計模式識別”。“句法模式識別”或者“結構模式識別”則代表了另外一種方法,其目的是從諸如串之類的數據中檢測規則,這些規則往往按照語法或等價的抽象形式存在。
模式分析自動化算法的發展,經歷了3次革命。20世紀60年代,引入了在向量集內檢測線性關係的高效算法,並分析了這些算法的計算行為和統計行為。1957年引入的感知機 (Perceptron)算法就是一個例子。如何檢測非線性關係這一問題,是那個時候的主要研究目標。儘管如此,開發具有相同效率水平的算法,並且保證該算法得到統計理論的支持,已被證明是一個很困難的目標。
20世紀80年代,模式分析領域經歷了一場“非線性革命”,幾乎同時引入了後向傳播多層神經網路算法和高效的決策樹學習算法。儘管這些方法用到了啟發式算法和不完全統計分析,它們第一次使得檢測非線性模式成為可能。非線性革命的影響怎么強調都不過分:它激活了諸如數據挖掘和生物信息學的整個領域。然而,這些非線性算法,是建立在梯度下降法或貪心啟發式法的基礎上,因而受到局部極小化的限制。由於沒有很好地理解它們在統計上的行為,人們利用這些算法時還經常遇到過度擬合的問題。
模式分析算法發展的第三個階段發生在20世紀90 年代中期,當時出現了新的被稱為基於核的(kernel?based)學習方法的模式分析方法,該方法最終使得研究人員能夠高效地分析非線性關係,而這種高效率原先只有線性算法才能夠達到。該方法在統計分析方面進一步發展之後,在高維特徵空間內也能夠達到很高的效率,並且避免了過度擬合的危險。從各種角度,計算的、統計的和概念的角度來看,在這第三個階段發展起來的非線性模式分析算法,和線性算法一樣,高效而富有理論根據。神經網路和決策樹中典型的局部極小化問題和過度擬合問題,也已得到解決。同時,這些方法在處理非向量型數據方面非常有效,這樣就建立起了和模式分析的其他分支的聯繫。
基於核的學習方法,首先以支持向量機(Support Vector Machine,SVM)的形式出現,支持向量機是一種用來擺脫上面提到的計算和統計上的困難的分類算法。然而,很快就產生了基於核的算法,它能夠解決分類以外的問題。人們越來越清楚地認識到,這種方法引起了模式分析領域的一場革命。這裡,全部的新工具和新技術,都由嚴格的理論分析所推動,在計算效率的保證下製造出來或發展起來。
此外,這種方法能夠消除不同的模式識別子學科之間存在的差距。它提供了一個統一的框架,來思考和操作各種類型的數據,不管它們是向量、串或更複雜的對象,同時也能夠進行多種類型的模式分析,包括相關、排列、聚類等等。
本書概括地介紹了這種新方法。我們試圖把一個年輕的、茁壯成長中的研究團隊的10年深入研究,濃縮到本書的章節中。該團隊的研究者們已經一起創造了一個模式分析方法類,該類已成為從業人員工具箱的一個重要部分。
本書介紹的算法能識別多種關係,從傳統的分類和回歸問題,到諸如排列和聚類等各種更專門化的問題,到包括主成分分析和典型相關分析的高級技術。而且,每一個模式分析問題,都可以和本書最後一部分論述的核函式館中的一類函式結合起來套用。這就意味著這種分析可以用於多種數據,從標準向量類型,到更複雜的諸如圖像和文本文檔等對象,到與生物序列、圖和語法相關聯的高級數據類型。
基於核的分析,對於數學家、科學家和工程師來說,是一個強大的新工具。它提供了非常豐富的方法,可以套用在模式分析、信號處理、句法模式識別和其他模式識別(從樣條到神經網路)領域。簡而言之,它提供了一個嶄新的視角,我們仍然遠沒有了解它的全部潛力。
本書作者參與了基於核的學習算法的發展,對於這一方法的理論、實現、套用和普及,做出了許多貢獻。他們的著作《An Introduction to Support Vector Machines》已經被許多大學當做教科書和研究參考書使用。作者也在一個由歐洲委員會(European Commission)資助的工作組的機構中,協助“神經和計算學習(NeuroCOLT)”研究,這個工作組在定義新研究日程和“圖像和文本的核方法(KerMIT)”項目中起到了重要作用,而該項目已經套用於文檔分析領域。
作者要感謝很多人,他們通過參加討論、提出建議,或在許多情況下給予了非常詳細和富於啟發意義的反饋信息,對本書做出了貢獻。特別感謝Gert Lanckriet、 Michinari Momma、Kristin Bennett、Tijl DeBie、Roman Rosipal、 Christina Leslie、Craig Saunders、Bernhard Scho··lkopf、 Nicolò Cesa?Bianchi、Peter Bartlett、Colin Campbell、William Noble、 Prabir Burman、Jean?Philippe Vert、Michael Jordan、Manju Pai、Andrea Frome、 Chris Watkins、Juho Rousu、Thore Graepel、Ralf Herbrich和David Hardoon。作者還要感謝歐洲委員會和英國基金理事會EPSRC對他們基於核的學習方法的研究的支持。
Nello Cristianini是加州大學戴維斯分校(UC Davis)統計系的助理教授。Nello要感謝加州大學伯克利分校(UC Berkeley)的計算機科學系和Mike Jordan,感謝他們在2001年~2002年Nello任訪問講師期間對他的款待。他也要感謝麻省理工學院的基於計算機的學習中心(MIT CBLC)和 Tommy Poggio 2002年夏天對他的款待,以及為他提供了理想的環境來寫這本書的加州大學戴維斯分校(UC Davis)的統計系。本書的許多結構以Nello在加州大學伯克利分校、戴維斯分校講授的課程和講義為基礎。
John Shawe?Taylor是南安普頓大學(University of Southampton)的計算科學教授。John要感謝倫敦大學皇家霍洛威學院(Royal Holloway)計算機科學系的同事們。在寫作本書的大部分時間,他都在那裡工作。

譯者序

模式分析領域研究的是如何發現數據中潛在的關係。隨著人們的注意力從線性關係轉移到非線性關係,模式分析方法也發生了變化,從最初的統計模式識別,到後來的神經網路和決策樹等方法,到本書所討論的核方法,嚴格的理論分析推動著新技術的發展和更新。基於核的方法是從統計學習理論中發展出來的較新的研究方法,它有效解決了傳統模式識別方法的局部極小化和不完全統計分析的缺點。目前基於核的模式分析方法已經套用於各種類型的數據(不管它們是向量、串或更複雜的對象),並且能夠進行多種類型的數據分析,包括相關、回歸、排列、聚類等等。
本書是一本綜合介紹模式分析的核方法各項標準技術的著作,書中從核函式和基於核的算法的一般原理與性質開始,介紹核函式的特點和性質,接著展開討論具體的算法,最後引出構造核的技術,其中特別列舉了一些適合特定套用的核。本書的敘述循序漸進,內容深入淺出,既不失嚴謹又易於理解。此外,本書另一大特色是它的配套網站提供了大量線上參考文獻的連結,讀者可以很方便地查詢到所需的內容。
本書作者Nello Cristianini是機器學習領域中的一個活躍的年輕學者,在這一領域的關鍵雜誌和會議上都有數篇文章發表,另一位作者John Shawe?Taylor 研究興趣廣泛,著作涉及學習系統理論分析、離散數學和計算機科學等領域。本書可以看做是對他們之前合著的一本書《An Introduction to Support Vector Machines》的綜合和深入,它濃縮了一個研究團隊在模式分析方面的10年研究成果,為讀者進一步學習和掌握最新技術提供了一個理想的起點。
譯者在翻譯過程中力求忠實原著,專業術語儘量遵循各學科的標準。由於水平和時間有限,對原著的理解可能會有偏差,書中不妥之處在所難免,懇請讀者批評和指正。
本書初稿主要由趙玲玲翻譯,曾華軍負責審閱,翁蘇明對全書進行了修改和整理。另外,肖嶸、陳正、張本宇、林晨曦、薛榮貴、孫建濤、韓捷、韓定一也進行了部分書稿翻譯和修改工作。最後,特別感謝李江紅老師和林宙辰老師所給予的鼓勵和支持。

相關詞條

熱門詞條

聯絡我們