lex(計算機領域的詞法分析器)

生成工具

Lex是LEXical compiler的縮寫，是Unix環境下非常著名的工具,主要功能是生成一個詞法分析器(scanner)的C源碼,描述規則採用正則表達式(regular expression)。描述詞法分析器的檔案*.l，經過lex編譯後，生成一個lex.yy.c 的檔案，然後由C編譯器編譯生成一個詞法分析器。詞法分析器，簡單來說，其任務就是將輸入的各種符號，轉化成相應的標識符(token)，轉化後的標識符很容易被後續階段處理。

它被設計用來對輸入字元流進行詞法處理。它接受一種高級的、面向問題的說明書，並用它匹配字元串中的字元、生成能夠識別正則表達式的程式。正則表達式通過用戶輸入的代碼說明書給入。Lex識別這些表達式，並且將輸入流分成一些匹配這些表達式的字元串。在這些字元串的分界處，用戶提供的程式片段被執行。Lex代碼檔案將正則表達式和程式片斷關聯。對每一條輸入到由Lex生成程式的表達式，相應的代碼片段被執行。

為了完成任務，除了需要提供匹配的表達式以外，用戶還需要提供其它代碼，甚至是由其他生成器產生的代碼。用戶提供一般程式設計語言的代碼片斷完成程式識別表達式。因此，用戶自由編寫動作時，並不影響其編寫高層的表達式語言來匹配字元串表達式。這就避免迫使用戶使用字元串語言來進行輸入分析時，也必須使用同樣的方法來編寫字元處理程式，而這樣做有時是不合適的。Lex不是完整的語言，但是是一個新語言的生成器，它可以插入到各種不同的被叫做“宿主語言”的程式設計語言中。就像大多數目的語言可以生成在不同計算機硬體上運行的代碼，Lex可以生成不同的宿主語言。宿主語言用於Lex生成輸出代碼，也用於用戶插入程式片斷。這使得Lex適用於不同的環境和不同的使用者。每一個應用程式可以是硬體、適用於該任務的宿主語言、用戶背景和局部接口屬性的直接結合。現在，Lex唯一支持的宿主語言是C，儘管Fortran（形式為Ratfor[2]）在過去也被支持。Lex自身存在於UNIX、GCOS和OS/370上；但是Lex生成的代碼可以在任何適當的編譯器上使用。

Lex將用戶輸入的表達式和動作actions（在這篇文章中被稱作原始碼）轉換為宿主語言；生成的程式叫做yylex。yylex識別字元流中的表達式（本文稱作輸入流），並且當每一個表達式被檢測出來後，輸出相應的動作。

過程如圖。

讓我們來仔細研究一下這個奇妙的工具吧。先看看Lex檔案的結構。 Lex檔案結構簡單，分為三個部分：

declarations

%%

translation rules

%%

auxiliary procedures

分別是聲明，轉換規則和其它函式。

聲明段包括變數的聲明、符號常量的聲明和正則表達式聲明。希望出現在目標C源碼中的代碼，用%{…%}擴在一起。比如：

colour	printf("color");
mechanise	printf("mechanize");
petrol	printf("gas");

lex(計算機領域的詞法分析器)

基本介紹

生成工具

Lex原始碼

警告和缺陷

相關詞條

熱門詞條