Redy词法分析--综合识别

3068阅读 0评论2012-03-07 NosicLin
分类:Python/Ruby

近回文档首页

代码下载: git clone git://git.code.sf.net/p/redy/code redy-code
这一章的内容有:
这一章大家会看到一个完整的大的状态机,用于识别Redy语言中所有的单词。

(一)简介

在前面基本上讲完了Redy中大部份单词,其中有变量,字符串,注释,整数,长整数,浮点数,运算符。但还有一小部份单词在前面还没有提到过,分别为:
  1. 关键字(如if,else,while,for等)
  2. 语句分隔符(符号‘;‘和换行符),在Redy中每一条语句占用一行(组合语句除外),如果相把多条语句写在一行的,那么就需要用‘;’来分开。
  3. 白空格(由多个空格或制表符组成),白空格对于语言来说没有多在用处,当识别到白空格时就把它抛弃。
变量状态机在识别时,会一同识别到关键字,所以最终到底为变量还是关键字,需要在判断一次。

对于分隔符和白空格,这里就不细说,他们的识别都非常的简单,我只是给出他们的状态机
(二)综合识别

(1)简介

在前面文章中讲过整数,长整数,浮点数的合并,其实这已经完成了七成的工作了,后面的几个状态机的合并要简单得多,为了表述方便,我们把整数,长整数,浮点数都称为数。下一步的目标是得到一个大的状态机。

(2)状态机合并
现在总共有字符串,变量,数,运算符,注释,语句分格符,白空格这么七个小的状态机,为了实现综合识别,我们需要把它们合并在一起,相比前面的整数与浮点数的合并来说,这次合并要简单的多,如果仔细观察可以发现,
  1. 字符串识别的状态机的开始状态只在双引号下发生状态转移
  2. 语句分格符状态机的开始状态只在符号‘;’和符号‘\n‘发生状态转移
  3. 数识别的汰态机的开始状态只在数字0到9和点号下发生状态转移
  4. 变量识别的状态机的开始状态只在字母a到z,字母A到Z,下划线,符号‘@'下发生状态转移
  5. 白空格识别的状态机的开始状态只在空白符和制表符下发生状态转移
  6. 注释识别的状态机的开始符叼只在符号‘#’下发生状态转移
上面这6个状态机的开始状态能识别的输入类型两两不同,没有冲突,所以合并这6个非常的简单

七个状态机已经讨论了6个,只剩下一个运算符,而这6个状态机与运算符突冲的也只有数的点号,这次冲突处理起来都很简单。只需要为冲突的状态建立一个等价的新状态,新状态的后继状态者是单个,不是组合状态。具体的合并就不细讲,下面我给出状态图:

由于在一张图中不好绘制,所以绘制了两张状态图。从上面的状态图,可以看出,七个状态机在合并后,总共增加了二个状态,为这二个状态构造状态链,把这7个状态机连接在一起,一个大的综合性的状态机就这么形成了。

(3)状态链的构造

二个状态里面,最复杂的是LexicalBegin,因为它能接受的输入类型最多,第二个状态LexicaiPoint能接受的类型只有一个,构造成来非常简单

首先,申明这两个状态:
  1. /*merge parts*/
  2. extern struct state me_begin;
  3. extern struct state me_period;
第二步,为每一个状态构造状态链

a)状态LexicalBegin

输入类型有下面这么27种:
  1. 符号@,下画线,以及字母   (TO_ID)
  2. 数字0            (D_0)
  3. 数字1到9          (D1_9)
  4. 双引号            (D_QUOTE)
  5. 空格和制表符                           (WS)
  6. 换行符            (NewLine)
  7. 分号            (Semicolon)
  8. 19种运算符 
      1. '(' ')' '[' ']' '.' ','
      2. '+' '-' '~' '*' '/' '%'
      3. '<' '>' '=' '!'
      4. '&' '^' '|'
  9. 除以上字符以外的所有字符      (Other)

用一个一维数组来映射状态LexicalBegin接受符号的输入类型:

  1. enum MERGE_INPUT_TYPE
  2. {
  3.     ME_OTHER=0,
  4.     ME_TO_ID,
  5.     ME_D0,
  6.     ME_D1_9,
  7.     ME_QUOTE,
  8.     ME_WS,
  9.     ME_NEWLINE,
  10.     ME_SEMICOLON,

  11.     ME_COMMA,
  12.     ME_PERIOD,
  13.     ME_REVERSE,
  14.     ME_L_RB,
  15.     ME_R_RB,
  16.     ME_L_SB,
  17.     ME_R_SB,
  18.     ME_EXCLAMATION,
  19.     ME_AMPERSAND,
  20.     ME_BAR,
  21.     ME_CARET,
  22.     ME_STAR,
  23.     ME_PERCENT,
  24.     ME_MINUS,
  25.     ME_PLUS,
  26.     ME_DIVIDE,
  27.     ME_EQUAL,
  28.     ME_GREATER,
  29.     ME_LESS,
  30.     ME_INPUT_NUM
  31. };

  32. char merge_input_map[ASCII_NUM]=
  33. {
  34.     0,0,0,0,0,0,0,0,0,5,6,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
  35.     5,15,4,0,0,20,16,0,11,11,19,22,8,21,9,23,2,3,3,3,3,3,3,3,3,3,0,7,26,24,25,0,
  36.     1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,13,0,14,18,0,
  37.     0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,17,0,10,0,
  38.     0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
  39.     0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
  40.     0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
  41.     0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0

  42. };
后继状态为:
  1. struct state* me_begin_targets[]=
  2. {
  3.     &lex_state_err,        /*ME_OTHER*/
  4.     &id_identifier,        /*ME_TO_ID*/
  5.     &nu_zero,            /*ME_D0*/
  6.     &nu_number,            /*ME_D1_9*/
  7.     &st_string,            /*ME_QUOTE*/
  8.     &ws_ws,                /*ME_WS*/
  9.     &sb_newline,        /*ME_NEWLINE*/
  10.     &sb_semicolon,        /*ME_SEMICOLON*/

  11.     &op_comma,            /*ME_COMMA*/
  12.     &me_period,            /*ME_PERIOD*/
  13.     &op_reverse,        /*ME_REVERSE*/
  14.     &op_l_rb,            /*ME_L_RB*/
  15.     &op_r_rb,            /*ME_R_RB*/
  16.     &op_l_sb,            /*ME_L_SB*/
  17.     &op_r_sb,            /*ME_R_SB*/
  18.     &op_not_equal_begin,/*ME_EXCLAMATION*/
  19.     &op_bits_and,        /*ME_AMPERSAND*/
  20.     &op_bits_or,        /*ME_BAR*/
  21.     &op_bits_xor,        /*ME_CARET*/
  22.     &op_multiply,        /*ME_STAR*/
  23.     &op_mod,            /*ME_PERCENT*/
  24.     &op_minus,            /*ME_MINUS*/
  25.     &op_plus,            /*ME_PLUS*/
  26.     &op_divide,            /*ME_DIVIDE*/
  27.     &op_assign,            /*ME_EQUAL*/
  28.     &op_greater_than,    /*ME_GREATER*/
  29.     &op_less_than,        /*ME_LESS*/

  30. };
状态LexicalBegin为:
  1. struct state me_begin=
  2. {
  3.     "me_begin",
  4.     TOKEN_UNKOWN,
  5.     ME_INPUT_NUM,
  6.     merge_input_map,
  7.     0,
  8.     me_begin_targets,
  9.     0,
  10. };

b)状态lexicalPoint

LexicalPoint只在输入类型D0_9下转移到Float::FractionBegin,输入映射数组:
  1. char me_period_input_map[ASCII_NUM]=
  2. {
  3.     0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
  4.     0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,
  5.     0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
  6.     0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
  7.     0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
  8.     0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
  9.     0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
  10.     0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
  11. };
后继状态为:
  1. struct state* me_period_targtes[]=
  2. {
  3.     &lex_state_err,
  4.     &ft_fraction,
  5. };

状态LexicalPoint:
  1. struct state me_period=
  2. {
  3.     "me_period",
  4.     TOKEN_DIVIDE,
  5.     2,
  6.     me_period_input_map,
  7.     0,
  8.     me_period_targtes,
  9.     1,
  10. };



到现在为止,已经把两个状态的状态链数据构造完成,七个小的状态机就被这两个状态链接了在一起,形成一个大的综合性的状态机,该状态机可以识别Redy语言中的所有单词。

(三)运行结果

这里贴几张运行的结果图来结大家看看,这部份的代码可以在tutorial/lexical/merge2下面找到


近回文档首页





上一篇:长整数的数据结构与算法
下一篇:长整数--数据结构与接口