1、CMinus词法分析 四川大学 编译原理四 川 大 学 计 算 机 学 院、软 件 学 院实 验 报 告 学号 姓名: 专业: 课程名称 编译原理课程设计实验课时4实验项目手工构造C-Minus语言的词法分析器实验时间实验目的、意义1. 熟悉C-Minus语言的词法特点,构造C-Minus的DFA;2. 设计数据类型、数据结构3. 通过完成词法分析程序,巩固词法分析知识语言特点正则表达式注释:/*注释*/关键字:if else int return void while专用符号:+ - * / = = != = ; , ( ) ID = letter+NUM = digit+letter =
2、a-z,A-Zdigit = 0-9DFA数据类型数据结构设计/定义数据类型TokenTypetypedef enum ENDFILE,ERROR, IF,ELSE,INT,RETURN,VOID,WHILE,ID,NUM, ASSIGN,EQ,LT,LE,GT,GE,NEQ,PLUS,MINUS,TIMES,OVER,LPAREN,RPAREN,LBRACKET,RBRACKET,LBRACE,RBRACE,COMMA,SEMI TokenType;/定义状态类型typedef enum START,LBUFFER,RBUFFER,INCOMMENT,INNUM,INID,INEQ,INLE
3、,INGE,INNEQ,DONE StateType;/结构定义static struct char *str; TokenType tok; reservedWordsMAXRESERVED =if,IF,else,ELSE,int,INT,return,RETURN,void,VOID,while,WHILE;DFA代码映射方法双层CASE实现代码映射,外层CASE关注状态变换,内层CASE关注输入字符。外层CASE一共有12个状态:START,LBUFFER,RBUFFER,INCOMMENT,INNUM,INID,INEQ,INLE,INGE,INNEQ,DONE, default;内
4、层CASE判断getNextChar()获取的下一个字符使当前状态转换为其他状态。关键代码分析TokenType getToken(void) int tokenStringIndex=0; TokenType currentToken; StateType state=START; int save; /是否保存到tokenString while(state!=DONE) int c=getNextChar(); save=TRUE; switch(state) case START: if(isdigit(c) state=INNUM; else if(isalpha(c) state=
5、INID; else if(c= ) | (c=t) | (c=n) save=FALSE; else if(c=) state=INEQ; else if(c=) state=INGE; else if(c=!) state=INNEQ; else if(c=/) state=LBUFFER; else state=DONE; switch(c) case EOF: save=FALSE; currentToken=ENDFILE; break; case +: currentToken=PLUS; break; case -: currentToken=MINUS; break; case
6、 *: currentToken=TIMES; break; case (: currentToken=LPAREN; break; case ): currentToken=RPAREN; break; case : currentToken=LBRACKET; break; case : currentToken=RBRACKET; break; case : currentToken=LBRACE; break; case : currentToken=RBRACE; break; case ;: currentToken=SEMI; break; case ,: currentToke
7、n=COMMA; break; default: currentToken=ERROR; break; break; case LBUFFER: if(c=*) tokenStringIndex=0; save=FALSE; state=INCOMMENT; else if(c=EOF) state=DONE; currentToken=ENDFILE; else currentToken=OVER; state=DONE; break; case INCOMMENT: save=FALSE; if(c=*) state=RBUFFER; else if(c=EOF) state=DONE;
8、currentToken=ENDFILE; break; case RBUFFER: save=FALSE; if(c=/) state=START; else if(c=*) ; else if(c=EOF) state=DONE; currentToken=ENDFILE; else state=INCOMMENT; break; case INNUM: if(!isdigit(c) ungetNextChar(); save=FALSE; state=DONE; currentToken=NUM; break; case INID: if(!isalpha(c) ungetNextCha
9、r(); save =FALSE; state=DONE; currentToken=ID; break; case INEQ: if(c=) state=DONE; currentToken=EQ; else ungetNextChar(); save =FALSE; state=DONE; currentToken=ASSIGN; break; case INLE: if(c=) state=DONE; currentToken=LE; else ungetNextChar(); save =FALSE; state=DONE; currentToken=LT; break; case I
10、NGE: if(c=) state=DONE; currentToken=GE; else ungetNextChar(); save =FALSE; state=DONE; currentToken=GT; break; case INNEQ: if(c=) state=DONE; currentToken=NEQ; else ungetNextChar(); save =FALSE; state=DONE; currentToken=ERROR; break; case DONE: break; default: fprintf(listing,Scanner Bug:state=%dn,
11、state); state=DONE; currentToken=ERROR; break; if(save) & (tokenStringIndex=MAXTOKENLEN) tokenStringtokenStringIndex+=(char)c; if(state=DONE) tokenStringtokenStringIndex=0; if(currentToken=ID) currentToken=reservedLookup(tokenString); if(TraceScan) fprintf(listing,t%d: ,lineno); printToken(currentTo
12、ken,tokenString); return currentToken;实验结果截图总结词法分析程序的输出和输入:词法分析程序的功能是读入源程序,输出单词符号。单词符号是程序设计语言的本语法符号,程序设计语言的单词符号一般分为如下几种:关键字,标示符,常数,运算符,界符,单词的输出是二元式的形式,需要知道二元式的表示方法,把得到的二元式写入输出文件。实验注意事项:1. 试验中在设计注释部分的解析时,因为C-Minus的注释符是四个字符组成,设计DFA时设计了两个中间态,用来判断状态转换;在代码中,如果由中间态转换为INCOMMENT状态,注意字符回退和save置false2. 在判断运算符,=,!=时,第二字符是=可成功识别出运算符,第二字符是其他字符时也可能是合法符号,注意字符回退与token判断。参考资料:编译原理及实践/编译器设计方案指导老师评 议成绩评定: 指导教师签名: