前言
本章对应官方教程第1章,介绍了Kaleidoscope以及实现词法分析器(Lexer)。
教程如下:
教你使用swift写编译器玩具(0)
教你使用swift写编译器玩具(1)
教你使用swift写编译器玩具(2)
教你使用swift写编译器玩具(3)
教你使用swift写编译器玩具(4)
教你使用swift写编译器玩具(5)
教你使用swift写编译器玩具(6)
教你使用swift写编译器玩具(7)
教你使用swift写编译器玩具(8)
仓库在这
Kaleidoscope大概长这样
1 2 3 4 5 6 7
   | def fib(x)   if x < 3 then     1   else     fib(x-1)+fib(x-2);      fib(40);
 
  | 
 
本项目参考官方文档编写,为了图方便与官方文档一样写了不少全局变量,这在实际工程中不是一个好的处理方式。
注意:教程中使用extern调用标准库本文并未实现,仅实现了extern的解析。由于本工程一开始把全部变量解析为int64类型而不是Double类型,所以后续章节可能会出现与官方教程生成的中间代码IR不相同的情况,还请各位具体问题具体分析。
开始
我们在实现语言时,首先需要能识别代码内容。通常情况下我们使用词法分析器(Lexer),将输入分解为Token。首先我们需要定义Token以及CurrentToken结构体。
1 2 3 4 5 6 7 8 9 10 11 12
   | enum Token {     case def     case extern     case identifier     case number     case other }
  struct CurrentToken {     var token: Token     var val: String }
 
  | 
 
identifier是用来记录变量,而其他的几个Token的枚举一目了然。CurrentToken用来表示当前正在解析的内容。
定义Lexer
在编写详细的token处理之前,我们需要先定义一下Lexer类。
1 2 3 4 5 6 7 8 9 10 11 12 13
   | class Lexer {               public var currentToken: CurrentToken?          private var lastChar: Character = " "          private var index = 0               private var source: [Character] = []      }
 
  | 
 
本工程解析代码通过index的增加从而依次从source中读取每一个字符进行处理。
获取下一个token
获取当前index对应的字符
1 2 3 4 5
   | private func getChar() -> Character {     let char = source[index]     index += 1     return char }
 
  | 
 
解析当前字符获取下一个currentToken
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
   |      public func nextToken() {         var identifierStr = ""       	         while lastChar.isWhitespace {             lastChar = getChar()         }                           if lastChar.isLetter {             identifierStr = String(lastChar)             lastChar = getChar()             while lastChar.isNumber || lastChar.isLetter {                 identifierStr.append(lastChar)                 lastChar = getChar()             }                          if identifierStr == "def" {                 currentToken = CurrentToken(token: .def, val: "def")             } else if identifierStr == "extern" {                 currentToken = CurrentToken(token: .extern, val: "extern")             } else {                 currentToken = CurrentToken(token: .identifier, val: identifierStr)             }             return         }                           if lastChar.isNumber || lastChar == "." {             var numStr = ""             repeat {                 numStr.append(lastChar)                 lastChar = getChar()             } while lastChar.isNumber || lastChar == "."             currentToken = CurrentToken(token: .number, val: numStr)             return         }                           let thisChar = lastChar         if thisChar != ";" {             lastChar = getChar()         }                           currentToken = CurrentToken(token: .other, val: String(thisChar))     }
 
  | 
 
代码详细的解释都体现在了注释中,现在我们已经完成了一个可以解析token的Lexer了。