自作の言語処理系開発日記の第5回です。
前回までで括弧を含んだ四則演算ができるようになりましたが、このままでは単なる電卓止まりです。ということで、今回は複数の式を連続して実行できる仕組みを実装していきたいと思います。
生成規則を考える
これまでは入力全体を1つの式として解釈していましたが、今回は式の区切りを定義して複数の式として解釈できるようにします。
C言語だと「;」や「,」が区切り文字として使われますが、開発中の言語(rook)では「,」と「\n(改行)」を区切り文字とします。それを踏まえて生成規則を考えると、こんな感じになります。
add = mul ("+" mul | "-" mul)*
mul = unary ("*" unary | "/" unary)*
unary = ("+" | "-")? primary
primary = num | "(" add ")"
program
の生成規則を修正しただけです。add
が「,」または「\n」区切りで連続して現れる形にしています。
実装してみる
入力が複数の式になったので、実装も各所を修正する必要があります。具体的には、
- 構文解析の結果はノードのリストとする
- コード生成は各ノードに対して順に生成するようにする
という修正が必要です。
構文解析器
構文解析器は、先述したようにノードのリストとして解析結果を返すようにします。program
の生成規則に対応した処理の中で、解析結果を詰めていくようにすればOKです。
vector<Node*> Parser::program(void)
{
vector<Node*> nodes;
nodes.push_back(add());
while(consume(",") || consume("\n")){
nodes.push_back(add());
}
return nodes;
};
コード生成
コード生成は構文解析器の結果(ノード)を1つ1つ処理していけばよいだけですが、1つだけ注意が必要なことがあります。
スタックマシンでは、1つの式の評価結果がスタックトップに残されます。そのため、複数の式を連続して実行したときには、その分だけスタックに評価結果が残されてしまいます。
これを避けるために、1つの式(ノード)に対応した命令列の最後に、スタックから値をポップする命令を追加するようにします(下記コードの8行目)。今回は汎用レジスタ(GR0)に結果を退避するようにしました。
vector<Operation> Generator::codegen(vector<Node*> &nodes)
{
vector<Node*>::iterator node;
for(node = nodes.begin(); node != nodes.end(); node++){
gen(*node);
operations.push_back( Operation{ OP_POP, REG_GR0 } );
}
return operations;
};
これで連続した式を実行できるようになったため、
のようなカンマ区切りの式や
2+2
3+3
のような改行区切りの入力が扱えるようになりました。まだ変数が扱えないのでプログラムっぽくはないですが、電卓止まりからちょっとステップアップしましたね(・∀・)。今回の実装のコミットは以下になります。
いよいよ、次回は変数に対応させていきたいと思います。
ではでは