バイナリを逆アセンブルして中を覗いてみた

どんなプログラミング言語でも最終的には機械語に翻訳されて実行されるので、プログラムの真の動きを知るためには翻訳された機械語を見ることが一番です。

とはいえ、機械語そのものはちょっとハードルが高いので、その一歩手前のアセンブラのレベルでどうなっているのかを見てみることにしました。

検証するプログラム

今回検証するプログラムは以下です。このプログラムをgccでコンパイルしてオブジェクトファイルを生成し、その中身を逆アセンブルして覗いてみます。

int main(void)
{
    int a = 1;
    int b = 2;
    int c = a + b;
    return c;
}

コンパイルと逆アセンブル

まずはソースをコンパイルしてオブジェクトファイル（.o）を作ります。「-g」を指定してデバッグ情報を埋め込んでおくと、逆アセンブルしたときに見やすくなります。

gcc main.c -g -c

オブジェクトファイルができたら、objdumpコマンドで中身を逆アセンブルします。このとき「-S」を指定すれば、バイナリに埋め込まれたデバッグ情報を元にソースコードとの対応付きで中身を表示してくれます。

objdump main.o -S

ということで、このプログラムを逆アセンブルした結果はこんな感じになりました。これでプログラムの動きをアセンブラレベルで追うことができます。

main.o: file format elf64-x86-64

Disassembly of section .text:

0000000000000000 <main>:
int main(void)
{
0: 55 push %rbp
1: 48 89 e5 mov %rsp,%rbp
int a = 1;
4: c7 45 f4 01 00 00 00 movl $0x1,-0xc(%rbp)
int b = 2;
b: c7 45 f8 02 00 00 00 movl $0x2,-0x8(%rbp)
int c = a + b;
12: 8b 55 f4 mov -0xc(%rbp),%edx
15: 8b 45 f8 mov -0x8(%rbp),%eax
18: 01 d0 add %edx,%eax
1a: 89 45 fc mov %eax,-0x4(%rbp)
return c;
1d: 8b 45 fc mov -0x4(%rbp),%eax
}
20: 5d pop %rbp
21: c3 retq

中身を見ていこう

main関数の中身自体はたった4行ですが、アセンブラだと倍近くの行数になるようです。「elf64-x86-64」とあるように、x86アーキテクチャに基づいたアセンブラとなります。さっそく上から1つ1つ見ていきましょう。

push %rbp

rbpはベースポインタと呼ばれるレジスタで、関数に割り当てられたスタック領域のベース（底）を示します。関数が呼ばれた時点では、rbpには呼び出し元の関数のベースポインタの値が格納されているので、それを最初にpushすることで保存しているわけです。

mov %rsp,%rbp

続いて登場するrspはスタックポインタと呼ばれるレジスタで、スタックの最上段（最も最後に参照された位置）を示します。この値をrbpに代入することで、いまのスタックポインタをこの関数におけるベースポインタとしています。

movl　$0x1,-0xc(%rbp)

ここからはプログラムの中身に入っていきます。ここでは「int a = 1」に対応する命令として、movl命令により（rbp-0xc）のアドレスの内容に1を代入しています。ちなみに、ここでは変数aをint（=32bit）で宣言しているので、アセンブラ上もmovl命令が使われています。

movl　$0x2,-0x8(%rbp)

続いては「int b = 2」に対応する命令です。さきほどと同様、movlにより（rbp-0x8）のアドレスの内容に2を代入しています。よく見ると、アドレスの位置が変数aから4バイト離れているので、変数aとbはメモリ上は連続した位置に置かれているようです。

mov -0xc(%rbp),%edx および mov -0x8(%rbp),%eax

続いて登場するedxとeaxは汎用レジスタと呼ばれており、計算処理などに利用されます。ここでは、変数a,bの値をそれらのレジスタに一時的に格納しています。

add %edx,%eax

ここでようやくa+bの計算が行われます。edxとeaxにはaとbの値が入っているので、eaxにa+bの結果が格納されます。

mov %eax,-0x4(%rbp)

ここでは、上で計算したa+bの結果（eax）を変数cとして（rbp-0x4）のアドレスの内容に代入しています。これで、変数a,b,cのすべてに値が入った状態となりました。

mov -0x4(%rbp),%eax

ここでは「return c」に対応する処理として、変数cの値を改めてeaxに代入しています。なぜeaxなのか疑問に思いましたが、どうやらeaxは汎用レジスタの中でも戻り値の格納に使うことが決められているようです。

pop %rbp および retq

ここまでで関数内の処理はすべて完了したので、あとは呼び出し元へと戻るだけです。呼び出し元のベースポインタは最初にpushして覚えているので、その値をpopしてrbpへと書き戻しています。こうすることで、呼び出し元からすれば関数の前後でベースポインタが変わらないようにできます。最後はretqで関数の呼び出し元へと戻って終了です。

まとめ

とても短いプログラムでしたが、逆アセンブルすると色々なことがわかって楽しいです(・∀・)

CPU内ではスタックが利用されていることは知っていましたが、具体的な使われ方まではイマイチ理解していなかったのでとても良い勉強になりました。次はもう少し複雑なプログラムでその中身を覗いてみたいと思います。

ではではノシ

バイナリを逆アセンブルして中を覗いてみた

検証するプログラム

コンパイルと逆アセンブル

中身を見ていこう

push %rbp

mov %rsp,%rbp

movl　$0x1,-0xc(%rbp)

movl　$0x2,-0x8(%rbp)

mov -0xc(%rbp),%edx および mov -0x8(%rbp),%eax

add %edx,%eax

mov %eax,-0x4(%rbp)

mov -0x4(%rbp),%eax

pop %rbp および retq

まとめ

関連記事

wordleもどきのCUIアプリをつくってみた

Raspberry Pi4＋Ubuntu ServerでGitLabを動かしてみる

【Flutter】アプリ内の設定値を実装する方法

YoctoでRaspberryPi4のイメージをビルドしてみた

言語処理系をつくろう（第7回）：比較演算子を実装する