C言語 プログラミング

バイナリを逆アセンブルして中を覗いてみた

どんなプログラミング言語でも最終的には機械語に翻訳されて実行されるので、プログラムの真の動きを知るためには翻訳された機械語を見ることが一番です。

とはいえ、機械語そのものはちょっとハードルが高いので、その一歩手前のアセンブラのレベルでどうなっているのかを見てみることにしました。

検証するプログラム

今回検証するプログラムは以下です。このプログラムをgccでコンパイルしてオブジェクトファイルを生成し、その中身を逆アセンブルして覗いてみます。

int main(void)
{
    int a = 1;
    int b = 2;
    int c = a + b;
    return c;
}

コンパイルと逆アセンブル

まずはソースをコンパイルしてオブジェクトファイル(.o)を作ります。「-g」を指定してデバッグ情報を埋め込んでおくと、逆アセンブルしたときに見やすくなります。

gcc main.c -g -c

オブジェクトファイルができたら、objdumpコマンドで中身を逆アセンブルします。このとき「-S」を指定すれば、バイナリに埋め込まれたデバッグ情報を元にソースコードとの対応付きで中身を表示してくれます。

objdump main.o -S

ということで、このプログラムを逆アセンブルした結果はこんな感じになりました。これでプログラムの動きをアセンブラレベルで追うことができます。

main.o: file format elf64-x86-64

Disassembly of section .text:

0000000000000000 <main>:
int main(void)
{
0: 55 push %rbp
1: 48 89 e5 mov %rsp,%rbp
int a = 1;
4: c7 45 f4 01 00 00 00 movl $0x1,-0xc(%rbp)
int b = 2;
b: c7 45 f8 02 00 00 00 movl $0x2,-0x8(%rbp)
int c = a + b;
12: 8b 55 f4 mov -0xc(%rbp),%edx
15: 8b 45 f8 mov -0x8(%rbp),%eax
18: 01 d0 add %edx,%eax
1a: 89 45 fc mov %eax,-0x4(%rbp)
return c;
1d: 8b 45 fc mov -0x4(%rbp),%eax
}
20: 5d pop %rbp
21: c3 retq

中身を見ていこう

main関数の中身自体はたった4行ですが、アセンブラだと倍近くの行数になるようです。「elf64-x86-64」とあるように、x86アーキテクチャに基づいたアセンブラとなります。さっそく上から1つ1つ見ていきましょう。

push %rbp

rbpはベースポインタと呼ばれるレジスタで、関数に割り当てられたスタック領域のベース(底)を示します。関数が呼ばれた時点では、rbpには呼び出し元の関数のベースポインタの値が格納されているので、それを最初にpushすることで保存しているわけです。

mov %rsp,%rbp

続いて登場するrspはスタックポインタと呼ばれるレジスタで、スタックの最上段(最も最後に参照された位置)を示します。この値をrbpに代入することで、いまのスタックポインタをこの関数におけるベースポインタとしています。

movl $0x1,-0xc(%rbp)

ここからはプログラムの中身に入っていきます。ここでは「int a = 1」に対応する命令として、movl命令により(rbp-0xc)のアドレスの内容に1を代入しています。ちなみに、ここでは変数aをint(=32bit)で宣言しているので、アセンブラ上もmovl命令が使われています。

movl $0x2,-0x8(%rbp)

続いては「int b = 2」に対応する命令です。さきほどと同様、movlにより(rbp-0x8)のアドレスの内容に2を代入しています。よく見ると、アドレスの位置が変数aから4バイト離れているので、変数aとbはメモリ上は連続した位置に置かれているようです。

mov -0xc(%rbp),%edx および mov -0x8(%rbp),%eax

続いて登場するedxとeaxは汎用レジスタと呼ばれており、計算処理などに利用されます。ここでは、変数a,bの値をそれらのレジスタに一時的に格納しています。

add %edx,%eax

ここでようやくa+bの計算が行われます。edxとeaxにはaとbの値が入っているので、eaxにa+bの結果が格納されます。

mov %eax,-0x4(%rbp)

ここでは、上で計算したa+bの結果(eax)を変数cとして(rbp-0x4)のアドレスの内容に代入しています。これで、変数a,b,cのすべてに値が入った状態となりました。

mov -0x4(%rbp),%eax

ここでは「return c」に対応する処理として、変数cの値を改めてeaxに代入しています。なぜeaxなのか疑問に思いましたが、どうやらeaxは汎用レジスタの中でも戻り値の格納に使うことが決められているようです。

pop %rbp および retq

ここまでで関数内の処理はすべて完了したので、あとは呼び出し元へと戻るだけです。呼び出し元のベースポインタは最初にpushして覚えているので、その値をpopしてrbpへと書き戻しています。こうすることで、呼び出し元からすれば関数の前後でベースポインタが変わらないようにできます。最後はretqで関数の呼び出し元へと戻って終了です。

まとめ

とても短いプログラムでしたが、逆アセンブルすると色々なことがわかって楽しいです(・∀・)

CPU内ではスタックが利用されていることは知っていましたが、具体的な使われ方まではイマイチ理解していなかったのでとても良い勉強になりました。次はもう少し複雑なプログラムでその中身を覗いてみたいと思います。

ではではノシ

関連記事

C言語 自作物 Linux プログラミング

wordleもどきのCUIアプリをつくってみた

最近、wordleという英単語当てゲームで遊んでいます。シンプルなゲームながら、通勤時間の暇つぶしや友人とのスコア比べなど意外と中毒性があり面白いです。 普通に英単語の勉強にもなるので、もっとたくさん ...

RaspberryPi Linux

Raspberry Pi4+Ubuntu ServerでGitLabを動かしてみる

お仕事でGitLabに触れる機会があったので、学習用に自宅にもGitLabが欲しくなりました。 手元にあるRaspberry Pi4+Dockerならお手軽に立ち上げられるはずと着手したものの、意外と ...

Flutter プログラミング

【Flutter】アプリ内の設定値を実装する方法

アプリ内で独自の設定を作る場合、そのデータを保持する方法を考える必要があります。 SQL、テキストファイルなど選択肢は多々ありますが、shared_preferencesというパッケージを使えば簡単に ...

RaspberryPi Linux

YoctoでRaspberryPi4のイメージをビルドしてみた

昨今、様々なデバイスでLinuxが動くようになっている中、組み込みLinuxのデファクトスタンダードとなりつつあるのが「Yocto」と呼ばれるビルドシステムです。 組み込みの現場ではその名前を聞くこと ...

C++ 自作物

言語処理系をつくろう(第7回):比較演算子を実装する

自作の言語処理系開発日記の第7回です。前回までで変数の実装が終わったので、ここからはいよいよ制御構文を実装…と思ったのですが、制御のためには比較演算子を実装する必要がありました。 ということで、今回は ...

Ryo Yoneyama

とある会社でソフトウェアエンジニアをしています。技術的な備忘録を中心にまとめてます。ネタがあれば日記も書きます。

    -C言語, プログラミング