C言語 プログラミング

バイナリを逆アセンブルして中を覗いてみた

どんなプログラミング言語でも最終的には機械語に翻訳されて実行されるので、プログラムの真の動きを知るためには翻訳された機械語を見ることが一番です。

とはいえ、機械語そのものはちょっとハードルが高いので、その一歩手前のアセンブラのレベルでどうなっているのかを見てみることにしました。

検証するプログラム

今回検証するプログラムは以下です。このプログラムをgccでコンパイルしてオブジェクトファイルを生成し、その中身を逆アセンブルして覗いてみます。

int main(void)
{
    int a = 1;
    int b = 2;
    int c = a + b;
    return c;
}

コンパイルと逆アセンブル

まずはソースをコンパイルしてオブジェクトファイル(.o)を作ります。「-g」を指定してデバッグ情報を埋め込んでおくと、逆アセンブルしたときに見やすくなります。

gcc main.c -g -c

オブジェクトファイルができたら、objdumpコマンドで中身を逆アセンブルします。このとき「-S」を指定すれば、バイナリに埋め込まれたデバッグ情報を元にソースコードとの対応付きで中身を表示してくれます。

objdump main.o -S

ということで、このプログラムを逆アセンブルした結果はこんな感じになりました。これでプログラムの動きをアセンブラレベルで追うことができます。

main.o: file format elf64-x86-64

Disassembly of section .text:

0000000000000000 <main>:
int main(void)
{
0: 55 push %rbp
1: 48 89 e5 mov %rsp,%rbp
int a = 1;
4: c7 45 f4 01 00 00 00 movl $0x1,-0xc(%rbp)
int b = 2;
b: c7 45 f8 02 00 00 00 movl $0x2,-0x8(%rbp)
int c = a + b;
12: 8b 55 f4 mov -0xc(%rbp),%edx
15: 8b 45 f8 mov -0x8(%rbp),%eax
18: 01 d0 add %edx,%eax
1a: 89 45 fc mov %eax,-0x4(%rbp)
return c;
1d: 8b 45 fc mov -0x4(%rbp),%eax
}
20: 5d pop %rbp
21: c3 retq

中身を見ていこう

main関数の中身自体はたった4行ですが、アセンブラだと倍近くの行数になるようです。「elf64-x86-64」とあるように、x86アーキテクチャに基づいたアセンブラとなります。さっそく上から1つ1つ見ていきましょう。

push %rbp

rbpはベースポインタと呼ばれるレジスタで、関数に割り当てられたスタック領域のベース(底)を示します。関数が呼ばれた時点では、rbpには呼び出し元の関数のベースポインタの値が格納されているので、それを最初にpushすることで保存しているわけです。

mov %rsp,%rbp

続いて登場するrspはスタックポインタと呼ばれるレジスタで、スタックの最上段(最も最後に参照された位置)を示します。この値をrbpに代入することで、いまのスタックポインタをこの関数におけるベースポインタとしています。

movl $0x1,-0xc(%rbp)

ここからはプログラムの中身に入っていきます。ここでは「int a = 1」に対応する命令として、movl命令により(rbp-0xc)のアドレスの内容に1を代入しています。ちなみに、ここでは変数aをint(=32bit)で宣言しているので、アセンブラ上もmovl命令が使われています。

movl $0x2,-0x8(%rbp)

続いては「int b = 2」に対応する命令です。さきほどと同様、movlにより(rbp-0x8)のアドレスの内容に2を代入しています。よく見ると、アドレスの位置が変数aから4バイト離れているので、変数aとbはメモリ上は連続した位置に置かれているようです。

mov -0xc(%rbp),%edx および mov -0x8(%rbp),%eax

続いて登場するedxとeaxは汎用レジスタと呼ばれており、計算処理などに利用されます。ここでは、変数a,bの値をそれらのレジスタに一時的に格納しています。

add %edx,%eax

ここでようやくa+bの計算が行われます。edxとeaxにはaとbの値が入っているので、eaxにa+bの結果が格納されます。

mov %eax,-0x4(%rbp)

ここでは、上で計算したa+bの結果(eax)を変数cとして(rbp-0x4)のアドレスの内容に代入しています。これで、変数a,b,cのすべてに値が入った状態となりました。

mov -0x4(%rbp),%eax

ここでは「return c」に対応する処理として、変数cの値を改めてeaxに代入しています。なぜeaxなのか疑問に思いましたが、どうやらeaxは汎用レジスタの中でも戻り値の格納に使うことが決められているようです。

pop %rbp および retq

ここまでで関数内の処理はすべて完了したので、あとは呼び出し元へと戻るだけです。呼び出し元のベースポインタは最初にpushして覚えているので、その値をpopしてrbpへと書き戻しています。こうすることで、呼び出し元からすれば関数の前後でベースポインタが変わらないようにできます。最後はretqで関数の呼び出し元へと戻って終了です。

まとめ

とても短いプログラムでしたが、逆アセンブルすると色々なことがわかって楽しいです(・∀・)

CPU内ではスタックが利用されていることは知っていましたが、具体的な使われ方まではイマイチ理解していなかったのでとても良い勉強になりました。次はもう少し複雑なプログラムでその中身を覗いてみたいと思います。

ではではノシ

広告の表示がブロックされています。
広告の表示がブロックされています。

関連記事

Flutter プログラミング

2021/8/2

【Flutter】アプリ内の設定値を実装する方法

アプリ内で独自の設定を作る場合、そのデータを保持する方法を考える必要があります。 SQL、テキストファイルなど選択肢は多々ありますが、shared_preferencesというパッケージを使えば簡単に実装することができます。 Dart packages  1 User 29 Pocketsshared_preferences | Flutter PackageFlutter plugin for reading and writing simple key-value pairs. Wraps ...

この記事を読む

RaspberryPi Linux

2021/4/18

YoctoでRaspberryPi4のイメージをビルドしてみた

昨今、様々なデバイスでLinuxが動くようになっている中、組み込みLinuxのデファクトスタンダードとなりつつあるのが「Yocto」と呼ばれるビルドシステムです。 組み込みの現場ではその名前を聞くことが増えましたが、まだまだ日本ではドキュメントも乏しくイマイチ掴み所がありません。そこで、まずは使ってみようということでRaspberry Pi4のイメージをビルドしてみることにしました。 目次1 Yoctoとは?2 Raspberry Pi4のイメージを作ってみる2.1 下準備2.2 Yocto本体+ラズパイ ...

この記事を読む

C++ 自作物

2021/8/1

言語処理系をつくろう(第7回):比較演算子を実装する

自作の言語処理系開発日記の第7回です。前回までで変数の実装が終わったので、ここからはいよいよ制御構文を実装…と思ったのですが、制御のためには比較演算子を実装する必要がありました。 ということで、今回は比較演算子を実装していきます。基本的には四則演算と変わりないのであまり難しくはありません。 目次1 比較演算子の仕様2 実装してみる2.1 トークナイザ2.2 構文解析器2.3 コード生成器2.4 実行系(仮想マシン) 比較演算子の仕様 比較演算子を実装する前に、その仕様について少し考えておきます。 比較演算 ...

この記事を読む

C++ 自作物

2021/8/1

言語処理系をつくろう(第6回):変数を実装する

自作の言語処理系開発日記、第6回です。 これまでは四則演算など、電卓レベルの機能実装に取り組んでいましたが、いよいよ変数を扱えるようにしていきたいと思います。これでかなりプログラミング言語っぽくなるかも(・∀・) 今回は新しい仕組みを入れたりと、割と修正がごちゃごちゃしてしまったので、うまくまとめきれていません。ごめんなさい…。 目次1 変数の実装について2 実装してみる2.1 トークナイザ2.2 構文解析器2.3 コード生成器2.4 実行系(仮想マシン) 変数の実装について これまでは即値しか扱っていな ...

この記事を読む

C++ 自作物

2021/8/1

言語処理系をつくろう(第5回):連続した式の実行

自作の言語処理系開発日記の第5回です。 前回までで括弧を含んだ四則演算ができるようになりましたが、このままでは単なる電卓止まりです。ということで、今回は複数の式を連続して実行できる仕組みを実装していきたいと思います。 目次1 生成規則を考える2 実装してみる2.1 構文解析器2.2 コード生成 生成規則を考える これまでは入力全体を1つの式として解釈していましたが、今回は式の区切りを定義して複数の式として解釈できるようにします。 C言語だと「;」や「,」が区切り文字として使われますが、開発中の言語(roo ...

この記事を読む

  • このブログの中の人

Ryo Yoneyama

とある会社でソフトウェアエンジニアをしています。技術的な備忘録を中心にまとめてます。ネタがあれば日記も書きます。

-C言語, プログラミング

© 2021 Corgi Lab. ~備忘録のための技術ブログ~