C言語 プログラミング

バイナリデータを扱うときはエンディアンに注意

プログラム中でバイナリデータを扱うときには、そのエンディアンに注意しないといけない場合があります。

例えば、バイナリデータとして「データ長(先頭4バイト)+データ本体」というフォーマットのデータがあった場合、先頭から4バイトを読み出してlong型にでもパースすればデータ長が分かると思うところですが、私はここでエンディアンの罠にはまりました。

エンディアンって?

そもそも、エンディアンって何?というお話ですが、エンディアンとは簡単に言えば「データの並び順」です。バイトオーダーとかバイト順とも言います。

例えば、long型の変数として2882400001 = 0xABCDEF01という数があった場合、変数の中身は4バイトありますが、その4バイトには以下の2通りの並び方が考えられます。

上の図のように、素直に先頭から後ろに向かって並べる形式をビッグエンディアン、逆に後ろから先頭に向かって並べる形式をリトルエンディアンと呼びます。変則的にミドルエンディアンという形式もあるそうですが、今回は置いておきます。

このように、変数をバイナリデータに変換するとエンディアンによってデータの並び方が変わるため、そのデータを扱うときにはどちらのエンディアンで並んでいるかを意識する必要があります。

さらに、エンディアンはCPUのアーキテクチャ依存なので、なおさらややこしいです(´・ω・)

実際に調べてみた

普段触っているCPUのエンディアンがどうなっているのか、以下のようなプログラムを書いて検証してみました。long型の変数をバイトデータとしてダンプしています。

まずラズパイ2で実行してみたところ、以下のような結果になりました。ラズパイのCPU(ARM系)はリトルエンディアンのようです。

実行結果:
num = 0x1 0xef 0xcd 0xab

Windows10(Intel系)で実行してみても、先と同じ結果になりました。Intel系もリトルエンディアンのようですね。

調べてみたところ、ビッグエンディアンの代表格はPowerPC系で、リトルエンディアンだと思ったARM系は、正確にはどちらにもなれるバイエンディアンなのだそうです。奥深きCPUの世界を垣間見た気がしました。

エンディアンの変換関数

異なるアーキテクチャのCPUによるCPU間通信などを行う場合、両者で扱うデータをどちらかのエンディアンに合わせる必要がありますが、C言語にはちゃんとエンディアンの変換関数が用意されています。

以下がその関数です。ビット長とエンディアンの組み合わせで4つの関数があります。ホストバイトオーダーはホストマシンのエンディアン(CPU依存)、ネットワークバイトオーダーはビッグエンディアンのことを指します。

関数 説明
uint32_t htonl(uint32_t hostlong) 32bitのホストバイトオーダーをネットワークバイトオーダーに変換する
uint16_t htons(uint16_t hostshort) 16bitのホストバイトオーダーをネットワークバイトオーダーに変換する
uint32_t ntohl(uint32_t netlong) 32bitのネットワークバイトオーダーをホストバイトオーダーに変換する
uint16_t ntohs(uint16_t netshort) 16bitのネットワークバイトオーダーをホストバイトオーダーに変換する

あくまでも、ホストバイトオーダーとネットワークバイトオーダー間の変換関数なので、ホストがビッグエンディアンの場合はこれらの関数は何もしません。

まとめ

日頃、使っているCPUのエンディアンを意識することは少ないと思いますが、エンディアンの罠にはまらないためにも頭の片隅には止めておかないといけないなぁと感じました。特に組み込みの世界ではバイナリデータを扱うことが多く、1つの機器に複数のCPUが載っていることもしばしばありますし。

また余談ですが、CPU毎にエンディアンが分かれていった経緯なども調べてみると面白いかもしれませんね(・∀・)

ではではノシ

広告の表示がブロックされています。
広告の表示がブロックされています。

関連記事

C++ 自作物

2020/8/14

言語処理系をつくろう(第7回):比較演算子を実装する

自作の言語処理系開発日記の第7回です。前回までで変数の実装が終わったので、ここからはいよいよ制御構文を実装…と思ったのですが、制御のためには比較演算子を実装する必要がありました。 ということで、今回は比較演算子を実装していきます。基本的には四則演算と変わりないのであまり難しくはありません。 目次1 比較演算子の仕様2 実装してみる2.1 トークナイザ2.2 構文解析器2.3 コード生成器2.4 実行系(仮想マシン) 比較演算子の仕様 比較演算子を実装する前に、その仕様について少し考えておきます。 比較演算 ...

この記事を読む

C++ 自作物

2020/8/14

言語処理系をつくろう(第6回):変数を実装する

自作の言語処理系開発日記、第6回です。 これまでは四則演算など、電卓レベルの機能実装に取り組んでいましたが、いよいよ変数を扱えるようにしていきたいと思います。これでかなりプログラミング言語っぽくなるかも(・∀・) 今回は新しい仕組みを入れたりと、割と修正がごちゃごちゃしてしまったので、うまくまとめきれていません。ごめんなさい…。 目次1 変数の実装について2 実装してみる2.1 トークナイザ2.2 構文解析器2.3 コード生成器2.4 実行系(仮想マシン) 変数の実装について これまでは即値しか扱っていな ...

この記事を読む

C++ 自作物

2020/8/14

言語処理系をつくろう(第5回):連続した式の実行

自作の言語処理系開発日記の第5回です。 前回までで括弧を含んだ四則演算ができるようになりましたが、このままでは単なる電卓止まりです。ということで、今回は複数の式を連続して実行できる仕組みを実装していきたいと思います。 目次1 生成規則を考える2 実装してみる2.1 構文解析器2.2 コード生成 生成規則を考える これまでは入力全体を1つの式として解釈していましたが、今回は式の区切りを定義して複数の式として解釈できるようにします。 C言語だと「;」や「,」が区切り文字として使われますが、開発中の言語(roo ...

この記事を読む

C++ 自作物

2020/8/14

言語処理系をつくろう(第4回):括弧付き計算と単項演算子

自作の言語処理系開発日記の第4回です。前回までで乗除算を実装できたので、この調子でもう少し複雑な計算に対応したいと思います。今回はそれぞれの実装が少ないので、一気に2つのステップを進めます。 目次1 括弧を含む計算1.1 生成規則をいじる2 単項演算子(+と-)2.1 生成規則をいじる 括弧を含む計算 これまでの実装では、乗除算は必ず加減算に先立って実行されます。しかし、それでは不十分なので、括弧を含む計算(例:(1+2)*3)を実行できるようにします。 生成規則をいじる 今回も構文解析器の生成規則を修正 ...

この記事を読む

C++ 自作物

2020/8/14

言語処理系をつくろう(第3回):乗除算を実装する

自作の言語処理系開発日記の第3回です。前回は加減算を実装したので、今回は乗除算の実装にチャレンジしていきます。 目次1 実装してみる1.1 構文解析器 実装してみる 今回の実装において、トークナイザ・コード生成器・実行系(仮想マシン)については加減算のときと変わりません。単純に各種定義を追加して、それを扱えるようにしてあげるだけです。 一方、構文解析器についてはちょっとややこしいので、そこだけ解説します。 構文解析器 加減算では演算の優先順位がなかったので、単純に左結合(=左から順に計算していく)で処理し ...

この記事を読む

-C言語, プログラミング

© 2020 Corgi Lab. ~備忘録のための技術ブログ~