本文將帶你了解系統(tǒng)大小端的原理以及字節(jié)序,如何在程序中對大小端進(jìn)行檢測。如果覺得不錯,歡迎關(guān)注、分享、收藏、點贊。希望能幫助到大家,如有錯誤敬請指出,謝謝!
目錄
- 先說內(nèi)存
- 字節(jié)
- 字節(jié)順序
- 大端和小端的區(qū)分
先說內(nèi)存
程序運行在內(nèi)存中,計算機(jī)中的最小存儲單位是Bit
,即1
和0
的二進(jìn)制,它可以識別的機(jī)器碼就是以二進(jìn)制形式存儲的;
內(nèi)存由多個存儲單元組成,每個存儲單元都有一個唯一的數(shù)字地址字節(jié)可尋址內(nèi)存。每個存儲位置可以包含固定數(shù)量的二進(jìn)制數(shù)字。
在大多數(shù)的現(xiàn)代計算機(jī)上,地址的最小數(shù)據(jù)的長度為8
位,稱為字節(jié)(1 Byte = 8 Bit
);
一般計算機(jī)中用戶程序直接訪問的地址是虛擬內(nèi)存的地址,操作系統(tǒng)內(nèi)核會根據(jù)用戶程序訪問的虛擬地址,找出頁表中對于的物理地址,最終尋址到所需要的數(shù)據(jù);具體如下圖所示;
然而,在MCU等裸機(jī)開發(fā)的環(huán)境中,沒有MMU
,則程序直接訪問的是物理內(nèi)存,所以無論是計算機(jī)還是MCU在程序運行中都需要內(nèi)存作為載體,保存數(shù)據(jù)和運行程序。那么,下面再來看是程序以及數(shù)據(jù)在內(nèi)存中是以何種形式存儲的?
字節(jié)
前面提到過,在大多數(shù)的現(xiàn)代計算機(jī)上,地址的最小數(shù)據(jù)的長度為8
位,稱為字節(jié)(1 Byte = 8 Bit
);至于為什么是8位?看起來似乎有點玄學(xué),并且很吉利的一個數(shù)字,但是老外好像沒有數(shù)字迷信,這里的原因大概是因為這幾點;
-
由于計算機(jī)內(nèi)部最本質(zhì)需要實現(xiàn)的操作是加法,減法,乘法,除法等運算都能通過加法實現(xiàn),另外由于最早期設(shè)計的加法器是8位;
-
另外一個原因可以追溯到1956年,IBM公司最早提出字節(jié)的概念,隨著IBM的壯大,字節(jié)便專門用來表示二進(jìn)制數(shù),其中也包括不少優(yōu)點;易于以BCD碼形式保存;用于保存文本也非常合適,另外世界上大部分語言都可以用小于256個字符(一個字節(jié)寬度)來表示,如果一個不夠,那就兩個,比如中文;
[^1]: 編碼 第15章 字節(jié)與十六進(jìn)制
字節(jié)順序
在說大小端之前,要先提一下字節(jié)順序(Endianness
),它是描述數(shù)據(jù)以字節(jié)為一組在計算機(jī)內(nèi)存中存儲順序的術(shù)語。
字節(jié)順序可以是大端順序(big-endian
)或者小端順序(little-endian
);在對多字節(jié)數(shù)據(jù)進(jìn)行存儲時,一般遵循以下規(guī)則;
- 小端:數(shù)據(jù)的最后一個字節(jié)先存儲,即LSB;
- 大端:數(shù)據(jù)的第一個字節(jié)先存儲,即MSB;
數(shù)據(jù)0x01020304
分別在大端機(jī)器和小端機(jī)器中的存儲形式,具體如下圖所示;
在大多數(shù)情況下,編譯器會處理字節(jié)順序,從而避免出現(xiàn)大小端不一致的問題,但是在以下情況下字節(jié)順序就會成為一個問題。
在通訊中,例如網(wǎng)絡(luò)編程:假設(shè)在小端機(jī)器上向文件寫入整數(shù),然后將此文件傳輸?shù)酱蠖藱C(jī)器上。如果沒有做大小端轉(zhuǎn)換,那么大端機(jī)器就會以相反的順序讀取文件。
TCP/IP
協(xié)議中,默認(rèn)使用的是大端順序,它與具體的CPU類型、操作系統(tǒng)等無關(guān);
那么如何在程序中快速的區(qū)分大小端呢?
大端和小端的區(qū)分
下面介紹幾種通過C語言實現(xiàn)大小端判斷的方法;
第一種通過指針的內(nèi)存對齊來實現(xiàn);
函數(shù)的形式;
unsigned char check_endian( void )
{
int test_var = 1;
unsigned char *test_endian = (unsigned char*)&test_var;
return (test_endian[0] == 0);
}
宏定義的形式;
static uint32_t endianness = 0xdeadbeef;
enum endianness { BIG, LITTLE };
#define ENDIANNESS ( *(const char *)&endianness == 0xef ? LITTLE \
: *(const char *)&endianness == 0xde ? BIG \
: assert(0))
更加簡潔;
#define IS_BIG_ENDIAN (!*(unsigned char *)&(uint16_t){1})
第二種通過結(jié)構(gòu)體和聯(lián)合體的內(nèi)存對齊來實現(xiàn);
#ifndef ORDER32_H
#define ORDER32_H
#include <limits.h>
#include <stdint.h>
#if CHAR_BIT != 8
#error "unsupported char size"
#endif
enum
{
O32_LITTLE_ENDIAN = 0x03020100ul,
O32_BIG_ENDIAN = 0x00010203ul,
O32_PDP_ENDIAN = 0x01000302ul, /* DEC PDP-11 (aka ENDIAN_LITTLE_WORD) */
O32_HONEYWELL_ENDIAN = 0x02030001ul /* Honeywell 316 (aka ENDIAN_BIG_WORD) */
};
static const union { unsigned char bytes[4]; uint32_t value; } o32_host_order =
{ { 0, 1, 2, 3 } };
#define O32_HOST_ORDER (o32_host_order.value)
#endif
當(dāng)然具體的方法還有很多,本文就先講到這里。