深入理解计算机系统（2.4）------整数的表示（无符号编码和补码编码）-白红宇

深入理解计算机系统（2.4）------整数的表示（无符号编码和补码编码）

阅读量：5052 次

发布时间：2019-06-12

本文共 5033 字，大约阅读时间需要 16 分钟。

上一篇博客我们主要介绍了布尔代数和C语言当中的几个运算符。那么这一篇博客我们主要介绍在计算机中整数是如何表示的，诸如我们在编码过程中遇到的对数据类型进行强制转换可能会得到意想不到的结果在这篇博客里你会得到解答。

1、什么是整数？

　　整数包含正整数，0，负整数。我们从小的数学常识，整数是无穷无尽的，即整数的大小没有限制。

　　但是在计算机中则不能这样理解，因为计算机是靠数字信号来表示数，计算机所能处理的整数的长度是由计算机的字长来决定的，所以，在计算机中，我们必须制定一个规则来表示整数。

2、C 语言中的整型数据类型

　　C 语言是支持多种整型数据类型的，下面我们看一下在 32 位机器和 64 位机器中，C 语言整型数据类型的取值范围。

　　我们可以看到：

　　①、C 语言数据类型是可以用来指定大小，同时还可以指示表示的数是非负数（声明为 unsigned），或者负数（默认）。

　　②、数据类型分配的字节数会根据机器的字长和编译器有所不同，不同的大小所表示的范围是不同的。上图唯一一个与机器有关的取值范围是 long 类型的，64位机器使用8个字节（2⁶⁴），而32位机器使用4个字节（2³²）。

　　③、负数的范围要比正数的范围大1。这是为什么呢，请接着往下面看。

　　下面我们看一下 C 语言标准所定义的每种数据类型所能表示的最小的取值范围。

　　C 语言标准我们可以从上图得到：

　　①、正数和负数的取值范围是对称的。

　　②、int 数据类型可以用 2 个字节来实现。（2¹⁶）

　　③、long 数据类型用4 个字节来实现。（2³²）

3、无符号数的编码

　无符号数，在C语言中，即用 unsigned 声明的整数。

　　定义：假设对于一个w位的无符号整数，用二进制比特位可以表示为[x_w-1 , x_w-2 , … , x₂ , x₁ , x₀]。那么我们可以用一个函数表示如下：

　　这个函数可以举几个简单的例子来看：

　　那么很显然，对于一个无符号编码的数，由 w 位的二进制序列构成，那么它的最小值，即所有位都为 0 ,用位向量表示即：【000......000】。

　　　　UMin_w = 0

　　最大值即所有位都为 1，用位向量表示即：【111......111】

　　　　UMax_w = 1 * (1-2^w) / 1 - 2 = 2^w - 1

　　我们可以得出一个结论：无符号的二进制，对于任意一个w位的二进制序列，都存在唯一一个整数介于0 到 2^w-1之间，与这个二进制序列对应。反过来，在0 到 2^w-1之间的每一个整数，存在唯一的二进制序列与其对应。

4、补码编码

　　上面我们讲解了正整数的编码，那么在实际应用中，是存在负数的。而在计算机中，最常见的表示有符号的数就是补码。补码的定义如下：

　　其中最高有效位 x_{w-1 也称为符号位，符号位为 1 时表示负数，当设置为 0 时，表示非负数。下面我们看几个例子：}

　　那么我们可以得出：当最高位为1，其余为全部是 0 的时候，即【1000......000】，表示补码格式的最小值：

　　　　TMin_w = -2^w-1

　当最高位为 0，其余为全部是 1 时，即【0111......111】，表示补码格式的最大值：

　　　　TMax_w = 1 * (1 - 2^w-1) / 1 - 2 = 2^w-1-1

　　通过上面的两个公式，我们就很好理解为什么上面C语言数据类型负数的范围要比正数的范围大1。

　　和上面无符号编码一样，我们对于补码格式编码也可以得到一个结论：

　　对于任意一个w位的二进制序列，都存在唯一一个介于-2^w-1 到 2^w-1-1的整数，与这个二进制序列对应。反过来，对于任意介于-2^w-1 到 2^w-1-1的整数，存在唯一的长度为w二进制序列与其对应。

　　那么你就应该明白了为什么十进制 -1，在计算机中二进制表示为 1111 1111，而不是1000 0001，因为计算机是以补码的形式表示的。

5、反码和原码

　　反码定义：除了最高有效位的权是-2^w-1-1，而不是-2^w-1其余的和补码表示方式一样

　　原码定义：最高有效位是符号位，用来确定剩下的位是正还是负

　　我们可以和补码的定义进行对比：

　　原码：一个整数，按照绝对值大小转换为二进制数，最高位为符号位。

　　反码：将原码除最高位(符号位)外，其余各位按位取反，所得到的二进制码。正数的反码为原码。

　　补码：反码最低位加1即为补码。

　　对于正整数，原码、反码、补码完全一样，即符号位固定为0，数值位相同。

　　对于负整数，原码和补码互相转换的简便方法：从数的右边往左开始数,遇到“0”不理它,直到遇到第一个“1”为止,以后的每一位数取反即是它的原码或补码,符号位不变,还是“1”（补码的补码是原码）。

　　比如：11010100 ----- 从右往左数,第一位是0,不理它,第二位还是0不理它,第三位是1,那么从此以后的每位取反,即为它的补码了.答案为：10101100

　　事实上，程序员如果希望代码具有最大的可移植性，能够在所有可能的机器上运行，就应该用补码的形式来表示有符号整数。虽然过去生产过基于反码表示的机器，但是几乎所有的现代机器都是使用补码。

　　注意：浮点数有使用原码编码。

　　关于整型数据类型的表示和取值范围，Java标准是非常明确的，它要求采用补码形式，取值范围和C语言在64位机器中的情况一样。在Java中，单字节数据类型称为 byte，而不是char,而且没有long long 数据类型。这些具体的要求都是为了保证无论在什么机器上，Java程序运行的表现都能完全一样。

6、有符号和无符号数之间的转换

　　在这篇博客中我们讲过计算机在解释一个数据类型的值时主要有四个因素：位排列规则（大端或者小端）、起始位置、数据类型的字节数、数据类型的解释方式。对于特定的系统来说，前两种因素都是特定的，而对于后两种因素的改变，则可以改变一个数据类型的值的最终计算结果，这就是强制类型转换。

　　那么考虑相同整数类型的无符号编码和补码编码，数据类型的大小是没有任何变化的，变化的就是它们的解释方式。比如1000这个二进制序列，如果用无符号编码解释的话就是表示8，而若采用补码编码解释的话，则是表示-8。

　　①、有符号数强转为无符号数

　　前面我们说过：无论是无符号编码还是补码编码，其映射方式都是双射，因此它们都一定存在逆映射。如果我们定义U2B_w(x)为B2U_w(x)的逆映射，则对于任意一个整数x，如果0 =< x < 2^w，经过U2B_w(x)的计算之后，将得到唯一一个二进制序列。同样的，如果我们定义T2B_w(x)为B2T_w(x)的逆映射，则对于任意一个整数x，如果-2^w-1 =< x < 2^w-1，经过T2B_w(x)的计算之后，也将得到唯一一个二进制序列。

　　可以很明显的看出，对于0到2^w-1-1这个区间内的整数来说，两种编码得到的二进制序列是一样的。为了得到其它区间里的整数的映射关系，我们定义：

　　T2U_w(x) = B2U_w(T2B_w(x))

　　这个函数代表的含义是补码编码转换为无符号编码的时候，先将补码编码转换为二进制序列，再将二进制序列转换为无符号编码，最终也就是补码编码转为无符号编码的计算。

　　下面我们简单的推算一下上面的定义，究竟是如何转换的，也就是有符号数 x 和与之对应的无符号数T2U_w(x) 的关系。我们将上面无符号编码和补码编码的公式相减，

　　将0到w-2的位的加权和互相抵消)，即 B2U_w(x) - B2T_w(x) = x_w-12^w-1 - (-x_w-12^w-1) = x_w-12^w

　　将等式左边的B2T_w(x)移到等式右边，即 B2U_w(x) = x_w-12^w + B2T_w(x)

　　此处我们令x为T2B_w(x)，则 B2U_w(T2B_w(x)) = x_w-12^w + B2T_w(T2B_w(x)) = x_w-12^w + x

　　即 T2U_w(x) = x_w-12^w + x

　　此时考虑x_w-1的情况，当x_w-1为1时，也就是补码编码表示负数的时候，T2U_w(x)则为2^w + x 。（此时x为负数，也就是说2^w + x < 2^w）　

　　若x_w-1为0时，则补码编码为正数，此时T2U_w(x) = x 。

　　综上可知，有下列式子成立

　　从这个式子中可以很明显的看出，最终得到的无符号数范围为0 =< x < 2^w。

　　下图为表示补码编码与无符号编码的对应关系，可以看出在0至2^w-1-1之间，两者是相等的，而其余区间则不同。

　　从上图我们也可以得出：当将一个有符号数映射为它相应的无符号数时，负数就被转换成了大的正数；而非负数会保持不变。

　　这里我们看一个小例子来理解一下：

                            
#include <stdio.h>
int
main()
{ 
    
char
t = 
0xFF
;
    
unsigned 
char
u = (unsigned 
char
)t;
    
//%d把对应的整数按有符号十进制输出，%u把对应的整数按无符号十进制输出
    
printf(
"t=%d,t2u=%u\n"
,t,u);
    
return
0
;
//c标准规定建议main函数返回值为int 
}
         
       

　　输出结果为：

　　这个结果怎么解释呢，首先有符号char t=0xFFFF。这是因为C语言在64位系统中占用一个字节，转换成二进制数即：1111 1111，转换为补码也是：1111 1111，我们套用下面补码的公式可以得到：

　　1111 1111的值为 -1。然后根据我们上面的转换公式：

　　可以得到转换之后的值为 -1+2⁸=255。也就是上面打印的结果。

　　②、无符号数转换为有符号数

　　相反，我们用同样的方式也可以证明从无符号编码到补码编码的公式，我们依然将无符号编码和补码编码的公式相减

即 B2U_w(u) - B2T_w(u) = u_w-12^w-1 - (-u_w-12^w-1) = u_w-12^w

即 B2T_w(u) = B2U_w(u) - u_w-12^w

此时我们令u为U2B_w(u)，则 B2T_w(U2B_w(u)) = B2U_w(U2B_w(u)) - u_w-12^w= u - u_w-12^w

即 U2T_w(u) = u - u_w-12^w

此时考虑u_w-1的情况，当u_w-1为0时，也就是无符号编码数值小于2^w-1的时候，U2T_w(u)则为u 。

若u_w-1为1时，也就是无符号编码数值大于或等于2^w-1的时候，此时U2T_w(u)= u - 2^w。（此时U2T_w(u)为负数，因为 u < 2^w）

综上，我们可以得到无符号编码转换为补码编码的公式

　　同样的，在0至2^w-1-1之间，两者依然是相等的，而其余区间则不同。

　　还是看一下下面的例子来理解：

                            
#include <stdio.h>
int
main()
{ 
    
unsigned 
char
u = 
0xFF
;
    
char
t = (
char
)u;
    
//%d把对应的整数按有符号十进制输出，%u把对应的整数按无符号十进制输出
    
printf(
"u=%u,u2t=%d\n"
,u,t);
    
return
0
;
//c标准规定建议main函数返回值为int 
}