浮点数在内存中的存储方式

浮点数类型包括float、double、long double
在这里以float为例。
先看一段代码:
[cpp] view plain copy
-
"font-size:14px;">#include
-
#include
-
int
main() -
{
-
int a = 9; -
float *pa float= ( *)&a; -
printf("a = ,%d\n" a); -
printf("*pa = ,%f\n" *pa); -
*pa = 9.0; //
-
printf("a = ,%d\n" a); -
printf("*pa = ,%f\n" *pa); -
system("pause"); -
return 0; -
}
它的运行结果如下:
为什么会有这样的结果呢?简单分析一下:
对于9和9.0在内存中肯定都以补码的形式存在,因为int和float对于这串补码的处理方式不同所以才会得到不一样的结果。
而对于float到底是怎样在内存中存储的呢?这就是我们讨论的重点!
对于9和9.0在内存中肯定都以补码的形式存在,因为int和float对于这串补码的处理方式不同所以才会得到不一样的结果。
而对于float到底是怎样在内存中存储的呢?这就是我们讨论的重点!
根据国际标准IEEE(电气和电子工程协会)规定,任何一个浮点数NUM的二进制数可以写为:
NUM = (-1)^S*M*2^E;//(S表示符号,E表示阶乘,M表示有效数字)
①当S为0时,表示一个正数;当S为1时,表示一个负数
②M表示有效数字,1<= M <2
③2^E表示指数
比如十进制的3.0,二进制就是0011.0 就可以写成(-1)^0*1.1*2^1
在比如十进制的-3.0,二进制就是-0011.0 就可以写成(-1)^1*1.1*2^1
而规定float类型有一个符号位(S),有8个指数位(E),和23个有效数字位(M)
以float类型为例:
http://img.blog.csdn.net/20161105184604775?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
IEEE对于(有效数字)M和(指数)E有特殊的规定: (以float为例)
1.因为M的值一定是1<= M <2,所以它绝对可以写成1.xxxxxxx的形式,所以规定M在存储时舍去第一个1,只存储小数点之后的数字。这样做节省了空间,以float类型为例,就可以保存23位小数信息,加上舍去的1就可以用23位来表示24个有效的信息。
2.对于E(指数)E是一个无符号整数所以E的取值范围为(0~255),但是在计数中指数是可以为负的,所以规定在存入E时,在它原本的值上加上中间数(127),在使用时减去中间数(127),这样E的真正取值范围就成了(-127~128)。(此处的中间数127是如何来的呢?请看下面内容。)
IEEE对于(有效数字)M和(指数)E有特殊的规定: (以float为例)
1.因为M的值一定是1<= M <2,所以它绝对可以写成1.xxxxxxx的形式,所以规定M在存储时舍去第一个1,只存储小数点之后的数字。这样做节省了空间,以float类型为例,就可以保存23位小数信息,加上舍去的1就可以用23位来表示24个有效的信息。
2.对于E(指数)E是一个无符号整数所以E的取值范围为(0~255),但是在计数中指数是可以为负的,所以规定在存入E时,在它原本的值上加上中间数(127),在使用时减去中间数(127),这样E的真正取值范围就成了(-127~128)。(此处的中间数127是如何来的呢?请看下面内容。)
对于E还分为三种情况:
①E不全为0,不全为1:
这时就用正常的计算规则,E的真实值就是E的字面值减去127(中间值),M的值要加上最前面的省去的1。
②E全为0
这时指数E等于1-127为真实值,M不在加上舍去的1,而是还原为0.xxxxxxxx小数。这样为了表示0,和一些很小的整数。
所以在进行浮点数与0的比较时,要注意。
③E全为1
当M全为0时,表示±无穷大(取决于符号位);当M不全为1时,表示这数不是一个数(NaN)
在看刚开始的题目:
①int a = 9;因为a是int类型的,所以他在内存中以补码的形式储存:
00000000 00000000 00000000 00001001
而*pa却是float类型的所以,当*pa读这块内存的值时,它通过浮点数的形式读取
0
0000000
0
0000000 00000000
00001001
—
—————
———————————————
S
E
M
*pa = (-1)^0 * (0.0000000 00000000 00001001)
*
2^(1-127) 这个数是一个很小的数,用十进制小数表示就是
0.000000 (执行此语句的结果: printf( "*pa = %f\n" , *pa);
,以int 存( int a = 9;
),但以float取( float *pa = ( float *)&a; ) printf("*pa = %f\n" , *pa); )。
2^(1-127)=2^(-126)=1/(2^126)=0.00000000000000000000
②*pa = 9.0;因为*pa是float类型的,所以9可以写为(1001)= (-1)^0 * (1.001) *
2^(3)
所以:
S = 0;M = 001000…… E = 3 + 127 = 130
0 1000001
0
0010000 00000000 00000000
—
—————
———————————————
S
E
M
而把这个二进制数还原为十进制数就为1091567616就是a的值。
此处的中间数127是如何来的呢?
(单精度浮点数的二进制表示时 指数为什么要加上127的偏移量)
计算机表示单精度浮点数时,是用8位去存储指数部分(见上图E8bit),在数值上面,表示0~255(全表示正数,无法表示负数,),但是指数同样有负数的情况,如果用8位去表示正负数的话,最小是8位负数(含符号位)即1 1111111(最左边是1,表示负数),
1 1111111(转换为十进制为-127),即0的左边是127个数,表示负数,因为总共有255个数(0~255),故0的右边只能有255-127=128,转换为二进制是1 000 0000;又因为浮点数的指数在存储时只能存储不能带符号的数(无符号数),所以把-127~128区间的数转化为一个正数那就好了,于是就出现了在计算机存储之前将浮点数指数的基础上加上127,即可满足指数都会变成正数的情况,因为-127~128中最小的是-127,所以只要取一个-127的相反数即127即可完成任务。如果程序员要取这个浮点数,将指数减去127即可回到原来的数。这就是偏移量127的真正来源吧。
譬如:存储浮点数9.0例子:
*pa =
9.0;因为*pa是float类型的,所以9可以写为(1001)= (-1)^0 * (1.001) *
2^(3)
所以:
S
= 0;M = 001000…… E = 3 + 127 = 130
0 1000001 0
0010000 00000000 00000000
(小数点在M的最前面即:.001000..)
—
—————
———————————————
S
E
M
读取时:S = 0E=1000001 0 (十进制为130(即127+3)),E在读取时应减去127 即130-127=3, 也就是说此浮点数指数幂次是3,即2^3,
M(尾数)=001000000.......
因为23位的表示尾数时,实际上是用23位来表示24个有效的信息。最前面的1省略了(见上面叙述),所以读取时就要加上这个1,于是就出现了M=1.001.
综上所述该浮点数是:(-1)^0 * (1.001) * 2^(3)=1001=9.0
再譬如:在读取时,
当E全为0时:这时指数E等于1-127为真实值,M不再加上舍去的1,而是还原为0.xxxxxxxx小数。(具体上面有示例),此处特别要小心!!!
我们同样需要有负指数,正负指数的位数量为了均等,各自一半,-127~128,0是特殊点,特殊处理。储存时候会加上127,这样就刚刚好是0~255,就能很好的储存了,不然,不移量的话需要判断符号位来判断数值的正负。
分享:
喜欢
0
赠金笔
加载中,请稍候......