conjunto dos números reais
Esta norma propõe codificar o número em 32 bits e define três componente: o sinal é representado por um só bit, pelo bit de peso forte (o mais à esquerda) o expoente é codificado não 8 bits consecutivos ao sinal a mantissa (os bits situados após a vírgula) nos 23 bits restantes Assim, a codificação faz-se sob a forma seguinte: seeeeeeeemmmmmmmmmmmmmmmmmmmmmmm o s representa o bit relativo ao sinal os e representam os bits relativos ao expoente os m representam os bits relativos à mantissa
Certas condições devem contudo respeitar-se para os expoentes: o expoente 00000000 é proibido o expoente 11111111 é proibido. Serve contudo para assinalar erros, chama-se então a esta configuração do número Na N, que significa Not a number
É necessário acrescentar 127 (01111111) ao expoente para uma conversão de decimal para um número real binário. Os expoentes podem assim ir de -254 à 255
A fórmula de expressão dos números reais é assim a seguinte :
(-1)^S * 2^( E - 127 ) * ( 1 + F ) onde :
S é o bit de sinal e compreende-se então porque 0 é positivo (-1^0=1).
E é o expoente ao qual se deve acrescentar 127 para obter o seu equivalente codificado.
F é a parte fraccionária, a única que se exprime que é acrescentada a 1 para efetuar o cálculo.
Vejamos esta codificação num exemplo:
Codificar o valor 525,5.
525,5 é positivo, por conseguinte o bit será 0.
A sua representação numa base 2 é a seguinte: 1000001101,1
Normalizando, encontra-se: 1,0000011011*2^9
Acrescenta-se 127 ao expoente que vale 9 o que dá 136, quer dizer em base 2: 10001000
A mantissa é composta pela parte decimal de 525,5 em base 2