Unicode
Unicode
Prof. Thiago Delgado Pinto
CEFET UnED Nova Friburgo
Atualizado em 29/07/2013
Distribuído sob a Creative Commons BY-NC-SA 3.0
ASCII
American Standard Code for
Information Interchange
Criado em 1960 para padronizar a representação de determinados caracteres em computadores
Usa 7 bits
27=128, logo, consegue representar 128 caracteres 2
Problema com 7 bits
Os 128 caracteres incluem:
Caracteres especiais (ex.: Esc, Enter, etc.)
Símbolos (ex.: +, @, #, $, etc.)
Números
Letras
Não há espaço para acentuação ou outros símbolos
Solução: usar mais um bit
3
ISO/IEC 8859 (ISO 8859)
Padrão da International Organization for
Standardization (ISO) e da International
Electrothechnical Comission (IEC) para resolver o problema do ASCII.
Originado em 1994, pela European Computer
Manufacturers Association (ECMA)
Complementar ao ASCII
Adicionou mais 1 bit
28=256
Consegue representar vários outros caracteres e símbolos
Ex: ä®√
4
Code Page-1252 (Windows-1252)
É uma modificação do ISO 8859 para exibir caracteres latinos.
Se tornou muito popular, principalmente pelo seu uso no Windows.
Por causa da semelhança com o original, alguns programas o interpretavam incorretamente. Por conta disto, muitos navegadores, cliente de e-mail e inclusive o HTML5 tratam o ISO 8859 como CP-1252.
5
Problema com 8 bits
Ainda não é suficiente para vários sistemas de escrita
É preciso suportar outros idiomas
Árabe
Braile
Chinês
Grego
Hebraico
Élfico
...
Globalização
Solução: ao invés de 1 byte (8 bits), poder usar 2 ou até 3 bytes
6
UTF (ou Unicode)
O Unicode Transformation Format (UTF) foi criado em 1991 pelo Unicode
Consortium
Participam IBM, Microsoft, Apple, Adobe,
Google, Xerox, etc.
É