Codificação de Caracteres
Introdução
A codificação de caracteres é intrínseca a computação.
Quaisquer letras, números ou ideogramas que não façam parte do alfabeto inglês, podem não ser representados de maneira correta quando não informada a codificação de caracteres utilizada, e isso compromete totalmente a leitura e compreensão das informações de um texto.
Além de prejudicar o entendimento de quem lê, a utilização incorreta da codificação pode impedir que páginas da web sejam encontradas em uma busca, bem como comprometer uma série de outro processamentos.
Definição
Os caracteres utilizados na formação de palavras, frases ou textos, são agrupados em conjuntos de caracteres (também conhecidos como charsets ou repertório de caracteres).
Algumas literaturas evidenciam a diferença entre repertório de caracteres, como sendo um conjunto completo de todos os caracteres abstratos que um sistema suporta, e conjunto de caracteres codificados como os detalhes de como representá-los usando códigos numéricos.
Para cada caractere, é atribuído um número único, denominado codepoint, cuja função é possibilitar o armazenamento, manipulação e processamento de textos pelos computadores, onde são representados por um ou mais bytes.
Faz parte do mesmo conceito de cifras, usadas para mascarar informações. Os códigos numéricos que representam os caracteres são a chave para decifrar qualquer informação. Sem a chave correta, os números perdem referencia com os caracteres, tornando os dados inutilizáveis.
Como os caracteres são representados
Os caracteres, para o usuário de computação, podem ser representados graficamente de diferentes formas, de acordo com as definições de fonte, que determinam a aparência visual do texto.
As fontes abrangem um conjunto simples de caracteres (um conjunto bem limitado, se comparado a um charset como o Unicode, por exemplo). Elas são compostas por um conjunto de glifos, que são definições usadas para exibir caracteres.
Caso uma fonte não