Codificación de caracteres


Codificación de caracteres

La codificación de caracteres es el método que permite convertir un carácter de un lenguaje natural (alfabeto o silabario) en un símbolo de otro sistema de representación, como un número o una secuencia de pulsos eléctricos en un sistema electrónico, aplicando normas o reglas de codificación.

Contenido

Normas de codificación

Definen la forma en la que se codifica un carácter dado en un símbolo en otro sistema de representación. Ejemplos de esto son el código Morse, la norma ASCII o la UTF-8, entre otros.

ASCII

Por estar íntimamente ligado al octeto (y por consiguiente a los enteros que van del 0 al 127, el problema que presenta es que no puede codificar más que 128 símbolos diferentes (128 es el número total de diferentes configuraciones que se pueden conseguir con 7 dígitos binarios o digitales (0000000, 0000001,..., 1111111), usando el octavo dígito de cada octeto (bit o dígito de paridad) para detectar algún error de transmisión). Un cupo de 128 es suficiente para incluir mayúsculas y minúsculas del abecedario inglés, además de cifras, puntuación, y algunos "caracteres de control" (por ejemplo, uno que instruye a una impresora que pase a la hoja siguiente), pero el ASCII no incluye ni los caracteres acentuados ni el comienzo de interrogación que se usa en castellano, ni tantos otros símbolos (matemáticos, letras griegas,...) que son necesarios en muchos contextos.La conexión que se otorga del contexto ASCI 2 es referente al lenguaje de máquina traga monedas ..

ASCII Extendido

Debido a las limitaciones del ASCII se definieron varios códigos de caracteres de 8 bits, entre ellos el ASCII extendido. Sin embargo, el problema de estos códigos de 8 bits es que cada uno de ellos se define para un conjunto de lenguas con escrituras semejantes y por tanto no dan una solución unificada a la codificación de todas las lenguas del mundo. Es decir, no son suficientes 8 bits para codificar todos los alfabetos y escrituras del mundo.

Unicode

Como solución a estos problemas, desde 1991 se ha acordado internacionalmente utilizar la norma Unicode, que es una gran tabla, que en la actualidad asigna un código a cada uno de los más de cincuenta mil símbolos, los cuales abarcan todos los alfabetos europeos, ideogramas chinos, japoneses, coreanos, muchas otras formas de escritura, y más de un millar de símbolos especiales.

Normas de Transmisión

Las normas de transmisión tienen como objetivo definir la forma en que los caracteres codificados (utilizando las normas de codificación) son transmitidos en el canal de comunicaciones (por ejemplo Internet)

Actualmente, en Internet los mensajes se transmiten en paquetes que siempre constan de un número entero de octetos, y la detección de error ya no se hace con el octavo dígito de cada octeto, sino con octetos especiales que automáticamente se agregan a cada paquete. Las normas de transmisión se limitan a especificar una correspondencia, reversible, entre códigos (que representan caracteres), y secuencias de octetos (que han de ser transmitidos en calidad de datos).

Tablas tipográficas

Pero, finalmente, para cartearse electrónicamente en chino simplificado (por ejemplo) falta un detalle importante:

La tabla que el Consorcio Unicode publica para ser leída por humanos, contiene una representación gráfica o descripción, de cada carácter incluido hasta ese momento; pero los sistemas de visualización de documentos, para funcionar, requieren tablas de tipografía, que asocian un glifo (dibujo) a cada carácter que abarcan, y sucede que hay muchísimas tablas de tipografía, con nombres como Arial o Times, que dibujan una misma letra con base en matrices diferentes y en diferentes estilos ("A" o "A"); sin embargo, la gran mayoría de las fuentes tipográficas contienen sólo un pequeño subconjunto de todos los caracteres Unicode.

Normas comunes de codificación de caracteres

  • ISO 646
  • EBCDIC
    • CP930
  • ISO 8859:
    • ISO 8859-1 Europa occidental
    • ISO 8859-2 Europa occidental y Centroeuropa
    • ISO 8859-3 Europa occidental y Europa del Sur
    • ISO 8859-4 Europa occidental y países bálticos ( lituano, estonio y lapón )
    • ISO 8859-5 alfabeto cirílico
    • ISO 8859-6 árabe
    • ISO 8859-7 griego
    • ISO 8859-8 Hebreo
    • ISO 8859-9 Europa occidental con el juego de caracteres turco
    • ISO 8859-10 Europa occidental con juegos de caracteres nórdicos, incluyendo el de Islandia.
    • ISO 8859-11 tailandés
    • ISO 8859-13 idiomas bálticos y polaco
    • ISO 8859-14 idiomas celtas ( gaélico irlandés, escoces, welsh )
    • ISO 8859-15 Añade el símbolo de Euro y otros a ISO 8859-1
    • ISO 8859-16 idiomas centroeuropeos (polaco, checo, eslovaco, húngaro, albano, rumano, alemán e italiano) ( Polish, Czech, Slovenian, Slovak, Hungarian, Albanian, Romanian, German, Italian )
  • CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869
  • Juegos de caracteres de Windows:
    • Windows-1250 para idiomas centroeuropeos que utilizan un guion latino, (polaco, checo, eslovaco, húngaro, esloveno, serbio, croata, rumano y albano)
    • Windows-1251 para alfabetos cirílicos
    • Windows-1252 para idiomas occidentales
    • Windows-1253 para griego
    • Windows-1254 para turco
    • Windows-1255 para hebreo
    • Windows-1256 para árabe
    • Windows-1257 para idiomas bálticos
    • Windows-1258 para vietnamita
  • Mac OS Roman
  • KOI8-R, KOI8-U, KOI7
  • MIK
  • Cork o T1
  • ISCII
  • VISCII
  • Big5
    • HKSCS
  • Guobiao
    • GB2312
    • GBK (Página de códigos 936 de Microsoft)
    • GB18030
  • Shift JIS para Japonés (Página de códigos 932 de Microsoft)
  • EUC-KR para Coreano (Página de códigos 932 de Microsoft)
  • ISO-2022 y EUC para juegos de caracteres CJK
  • Unicode (y sus subconjuntos, como el Basic Multilingual Plane de 16 bits). Véase también UTF-8 y UTF-16.
  • ANSEL o ISO/IEC 6937

Codificación de caracteres del español

Minúsculas
carácter ISO-8859-1 UTF-8 UTF-16
a 0x61 0x61 0x00 0x61
b 0x62 0x62 0x00 0x62
c 0x63 0x63 0x00 0x63
d 0x64 0x64 0x00 0x64
e 0x65 0x65 0x00 0x65
f 0x66 0x66 0x00 0x66
g 0x67 0x67 0x00 0x67
h 0x68 0x68 0x00 0x68
i 0x69 0x69 0x00 0x69
j 0x6a 0x6a 0x00 0x6a
k 0x6b 0x6b 0x00 0x6b
l 0x6c 0x6c 0x00 0x6c
m 0x6d 0x6d 0x00 0x6d
n 0x6e 0x6e 0x00 0x6e
o 0x6f 0x6f 0x00 0x6f
p 0x70 0x70 0x00 0x70
q 0x71 0x71 0x00 0x71
r 0x72 0x72 0x00 0x72
s 0x73 0x73 0x00 0x73
t 0x74 0x74 0x00 0x74
u 0x75 0x75 0x00 0x75
v 0x76 0x76 0x00 0x76
w 0x77 0x77 0x00 0x77
x 0x78 0x78 0x00 0x78
y 0x79 0x79 0x00 0x79
z 0x7a 0x7a 0x00 0x7a
Mayúsculas
carácter ISO-8859-1 UTF-8 UTF-16
A 0x41 0x41 0x00 0x41
B 0x42 0x42 0x00 0x42
C 0x43 0x43 0x00 0x43
D 0x44 0x44 0x00 0x44
E 0x45 0x45 0x00 0x45
F 0x46 0x46 0x00 0x46
G 0x47 0x47 0x00 0x47
H 0x48 0x48 0x00 0x48
I 0x49 0x49 0x00 0x49
J 0x4a 0x4a 0x00 0x4a
K 0x4b 0x4b 0x00 0x4b
L 0x4c 0x4c 0x00 0x4c
M 0x4d 0x4d 0x00 0x4d
N 0x4e 0x4e 0x00 0x4e
O 0x4f 0x4f 0x00 0x4f
P 0x50 0x50 0x00 0x50
Q 0x51 0x51 0x00 0x51
R 0x52 0x52 0x00 0x52
S 0x53 0x53 0x00 0x53
T 0x54 0x54 0x00 0x54
U 0x55 0x55 0x00 0x55
V 0x56 0x56 0x00 0x56
W 0x57 0x57 0x00 0x57
X 0x58 0x58 0x00 0x58
Y 0x59 0x59 0x00 0x59
Z 0x5a 0x5a 0x00 0x5a
Acentos y tildes
carácter ISO-8859-1 UTF-8 UTF-16
á 0xe1 0xc3 0xa1 0x00 0xe1
Á 0xc1 0xc3 0x81 0x00 0xc1
é 0xe9 0xc3 0xa9 0x00 0xe9
É 0xc9 0xc3 0x89 0x00 0xc9
í 0xed 0xc3 0xad 0x00 0xed
Í 0xcd 0xc3 0x8d 0x00 0xcd
ó 0xf3 0xc3 0xb3 0x00 0xf3
Ó 0xd3 0xc3 0x93 0x00 0xd3
ú 0xfa 0xc3 0xba 0x00 0xfa
Ú 0xda 0xc3 0x9a 0x00 0xda
ü 0xfc 0xc3 0xbc 0x00 0xfc
Ü 0xdc 0xc3 0x9c 0x00 0xdc
ñ 0xf1 0xc3 0xb1 0x00 0xf1
Ñ 0xd1 0xc3 0x91 0x00 0xd1
Símbolos
carácter ISO-8859-1 UTF-8 UTF-16
¿ 0xbf 0xc2 0xbf 0x00 0xbf
 ? 0x3f 0x3f 0x00 0x3f
¡ 0xa1 0xc2 0xa1 0x00 0xa1
 ! 0x21 0x21 0x00 0x21

Wikimedia foundation. 2010.

Mira otros diccionarios:

  • Codificación de carácteres — La codificación de caracteres es el código que empareja cada carácter de un lenguaje natural (pertenezca éste a un alfabeto o un silabario) con un símbolo en otro sistema de representación, como un número o una secuencia de pulsos eléctricos en… …   Enciclopedia Universal

  • Codificación de caracteres chinos — En ámbito informático, una codificación de caracteres chinos se usa para representar texto escrito en los lenguajes comúnmente identificados como CJK (por las siglas en inglés): chino, japonés y coreano, y vietnamita arcaico. Algunas de estas… …   Wikipedia Español

  • Caracteres especiales — Ayuda:Caracteres especiales Saltar a navegación, búsqueda Para una versión más actualizada (en obras), ver meta:Ayuda:Caracteres especiales. A partir de la versión 1.5 de MediaWiki, todos los proyectos usan la codificación de caracteres Unicode… …   Wikipedia Español

  • Codificación — El término codificación es tanto la acción de codificar, es decir, de transformar un contenido a un código, así como los sistemas de códigos derivados de aquélla. Puede referirse a: Codificación digital. Codificación de caracteres. Codificación… …   Wikipedia Español

  • Caracteres chinos simplificados — Chino simplificado Tipo Logográfico Idiomas Idioma chino Época Desde 1956 ISO 15924 Hans …   Wikipedia Español

  • Codificación de binario a texto — Codificación binario a texto es un tipo de codificación de transporte de datos , que tiene la finalidad de proteger los datos que se envían a otros ordenadores y evitar así daños debido a ciertas restricciones de la capa de la red de transmisión… …   Wikipedia Español

  • Codificación Huffman — Árbol de Huffman generado para las frecuencias de apariciones exactas del texto Esto es un ejemplo de árbol de Huffman . las frecuencias y códigos de cada carácter se muestran abajo. Codificar esta frase usando este código requiere 156 bits, sin… …   Wikipedia Español

  • Código de caracteres de 8 bits — Con un código de caracteres de 8 bits (1 byte) se pueden representar hasta 28 = 256 caracteres diferentes. Existe un código, que desde que fue definido en 1963, ha sido adoptado como el estándar para la transmisión de datos. Este código… …   Wikipedia Español

  • Tifinagh — Caracteres del alfabeto tifinagh. El tifinagh (pronunciado [tifinaɣ]) es un alfabeto que se utiliza para transcribir varias lenguas bereberes. La forma más antigua de tifinagh se llama alfabeto líbico o berbero líbico, cuyo uso está documentado… …   Wikipedia Español

  • Unicode — El Estándar Unicode es un estándar de codificación de caracteres diseñado para facilitar el tratamiento informático, transmisión y visualización de textos de múltiples lenguajes y disciplinas técnicas además de textos clásicos de lenguas muertas …   Wikipedia Español


We are using cookies for the best presentation of our site. Continuing to use this site, you agree with this.