Passer au contenu

Unicode/UCS

Code de caractères universel destiné à remplacer progressivement le code Ascii.

Le caractère spécifiquement américain du code Ascii a posé un certain nombre de problèmes de représentation en informatique de caractères provenant d’autres langues que l’anglais pendant plus de trente ans.Au tout début des années 1990, pas moins de deux initiatives de remplacement du code Ascii par un nouveau code universel de caractères ont été lancées, l’une par l’ ISO, intitulée UCS (Universal character set) et l’autre par un consortium de fabricants, Unicode. Les deux entités se sont fort heureusement entendues pour mener cette entreprise de concert.UCS, qui permet de coder tous les caractères de toutes les langues ayant existé, a été normalisé en 1993 sous la référence ISO 10646:1993, puis étendu en 2000 sous la référence ISO 10646:2000. Les références correspondantes chez Unicode sont Unicode 1.0 et Unicode 3.0. UCS se compose essentiellement de tables de codes et de noms de caractères, tandis qu’Unicode y ajoute des précisions et des recommandations d’ordre typographique.Le code UCS est codé sur 31 bits (soit 4 octets moins un bit), mais pour l’instant, seules les 65534 premières valeurs (2 octets) ont été attribuées à des caractères. Ce sous-ensemble est nommé BMP (plan multilingue de base) ou plan 0. Les prochaines attributions porteront sur des alphabets spéciaux (les hiéroglyphes, par exemple) n’intéressant que des spécialistes. Les codes sont identifiés par le préfixe U et écrits en notation hexadécimaleDans le code UCS, tous les signes diacritiques ont un code qui leur est propre et ils peuvent être combinés avec n’importe quel autre caractère. Ces signes sont dits ” à chasse nulle “. Ainsi, un ” À ” peut aussi bien être obtenu par le recours à son code spécifique (U00C0) que par combinaison d’un A majuscule (U0041) avec le code de l’accent grave à chasse nulle (U0300).Selon les mises en oeuvre, chaque caractère est exprimé au format UCS-2 (deux octets, BMP) ou au format UCS-4 (quatre octets, code complet). Lorsqu’une mise en oeuvre se heurte à une incompatibilité (codage des noms de fichiers sous Unix, par exemple), une méthode de transformation, nommée UTF-8, est disponible.Bien qu’il ait été normalisé depuis huit ans, le code UCS/Unicode est seulement depuis peu réellement mis en oeuvre sur nos micro-ordinateurs. Quoi quil en soit, ce devrait bien être le code de caractères universel des années à venir.Désignations équivalentes : Unicode/UCS – UCS – UTF-8

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Lionel Lumbroso