S'abonner :  Newsletters    Magazines

écrire à l'auteur imprimer
envoyer par mail
Unicode/UCS
Code de caractères universel destiné à remplacer progressivement le code Ascii.

Lionel Lumbroso , 01net., le 03/09/2002 à 05h20

Le caractère spécifiquement américain du code Ascii a posé un certain nombre de problèmes de représentation en informatique de caractères provenant d'autres langues que l'anglais pendant plus de trente ans.

Au tout début des années 1990, pas moins de deux initiatives de remplacement du code Ascii par un nouveau code universel de caractères ont été lancées, l'une par l' ISO , intitulée UCS (Universal character set) et l'autre par un consortium de fabricants, Unicode. Les deux entités se sont fort heureusement entendues pour mener cette entreprise de concert.

UCS, qui permet de coder tous les caractères de toutes les langues ayant existé, a été normalisé en 1993 sous la référence ISO 10646:1993, puis étendu en 2000 sous la référence ISO 10646:2000. Les références correspondantes chez Unicode sont Unicode 1.0 et Unicode 3.0. UCS se compose essentiellement de tables de codes et de noms de caractères, tandis qu'Unicode y ajoute des précisions et des recommandations d'ordre typographique.

Le code UCS est codé sur 31 bits (soit 4 octets moins un bit), mais pour l'instant, seules les 65534 premières valeurs (2 octets) ont été attribuées à des caractères. Ce sous-ensemble est nommé BMP (plan multilingue de base) ou plan 0. Les prochaines attributions porteront sur des alphabets spéciaux (les hiéroglyphes, par exemple) n'intéressant que des spécialistes. Les codes sont identifiés par le préfixe U et écrits en notation hexadécimale

Dans le code UCS, tous les signes diacritiques ont un code qui leur est propre et ils peuvent être combinés avec n'importe quel autre caractère. Ces signes sont dits " à chasse nulle ". Ainsi, un " À " peut aussi bien être obtenu par le recours à son code spécifique (U00C0) que par combinaison d'un A majuscule (U0041) avec le code de l'accent grave à chasse nulle (U0300).

Selon les mises en oeuvre, chaque caractère est exprimé au format UCS-2 (deux octets, BMP) ou au format UCS-4 (quatre octets, code complet). Lorsqu'une mise en oeuvre se heurte à une incompatibilité (codage des noms de fichiers sous Unix, par exemple), une méthode de transformation, nommée UTF-8, est disponible.

Bien qu'il ait été normalisé depuis huit ans, le code UCS/Unicode est seulement depuis peu réellement mis en oeuvre sur nos micro-ordinateurs. Quoi qu'il en soit, ce devrait bien être le code de caractères universel des années à venir.

Désignations équivalentes : Unicode/UCS - UCS - UTF-8


> Logiciel : Kaspersky Internet Security 2010
la solution de sécurité la plus complète du marché.

publicité
> Logiciel :
Mon Budget Perso
Etablissez votre budget et maîtrisez vos dépenses.

classement FAI
Retrouvez chaque semaine le classement des fournisseurs d'accès avec ip-label 1 Numericable 2 Free 3 Bouygues Telecom > Plus de détails
offres d'emploi
Stockage
Dvico TViX HD 1To. Disque dur numérique. Comparez les prix !

Service 01net
Newsletters 01net
abonnez vous gratuitement !
  
01Informatique
01 INFORMATIQUE
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
MICRO HEBDO
L'hebdo qui vous simplifie la micro
et Internet.
L'Ordinateur Individuel
L'ORDINATEUR INDIVIDUEL
Le mensuel informatique qui vous informe et vous conseille.
Tous droits réservés © 1999 - 2009 Internext - 01net.