Le langage de balisage hypertexte (HTML) est un langage de balisage utilisé pour créer des documents hypertexte indépendant de tout système. À l'origine, l'application d'HTML sur le World Wide Web était sérieusement limitée par son utilisation du jeu de caractères codés ISO-8859-1, utile seulement pour les langues d'Europe occidentale. Malgré cette restriction, HTML a été utilisé en d'autres langues, avec d'autres jeux ou codages de caractères, par le biais de diverses extensions ad hoc au langage [TAKADA].
Ce document porte sur l'internationalisation d'HTML ; il élargit la spécification d'HTML et donne des conseils additionnels pour une gestion correcte de l'internationalisation. Il est en bonne part basé sur un article d'un des auteurs sur le multilinguisme sur le WWW [NICOL]. Une considération de premier plan est de s'assurer qu'HTML demeure une application valide de SGML, tout en permettant son utilisation avec toutes les langues du monde.
Les principaux sujets traités sont le jeu de caractères de document à utiliser avec
HTML, le traitement correct du paramètre charset associé au type de contenu
text/html
et la spécification de quelques éléments et entités supplémentaires.
1.1 Domaine d'application
HTML est utilisé sur le système mondial d'information World Wide Web (WWW) depuis 1990. Ce document étend les capacités d'HTML 2.0 (RFC 1866), principalement en enlevant la restriction au jeu de caractères codés ISO-8859-1 [ISO-8859].
HTML est une application de la norme ISO 8879:1986, Traitement de l'information — Systèmes bureautiques — Langage normalisé de balisage généralisé (SGML) [ISO-8879]. La Définition de Type de Document (DTD) d'HTML est une définition formelle de la syntaxe HTML en termes SGML. Ce document modifie la DTD d'HTML 2.0 de façon à la rendre applicable à des documents comprenant un répertoire de caractères beaucoup plus grand que celui de l'ISO-8859-1, tout en conservant la conformité avec SGML.
Le développement d'HTML avance très vite, autant formellement que pratiquement. Ce
document est écrit de manière à ce que les changements préconisés à HTML puissent
(et devraient) s'appliquer à d'autres formes d'HTML que celle décrite dans le RFC
1866. Lorsque indiqué, les nouveaux attributs devraient s'appliquer au éléments
appropriés.
1.2 Conformité
Cette spécification change légèrement les exigences de conformité pour les documents et agents-usager HTML.
Tous les documents conformes à HTML 2.0 demeurent conformes. Toutefois, les extensions introduites ici rendent valides certains documents qui ne seraient pas conformes à HTML 2.0, en particulier ceux contenant des caractères ou des références de caractères hors du répertoire de l'ISO 8859-1, et ceux contenant du balisage nouveau.
En sus des exigences du RFC 1866, les exigences suivantes s'appliquent aux agents-usager HTML.