Pour ceux qui travaillent avec des formes classiques des langues
européennes, les recommandations de la TEI concernant l'emploi des
jeux de caractères sont simples.
Pour un emploi local, il suffit d'utiliser tout jeu de caractères supporté par la machine et le
logiciel.
Au cas où le logiciel rend difficile la saisie directe des caractères
spéciaux au clavier,
il est possible de définir des conventions propres de saisie (par
exemple,
représenter les lettres accentuées en dactylographiant l'accent approprié aussitôt après la
lettre,
ou en utilisant des séquences spéciales qui n'ont que peu de chance
d'apparaître dans le texte normal, tel que « aE » pour << ä >>).
Des fonctions de recherche et de remplacement globales peuvent être ensuite utilisées pour transformer
ces raccourcis en des caractères corrects. C'est ce que nous
faisons
dans la version française de ce document où nous avons utilisé les
caractères
accentués é è
À etc. au lieu de leur codage TEI.
Si l'on doit employer des écritures non latines et qu'il existe un système de translitération normalisé dans le domaine particulier (par exemple, pour le grec
ancien,
le code beta du Thesaurus Linguæ Græ cæ),
il faut utiliser cette norme. Toute translitération employée devrait être réversible
(ce qui exclut un nombre surprenant de schémas employés communément dans l'écriture
normale),
et son utilité sera plus grande si elle ne nécessite aucune ligature spéciale ni lien ni signe diacritique (ce qui exclut un nombre surprenant des schémas restants...).
Pour l'échange de fichiers entre des systèmes, seules les références d'entité SGML sont à employer pour remplacer tout caractère ne figurant pas dans la liste de caractères ci-dessous (les caractères de cette liste sont ceux qui peuvent être échangés sans perte d'informations entre la plupart des systèmes) :
a b c d e f g h i j k l m n o p q r s t u v w x y z A B C D E F G H I J K L M N 0 P Q R S T U V W X Y Z 0 1 2 3 4 5 6 7 8 9 " % & ' ( ) * + , -. / : ; < = ? _ (space)
2cm
Cette liste exclut les caractères suivants
! # $ [ \ ] ^ U ` { } | ~
qui, dans bien des cas et au
grand mécontentement des utilisateurs non avertis,
ne survivent pas aux transferts au-delà
des frontières nationales ou à travers les réseaux longue
distance. Ces caractères font en fait partie de l'IVR
(International Reference Version) du codage Ascii/Iso 646. Voir
le
Cahier
GUTenberg
20 sur ces problèmes de codage
.
Par contre, pour un simple transfert entre Mac et PC, ces caractères pourront peut-être être échangés sans dommage.
Afin d'assurer la transmission correcte à travers des réseaux hétérogènes, des références d'entité doivent être employées pour tous les caractères latins accentués et étendus, pour tous les caractères non latins, et enfin pour tous les symboles ne figurant pas sur un clavier d'ordinateur conventionnel.
Si on le désire, on peut employer ses propres noms d'entité SGML dans des fichiers conforme à la TEI, à condition de fournir des mentions standard d'entité SGML à leur place ; mais les noms standard, (quoique longs ou compliqués) ont l'avantage de la clarté ; ces noms sont parlants pour tout locuteur anglophone (il est donc très important que le français soit aussi accessible « naturellement » grâce justement à ces mentions d'entités) qui peut reconnaître qu'il s'agit d'un nom de caractère, souvent même sans recours à une liste. Notons que ce n'est pas le cas de beaucoup d'autres méthodes employées pour représenter des caractères accentués.
Les noms d'entité requis pour les caractères présentés ci-dessus comme peu sûrs, et pour les caractères accentués de certaines langues majeures de l'Europe occidental, sont donnés ci-dessous. Les listes des jeux d'entité publics ainsi que leur contenu sont disponibles dans tout ouvrage de référence traitant de SGML : les noms donnés ci-dessous sont extraits des jeux d'entité publics ISO, sont largement employés et sont donc recommandés.
Lorsqu'un caractère ne paraît pas dans les jeux d'entité public, on peut désirer générer un nom, au moyen des mêmes conventions de nommage employées dans les jeux d'entité publics ISO, comme ici :
:
par exemple auml (ä),
Auml (Ä), euml (ë), iuml (ï),
ouml (ö), Ouml (Ö), uuml (ü), Uuml (Ü) ;
1cm
) comme dangereux
pour la transmission sur des réseaux internationaux
académiques et publics peuvent être représentés par les entités suivantes :\),
^),
|)~).
En résumé, pour le français (d'après le Lexique des règles
typographiques en usage à l'Imprimerie nationale, Imprimerie nationale,
Paris, 1990 (p. 102) ; notons toutefois que les caractères «
» et
« æ Æ » ne sont pas des ligatures, facultatives, mais de vrais caractères :
voir Cahier
GUTenberg
22 à ce sujet {NdT}), les codages utiles à connaître (mais
rappelons le, le codeur ne devrait normalement pas s'en soucier)
sont les suivants :
: Codage des caractères français