Le premier exemple a mis l'accent sur la typologie du texte. Nous complétons cette introduction par un exemple en langue française montrant quelques possibilités de la TEI liées à notre langue. Cette fois partons du document original de la figure 1.
Figure 1: Un exemple de texte français à coder (début du premier
chapitre
de Les belles images de Simone de Beauvoir, Gallimard, 1960)
Si l'on devait coder ce texte, on aurait quelques problèmes plus évidents en français qu'en anglais :
» ne fait pas partie de ce codage et devra donc être codé
œ ;
Un texte TEI peut tenir compte de tous ces éléments : ce texte pourrait être codé comme suit :
<p> <q rend=frdqo> C'est un mois d'octobre … exceptionnel </q>, dit Gisèle Dufrène; ils acquiescent, ils sourient, une chaleur d'été tombe du ciel gris-bleu— <q>Qu'est-ce que les autres ont que je n'ai pas? </q> — ils caressent leurs regards á l'image parfaite qu'ont reproduite <title>Plaisir de France</title> et <title>Votre Maison</title>: la ferme achetée pour une bouchée de pain — enfin, disons, de pain brioché — et aménagée par Jean-Charles au prix d'une tonne de caviar. (<q rend=endqo>je n'en suis pas á un million près</q>, a dit Gilbert), les roses contre les murs de pierre, les chrysanthèmes, les asters, les dahlias <q rend=endqo> les plus beaux de toute l'Ile-de-France</q>, dit Dominique; le paravent et les fauteuils bleux et violet — <q>c'est d'une audace!</q> — tranchent sur le vert de la pelouse, la glace tinte dans les verres, Houdan baise la main de Dominique, très mince dans son pantalon noir et son chemisier éclatant, les cheveux p&cicum;les, mi-blonds, mi-blancs, de dos on lui donnerait trente ans. ...
Dans ce texte, on a trois types de citations : celles entre guillemets
français, celles entre guillemets anglais et celles sans guillemets
(par exemple <q>c'est d'une audace!</q>). Pour les deux
premiers types, on a délimité la citation par le couple de balises <q>
et </q> et au moyen de
l'attribut rend on a mémorisé la nature des guillemets utilisés
dans le
texte imprimé (frdquo pour fr ench d ouble quo te
et enddquo pour en
glish d ouble quo te) de façon à pouvoir les restituer si besoin est.
De même, nous supposons que c'est lors de l'édition/impression du
document que l'on doit se soucier de la présence d'espaces avant les
points-virgules,
deux-points, etc., pas au moment de la saisie ni du traitement. Aussi
codons-nous
« dit Dominique; » et non « dit Dominique_; ».
Dans les documents SGML, les caractères accentués doivent être notés
à l'aide d'« entités » (voir Jeux de caractères, signes
diacritiques,
etc.) qui prévoient, par exemple, que « é » soit codé « é
».
Le but de ce mécanisme est d'obtenir un document composé uniquement de
caractères
appartenant au jeu ISO
646-IRV (ASCII) de base, donc très facile à transmettre.
Cependant, pour des raisons de lisibilité, nous avons employé les caractères ISO 8859-1 (Latin-1) pour coder les lettres des exemples utilisant le français dans la suite de cette traduction. En réalité, il est techniquement possible d'échanger des documents SGML de cette façon, mais au prix d'une modification de la « déclaration SGML » qui ne peut être effectuée que par un utilisateur expérimenté et qui rend le document moins interchangeable.
Comme il a été dit dans ce Cahier (voir l'article de Jacques André sur les balises), travailler directement sur le codage TEI n'est pas chose naturelle. On écrira donc, dans les exemples qui suivent, des textes lisibles (quitte à imaginer qu'il faille passer un programme de remplacement automatique sur ces textes), comme :
la ferme achetée pour une bouchée de pain — enfin, disons, de pain brioché — et aménagée par Jean-Charles au prix d'une tonne de caviar.
Balises françaises
Un autre aspect de l'utilisation du français pour la TEI est celui de la francisation des balises et attributs.
La TEI prévoit des mécanismes pour paramétrer le nom des balises et donc, si on le souhaite, utiliser des balises en français de son choix. Il y a là un compromis entre le confort d'écriture et de lisibilité pour le créateur du document et l'échangeabilité: les textes avec des balises « localisées » ne peuvent évidemment plus être immédiatement interprétés par d'autres. À noter que les tentatives pour franciser les langages de programmation (Basic, Pascal, etc.) n'ont jamais eu de succès, sans doute pour la raison ci-dessus... Mais enfin, avec la TEI c'est possible si on le souhaite.
Notre attitude, ici, a été de garder le nom anglais des balises dans le codage SGML des exemples, mais de proposer en cas d'ambiguïté, un équivalent français dans le texte de l'article.
Enfin, en ce qui concerne les valeurs d'attribut, nous avons parfois utilisé des chaînes « françaises » à la place des chaînes « anglaises » suggérées dans l'original, du moins lorsque la DTD le permettait (par exemple quand le type de l'attribut était CDATA).
L'ensemble de ces noms, anglais et français, se retrouve en Index.