16.1 Phrases orthographiques

   

Typiquement, l'interprétation porte sur l'ensemble d'un texte, sans prendre particulièrement en compte les autres unités structurales. Un préliminaire utile avant toute interprétation intensive consiste donc à segmenter le texte dans des unités discrètes et identifiables, chacune pouvant ensuite recevoir une étiquette servant de « référence canonique ». Afin de faciliter ce genre d'application, ces unités ne doivent pas se croiser, ni être imbriquées les unes dans les autres. Il est possible de les représenter de façon commode en utilisant l'élément suivant :

<s>
 

identifie un s--unit  au sein d'un document, dans le but d'établir un système de référence s'appliquant au texte entier ; parmi les attributs possibles, citons :

<type>
 

qui catégorise l'unité (par exemple comme étant déclaratif  interrogatif , etc.).

Comme le nom suggère, l'élément <s> est le plus souvent employé (au moins dans les applications linguistiques) pour marquer des phrases orthographiques, c'est-à-dire des unités définies par des caractéristiques orthographiques telles que la ponctuation.   Par exemple, le passage pris dans Jane Eyre cité dans le premier chapitre pourrait être divisé en s--units comme suit :

 <pb n='474'>
 <div1 type=chapter n='38'>
 <p><s n=001>Reader, I married him.</s>
 <s n=002>A quiet wedding we had:</s>
 <s n=003>he and I, the parson and clerk, were 
          alone present.</s>
 <s n=004>When we got back from church, I went
 into the kitchen of the manor-house, where Mary 
 was cooking the dinner,
 and John cleaning the knives, and I said &dash;</s>
 <p><q><s n=005>Mary, I have been married 
 to Mr Rochester this morning.</s></q>...}

Les balises de fin utilisées ci-dessus ne sont pas strictement nécessaires, car les éléments <s> ne peuvent pas s'emboîter : le début d'un élément <s> implique que le précédent est terminé. Quand les s--units sont balisés comme indiqué ci-dessus, il est conseillé de baliser le texte tout entier, afin que chaque mot du texte analysé soit contenu dans exactement un élément <s>, dont l'identifiant peut alors servir de référence unique. Si les identifiants employés sont uniques au sein du document, alors l'attribut id pourrait être utilisé de préférence à l'attribut n employé dans l'exemple ci-dessus.



Association GUTenberg - BP 10, 93220 Gagny principal   - Tél. et Fax (33) 01 30 87 06 25
e-mail : gut@irisa.fr   et   tresorerie.gutenberg@ens.fr