17.3 Génération d'index

     Tandis que la génération d'une table des matières à partir d'un document correctement balisé se passe généralement sans problèmes pour un processeur automatique, la production d'un index de bonne qualité nécessitera dans bien des cas un balisage plus réfléchi. Il peut ne pas être suffisant de produire une simple liste de toutes les parties balisées d'une certaine façon, bien que le fait d'extraire (par exemple) toutes les occurrences d'éléments tels que <terme> ou <nom> soit souvent un bon point de départ pour un index.

La DTD de la TEI fournit un balise <index> spéciale qui peut servir pour indiquer à la fois les parties du document qui devrait figurer dans l'index, et la façon dont l'indexage devrait être fait.

<index>
 

marque un emplacement à indexer pour une certaine raison ; parmi les attributs possibles, citons :

<level1>
  donne la forme principale de l'entrée d'index ;
<level2>
  donne la forme du second niveau, s'il existe ;
<level3>
  donne la forme du troisième niveau, s'il existe ;
<level4>
  donne la forme du quatrième niveau, s'il existe ;
<index>
  indique à quel index (entre plusieurs) appartient l'entrée d'index.

Par exemple, le deuxième paragraphe de la présente section pourrait présenter le balisage suivant :

 ...
 La DTD de la TEI fournit une balise <gi>index</gi> tag
 <index level1='indexing'>
 <index level1='index (tag)' level2='use in index generation'>
  spéciale qui peut servir ...

L'élément <index> peut également servir pour fournir une forme d'information analytique ou interprétative. Par exemple, dans une étude d'Ovide, on pourrait vouloir enregistrer toutes les références du poète concernant les différents personnages, pour des besoins d'étude stylistique comparative. Dans les lignes suivantes des Métamorphoses, une telle étude enregistrerait les références du poète à Jupiter (comme deus, se et en tant que sujet de confiteor [sous la forme inflectionnelle 227]), à Jupiter en guise de taureau (imago tauri fallacis et sujet de teneo), et ainsi de suitegif. L'exemple a été légèrement simplifié.

  <l n=3.001>iamque deus posita fallacis imagine tauri
  <l n=3.002>se confessus erat Dictaeaque rura tenebat

Cet objectif pourrait être atteint au moyen de l'élément <note> présentée en Notes ou au moyen de l'élément <interp> présenté en Interprétation et Analyse. Ici nous montrons le moyen d'obtenir le même résultat avec l'élément <index>.

Nous supposons que l'objet doit générer plus d'un index : un pour des noms de divinités (appelé dn), un autre pour des références onomastiques (appelé on), un troisième pour les références pronominales (appelées pr), et ainsi de suite. Une façon d'y parvenir est indiquée ci-dessous :

 <l n=3.001>iamque deus posita fallacis imagine tauri
      <index index="dn" level1="Iuppiter" level2="deus">
      <index index="on" level1="Iuppiter (taurus)"
                        level2="imago tauri fallacis"></l>
 <l n=3.002>se confessus erat Dictaeaque rura tenebat
      <index index="pr"    level1="Iuppiter" level2="se">
      <index index="v"     level1="Iuppiter" level2="confiteor 
                           (v227)">
      <index index="mons"  level1="Dicte" level2="rura Dictaea">
      <index index="regio" level1="Creta" level2="rura Dictaea">
      <index index="v"     level1="Iuppiter (taurus)"
                           level2="teneo (v9)"></l}

Pour chaque élément <index> ci-dessus, une entrée sera générée dans l'index approprié, en employant comme mot principal la valeur de l'attribut level1 et comme mot clé secondaire celui de l'attribut level2 qui contient le mot cité sous sa forme nominative. La référence elle-même sera prise dans le contexte où figure l'élément <index>, c'est-à-dire dans le cas présent, l'identifiant de l'élément <l> qui le contient.



Association GUTenberg - BP 10, 93220 Gagny principal   - Tél. et Fax (33) 01 30 87 06 25
e-mail : gut@irisa.fr   et   tresorerie.gutenberg@ens.fr