TEI/XML構造ドキュメント

はじめに

このエディタは、特定の構造に従ったTEI(Text Encoding Initiative)XMLファイルで動作するように設計されています。ファイルには、メタデータを含むTEIヘッダー、画像ゾーンを定義するfacsimileセクション、転写されたコンテンツを含むtextセクションの3つの主要なセクションが含まれている必要があります。

想定されるTEI構造

重要:セクションは次の順序で記述する必要があります:teiHeader → text → facsimile

1. XML Declaration & Schema References

XML宣言とスキーマ参照により、適切な検証とTEI標準との互換性が保証されます。

<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="http://www.tei-c.org/release/xml/tei/custom/schema/relaxng/tei_all.rng" 
            type="application/xml" schematypens="http://relaxng.org/ns/structure/1.0"?>
<?xml-model href="http://www.tei-c.org/release/xml/tei/custom/schema/relaxng/tei_all.rng" 
            type="application/xml" schematypens="http://purl.oclc.org/dsdl/schematron"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">

2. TEI Header

TEIヘッダーには、タイトル、転写とエンコーディングの責任表明、出版情報、ソースの説明など、文書に関するメタデータが含まれます。

<teiHeader>
  <fileDesc>
    <titleStmt>
      <title>Title</title>
      <respStmt>
        <resp>Automated Transcription</resp>
        <name ref="https://github.com/ndl-lab/ndlkotenocr-lite">
          NDL古典籍OCR-Liteアプリケーション
        </name>
      </respStmt>
      <respStmt>
        <resp>Conversion to TEI encoding</resp>
        <name>Editor Name</name>
      </respStmt>
    </titleStmt>
    <publicationStmt>
      <p>Publication Information</p>
    </publicationStmt>
    <sourceDesc>
      <p>Information about the source</p>
    </sourceDesc>
  </fileDesc>
</teiHeader>

3. Text Body

textセクションには実際の転写コンテンツが含まれます。すべてのコンテンツは単一のp要素内に配置され、pbでページ区切り、lbで行区切りを表します。

<text>
  <body>
    <p>
      <pb n="1"/>
      <lb corresp="#L0000_001" n="1" type="line"/>First line of text
      <lb corresp="" n="2" type="line"/>
      <lb corresp="#L0000_002" n="3" type="line"/>Third line with text
      <lb corresp="#L0000_003" n="4" type="annotation"/>Annotation text
    </p>
  </body>
</text>

注意: テキストコンテンツはlb要素の直後に続きます。空行は後続テキストのないlb要素で表現されます。corresp属性でfacsimileセクションのゾーンIDとリンクします。

4. Facsimile Section

facsimileセクションは、ページ画像上の矩形ゾーンを定義します。各ゾーンには座標があり、テキスト要素にリンクできます。

<facsimile>
  <surface lrx="0" lry="0" ulx="0" uly="0" xml:id="page-0" n="1">
    <graphic url="https://dl.ndl.go.jp/api/iiif/2585164/R0000005/full/full/0/default.jpg" 
             width="8292px" height="4794px"/>
    <zone xml:id="L0000_001" ulx="4351" uly="889" lrx="4607" lry="3267"/>
    <zone xml:id="L0000_002" ulx="4148" uly="905" lrx="4408" lry="3241"/>
    <zone xml:id="L0000_003" ulx="3866" uly="914" lrx="4145" lry="3242"/>
  </surface>
</facsimile>

注意: facsimileセクションはtextセクションの後に配置する必要があります。surface要素にはlrx、lry、ulx、uly属性が必要です(0でも設定が必要)。

主要要素

<zone> Zone要素

ページ画像上の矩形領域を定義:

  • xml:id - ゾーンの一意の識別子
  • ulx, uly - 左上隅の座標
  • lrx, lry - 右下隅の座標
  • type - ゾーンタイプ(例:line、title、marginalia)
  • subtype - さらなる分類のためのオプションのサブタイプ

<pb> ページブレーク

新しいページの開始をマーク:

  • n - ページ番号
  • facs - ページのIIIF画像URL

<lb> ラインブレーク

新しい行の開始をマーク:

  • n - 行番号
  • type - 行タイプ(例:line、title、annotation)
  • subtype - オプションのサブタイプ
  • corresp - 対応するゾーンへの参照(例:#zone_001)

サンプルファイル

想定される構造を確認するには、これらのサンプルファイルをダウンロードしてください:

互換性のあるTEIファイルを作成するためのヒント

  • 完全な機能のためには、facsimileとtextの両方のセクションを常に含めてください
  • corresp属性を使用して、視覚的なオーバーレイのために行をゾーンにリンクしてください
  • ゾーン座標は実際の画像寸法と一致する必要があります
  • pb要素のIIIF画像URLにより画像ビューアが有効になります
TEI/OCR Editor