TEI/XML構造ドキュメント
はじめに
このエディタは、特定の構造に従ったTEI(Text Encoding Initiative)XMLファイルで動作するように設計されています。ファイルには、メタデータを含むTEIヘッダー、画像ゾーンを定義するfacsimileセクション、転写されたコンテンツを含むtextセクションの3つの主要なセクションが含まれている必要があります。
想定されるTEI構造
重要:セクションは次の順序で記述する必要があります:teiHeader → text → facsimile
1. XML Declaration & Schema References
XML宣言とスキーマ参照により、適切な検証とTEI標準との互換性が保証されます。
<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="http://www.tei-c.org/release/xml/tei/custom/schema/relaxng/tei_all.rng"
type="application/xml" schematypens="http://relaxng.org/ns/structure/1.0"?>
<?xml-model href="http://www.tei-c.org/release/xml/tei/custom/schema/relaxng/tei_all.rng"
type="application/xml" schematypens="http://purl.oclc.org/dsdl/schematron"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">2. TEI Header
TEIヘッダーには、タイトル、転写とエンコーディングの責任表明、出版情報、ソースの説明など、文書に関するメタデータが含まれます。
<teiHeader>
<fileDesc>
<titleStmt>
<title>Title</title>
<respStmt>
<resp>Automated Transcription</resp>
<name ref="https://github.com/ndl-lab/ndlkotenocr-lite">
NDL古典籍OCR-Liteアプリケーション
</name>
</respStmt>
<respStmt>
<resp>Conversion to TEI encoding</resp>
<name>Editor Name</name>
</respStmt>
</titleStmt>
<publicationStmt>
<p>Publication Information</p>
</publicationStmt>
<sourceDesc>
<p>Information about the source</p>
</sourceDesc>
</fileDesc>
</teiHeader>3. Text Body
textセクションには実際の転写コンテンツが含まれます。すべてのコンテンツは単一のp要素内に配置され、pbでページ区切り、lbで行区切りを表します。
<text>
<body>
<p>
<pb n="1"/>
<lb corresp="#L0000_001" n="1" type="line"/>First line of text
<lb corresp="" n="2" type="line"/>
<lb corresp="#L0000_002" n="3" type="line"/>Third line with text
<lb corresp="#L0000_003" n="4" type="annotation"/>Annotation text
</p>
</body>
</text>注意: テキストコンテンツはlb要素の直後に続きます。空行は後続テキストのないlb要素で表現されます。corresp属性でfacsimileセクションのゾーンIDとリンクします。
4. Facsimile Section
facsimileセクションは、ページ画像上の矩形ゾーンを定義します。各ゾーンには座標があり、テキスト要素にリンクできます。
<facsimile>
<surface lrx="0" lry="0" ulx="0" uly="0" xml:id="page-0" n="1">
<graphic url="https://dl.ndl.go.jp/api/iiif/2585164/R0000005/full/full/0/default.jpg"
width="8292px" height="4794px"/>
<zone xml:id="L0000_001" ulx="4351" uly="889" lrx="4607" lry="3267"/>
<zone xml:id="L0000_002" ulx="4148" uly="905" lrx="4408" lry="3241"/>
<zone xml:id="L0000_003" ulx="3866" uly="914" lrx="4145" lry="3242"/>
</surface>
</facsimile>注意: facsimileセクションはtextセクションの後に配置する必要があります。surface要素にはlrx、lry、ulx、uly属性が必要です(0でも設定が必要)。
主要要素
<zone> Zone要素
ページ画像上の矩形領域を定義:
xml:id- ゾーンの一意の識別子ulx, uly- 左上隅の座標lrx, lry- 右下隅の座標type- ゾーンタイプ(例:line、title、marginalia)subtype- さらなる分類のためのオプションのサブタイプ
<pb> ページブレーク
新しいページの開始をマーク:
n- ページ番号facs- ページのIIIF画像URL
<lb> ラインブレーク
新しい行の開始をマーク:
n- 行番号type- 行タイプ(例:line、title、annotation)subtype- オプションのサブタイプcorresp- 対応するゾーンへの参照(例:#zone_001)
サンプルファイル
想定される構造を確認するには、これらのサンプルファイルをダウンロードしてください:
互換性のあるTEIファイルを作成するためのヒント
- 完全な機能のためには、facsimileとtextの両方のセクションを常に含めてください
- corresp属性を使用して、視覚的なオーバーレイのために行をゾーンにリンクしてください
- ゾーン座標は実際の画像寸法と一致する必要があります
- pb要素のIIIF画像URLにより画像ビューアが有効になります