Text Encoding Initiative
Text Encoding Initiative(テキスト・エンコーディング・イニシアチブ、略称 TEI(ティー・イー・アイ))とは、 人文学資料を適切にデジタル化するための標準策定を目的とした、国際的な共同プロジェクトである。人文学資料における多様なテキストの構造とメタ情報を、デジタル媒体上で機械可読な形で記述し、また特定のハードウェアやソフトウェアに依存せず効率的・効果的に共有することを目指しており、基盤技術として XML を採用している。
プロジェクトの運営は TEI コンソーシアムによって行われ、策定された標準は TEI ガイドラインとして公開されている。
単に TEI と言った場合、TEI ガイドラインを指す場合と、TEI コンソーシアムを指す場合とがある。現在の最新版のガイドラインは P5 と呼ばれており、TEI P5 と言った場合、ガイドラインのことを指す。
欧米の人文学向けデジタルテクスト資料の構造化ではデファクト標準になっており[1]、デジタル・ヒューマニティーズ分野の基幹技術の一つである。
標準の概要
XML によってテキストデータをマークアップしていくという方法を採っており、テキスト全体の構造から個別の箇所の解釈や異読、その他書誌情報的なものなど、様々な付帯情報までもマークアップによって記述することを目指している。
どのような深さで構造化を行い注釈を記述するかは、記述者の任意であり、段落程度の記述から、紙媒体での脚注のレベルかそれ以上の細い記述まで、様々なレベルの記述が可能である。また、言語コーパスのように各単語の属性に着目して記述するものもあれば、古典文献学のように書誌情報や異文に着目して記述するものもあるなど、対応可能な分野も様々である。厳密な学術利用に耐え得ることを目的に高い構築性を実現したものは、デジタル学術編集版 Digital Scholarly Edition と呼ばれることがある[2]。
主に人文学者や情報工学者・図書館情報学者・専門司書などが集まって作られている標準であり、コミュニティ駆動型の標準である。すべての資料に完全に適用が可能なものではなく、また、工業標準のように完全に確定したものではない。世界中のあらゆる時代の資料を、様々な方法論に基づいてデジタル化を行うべく、現在も議論とルールの拡張が続けられている。
TEI ガイドライン
TEI ガイドラインは、XML のタグ(要素)の種類や属性を定義するとともに、それらがどういう関係において利用できるかということを決めている。決められた内容は、スキーマ(DTD、RelaxNG 等で記述される)として配布されており、スキーマファイルは日本語化もされている。
また、用途にあわせたタグのモジュール化が行われており、言語学、辞書、書誌学、校訂テクストなど、必要に応じてタグをまとめて取捨選択できるようになっている。
ガイドライン自体が TEI を使って記述され、この単一のソースファイルから、散文による TEI ガイドライン、スキーマの断片、および TEI リファレンスドキュメントが生成されている。この仕組みは ODD ("One Document Does it all") と呼ばれ、TEI ガイドライン内で定義された tagdocs モジュールを使うことによって可能になっている[3]。
現在の最新版のガイドラインは、2007年にリリースされた P5 である。リリース後の改訂は GitHub リポジトリを使用して継続的に行われており、改訂の区切りごとにバージョン番号が付されている。
「90%のユーザの90%のニーズに応える」ための簡易なタグセットとして TEI Lite が用意されている他、図書館の大規模デジタルアーカイブを念頭に、マークアップの深さをレベルとして設定し可能なコストに応じてレベルを選択するという考え方を採る Best Practices for TEI in Libraries というサブセットなども用意されている。
TEI コンソーシアム
Text Encoding Initiative は1987年に幾つかの学術団体の助成を受けて開始された。その後プロジェクトの成功を受けて、2000年に国際的なメンバーシップ組織である TEI コンソーシアムが設立された。現在プロジェクトの運営は、TEI コンソーシアムが行っている。
TEI コンソーシアムは、TEI ガイドラインの維持・開発・普及活動のために、技術部会の運営、カンファレンスの開催、公式ホームページの運営、ジャーナルの発行、メーリングリストの運営、TEI の利用のためのツールチェーンの開発・提供などを行っている。
日本での取り組み
日本はその第1回準備会議から参加者を派遣し、ガイドラインの第2版である TEI P2 段階まで関与をつづけてきたが、それ以降は個人的関与にとどまり、TEI について知っている研究者は現在も少ない[4]。
しかし現在の最新版である TEI P5 では「gaiji」と名付けられた外字を扱うためのモジュールも用意されるなど、東洋の文献への適用も現実的なものになりつつあることに加え、2016年にはTEI コンソーシアムに日本語資料に対応するための環境を整備する分科会である East Asian/Japanese Special Interest Group が作られるなど、日本においても TEI の活用に取り組む機運が高まりつつある。2018年9月には、欧米以外での初めての開催となる、東京での TEI カンファレンスの開催が予定されている[5]。
脚注
- ^ 永崎研宣、2017、「デジタル文化資料の国際化に向けて:IIIFとTEI」 (pdf) 、『情報の科学と技術』67巻2号、情報科学技術協会、エラー: 不正なDOI指定です pp. 61-66
- ^ “TEIとoXygenの初歩 Digital Humanities notes in Japan”. 永崎研宣. 2018年5月1日閲覧。
- ^ “Writing ODD specifications”. TEI Consortium. 2018年5月1日閲覧。
- ^ “TEIはなぜ日本で知られなかった、知られていないか、知られるようになるか(アブストラクト)”. 土屋俊. 2018年5月1日閲覧。
- ^ “TEI Conference & Members' Meeting 2018 in Tokyo”. 2018年5月1日閲覧。