XMLの論考: テキスト・エンコーディング・イニシアチブ

http://www-6.ibm.com/jp/developerworks/xml/040109/j_x-matters30.html
TEI （Text Encoding Initiative）．名前だけは知っていたけど中身は知らなかったもののひとつ．
で，記事を見たんだけど，やはり駄目だと思う．

以下一例，リア王の一節



<sp><speaker>Kent</speaker>
<p>Now by Apollo, king,<lb/>

Thou swear'st thy gods in vain.<lb/></p></sp>
<sp><speaker>Lear</speaker>

<p>O vassal! miscreant!<lb/></p></sp>
<p><stage>Laying his hand on his sword.</stage><p>
<sp><speaker>Alb. and Corn.</speaker>

<p>Dear sir, forbear!<lb/></p></sp>
<sp><speaker>Kent.</speaker>

<p>Do;<lb/>

Kill thy physician, and the fee bestow<lb/>

Upon the foul disease. Revoke thy gift,<lb/>

Or, whilst I can vent clamour from my throat,<lb/>I'll tell thee thou dost evil.<lb/></p></sp>

なんでもこんなのは単純な例で以下の例は各行が不完全韻律か，あるいは完全韻律かを示すらしい．

明示的韻律を持ったTEIの「リア王」



<sp><speaker>Kent.</speaker><lg>

<l part="Y">Do;</l>

<l part="N">Kill thy physician, and the fee bestow</l><l part="N">Upon the foul disease. Revoke thy gift,</l>

<l part="N">Or, whilst I can vent clamour from my throat,</l>

<l part="N">I'll tell thee thou dost evil.</l></lg></sp>

他にもいろいろなマークアップ付けが出来るらしい．
でも，こういうのを見るといつも疑問に思う，誰がマークアップ付けするんですかい？
確かに豊富なタグ付けがなされていれば，非常に単純なプログラム，あるいはスクリプトで，タグ付けがなされた文書をさまざまな形で利用できる．元記事にはこんな記述もある．

ちょっと単純化した例として、新約聖書のある版において、イエスが直接言ったとされる言葉のすべてを赤字で目立たせようとしている場合を考えてみてください。TEIマークアップでは、単に話者を示すだけで、文字色のような印刷上の問題は印刷過程で決定できるようにすることができます。

「イエスが直接言ったとされる言葉のすべて」をマークアップするなんて作業を引き受けるのは僕はいやだよ．
この手の，XMLをドキュメント方面で使うと便利ですという話はみんな，ドキュメントにはすでにタグ付けがなされているという前提が暗黙裡にある．で，誰がどうやってタグ付けするの？そのコストは？という話はタブーになっていることが多い．
僕はこの手の話をひそかに「猫の首にタグをつける」と呼んでいる．猫の首にRFIDかなんかのタグがついていれば，鼠たちは猫の動向を常時監視できて便利かもしれないが，誰がどうやってそんな命がけの作業をするのだろう？もちろんこれはタグ違いだけど，本質は同じだ．
もうひとつ付け加えると，この手の話には，意味論的にタグを付け加えることの素晴らしいさを賞賛するのと同時，見た目でタグを付けることを蔑視する話がついてくる．しかし見た目に沿ってタグをつけるのはとても簡単である．color="red"なんてアトリビュートを付けるのは，色盲でもないかぎり誰でもできる．いや色盲のことは詳しくないけど完全色盲とかいう人じゃない限り色盲の人でもできる作業だろう．しかし「純粋理性批判」を適切に注釈付けできるマークアップ作業なんて出来る人は限られている．
それに意味論に基づいたマークアップは，作業が正しく行われたかどうかチェックするのも大変だ．見た目に基づいたマークアップ付けは，オリジナル，すなわちマークアップされる前のドキュメントと比較すれば，マークアップの妥当性は一目瞭然だ．だが意味内容を表すマークアップ付けの作業内容をチェックするには，文章を読んでマークアップされている文章や単語の意味や特徴が，タグに正しく記述されているかどうかチェックする必要がある．これはタグをつける作業に勝るとも劣らない苦行である．
XMLが当初の見込みとは違い，ドキュメント以外の分野での利用が進んでいるのもこの辺に理由ある．そういう分野では自動的に正しいタグ付けが行えるので，人間の手を煩わす必要はデバッグの時以外ないからだ．
「文学的な学問の多くの領域に自動化をもたらす」ために膨大な手作業を必要とするというジレンマが解決されない限り，この手のフォーマットが広く普及することはないと思う．

追記: この文章デジャブ-を感じるなあ．前にも書いたっけ？

[permalink][contents][page top]