文書の構造化(XML化)
DCSでは様々な文書を利用目的に合わせた形で構造化(XML化)します。
構造化を行うことにより、文書内のデータへ効率よくアクセスしたり、作業を自動化することが可能になり、業務効率を高めることが出来ます。
また構造化すると、他の構造を持つ文書(HTMLなど)に容易に変換することが出来るようになり、作業環境に合わせた形で利用する事が可能になります。
文書の種類や用途に合わせて構造化を行うだけでなく、その先の効率的な利用方法や形態もあわせて提案いたします。
制作内容
文書のXML化、用語統一、書式統一などの作業
構造化文書のDTD、スタイルシート等作成
構造化文書の表示アプリケーション、リビジョン管理等各種文書処理アプリケーション作成
FrameMaker、Acrobat、Word等の自動スクリプト、プラグイン作成
多言語化にも対応いたします
XMLの特徴とメリット
マークアップと構造化
XMLはタグを使って文書をマークアップし、タグに意味を持たせることで文書を構造化していきます。
例:
CSV(構造化されていない文書)の場合:
"123","田中","一郎","28","経理"
XML(構造化された文書)の場合:
<社員情報> <社員番号>123</社員番号> <姓>田中</姓> <名>一郎</名> <年齢>28</年齢> <部署>経理</部署> </社員情報>
このように文書内のテキストに意味を持たせ分かりやすくしていくことで、人間にも扱いやすく、コンピュータでの自動処理などもしやすくなります。
構造化ルール(XML Scema)
XMLはマークアップ(タグ付け)して構造化する際の厳密なルールを、XML Scemaで自由に定義できます。
例:XML Schemaで、「社員情報」タグには「社員番号」「姓」「名」「年齢」「部署」の各タグを入れることができ、「社員番号」「姓」「名」「部署」のタグは必須とし、「年齢」タグはあってもなくてもよい。というルールを作成した場合、下記のようなXMLを受け付けないようにすることが可能になります。
正しいデータ:
<社員情報> <社員番号>123</社員番号> <姓>田中</姓> <名>一郎</名> <年齢>28</年齢> <部署>経理</部署> </社員番号>
誤ったデータ例1:
<社員番号> <社員情報>123</社員情報> <姓>田中</姓> <名>一郎</名> <年齢>28</年齢> <部署>経理</部署> </社員番号>
※タグの関係(名称)が間違っている(社員番号と社員情報のタグの位置関係が逆)
誤ったデータ例2:
<社員情報> <社員番号>123</社員番号> <姓>田中</姓> <名>一郎</名> <年齢>28</年齢> </社員情報>
※部署タグが記述されていない
このようにXML Schemaによるルール定義により、間違った構造を容易にチェック・発見することができ、ルールに沿った厳密な文書を作成していくことが出来ます。
構造の変換(XSLT・XSL)
XMLは自分の構造を他の形式の構造へ変換を行うことができる仕組み(XSLT)を持ちます。XSLTにより、HTMLやCSVなど他の構造のデータに変換することが可能になっています。
また、変換を行う際のルールをXSLで定義することができます。
XSLもXMLとは別のファイルで情報を定義します。例えばHTMLへ変換する定義をXSL1に、PDFに取り込み出力するための形式に変換する定義をXSL2に…というように、様々な構造への変換を分けて管理できます。
見た目やレイアウトの管理(CSS)
文書の見栄え(フォントの種類や文字サイズ、レイアウトなど)はCSSで定義することができます。XML自体は見栄えに関する情報を持たず、CSSで別に分けて情報を持ちます。これによりデータと見栄えに関する情報を分けて管理することが出来るため、見た目の変更が容易に行えると同時にデータの汎用性も高まります。
インターネットとの親和性
XMLはインターネット上でのデータ交換を意識して設計されています。
そのため、電子商取引や電子書類、マルチメディアコンテンツのフォーマットなど、多岐にわたる分野で幅広く利用されています。
例えば、文書をWEB以外の電子書類などで提供する必要が出てきた場合にも対応することが出来ます。
また、HTMLに変換ができCSSも利用できることからWEBページのフォーマット(XHTML)として採用されることも多いのが特徴です。
HTMLとの違い
HTMLはWEBページ表示専用
HTMLはWEBページの表示に特化しています。それ以外の用途に使用することには向いていません。
HTMLは利用できるタグに制限がある
HTMLは利用できるタグの種類が決まっています。また、WEBに特化しているため多様な種類の項目を分類することが出来ず、複雑な構造の文書を定義するのには向いていません。
例:
HTMLの場合:
<p>(段落)、<h1>(大見出し)、<li>(箇条書きの項目)などWEB用のマークアップのみです
XMLの場合:
<社員番号>、<更新日時>、<緯度>など自由に利用することが出来ます。
HTMLは構造化ルールが緩い(ルーズ)
HTMLは構造化ルールが緩いため厳密な文書を作成することが出来ません。多少の間違いがあってもルール上問題がなかったり、文書構造の順序に関するルールが無かったりします。
このため厳密な文書を定義するのには向いていません。
またこの緩いルールにより、文書構造の間違いを検証したり発見することが難しくなります。
さらに、文書ごとに構造にバラつきが生じることとなり、コンピューターでの処理を行う際やデータ交換の際に、これが障害となります。また、同じ理由で他の形式への構造の変換も難しくなります。
HTMLは構造化ルールがよく変わる
HTMLは構造化ルールが大きく変わることがあります(HTML4からHTML5への変更など)。
このため、データをHTMLで持ってしまうと新しいルールに対応するために全文書を書き直す必要が出てきてしまいます。XMLであれば構造の変換の定義(XSL)を修正するだけで、新しいルールに対応した文書へ変換することが可能です。
まとめに
文書によっては様々なタイトルや見出しや項番号から、出典、注記、沿革、附則など種々の項目を持ち、複雑な文書定義が必要となることがあります。
特定項目のみの抽出や、目次・メニューの自動生成なども、XMLの文書構造変換の特性ならではと言えます。
また、普遍的な構造化ルールを持つXMLでデータを保持することは、データの長期的な保存に最適な方法です。
これらの特性を活かし、アクセシビリティの高いサービスの提供、データの効率的利用、作業の自動化による作業効率の向上が可能になります。