CSJの利用ガイド

 

早稲田大学 人間科学部 菊池英明

 

(2004/06/24) 公開
(2004/07/06) 音声学セミナー向けに更新
(2004/07/09) を追加
(2007/11/10) CSJXMLBrowserインストール方法、xsltprocのバッチファイル追記
(2010/08/31) リンクを一部修正

 

本文書では、CSJ(Corpus of Spontaneous Japanese; 日本語話し言葉コーパス)の利用方法について解説します。

[目次]

1. CSJのインストール

 1.1 DVD-ROMの入手

 1.2 DVD-ROMからコピー

2. ブラウジング

 2.1 転記データのブラウジング

  2.1.1 転記データの所在

  2.1.2 Webブラウザでのブラウジング

  2.1.3 テキストエディタでのブラウジング

  2.1.4 専用ツール(MonoForC)でのブラウジング

 2.2 音声データのブラウジング

  2.2.1 音声データの所在

  2.2.2 WaveSurferでのブラウジング

3. XML文書の利用

 3.1 XML文書のブラウジング

  3.1.1 XML文書の所在

  3.1.2 Webブラウザでのブラウジング

 3.2 XML文書の検索・整形

  3.2.1 XSLTとXPath

  3.2.2 xsltprocによるXML文書の整形・検索

  3.2.3 "CSJ XML Search Tool"(塚原ツール)によるXML文書の整形・検索

4. その他の利用方法

(で始まる文はPC初心者向けのコメントです。参考にして下さい。)

 

1. CSJのインストール

1.1 DVD-ROMの入手

下記URLにアクセスし、必要な手続きを行ってDVD-ROM(18枚組)を入手してください。

http://www2.kokken.go.jp/~csj/public/members_only/releaseinfo/index.htm

1.2 DVD-ROMからコピー

ご利用になるコンピュータのハードディスクに充分な容量(最大約100GB)の空き領域がある場合にはDVD-ROMを全て適当なディレクトリにコピーしてください。

CSJには多様な情報が含まれています。利用目的に応じて必要な分だけコピーするのでも構いません。以下に主な目的毎の必要なディスク番号を示します。

目的 ディスク番号
転記テキスト(のみ)の分析 Disk1
形態論情報(のみ)の分析 Disk1
音声認識 Disk1
XMLを利用した分析 Disk2
音声ラベルを利用した音声データブラウジング Disk3,Disk4
音声ラベルを利用しない音声データブラウジング Disk3〜17

詳しくは、

各ディスクに何が入っているかを見るにはDisk1の"00README"をごらんください。

 

逆に、CSJに収められた個々の音声データ(講演)がどのディスクに入っているかを見るにはDisk1の"DATA\talk_data.dat"をごらんください。

なお、以下ではWindows XP上で、"C:\CSJ"に、"VOL1","VOL2",...の名前でDVD-ROMの各ディスクからコピーした ものと想定して説明します。

2. ブラウジング

ここではCSJの様々なデータをブラウジングすなわち閲覧する方法について説明します。

2.1 転記データのブラウジング

2.1.1 転記データの所在

転記データはVOL1(Disk1をコピーしたもの)内のTRN-EUC,TRN-SJISディレクトリ内にそれぞれEUCコード,SJISコードでエンコードされた テキストファイルが"*.trn"の名前で収められています。Windows上ではSJISコードが標準の文字コードとなっているので、TRN-SJISディレクトリ内に収められているファイルを使えばいいでしょう。

2.1.2 Webブラウザでのブラウジング

転記データを閲覧するだけならば、Webブラウザでもできます。

転記データのファイルのアイコンをInternet ExplorerなどのWebブラウザ上にドラッグ&ドロップすれば、Webブラウザ上に転記データが表示されます。Webブラウザに表示された転記データに対して、簡単な文字列検索を行うこともできるでしょう。

ただし、注釈を書き込むなどの編集操作は一切できません。そのような操作を行うには次の「2.1.3 テキストエディタでのブラウジング」を行うとよいでしょう。

2.1.3 テキストエディタでのブラウジング

Windowsのアクセサリプログラムである「メモ帳」や「ワードパッド」などで、編集可能な状態で転記データを閲覧することができます。WindowsXPでは「メモ帳」も「ワードパッド」も「スタートボタン」→「すべてのプログラム」→「アクセサリ」の中にあります。

メモ帳よりワードパッドの方が多機能ですが、転記データを閲覧する、という目的においてはメモ帳で充分でしょう。

<メモ帳を起動>

<メモ帳で転記データをブラウジング>

 

<ワードパッドで転記データをブラウジング>

2.1.4 専用ツール(MonoForC)でのブラウジング

CSJのDVD-ROMには、籠宮隆之氏(国立国語研究所)が開発した、転記データのブラウザ"MonoForC"(Monologue browser For Corpus of Spontaneous Japanese)が収められています。このブラウザを使えば転記データのブラウジングができるだけでなく、転記データに対する高度な検索をしたり、対応した音声を聴取したりすることができます。

以下にはそのインストール方法と使用方法を説明します。詳しいインストール方法は、VOL1ディレクトリ内TOOL\MNFC\install.htmlに記述されています。

以下はCSJのDVD-ROMに収められているMonoForCについての解説ですが、最新のバージョンとそれについての情報がこちらに掲載されています

(1) MonoForCのインストール

まず、VOL1ディレクトリ内TOOL\MNFC\mnfc020b4.zipを解凍します。

WindowsXPでは右クリック→「すべて展開」で展開ウィザードが起動し、解凍することができます。(他の バージョンのWindowsではWinzip+Lhacaなどの解凍ツールを使って解凍してください。)

<MonoForCのアーカイブ解凍>

解凍場所(展開先)はここでは"C:\CSJ\VOL1\TOOL\MNFC"とします。これ以外の場所に解凍しても問題ありません。

<MonoForCのアーカイブ解凍の様子>

以上でインストールは完了です。

(2) MonoForCの起動

(1)の手順で解凍してできた"mnfc020b4"ディレクトリには以下のようなファイルがあります。

<MonoForCのアーカイブを解凍してできたディレクトリ>

この中の"mnfc.exe"をダブルクリックすれば、MonoForCが起動されます。

<MonoForCの初期画面>

"mnfc.exe"のファイルアイコンの位置でマウスの右クリック→「[スタート]メニューにアイコンの追加」を実行しておけば、次回からはスタートメニューから簡単に起動することができるようになります。

(3) MonoForCの使用方法

MonoForCの使用方法の詳細についてはMonoForCのHelpメニューで知ることができます。以下には使い方を簡単に説明します。

まず、[File]メニューから[Load]を選択し、転記データファイルを探して指定します。

<MonoForCでファイルをオープンする様子>

この時、転記データファイルと同じ場所(ディレクトリ)に対応する音声ファイルがないと、以下のような警告が表示されます。

<MonoForCで転記データファイルを開いた時に同じ位置に音声ファイルがない場合の警告>

この場合は、"OK"ボタンを押して現れたダイアログボックスで音声ファイルの場所を指定してください。なお、音声ファイルはVOL3以降のデータごとのディレクトリ内に"*.wav"の名前で格納されています。

以上の操作を実行すると、以下の3つのウインドウが表示されます。

<書き起こしウインドウ: 転記データを表示します>

 

<音声ウインドウ: 音声波形と転記テキストを時間軸上に表現します>

 

<スピードバー: 転記基本単位(発話に相当)へのショートカットのリストを表示します>

この3つのウインドウを利用して、閲覧したい発話の音声波形とテキストを表示したり、その音声を再生したり、スペクトログラム・基本周波数の分析結果を表示したりすることができます。

これ以上の詳細はMonoForCのHelpメニューを参照してください。

2.2 音声データのブラウジング

2.2.1 音声データの所在

音声データはVOL3(Disk3をコピーしたもの)以降の各ディレクトリ内にRIFF形式でエンコードされたものが"*.wav"の名前で収められています。RIFF形式はWindows上でのマルチメディアファイルの標準的な形式なので、ほとんどのWindows環境でそのままマルチメディアファイルプレーヤー(Windows Media Playerなど)で再生することができるでしょう。

2.2.2 WaveSurferでのブラウジング

音声データをただ再生するだけでなく、スペクトログラムや基本周波数の分析をしたり、またその結果をラベルとして記録したりするために、サウンド視覚化・編集・分析ツールを使う必要があります。Windows上で動作するツールの代表的なものに"WaveSurfer"というソフトウェアがあります。

WaveSurferのインストール・実行方法についての詳細はこちらをごらんください。

3. XML文書の利用

CSJには、話者情報、転記情報、形態論情報、分節音情報などの様々な研究用の情報が収められています。それぞれの情報はその種類ごとにファイルに記述されていますが、そのままでは、例えば「ある特定の語のアクセント位置はどのように分布しているか」というように、異なる種類の情報に跨った分析をすることができません。

<データ番号"A01F0055"の転記データ"A01F0055.trn"と短単位データ"A01F0055.sdb"と分節音データ"A01F0055.seg"をブラウジングしている様子。これらの情報に跨った分析は、このままではやりにくい。>

そこで、異なる種類の情報に跨った分析を容易にするために、情報を相互に関係付けて統合したXML文書が用意されています。以下にはこのXML文書のブラウジングや検索などの利用方法を説明します。

なお、XMLの基本やCSJのXML文書の詳細については、マニュアル「XML文書について」(VOL1(Disk1をコピーしたもの)\DOC\xml.pdfか、Webサイト)をごらんください。

3.1 XML文書のブラウジング

3.1.1 XML文書の所在

まず、XML文書は、VOL2(Disk2をコピーしたもの)に"*.xml"の名前でその全てが収められています。またVOL3(Disk3をコピーしたもの)以降の各データのディレクトリ内にもそれぞれのデータについてのXML文書が収められています。

CSJのXML文書はUTF-8でエンコードされています。

3.1.2 Webブラウザでのブラウジング

XML文書のファイルのアイコンをInternet ExplorerなどのWebブラウザ上にドラッグ&ドロップすれば、Webブラウザ上にXML文書が表示されます。Webブラウザに表示されたXML文書に対して、簡単な文字列検索を行うこともできるでしょう。

<WebブラウザでXML文書を表示した様子>

3.2 XML文書の整形・検索

XML文書には、異なる種類の情報が相互に関係付けて記述されています。XML文書を対象にしてデータ分析を行う場合、XML文書の 構造を別の構造に変換したり、必要な情報だけを取り出したりして利用することになります。

XMLはデータの構造を任意に定義して記述することのできるデータ記述言語であり、その関連規格であるXSLTを利用すれば一度記述された構造を容易に任意の構造に変換することができます。以下には、まずXSLTと、その基本になるXPathについて解説し、そのうえでXSLTによるXML文書の整形・検索方法として、xsltprocと"CSJ XML Search Tool"を用いる方法を説明します。

3.2.1 XSLTとXPath

XSLT(Extensible Style Language Transformation)とは、XMLに記述されたデータの構造を変換するためのXML関連規格です。

XSLTの規格に沿って構造変換の仕様を定義することによって、以下の図のように、あるXMLの構造を変えて新たなXMLを生成したり、必要な情報だけを取り出して希望する形式に加工したりすることができます。

XSLTの基本構造は以下のようなものです。

最初にこのファイルがXSLTであること(XSLT指定)を記述します。次に、XSLTの処理の結果をどのように出力するか(出力指定)を記述し、その後に、テンプレート規則を記述する形で、構造変換規則を記述していきます。

以下には、CSJのXML文書に対して、「形容詞のアクセント位置を分析する」を例に、XSLTテンプレート規則の記述の仕方を解説します。CSJのXML文書の詳細については、マニュアル「XML文書について」(VOL1(Disk1をコピーしたもの)\DOC\xml.pdfか、Webサイト)をごらんください。簡単に説明を加えておくと、語(CSJでの短単位)はSUW要素、その品詞はSUWPOS属性、代表表記はSUWLemma属性、活用形はSUWConjugateForm属性、発音はPhoneticTranscription属性に記録されます。また、語の知覚アクセント位置は韻律情報から得られ、XJToBILabelWord要素のPerceivedAccPos属性に記録されます。

まず、ここでは「形容詞のアクセント位置を分析」しますので、品詞が形容詞である語、つまりSUWPOS属性の値に"形容詞"を持つSUW要素を調べる必要があります。そこでまずSUW要素についてのテンプレート規則を記述し、その中でSUWPOS属性の値が"形容詞"であるかどうかを調べることにします。

以下はSUW要素についてのテンプレート規則を記述したものです。点線で囲んだ部分で、XSLTの"xsl:if"を利用してSUWPOS属性の値が"形容詞"であるかどうかを判定しています。"<xsl:if ...>"と"</xsl:if>"で囲まれた濃い茶色で示したブロックが"xsl:if"のブロックです。条件判断の条件を"<xsl:if"に続く"test="の後に記述します。条件判断の結果行う処理を"<xsl:if ...>"と"</xsl:if>"で囲まれる位置に記述します。"xsl:if"ブロックで記述できる条件式は、この例のように「指定する属性の値が何かと一致するかどうか」の他に、「指定する属性の値がある数より大きいかどうか」や「指定する条件の要素があるかどうか」など様々です。

さて、次に、品詞が形容詞である語について、その代表表記、活用形、発音を出力します。つまり、SUWPOS属性の値が"形容詞"であるSUW要素について、そのSUWLemma属性、SUWConjugateForm属性、PhoneticTranscription属性の値を出力します。

以下の図の点線部分がそれぞれの属性の値を出力する記述です。XSLTの"xsl:value-of"を利用して、"select="に続いて出力する属性名を記述しています。点線で囲まれた各行の間にある"<xsl:text>,</xsl:text>"は、テキストとして","という文字を出力するという意味を表します。つまり、"xsl:value-of"で出力される各属性の値の間に","を出力することを、下のXSLTは記述しているのです。

そして、次に、語の知覚アクセント位置を出力します。つまり、SUW要素の下位にあるXJToBILabelWord要素のPerceivedAccPos属性の値を出力します。

以下の図の点線部分がSUW要素の下位にあるXJToBILabelWord要素のPerceivedAccPos属性の値を出力する記述です。「下位にある」という意味を"descendant::"と記述しています。このように、XSLTでは、ある要素から別の要素を指定する際に、"descendant"や"ancestor"(上位ノード)、"preceding"(前方)、"following"(後方)などのキーワードを使って方向を指定することができます。下のように"descendant::XJToBILabelWord[1]"と記述すれば、現在注目しているSUW要素から見て下位の方向にあるXJToBILabelWord要素の第一要素を指定することになります。それに続いて"/@PerceivedAccPos"とすれば、その要素のPerceivedAccPos属性の値を指定することになります。このような要素間の関係に基づいて位置や対象を指定する方法はXPathと呼ばれる別の規格によって定められています。

以上のようにして、XSLTの規格にしたがって、XML文書から必要な情報を取り出して希望する形式に加工して出力する処理を記述することができます。

このようにして記述したXSLTの定義を処理する方法について、次に解説します。

3.2.2 xsltprocによるXML文書の整形・検索

xsltprocとは、GNUが提供するXSLTのコマンドラインプロセッサです。あらかじめファイルにXSLTの定義を記述しておけば、コマンドによってXML文書に対するXSLT処理(検索や整形など)ができます。

xsltprocのインストール方法については、こちらを参照してください。

実行する際には、xsltproc.exeのある場所に移動し、以下のコマンドを実行 します。

コマンドの実行は「スタート」→「すべてのプログラム」→「アクセサリ」→「コマンドプロンプト」により開いたウインドウからできます(このコマンドプロンプトはWindows上でのコマンドの実行時によく使われます))。

xsltproc.exe XSLファイル名 XMLファイル名

 

このコマンドだけでは、処理の結果が画面上に流れるだけなので、処理の結果をファイルに保存するために以下のようにして実行します。

xsltproc.exe XSLファイル名 XMLファイル名 > 結果ファイル名

xsltprocによるXML文書の整形・検索の具体例として、3.2.1の「形容詞のアクセント位置を分析する」で示したXSLT定義を、CSJのXML文書に対して実行する場合、XSLTの定義を記述したファイルの名前を(C:\CSJ\test\)adj_acc.xsl、CSJのXML文書ファイルの名前を(C:\CSJ\VOL3\A01F0055\)A01F0055.xmlとし、結果ファイルの名前をadj_acc.txtとすると、以下のようにコマンドを実行すればXSLT処理が行われます。

 

この処理の結果、adj_acc.txtには以下のような結果が書き込まれます。

高い,連用形,タカカッ,2,
若い,連体形,ワカイ,2,
大きい,連体形,オーキー,3,
低い,連用形,ヒクク,1,
青い,連体形,アオイ,2,
赤い,連体形,アカイ,0,
白い,連体形,シロイ,2,
少ない,連体形,スクナイ,0,
無い,終止形,ナイ,1,
強い,語幹,ツヨ,1,
高い,仮定形,タカケレ,1,
高い,連体形,タカイ,2,
無い,連体形,ナイ,1,
無い,終止形,ナイ,1,

なお、上記の方法では一つのXMLファイルに対する処理しかできませんが複数のXMLファイルに対してまとめて処理を行いたい場合には以下のようにバッチファイルを使ってワイルドカードで実行することができます。

上記の例で使ったバッチファイルの内容は以下のとおり。(前川喜久雄氏作成)

@echo off
for %%I in (%1) do xsltproc extract_Mora.xsl %%I

("extract_Mora.xsl"は転記基本単位(IPU)ごとにその開始時刻と終了時刻、モーラ列を出力するXSLT)

3.2.3 CSJ XML Search Tool(塚原ツール)によるXML文書の整形・検索

"CSJ XML Search Tool"とは、CSJのDVD-ROMのVOL1(Disk1をコピーしたもの)のTOOL\XML_BROWSERに収められた、塚原渉氏(現電気通信大学助手)によるソフトウェアです。このソフトウェアは、CSJのXML文書に対してのXPathやXSLTによる検索・整形・加工を、グラフィカルユーザインタフェースにて容易に実現できるようにするものです。 (2005/12/14現在、CSJ XML Search Tool(CSJXMLBrowser)の最新版はこちらで公開されています。)

"CSJ XML Search Tool"の詳細については、マニュアル「XML文書について」(VOL1(Disk1をコピーしたもの)\DOC\xml.pdfか、こちら)をごらん下さい(マニュアルver.1.xには、"CSJ XML Browser"(XMLブラウザ)と記述されていますのでご注意ください)。

(2007/11/10追記)

CSJ XML Search Toolのインストールには以下の設定が必要です。上記マニュアル等には記述されていませんのでこちらを参考にして下さい。

1) Javaのインストール

まずJavaがインストールされているか、バージョンが何かを確認して下さい。

 コマンドプロンプト(「すべてのプログラム」→「アクセサリ」→「コマンドプロンプト」)を実行し、"java -version"と打ち込んでみて下さい。以下の図のようなメッセージが出てくればJavaはインストールされています。以下の例では、バージョンは"1.6.0_02"と示されています。

上図のようにならず"javaは、内部コマンドまたは外部コマンド、操作可能なプログラムまたはバッチファイルとして認識されていません"というメッセージが出た場合はJavaはインストールされていません。

JavaのHPからPopular DownloadsのJava SEをクリックしてインストールを行って下さい。そのうえで上記のコマンドを再度実行してバージョンを確認して下さい。

以上でCSJ XML Search Tool (CSJXMLBrowser)が起動できるようになります。

WindowsXP以外の環境では以上の手順を行っても起動しないことがあります。その場合は、コマンドプロンプトを起動して、DVD-ROMのVOL1\TOOLのあるディレクトリに移動してから、"java -jar csjxmlbrowser.jar"を実行すると起動することがあります。

 

2) Xalanのインストール

Xalan-javaのHPから"Downloads"->"xalan-j distribution directory"をたどり、適当なサイトから"xalan-j_2_x_x-bin.zip"(xのところは適当な数字)をダウンロードしてインストールして下さい。

インストールしてできたXalanのディレクトリにあるxalan.jar,xercesImpl.jar,serializer.jar,xml-apis.jarの4つを、Javaがインストールされたディレクトリ(通常、バージョンが1.6.0_02ならC:\Program Files\Java\jre1.6.0_02)の下のlib\extディレクトリにコピーする。

以下には上の「形容詞のアクセント位置を分析する」を例に、"CSJ XML Search Tool"の利用方法を解説します。

まず最初に、インストールした"CSJ XML Search Tool"を起動しましょう(マニュアルp.24参照)。

すると、下のような初期画面が現れます。

基本的には、この画面上の「読み込み」「クエリ設定」「結果XML」「XSLTフォーマット」「結果」「IPU」タブを左から順に実行していくことで、XML文書に対するXPathやXSLTによる検索・整形・加工ができます。

まず、はじめに処理を行うXML文書を読み込む必要があります。「読み込み」タブが選択されている状態で(初期画面はこの状態になっています)、「参照」ボタンをクリックして、XML文書ファイルの場所を指定して「開く」ボタンをクリックしてください。

すると、指定したXML文書ファイルの読み込みが始まり、以下のような画面が現れます。

読み込みが完了すると以下のように、「クエリ設定」の画面になります。この画面で、検索したいデータを設定していきます。なお、ここで言う「クエリ」とは、X-Queryという規格により記述される検索式のことを表します。厳密に言えばこのX-QueryはTaminoというXMLデータベース検索ソフトウェア独自の規格ですが、XPath1.0にほぼ準拠しているので、ここではXPathの規格にしたがった検索式と考えて説明していきます。

上の画面上、右下部に、CSJのXML文書に現れる全ての要素の一覧が表示されています。ここから検索したい要素を選ぶことにより、検索式が生成されていきます。

「形容詞のアクセントを分析する」を例にすると、まずはじめにSUW要素を検索する必要があります。上の画面、右下部の要素一覧から"SUW"を選択して、左の青い領域内にドラッグアンドドロップをします。

青い領域内に現れた小さいウインドウ内には、SUW要素の属性を選択したり、値を記述したりする領域があります。 ところで、それまで「ここには生成されたX-Queryが入ります」というメッセージが表示されていた領域に"//IPU[ .//SUW[@SUWID]]"という文字列が現れています。これは、ドラッグアンドドロップの操作によって生成された検索式です。このようにして、グラフィカルユーザインタフェースの操作によって検索式を自動的に生成していくのです。もちろん、直接検索式を入力しても構いません。

それでは、次に、SUWPOS属性の値が"形容詞"であるものを検索するために、それぞれ入力・操作すると以下のような画面になります。

これで、検索式は"//IPU[ .//SUW[@SUWPOS=`形容詞`]]"となりました。この式だけでも、実行すれば、形容詞を含むIPU要素(発話単位に相当)の検索ができます。

続いて、検索される「SUWPOS属性の値が"形容詞"であるSUW要素」について、そのSUWLemma属性やSUWConjugateForm属性、PhoneticTranscription属性の値を取得したいのであれば、小さいウインドウ内の"AND"ボタンを押してそれらの属性を指定していきます。

さらに、語の知覚アクセント位置を出力するために、SUW要素の下位にあるXJToBILabelWord要素のPerceivedAccPos属性の値を取得したいのであれば、再び画面右下の要素一覧からXJToBILabelWord要素を選択し、青い領域内にドラッグします。

以上の操作によって、XML文書に対して行いたい検索の式が生成できたので、この検索式による検索を行います。生成した検索式で検索を行うには、「クエリ設定」タブの画面内右側の「検索」ボタンをクリックしてください。そうすると、検索が始まり、検索が終わり次第、以下のような画面になります。下の画面では、ウインドウ内の「結果IPU」という箇所に「13件」と表示されています。これは、生成された検索式による検索の結果、読み込まれていたXML文書内で13件ヒットしたことを表しています。

検索の結果をXMLの形で見たい場合には「結果XML」のタブをクリックしてください。そうすると、以下のような画面に切り替わります。

この画面上で、「検索結果XML表示」と示された右側を操作することにより、検索されたデータをXMLの形で見ることができます。例えば1件目から3件目までを見たい場合には、"1〜1"となっている箇所を"1〜3"に変更し、「件目」ボタンをクリックしてください。

ところで、ここで得られた検索結果は、検索式で指定された条件に合致する要素を含むIPU要素以下がXMLの形で記述されたものです。ここには指定した情報が全て入っていますが、指定していない情報も入っているかもしれません。先ほど検索式を生成する際にやはり自動的に生成されたXSLTを使って指定した情報だけを表の形で表示することができます。「XSLでフォーマット」タブで切り替わる画面には、以下のように自動的に生成されたXSLTが表示されます。

このXSLTを修正したり、追加したりすることで、さらに表示形式を変えたり表示する内容を変えたりすることができます。

ここでは、このXSLTをそのまま使って、表形式で表示してみます。「結果IPU(13件)」というタブをクリックしてください。そうすると、自動生成されたXSLTによって表形式に整形された結果が表示されます。

この画面上の「ファイル出力」ボタンでXSLTの処理結果がファイルに保存されます。また、「CSV」ボタンでCSV形式に、「ソース」(「HTML」)ボタンでHTML形式に整形された結果が画面に表示されます。

"CSJ XML Search Tool"には、さらに、XMLの形で得た検索結果から、時間軸上に全てのXML要素の関係を表現する機能が用意されています。「IPU」のタブをクリックすると以下のような画面に切り替わります。この画面は、水平方向に時間軸を設定し、IPU要素からXJToBILabel要素までを上から配置したもので、この画面によって、XMLや表形式では判断しにくい時間的な構造を確認することができます。さらに、2.1.4で解説した転記データ・音声データのブラウジングツールMonoForCがインストールされていれば、ここからMonoForCを起動して音声を聞いたり音声波形等をブラウジングすることができます。

 

以上で、「形容詞のアクセント位置を分析する」の目的に必要なデータを取り出すことができました。

このようにして、"CSJ XML Search Tool"を使って、XML文書に対する検索式をグラフィカルユーザインタフェースの操作により自動生成し、また検索結果を表示・保存することができます。

4. その他の利用方法について

(近日公開予定)

5. 参考

CSJについては以下のWebサイトにおいて随時最新情報が公開されます。

http://www.kokken.go.jp/katsudo/kenkyu_jyo/corpus/

XML、XSLT、XPathなどの規格については以下のWebサイトにて随時最新情報が公開されています。

http://www.w3.org/

また、これらの規格の詳細については以下の書籍が参考になります。

標準XML完全解説 上・下 (通称赤本、青本)/技術評論社

謝辞

本ガイド作成にあたりコメントをいただいた谷口未希さんに感謝いたします。


 

Copyright ©2004 KIKUCHI Hideaki All rights reserved.