|
卒論要旨検索システムの開発2008年度ウェブ検索実習課題 |
|
|
|
システムの要件
元データ
2007年度卒業研究要旨の電子ファイル(586ファイル)。
形式は、PDF(拡張子pdf)346ファイル、Word文書(拡張子doc)238ファイル、Office2007Word文書(拡張子docx)2ファイル。
サンプル: 1j04f138.pdf
検索項目
(ファイル名)
氏名
学籍番号
教員名
タイトル
卒業年度
学科(教員の所属学科)
専門分野(教員の専門分野) [こちらのページより]
概要
ユーザが、検索項目の各欄に入力したワードに基づいて、あらかじめ作成したインデックスを対象に検索して、該当する文書の情報を取得し、ランキングを行ったうえで検索結果を作成する。なお、システムはフリーソフトのLuceneをベースに開発し、Webサーバとの連携はApache-tomcatのうえで行う。
卒論要旨の電子ファイルは、PDF/Word文書が混在して提出されているが、全てをPDFに変換して閲覧に際してはPDFを提供する。インデクシングには、あらかじめテキストデータに変換したデータを用いる。
システム開発環境
PDF化環境
PDF2TXT化環境
Lucene-ja
ここに環境整備の手順をまとめた。
Lucene-ja : 検索エンジン+日本語解析
1) 上記ページの「セットアップ」にしたがってLucene-jaをインストール(lucene-ja-1.4.3sen1.2-2.zip)
インデクサー開発のためには、lucene-ja-2.0test2.zipをインストールする(srcディレクトリがあるので)
binディレクトリにあるmktextindex.shもしくはmkhtmlindex.sh, srcディレクトリにあるIndexJFiles.javaもしくはIndexJHTML.javaがインデクサーの見本。
3) デモプログラムを動かしてみる
インデクサー開発のためには、上記のmktextindex.shと、同じ場所にあるsearch.sh。
サーチャー開発のためには、lucene-jaのディレクトリ内にあるwebappディレクトリをapache-tomcatのwebappsディレクトリにコピーして動かしてみる
4) あとはそれぞれのデモプログラムをもとに開発する。
Apache-tomcat
起動方法:
% /usr/local/apache-tomcat-5.5.25-src/build/build/bin/startup.sh
(http://shinzan.human.waseda.ac.jp:8080/lucene-ja/ にアクセスしてwebページが参照できればtomcat起動済み)
システム開発の役割分担
役割 Aグループ Bグループ (1) 西川、吉原 (2) 西川、吉原 (3) 小林、石黒 内田、宮城 (4) 南、森田 藤ノ木、網田 (5) 森木 杉山
(1)PDF化
1) シェアウェア「瞬間PDFZERO」を使ってWordファイルを一括してPDFに変換する。
サンプル: 1j04f138.pdf
2008/07/01 PDFはあらかじめTXT化することにしました。インデクサー担当の人は、インデクシングにこちらを使ってください。
TXT.zip (テキストはShift-JISでエンコード。一部文字化けあり)
PDF.zip
(ファイルが必要な人はメールで連絡ください)
(2)属性情報作成
入力はPDFと、卒研成績のデータ。
卒研成績のデータの形式。
番号,氏名,教員, 最終的な属性情報のイメージ。
ファイル名,番号,氏名,教員,研究領域,タイトル, それぞれの情報は以下のように取得する。
ファイル名:これを元にする
番号:ファイル名から拡張子を除く
氏名:卒研成績データより番号をキーに取得(吉原プログラム)
教員:卒研成績データより番号をキーに取得(吉原プログラム)
専門分野:別データ
タイトル:PDFから番号をキーに取得(菊池プログラム)
1) PDFを開いて卒研成績データと付き合わせて卒研成績データ(Excelファイル)を完成させる(西川)
2) 卒研成績データ(Excelファイル)をテキスト化し、ファイル名との対応付けを行う(存在するファイルについて、卒研成績データを検索して番号をキーに氏名・教員の情報を取得する)
3) ファイル中に記されているタイトル情報をプログラムによって取得する(菊池)
4) 教員の専門分野についてはこちらのページを解析してデータを作成する(菊池)
サンプルデータ:sample_table.csv (Shift-JISでエンコード)
(ファイルが必要な人はメールで連絡ください)
(3)インデクサ
↑(4)サーチャー
↑(5)ページデザイン