音声言語メディアについてのサーベイ

 

早稲田大学 人間科学部 菊池英明
 

(2005/02/04) 執筆開始

 

 

1. 概要

音声言語メディアの特性についての解説をサーベイする。

2. 音声言語メディアについて

音声入力装置の利点[古井貞熙, "ディジタル音声処理," 東海出版]([新美康永, "音声認識," 情報科学講座, E-19-3, 共立出版][斎藤収三, "韻質情報の認識と理解," 講座/音声認識II, 信学誌, vol.65, no.2, pp.178-185, 1982]を引用)

(1) 音声で入力できれば、タイプライタや押しボタンなどを使う場合に比べて、操作に熟練がいらないので使いやすい

(2) 情報の入力速度がタイプライタの約3〜4倍、手書き文字入力の約8〜10倍と速い

(3) 手足、眼、耳などの器官を同時に使って、別の作業をしながら並列的に、あるいは動きまわりながら情報の入力ができる

(4) マイクロホン、電話機などを入力端末に使えるので、経済的であり、既存の電話網をそのまま用いて、遠隔地から入力することができる

音声言語を人間と機械とのコミュニケーション手段として用いることの利点[中川聖一他, "岩波講座 言語の科学2 音声," 岩波書店]

(1) 情報伝達の媒体として、新たな道具を用意する必要がない

(2) 情報伝達の速度が速い

(3) 情報の生成に特別な訓練を必要としない

(4) 感覚器官や行動器官が拘束されない

(5) 劣悪環境下でも使用できる

(6) 音声による話者照合の技術と組み合わせることにより、データの機密保護に利用できる

(7) 安価な電話網の使用ができる

情報入力速度の比較[中川聖一他, "岩波講座 言語の科学2 音声," pp.180, 岩波書店](出典は記されていないが、[新美康永, "音声認識," 共立出版]らしい)

入力形式 入力速度(語/秒)
音声 朗読 4
会話 2.5
単語 1
音節 0.5
タイピング 英文 1
和文 0.5〜1
手書き文字入力 0.4
押しボタン入力 0.3
マークセンスカード 0.1

1語 ≒ 5ストローク ≒ 2文字 ≒ 3.5音節

音声入力のメリット[田村博編, "ヒューマンインタフェース," pp.194 音声入力(畑岡信夫), オーム社]

音声とノンバーバル情報の比較[田村博編, "ヒューマンインタフェース," pp.265 ノンバーバルインタラクション(渡辺富夫), オーム社]

  音声 ノンバーバル
次元 1次元 空間次元
方向性 1方向 同時双方向
社会的合意 意図的(→責任あり) 非意図的(→責任なし)

音声メディアの特徴[北脇信彦編, "音のコミュニケーション工学," pp.52(菅村昇), コロナ社]

  話し手(送話者) 伝送路・媒体 受け手(受話者)
長所 ・特別な装置、訓練を必要としない(エネルギー源は呼気)

・情報の生成がきわめて容易(送信の負担が小さい)

・手足、目などが拘束されず、ほかの動作との併用が可能である

・通常は空気を媒体(新たな道具、媒体が不要)

・伝搬に制約が少ない(位置、姿勢、視線など)

・一度に不特定多数の人への伝達が可能

・紙などの資源を必要としない

・モニタを必要としない

・離れた場所へも伝えられる

・暗闇の中でも伝達が可能

・情報伝達の速度が速い

・電話網、電話機の利用が可能

・無線で場所の制約を回避

・蓄積、再生処理で時間の制約を回避

・入出力部の小型化

・特別な装置、訓練を必要としない(受信は耳と聴覚系)

・情報の受信がきわめて容易(受信の負担が小さい)

・手足、目などが拘束されず、ほかの動作との併用が可能である

短所 ・情報の提示が直列的

・通常記録が残らない

・周囲騒音や伝送路の雑音に弱い

・一覧性が困難(ランダムアクセスが困難)

・一度に不特定多数の人への伝達が可能(守秘性の観点から)

・情報の享受が直列的

・聞き漏らした場合には、再度正しい情報が得にくい

人の日本語入出力速度[北脇信彦編, "音のコミュニケーション工学," pp.52(菅村昇), コロナ社]

黙読: 10(字/秒)

朗読: 8(字/秒)

会話: 5(字/秒)

タイプ: 2.5(字/秒)

手書き: 0.5(字/秒)

キーボードと音声によるエディタを用いたときの、入力と編集作業における作業完了率の平均値[B.シュナイダーマン, "ユーザインタフェースの設計," pp.181, 日経BP出版センター]

  キーエディタ 音声エディタ
入力作業    
完了した入力作業 70.6 50.7
間違った入力 11.0 3.8
編集作業    
完了した編集作業 70.3 55.3
間違ったコマンド 2.4 1.5
間違った入力 14.3 1.2

音声合成が望ましい状況[B.シュナイダーマン, "ユーザインタフェースの設計," pp.182, 日経BP出版センター]

  1. メッセージが単純

  2. メッセージが短い

  3. メッセージは、後で参照されることがない

  4. メッセージは、特定の事象が発生した時に提供される

  5. メッセージは即応を要する

  6. 視覚によるコミュニケーションが過負荷になっている

  7. 明るすぎたり暗すぎたりする(意図的に暗く調節しておくこともある)環境、ひどい振動を受ける環境、あるいは視覚情報の伝達に適さないその他の環境

  8. ユーザーが自由に動き回らなければならない

  9. ユーザーが高いG(重力加速度)や酸素欠乏症を受けることがある。視覚は聴覚よりも早くGの大きさや酸欠の影響を受ける。

言語メディアの特性 [横井俊夫, "言語メディアを物語る"(p.12), 共立出版]

(1) 一般的な概念を表現することができる
(2) 抽象的な概念を表現することができる
(3) 否定を表現することができる
(4) 時間や場所、状況を自由に設定し、語ることができる
(5) 語ることを生み出す精神の内面や論理の筋道を語ることが出来る
(6) 語っている状況について語ることができる
(7) 自身について語ることができる

文字言語と音声言語の特徴[中川聖一他, "音声言語情報処理研究の動向と研究課題," 情報処理, vol.36, no.11, pp.1012-1019, 1995.]

  文字言語 音声言語
表現手段 文字(離散シンボル) 音波(アナログ波形)
表現形式 一方向・体系的記述 対話的交流
表現内容 命題 命題+モダリティ
媒体 紙、ディスプレイ 空気
受理手段 視覚 聴覚
入力 非リアルタイム オンライン・リアルタイム
記録 永続・一覧性 一過性
文体 埋め込み構造・複雑 非文法的・単純
誤り・ノイズ 誤字・誤用法・汚れ・破れ 言い間違い・言い直し・雑音
マーカ 句読点、引用符、フォント 韻律
個人性・感性 筆記体、文体 声質、韻律
学習・獲得 先天的+より後天的 より先天的+後天的

音声言語の不適格性の分類[河原達也他, "音声言語処理における頑健性," 情報処理, vol.36, no.11, pp.1027-1032, 1995.]

  曖昧性・漠然性

(情報不足)

省略

(情報不足)

重複

(情報過多)

言語的な誤り

(エラー)

システムの能力不足
形態素 同音異義語

区分化曖昧

省略語 間投語

繰り返し

言い直し

言い誤り 未知語
構文 係り受け曖昧

数量詞・限量詞

否定の範囲

助詞省略

中止文・中断

断片文・箇条書き

挿入句 数・人称不一致

助詞誤り

語順誤り

システムの構文を逸脱
意味 複数語義

比較基準

比喩・換喩

必須格の省略 同格

言い換え

選択制限違反 語彙知識不足

世界知識不足

語用論 背景・視点依存

照応曖昧

間接的言語行為

文脈による省略

ゼロ代名詞

あいづち

相手の繰り返し

相手の先回り

状況的誤り 文脈的要因

 


 

Copyright ©2005 KIKUCHI Hideaki All rights reserved.