Contents

3.1 情報圧縮技術

第3章 マルチメディア情報圧縮

インターネット上で、マルチメディアコンテンツの視聴を実現したキー技術であるマルチメディア情報圧縮技術について説明します。


3.1 情報圧縮技術

パーソナルコンピュータが登場した当初は、テキスト情報を扱うことが主体でした。このため、静止画情報、オーディオなどの音声情報、ビデオなどの動画像情報は、テキスト情報に比べて情報量が著しく大きく、コンピュータのディスクに保存することは困難でした。

さらに、これらのマルチメディアデータのソフトウェア再生についても、コンピュータの処理能力の不足から困難であり、専用かつ高価なハードウェアが必要でした。

その後、マルチメディア情報の再生環境は、コンピュータの処理能力の向上、およびメモリやディスクの大容量化によって、著しく向上しました。今日、パーソナルコンピュータは、マルチメディアコンテンツの視聴、保存、さらには制作・加工するための手段として活用されるようになりました。

「音声」情報のデータ量は、音声品質(サンプリング周波数、ディジタル化ビット数、チャネル数などのパラメータ)によって大きく変わります。表3.1に、Windowsのサウンドレコーダーでの代表的な音質に対応したパラメータを示します。

表3.1 代表的な音質とパラメータ
音質の目安 サンプリング周波数 ビット数 チャネル数 データ量
電話(電話より良い) 11 kHz 8 ビット 1(モノラル) 11 Kバイト(1秒あたり)
ラジオ(AMとFMの間) 22 kHz 8 ビット 1(モノラル) 22 Kバイト(1秒あたり)
音楽CD 44 kHz 16 ビット 2(ステレオ) 176 Kバイト(1秒あたり)

「ラジオ」の音質は「電話」の音質に比べ、サンプリング周波数が2倍(信号帯域が2倍)となり、蓄積容量や伝送時間も2倍になります。

「音楽CD」の音質は、「ラジオ」の音質に比べ、サンプリング周波数が2倍、ディジタル化ビット数が2倍、チャネル数が2倍となります。その結果、蓄積容量や伝送時間は8倍になります。

一方、表 3.2に、代表的な動画像の品質とデータ量を示します。「動画像」情報のデータ量は、画面サイズ(水平・垂直方向の画素数の積)とフレーム数(1秒間あたりのコマ数)によって大きく変わります。

表 3.2 代表的な動画像の品質とデータ量
動画像品質の目安 画素数
(ピクセル)
ビット数 フレーム数
(1秒あたり)
データ量
(1秒あたり)
VHSビデオ相当 320×240 8×3 ビット 10~30 10~30 M ビット
アナログテレビ放送 640×480 8×3 ビット 30 約216 M ビット
ハイビジョン(HD)テレビ放送 1280×720以上 8×3 ビット 30 約640 M ビット以上
フルHDテレビ放送 1920×1080 8×3 ビット 30 約1420 M ビット以上
4Kテレビ放送 3840×2160 10×3 ビット 30, 60 約7120 M ビット以上

「アナログテレビ放送」、「ハイビジョン(HD)テレビ放送」、そして「フルHD(ハイビジョン)テレビ放送」の順に画素数が増加し、動画像1秒あたりのデータ量も増加します。たとえば、「ハイビジョン(HD)テレビ放送」でも、データ圧縮を行わない場合、たった8秒間の動画像を記録するのにコンパクトディスク(容量700 MバイトのCD)約1枚に相当する大きなデータスペースが必要です。

そこで、これらのマルチメディア情報を効率よく蓄積し、伝送するために「情報圧縮処理」が必要になります。この情報圧縮というのは、「入力されたディジタルデータ列を効率的に出力データ列の符号に変換する」ことです。

出力データ列の情報量が、入力データ列の情報量より小さくなる場合を「情報圧縮」といっています。効果的な情報圧縮処理では、対象データの統計的な性質を利用し、さらに人間の視聴覚特性モデルを活用しています。

次に、情報圧縮処理の基礎技術について説明し、これらの基礎技術を組み合わせて実用化された音声データと画像データの圧縮方式について紹介します。


(1) エントロピー符号化

ディジタル化された信号は、各標本化値が同じ長さの符号で表現されています。各標本化値に同じ長さの符号を割り当てる符号化方式を固定長符号化といいます。

標本化値に確率的な偏りが発生する場合には、この偏りの統計的な性質にしたがって、割り当てる符号の長さを変えることによって、 符号化の効率を高められることが知られています。これを、「可変長符号化」または「エントロピー符号化」といいます。

たとえば、表3.3の可変長符号化の例では、標本化値の発生確率によって可変長符号化コードの符号長が1ビットから5ビットまで異なっています。

これにより、発生確率の低い符号のビット長は増えるものの、発生確率の高い符号のビット長が削減できて、全体として符号列の圧縮効果が得られます。ただし、可変長符号化では、復号化のとき符号化ルールを参照するテーブルが必要となります。

表3.3 可変長符号化の例
標本化値 固定長符号化コード 発生確率 可変長符号化コード
0 000 0.5 1
1 001 0.1 010
2 010 0.2 011
3 011 0.025 00011
4 100 0.025 00100
5 101 0.025 00010
6 110 0.025 00101
7 111 0.1 0011

(2) 差分符号化

エントロピー符号化の確率的な偏りに着目した符号化方式として、「差分符号化方式」があります。この代表例は、DPCM(Differential Pulse Code Moduration:差分パルス符号変調)方式です。

DPCM方式は、入力信号の差分信号(ひとつ前の信号との差)に着目して、この発生確率を偏らせることにより、もともとの情報の発生確率が偏っていない入力信号でも、情報圧縮効果を発揮する方式です。差分信号に着目する考え方は、「ある信号は、ひとつ前の信号に依存することが多い」という自然界の性質を利用しています。

DPCMに適応処理(量子化のステップを対象信号によって可変すること)を付加したADPCM(Adaptive DPCM)方式は、PHS(パーソナル・ハンディホン・システム)の音声符号化方式として実用化されています。

表3.4 DPCM符号化の例
入力信号 1 3 4 3 2 2
差分信号 1 2 (3-1) 1 (4-3) -1 (3-4) -1 (2-3) 0 (2-2)
再生信号 1 3 (1+2) 4 (3+1) 3 (4-1) 2 (3-1) 2 (2+0)

(3) サブバンド符号化

音声や画像の情報では、意味的に重要な情報は低い周波数成分に存在しています。たとえば、音声信号では意味的に重要な音程は低周波成分の基本波で表現され、音色などの細かい表現の特徴はその高周波成分の高調波に含まれています。

また画像信号では、画像の基本的な特徴である形状や色は低周波成分で表現され、細かい模様などの特徴の情報は高周波成分に含まれています。

これらの性質を利用して、入力信号を「サブバンド」とよぶ分割された周波数帯域の成分に分け、各成分の重要度に合わせて別々の符号化を行うのが「サブバンド符号化方式」です。サブバンド符号化方式では、分割後の各帯域ごとにDPCMなどの符号化処理が実行されます。

サブバンド符号化

図3.1 サブバンド符号化


(4) 直交変換

「直交変換」とは、効率的な符号化を行うことを目的に、信号の偏りを作り出すための座標系の回転を行う操作です。たとえば、画像信号の場合、画像を構成する各画素データは、直交変換によって直交変換係数に変換されます。

この直交変換係数の値を、比較的低い周波数領域に集中させるよう変換を行うことにより、係数に偏りを生じさせ、高い周波数成分の係数を割愛する情報圧縮が可能となります。直交変換のうち、3.3節で述べる離散コサイン変換(DCT:Discrete Cosine Transform)は、多くの画像符号化国際標準に採用された基本技術です。

ロッシー符号化とロスレス符号化
 情報圧縮は、圧縮処理の前後で情報の損失があるロッシー (lossy) 符号化と、損失のないロスレス (loss less) 符号化に分類できます。
 ロッシー符号化は、「非可逆符号化」とも呼ばれ、高い圧縮率を実現する代わりに、ある程度のデータ精度を犠牲にします。音声や画像などのマルチメディアコンテンツの圧縮に使われています。
 一方、ロスレス符号化は、圧縮・伸張処理を何度繰り返しても、入力情報を完全に復元できる方式で、「可逆符号化」とも呼ばれます。コンピュータのプログラムや、テキストファイルなどのデータ圧縮に使われています。
Prev Top Next
Contents

3.2 音声圧縮符号化

3.2 音声圧縮符号化

一口に音声といっても、人間の発する声 (speech) と楽器などが発する音楽 (audio) では、情報圧縮を考える上で必要な周波数帯域や音声品質などに大きな特性の違いがあります。このため、これまでそれぞれに適した音声圧縮技術が、研究開発されてきました。

また、通信の相互接続性や記録メディアの互換性などが要求されるため、国際レベルで技術の標準化が進められてきました。

「人の声」の音声圧縮符号化では、国際電気通信連合(ITU)の下部組織の電気通信標準化部門(ITU-T)が、公衆網の相互接続を含む電気通信全体の技術、運用などについて世界規模で標準化を行っています。

一方、「音楽」などのオーディオ圧縮符号化では、ISOの組織であるMPEG (Moving Picture Experts Group) で標準化が進められています。

また、二つの標準化機関での技術の互換性についても、最近は積極的に検討されており、たとえばMPEG-2の映像符号化方式は、ITU-TのH.262という映像符号化方式と互換性を持ちます。

音声符号化の国際標準化
 ITU-Tでは、1972年に64kbit/sのPCM方式を初の電話用ディジタル符号化方式として標準化して以来、音声品質を維持したまま高能率の圧縮符号化を行える方式の標準化を進めてきました。1984年には、32kbit/sのADPCM方式を、1988年には64kbit/sのSB-ADPCM方式を、1992年には16kbit/sのLD-CELP方式を、1996年には8kbit/sのCS-ACELP方式をそれぞれ標準化しました。
 一方、オーディオの符号化では、映像に伴う音声の規格としてMPEGで標準化が行われ、1992年にMPEG-1 Audio(MP3オーディオ圧縮方式を含む)が、1996年にMPEG-2 Audioが、1999年にMPEG-4 Audioがそれぞれ標準化されました。

(1) 音声情報の圧縮

音声情報の符号化方式は技術として、以下の3種類に分類できます。

  1. 波形符号化
  2. 分析合成符号化
  3. ハイブリッド符号化

波形符号化は、PCM方式やADPCM方式で使われている、音声のサンプリング(標本化)値ごとに波形を忠実に表現する方式です。ビットレート(1秒間あたりの情報量)が高い場合には、高品質な符号化が行えますが、ビットレートが低くなると急に音声品質に劣化が生じます。この波形符号化は、16kbit/sから32kbit/s以上のビットレートで実用的な方式です。

2番目の分析合成符号化は、人の声の発生機構を模擬した音声の生成モデルを用いて、そのパラメータを分析し情報を符号化します。一方、復号化側ではこのパラメータを用いて、音声の合成を行います。分析合成符号化による符号化器を、ボコーダ(Voice Coderの略)ともいいます。波形を忠実に再現する必要がないため、低ビットレートでの符号化が可能ですが、符号化の音声品質が音声生成モデルに大きく依存するため、モデルによっては高い音声品質が得られません。

3番目のハイブリッド符号化は、波形符号化と分析合成符号化の技術の利点を組み合わせた(ハイブリッド)方式です。まず、音声信号の分析処理を行い、もとの波形とのひずみ(誤差)を小さくするよう、生成モデルとそのパラメータを決定し符号化します。さらに、このパラメータによる音声合成では表現できないような残差成分も符号化します。符号化の手順は複雑になりますが、低ビットレートでなおかつ音声品質の高い符号化音が得られます。

CELP(セルプ:Code Excited Linear Prediction)方式が、代表的なハイブリッド符号化方式であり、8 kHzのサンプリング周波数の音声入力に対し、8 kbit/s程度のビットレートで符号化できる高い符号化効率が得られます。CELP方式は、携帯電話の音声符号化方式のほか、ITU-T国際標準の方式に採用されて、IP電話などの音声符号化方式に使われている技術です。

CELP方式
 CELP方式では、符号化器の中に、合成フィルタとこのフィルタに入力する音源を生成するための符号帳(ふごうちょう)と呼ばれるテーブルを持っています。まず、入力音声を分析して合成フィルタの係数を算出します。次に、フィルタに入力する各種の音源を、符号帳から繰り返し選択して音を合成してみて、入力波形との誤差が最も小さくなる最適なパターンを選択します。その結果得られた、合成フィルタの係数、各種符号帳の最適なパターンの番号などを符号化します。
 一方、復号化器では、あらかじめ用意された合成フィルタと符号化器と同じ符号帳のパターンから音声を合成します。
 CELP方式は、処理量が非常に大きくなるため、発明当初は実用化されることはありませんでしたが、10年以上経過した後、高性能な信号処理用ソフトウェアやハードウェアの登場によって、リアルタイム処理が可能となりました。

(2) オーディオ情報の圧縮

オーディオ情報は、音声(人の声)に比べて信号の帯域が広く情報量が多いため、かつてはネットワークを介した高速な伝送は困難でした。しかし、オーディオ圧縮技術の進歩とブロードバンドネットワークの普及によって、今日では、インターネットでのステレオ音楽の配信が現実のものとなりました。

また蓄積メディアに目を向けると、MD (Mini Disc) では情報圧縮が行われ、DVD (Digital Versatile Disk:ディジタル多目的ディスク) ビデオでは、高い臨場感の音響空間を実現するため、マルチチャネルステレオ符号化技術が適用されています。

これまで使われてきた、音楽用パッケージメディアの符号化方式を表3.5に示します。

表3.5 音楽用パッケージメディアの符号化方式
メディア 標本化周波数 量子化ビット数 チャネル数 情報量
ミニディスク(MD)
(ATRAC情報圧縮)
44.1 kHz 16 bit 2 ch 288 kbit/s
コンパクトディスク(CD) 44.1 kHz 16 bit 2 ch 1410 kbit/s
DVDオーディオ 48-192 kHz
44.1-176.4 kHz
16/20/24 bit 2-6 ch 最大9.6 Mbit/s
スーパーオーディオCD 192 kHz 24 bit 2-6 ch 最大9.8 Mbit/s

ミニディスクでは、ATRAC方式(アトラック)によって情報量をCDの約1/5に圧縮しています。ATRAC方式では、帯域分割フィルタによって全体を3つの帯域に分割した後、MDCTによって周波数領域に変換して符号化します。

一方、ISO国際標準のMPEGオーディオ規格では、携帯音楽プレーヤーやパソコン上での音楽再生用に普及した MP3(エムピースリー:MPEG-1 Audio Layer Ⅲ)方式が有名です。

「携帯音楽プレーヤー」の例 へ

● MPEG-1オーディオ

MPEG-1オーディオは、1992年に仕様が確定しました。ステレオおよびモノラルの音楽信号(サンプリング周波数は32、44.1、48 kHz)に対して、32~448 kbit/sの情報量の符号化音声が得られます。

基本アルゴリズム(処理の方式)は、サブバンドに分割する帯域分割処理の後、聴覚心理モデルによって適応的な情報割り当てが行われ量子化されて符号化が行われます。一方、復号化側では、逆量子化処理と帯域合成処理が主な内容です。

● MPEG-2オーディオ

MPEG-2オーディオは、MPEG-1オーディオの基本アルゴリズムを、低サンプリング周波数(16、22.05、24 kHz)の入力信号に対応させたほか、多チャネル符号化に拡張したもので、1994年に仕様が確定しました。MPEG-2オーディオの復号器は、MPEG-1オーディオの符号を復号できるという互換性を持ちます。

また、1997年にMPEG-2の拡張規格としてAAC(Advanced Audio Coding)方式が追加されています。AAC方式は、現在サービス中の「ディジタルテレビ放送」の音声符号化方式にその技術が採用されています。

● MPEG-4オーディオ

MPEG-4オーディオは、MPEG-1やMPEG-2からさらに高圧縮をねらって標準化された規格であり、入力音源も音楽だけでなく帯域の狭い音声やテキストからの音声合成や合成楽音の扱いも可能な規格です。また、高機能化の検討もされ、再生スピードの変更やピッチの変更などの機能が容易に実現できる規格となりました。

MPEG-4オーディオは、1999年に仕様が確定しました。なお、MPEG-3は欠番です。MPEG-4オーディオのAAC方式は、iPodなどの携帯型オーディオプレーヤに採用されています。

移動通信用の音声符号化の歴史
 日本では、携帯電話での利用を想定した移動通信(無線)での音声符号化方式は、ARIB(電波産業会)が無線関係の標準化を行ってきており、これまで、11.2kbit/sのPDCフルレート方式、および5.4kbit/sのPDCハーフレート方式PSI-CELPについて、音声品質を維持したまま高能率の圧縮符号化方式の標準化を進めてきました。
 さらに、フルレート方式と同じ情報量で音声品質を向上させたエンハンスドフルレート方式CS-ACELPおよびACELPの2方式が標準化され、携帯電話でサービスが行われてきました。
 一方、ヨーロッパでは、ETSIにおいて、GSM規格標準が定められてきました。
 その後、第3世代移動通信システム(3Gシステム)として、日本ではIMT-2000の規格に基づいて、3GPPと3GPP2という二つの地域標準化団体で標準化が進められました。3GPPでは、適応マルチレート音声符号化AMR-NBと広帯域AMR(AMR-WB)が標準化され、2001年より、FOMAのサービスで使われてきました。3GPP2では、エンハンスド可変レート音声符号化EVRCが標準化され、CDMA 2000のサービスで使われてきました。
 また、2012年頃より、LTE方式の第4世代移動通信システム(4Gシステム)によるサービスが、各社から開始されました。さらに、通信速度が約100倍と言われている第5世代移動通信システム(5Gシステム)のサービスもスタートしました。
Prev Top Next
Contents

3.3 画像圧縮符号化

3.3 画像圧縮符号化

画像情報の符号化技術は、ISOやITU国際標準として、静止画と動画に対する各種の方式がこれまで定められてきました。たとえば、1990年にITUで標準化されたH.261方式は、公衆通信網を使ってテレビ会議を行うための規格です。

また、1992年に標準化されたMPEG-1は、CD-ROMにビデオを記録するための規格(ビデオCD)であり、1994年には、DVDビデオやディジタルテレビ放送用の規格として、MPEG-2が定められました。さらに、1996年には、モバイルネットワーク通信用にエラー耐性を考慮したH.263が規格化され、1999年には、インターネットやモバイル通信用にMPEG-4が規格化されました。

以上のような国際標準機関で定められた規格に対して、企業独自の画像符号化の規格(デファクト・スタンダード)も、インターネットを経由したソフトウェアのダウンロードにより世界に広まっています。たとえば、アップル社のQuickTime、マイクロソフト社のWindowsMedia、リアルネットワーク社のRealPlayerなどが広く利用されています。

国際標準で規格化された静止画と動画の画像符号化の規格と主な用途を表3.6に示します。

表3.6 画像符号化の規格と主な用途
画像符号化の規格 用途
JPEG(ジェイペグ) ディジタルカメラ、インターネット静止画
GIF(ジフ) インターネット静止画 256色
PNG(ピング) インターネット静止画 256色/フルカラー
MPEG-1(エムペグワン) ビデオCD、インターネット用動画
MPEG-2(エムペグツー) DVD、ディジタルテレビ放送、HDTV、インターネット用動画
MPEG-4(エムペグフォー) 第三世代携帯電話、Blu-ray、iPod、PSPの動画
H.261 H.263 テレビ会議、テレビ電話の動画
MPEG4-AVC/H.264 Blu-ray Disc、ハイビジョンビデオカメラ、iPod、PSPの動画
H.265/HEVC 4K・8Kのテレビ放送、ビデオカメラ、ライブ配信

(1) 画像圧縮のための基礎技術

● ランレングス符号化

ファクシミリ(ファックス)の画像のような白と黒の2値からなる画像を2値画像といいます。

この2値画像では、文字などの黒画素と背景の白画素は、ある程度以上の解像度では、それぞれ連続して出現する傾向があります。そこで、同じ種類の値が連続(ラン)しているとき、その連続長(ランレングス)に対して符号を割り当てる方式が、ランレングス符号化です。

ランレングス符号化

図3.3 ランレングス符号化

ランレングスを可変長符号化することで、情報量を大幅に削減できます。

● インタレース

画像情報の圧縮方法として最も簡単なのは、動画像を時間軸でサンプリングして得られる静止画の数を減らす、すなわち1秒間のフレーム数を減らすいわゆる「コマ落とし」です。人間の時間軸方向(1秒間のコマ数)に対する視覚特性の性質として、画像の滑らかさとちらつき(フリッカ)について以下の点が知られています。

これらの視覚特性の性質に基づき、たとえば映画では48フレーム/秒で表示していますが、同一画面を2回連続して表示しており、実質的には24フレーム/秒となっています。

テレビ放送では、インタレース(飛び越し走査)によって、画像の劣化を目立たなくしています。

インタレース

図3.4 インタレース

このインタレースでは、1枚の画像を偶数番目の走査線から構成されるフレームと、奇数番目の走査線から構成されるフレームとの二つに分けて、これらのフレームを1/60秒間隔で交互に繰り返し表示することで、画面のフリッカを見かけ上抑えることができます。

● 色差信号

すでに述べたように、カラー画像は赤、緑、青の三つの信号RGBから成り立っていて、各RGB値を持つ画素(ピクセル:PICture ELement)の集合として構成されています。このRGBの各信号間には強い相関関係があることが知られており、これらの3つの画像信号を別の3組の信号へ変換して、各信号のダイナッミクレンジの総和を縮めることができます。

代表的な変換法として、Y、Cr、Cbの3つの信号による表現があり、テレビなどのビデオ信号で一般的に使われています。これは、画像の明暗の度合いを示す輝度信号(Y)と、輝度信号との差分である二つの色差信号(CrとCb)で表現するものです。この二つの色差信号とは、赤さの度合い(Cr)と青さの度合い(Cb)です。

このうち、二つの色差信号は輝度信号に比べて振幅が小さく、低い周波数成分しか含まれない性質があることが知られており、この性質を利用して、二つの色差信号の帯域を減らすことで情報量の削減が図れます。さらに、人間の視覚特性として、明るさ(輝度信号)の変化に対して、色(色差信号)の変化に鈍感な性質があるため、色差信号の情報を削減しても、劣化は目立ちません。このため、通常のテレビ放送では、輝度信号と二つの色差信号の帯域を、それぞれ、4:2:2あるいは、4:1:1の比率にしたものがよく使われています。

● フレーム内予測

画像は、統計的に隣り合う位置の画素の値が類似していることが知られています。この性質を利用して、効率的に画素値を表現する方法に、フレーム内予測(interframe prediction)があります。

フレーム内予測

図3.5 フレーム内予測

フレーム内予測では、隣接する二つの画素の値から対象画素の値を予測し、予測値と実際の画素値との差分が 0 でなければ、その差分によって対象画素の画素値を表現します。

● DCT変換

画像の劣化には、視覚上で目立ち易い劣化と目立ちにくい劣化があります。これは、画像の周波数成分に関係するもので、高周波成分は多少削っても大きく劣化が目立つことはありません。このため、画像の情報圧縮で、画像の高周波成分を削減することは、視覚的な画像の劣化を抑える有効な方法です。

画像の周波数スペクトルを計算して周波数成分に分離する方法として、離散コサイン変換DCT:Discrete Cosine Transform)があります。DCT変換を使うと、画像に含まれる情報を周波数成分ごとに分離し、劣化が目立ち易い低周波成分を残し、劣化が目立ちにくい高周波成分を切り捨てることができ、視覚的な劣化を抑えた情報圧縮が可能となります。

この情報圧縮データを再生するときは、逆DCT変換によって、元の画像に近い画像を再現します。

● フレーム間予測と動き補償

動画像は静止画像の連続として表現されます。人間の視覚特性において、動画像が連続して見えるようになるためには、1秒間に30フレームの画像が必要だと言われています。

連続して撮影された映像では、この1/30秒間隔の2枚の静止画像の間で、何らかの画像上の相関性がみられます。この前後に隣り合うフレーム間の相関性に着目した技術が、フレーム間予測(interframe prediction)です。

フレーム間予測は、時系列上に並ぶ2枚のフレームにおいて、同じ位置にある画素が前のフレームと類似した値をとる統計的な性質を利用し、 次フレームの画素値を前フレームの値を使って予測し、その差分を情報として伝送します。また、映像の一部に動く物体が存在する場合、このフレーム間予測技術は動き補償(motion compensation)と呼ばれます。

動き補償

図3.6 動き補償

動き補償とは、動画像の時間軸方向に着目して、ある時間間隔ごとの連続した複数の静止画像間において、各画像中の画素集合の動きを検出することによって、高能率符号化を実現する技術です。すなわち、物体の動きに着目して前フレームからの動きの差分情報だけを、動きベクトル(motion vector)として表現することで、情報量の削減を図るものです。

映像の一部に動く物体があり、その他の部分はほとんど動かない映像であればあるほど、動き補償によって情報量の削減が図れるわけです。この動き補償は、静止画像にはない動画像に特有の情報圧縮技術です。

MPEGによる圧縮符号化では、フレーム内予測、フレーム間予測などの方法によって、以下のように3種類のフレームタイプが存在します。これらの3種類のフレームを周期的に並べて、GOP(Group Of Pictures)と呼ばれるフレームセットを構成し、このGOP単位で符号化や編集を行います。

GOPの構成

図3.7 GOPの構成

このほか、圧縮効率を高めるため、対象画像の性質によって量子化ステップを変える適応量子化 (adoptive quantization) という方法があります。この方法は、画像中で変化のあまりない滑らかな背景領域では、人間が視覚的に敏感な部分であるため、量子化のステップを小さくし、 逆に物体が動くなど変化の激しいところでは、人間の視覚が鈍感なため、量子化のステップを粗くすることによって、圧縮効率を高める方式です。

ウェーブレット変換
 ウェーブレット変換(DWT: Discrete Wavelet Transform)は、周波数領域の分解能と時間領域の分解能が異なる複数のフィルタバンクを用いて信号の性質を分析する手段です。DWTでは、高周波成分と低周波成分で時間解像度を可変に設定できるため、信号の多重解像度解析が行えます。
 ウェーブレット変換を画像符号化に応用すると、DCTのように「ブロック歪み」が発生せず、より高品質な画像符号化を行うことがきます。この技術は、静止画符号化の国際標準であるJPEG2000の基本方式となっています。

(2) 静止画像の圧縮方式

フルカラーの静止画像の圧縮方式として、JPEG(Joint Photographic Experts Group)方式はディジタルカメラやインターネット上で最も普及しています。JPEGには、可逆符号化と非可逆符号化の二つのモードがあります。

可逆符号化では、予測符号化を行った後、可変長符号化である「ハフマン符号化」または算術符号化によって符号割り当てがなされます。一方、写真のデータなどで使用される非可逆符号化では、DCT方式が基本となっており、処理の丁寧さと圧縮率を変えて符号化処理を行うことができます。

2000年には、ウェーブレット変換を使って、JPEGの高機能化と効率化を実現するJPEG2000が規格化されました。JPEG2000では、JPEGと比較して30~50%の圧縮率向上や興味領域の符号化などがサポートされています。さらに、JPEG2000を複数フレーム対応としたMotion JPEG2000も2002年に標準化され、ハイビジョンよりさらに高精細な映像が要求される医療やディジタルシネマの分野で使用されています。

また、PNG(Portable Network Graphics)方式は、インターネット上で、イラストやロゴを表示する際などの用途で普及しています。PNG方式は可逆符号化のため、JPEG方式と比較してデータ量が大きくなることがありますが、フルカラーに対応しており、「透過」表示をサポートしているという利点があります。

GIF(Graphics Interchange Format)方式は、小さいデータ量でインターネット上の画像を表示するために開発された方式です。256色までの表示に対応しており、「アニメーション」機能(GIFアニメーション)をサポートしています。


(3) 動画像の圧縮方式

● MPEG-1

MPEG-1は、ISOによって制定された映像符号化標準方式で、1.5Mbps程度の蓄積メディアへ動画データを記録することを目的としています。符号化レートや画像サイズなどの情報をパラメータとして扱うことができ、広い汎用性を持ちます。

また、もともと蓄積メディアへ記録するための方式なので、符号化処理に時間をかけて複雑な処理を行うことで、さらに高品質な符号化が可能となっています。この点が、リアルタイム通信用のH.261方式と異なる特徴です。

● MPEG-2

MPEG-2は、放送、通信、蓄積メディアで共通に使える動画像の符号化標準方式です。HDTV(高精細テレビ)信号を扱う予定であったMPEG-3も取り込まれたため、MPEG-3は欠番となりました。

約6-10Mbpsの符号化レートで標準テレビ画像品質を実現し、20Mbps程度ではHDTV画像の符号化を行うことができますMPEG-2もMPEG-1と同様に、動き補償とDCTの符号化方式を基本としています。さらに、MPEG-2ではインタレース画像でも高能率な符号化を実現し、高精細な画像のサブセットに低精細の画像を含むスケーラビリティーの導入が特徴です。

MPEG-2は非常に汎用的な方式であるため、プロファイルレベルという概念でパラメータを分類し、柔軟性を持たせています。ここで、「プロファイル」はBピクチャーの有無やスケーラブル機能などのツールという観点の分類であり、「レベル」は画像サイズやフレームレートなどの観点からの分類です。

● MPEG-4

最新のMPEG-4は、低ビットレートでの符号化とモバイル用途の符号化を目的とした映像符号化標準方式です。さらにマルチメディア情報を扱う高機能化も検討され、CG(Computer Graphics)やテキスト合成音などを含むオブジェクト単位の編集も可能な規格になりました。

その後、高画質で高圧縮のMPEG4-AVC/H.264方式も、ITU-TとMPEGの2つの国際標準化グループが共同で標準化し、Bru-rayディスク、ハイビジョンビデオカメラ、携帯型ビデオプレーヤー、 パソコンを中心とした情報ビデオ家電に採用されています。

● H.265/HEVC

MPEG4-AVC/H.264方式の技術を踏襲し、約2倍の圧縮率を実現した方式が、H.265/HEVC(High Efficiency Video Coding)方式です。ITU-TとMPEGの2つの国際標準化グループが共同で標準化し、4Kおよび8Kの映像データに対応しています。4Kと8Kのテレビ放送やビデオカメラ、ライブ配信などの応用で利用されています。

Prev Top Next