Code Excited Linear Prediction

Code Excited Linear Prediction（CELP、セルプ）は、1985年に米AT&Tの M.R. Schroeder と B.S. Atal が提案した音声符号化アルゴリズム。直訳すると「符号励振線形予測」。当時の既存の低ビットレートのアルゴリズム（RELP、LPC、ヴォコーダーのFS-1015など）に比べて格段に優れた音質を示した。様々な派生が生まれ（ACELP、RCELP、LD-CELP、VSELPなど）、現在最も広く使われている音声符号化アルゴリズムである。CELPはこのアルゴリズムのクラスを指す用語であり、特定のコーデックを指す用語ではない。

概要

CELPアルゴリズムは次の4つの考え方に基づいている。

線形予測法 (LP) を通して、音声生成の音源フィルタモデルを使う。
LPモデルの入力として適応型と固定型のコードブックを使う。
聴覚的に重み付けされたドメイン (perceptually weighted domain) での閉ループで検索を行う。
ベクトル量子化 (VQ) を適用する。

Schroeder と Atal が1983年に行った最初のシミュレーションでは、スーパーコンピュータCray-1を使って、1秒間の音声を符号化するのに150秒かかった。その後コードブックの実装方法を改善し、コンピュータの性能向上もあり、携帯電話などでもこのアルゴリズムが使えるようになった。

CELP デコーダ

CELPデコーダは、適応型コードブックと固定型コードブックから得た成分を加算することで、「励振 (excitation)」 $e[n]$ を得る。

e[n]=e_{a}[n]+e_{f}[n]\,

ここで、 $e_{a}[n]$ は適応型コードブックの成分、 $e_{f}[n]$ は固定型コードブックの成分である。固定型コードブックはベクトル量子化辞書であり、コーデック内に固定的に書かれている。このコードブックは代数的な形式で格納する場合 (ACELP) と、そのままの形で格納する場合 (Speex) がある。適応型コードブックには、励振を遅延させたバージョンが格納される。これにより、人間の声などの周期的な信号を効率的に符号化できる。

励振を実際の信号にするフィルタは $1/A(z)$ という形式の全極モデルであり、ここで $A(z)$ は線形予測（レビンソン再帰）を使って得られる予測フィルタである。全極フィルタを使うのは、計算が容易で人間の声をうまく表現できるためである。

CELP エンコーダ

CELPの基本原理は Analysis-by-Synthesis (AbS) と呼ばれ、閉ループにおいてエンコードされた信号 (synthesis) を聴覚的に最適化することでエンコード (analysis) が行われることを意味する。理論上、最善のCELPストリームは、可能なあらゆるビットの組み合わせを試行し、最もよく聞こえるデコード済み信号を選択することで得られる。しかし、それは利用可能なハードウェアの計算能力を超えており、「最もよく聞こえる」ものを選ぶということは人間の介在を必要とするため、現実的ではない。

限られた計算リソースを使ってリアルタイムにエンコードを行うため、単純な聴覚的重み付け関数を使い、より小さくより扱いやすい逐次探索でCELP探索を実施する。通常、エンコードは次の順序で実施する。

線形予測係数 (LPC) を計算し量子化する（通常、LSP）。
適応型コードブックを探索し、その成分を除去する。
固定型コードブックを探索する。

雑音の重み付け

最近の音声コーデックの多くは、音響心理学を応用して符号化雑音が聴覚で聞き取れない周波数領域になるようにしている。例えば、振幅の大きい周波数帯域にある雑音はマスキングされる。そのため、CELPは誤差を単純に最小化するのではなく、聴覚的に重み付けされたドメインでの誤差を最小化する。重み付けフィルタ W(z) は、帯域幅拡張 (bandwidth expansion) を使ったLPCフィルタに基づいている。

W(z)={\frac {A(z/\gamma _{1})}{A(z/\gamma _{2})}}

ここで $\gamma _{1}>\gamma _{2}$ である。

参考文献

B.S. Atal, "The History of Linear Prediction," IEEE Signal Processing Magazine, vol. 23, no. 2, March 2006, pp. 154–161.
M. R. Schroeder and B. S. Atal, "Code-excited linear prediction (CELP): high-quality speech at very low bit rates," in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 10, pp. 937–940, 1985.
Jean-Marc Valin, "Speex: A Free Codec For Free Speech," Xiph.Org Foundation
山根淳、「CELP音声符号化」、Ricoh Technical Report No.23、1997年9月。PDF

外部リンク

概要

CELP デコーダ

CELP エンコーダ

雑音の重み付け

参考文献

関連項目

外部リンク