ハイレゾのお勉強

Update*2020年05月10日(日)

Date*2018年07月04日(水)

そもそも、「ハイレゾ音源」とは何ぞや?ということで、勉強してみました。

端的に言えば「CDの音質を越える高音質な音源」。具体的には、一般的なCD音源では「44.1kHz/16bit」であるのに対し、ハイレゾ音源では「96kHz/24bit」「192kHz/24bit」等となります。

以下、「kHz」と「bit」について見ていきたいと思います。

「kHz(キロヘルツ)」は、「サンプリング周波数」を表します。

音は、空気の振動です。ゆっくりとした振動は低い音として聞こえ、速い振動は高い音として聞こえます。

振動が速いということは、1秒間に振動する回数が多いということです。この1秒間の振動の回数を「周波数」と呼び、「Hz(ヘルツ)」の単位で表します。つまり、振動がゆっくりとした低い音は、Hzの数字が小さくなります。他方で、振動の速い高い音では、Hzの数字が大きくなります。

※ちなみに、空気が振動する回数の下限とは振動がない状態なので、Hzの下限は0(ゼロ)となります。ただし、これは理論上の話で、現実では、空気の振動がまったくない状態は発生しないと言われています。

アナログである音の高低をデジタルデータとして記録するときには、時間軸に対して一定の間隔をおいて音(=空気の振動)を記録していきます。これをサンプリング(標本化)と言います。

記録する間隔が広い場合は、空気の振動が遅い音(=周波数の小さい音・低い音)を捉えることはできますが、反対に、空気の振動が速い音(=周波数の大きな音・高い音)は記録するタイミングの間に入り込んでしまうので捉えることができません。

そのため、記録する間隔が短ければ短いほど、つまり、1秒間に記録する回数が多ければ多いほど、より高い音を記録することできるということになります。この、1秒間に捉えられる振動の回数のことを「サンプリング周波数」と呼び、一般的に「kHz」で表されます。

「bit(ビット)」は、「量子化ビット数」を表します。

先ほど「音は、空気の振動です」と前述しましたが、さらに踏み込むと、次のようになります。

空気が動くと、動いた先にある空気に圧力がかかって、大気の圧力が高まります。大気の圧力が高まると、今度は空気が押し出され、大気の圧力が下がります。このような大気の圧力の変化を、人間の鼓膜が捉えたときに、「音」として聞こえます。

大気の圧力が変化する幅を「Pa(パスカル)」の単位で表します。そして、このような大気の圧力変化を「音」の分野では「音圧」と呼んでいます。

人間が「音」として感じ取れる音圧は、20μPa(マイクロパスカル)が下限であると言われています。これより低い音圧は、「音」の形を成さないノイズだったり、ノイズとしてすら感じ取れなかったりします。他方で、人間が感じ取れる上限は20Paであると言われていて、これより高い音圧はただの騒音となります。

ここで、20Paを「μPa」で表現するとどうなるかというと、2,000,000µPaとなります。つまり人間の可聴域は、20μPa~2,000,000µPa。桁が大きすぎて直感的にわかりませんね。

そのような都合から生み出された単位が「dB(デシベル)」です。可聴域の下限である「20μPa」を「0dB」と定め、対数で表すこととしました。これにより「20μPa~2,000,000µPa」は「0dB~120dB」と表すことができます。このようにdBで表される音の大きさは「音圧レベル」と呼ばれています。

※余談ですが、オーディオ機器の分野では、その機器の最大音量を「0dB」に定義すると決められているため、現在音量はマイナスのdBで表示されます。ややこしい。

さて、ここまで来てようやく「量子化ビット数(サンプリングビット数)」の話に入れます。

アナログである音量をデジタルデータとして記録するときには、音圧を一定の幅ごとに区切って段階を作り、音がどの段階にあるかを記録していきます。

どのくらい細かく区切ることができるのかは、ビット数で決まります。1bitで2段階、8bitで256段階、16bitで65,536段階、24bitで16,777,216段階、という具合。ビット数が多いほど音量を細かく記録できる、つまり音量の大小がなめらかになる、わけですが、理屈はわかっても、感覚的にはピンときませんね。

ここで登場するのが「ダイナミックレンジ」で、取り扱える音圧レベルの最低値と最大値の比率を意味します。

16bitのダイナミックレンジは約96dBです。24bitでは約144dB。32bitでは約192dB。対して、人間の可聴域は前述の通り、0dB~120dBと言われています。

つまり、16bitでは人間の可聴域をカバーしきれませんが、24bitあればカバーできる、という計算になります。ハイレゾ音源が24bitを採用している理由はこのあたりにありそう。

というのは、あくまで理屈の上での話。実際のところ、日常の中だと20dBは生活音にまぎれて聞こえませんし、120dBは苦痛を感じるレベルなので実用的ではありません。つまり、人間が実際に使っている音圧レベルは、可聴域よりも狭いということになります。16bitでも十分に足りるのでは?

あれ、ハイレゾ音源の存在意義って‥‥?

まぁ、体で感じる音というのもあるわけですし、聞こえる音にしか意味がないわけではないと思うので、まだ理屈で説明されていない人間の能力に働きかけるのがハイレゾ音源、なのかもしれません。

話をさらにややこしくしているのが、ハイレゾ対応機器に掲示されている「Hi-Res Audio」のロゴ。

これは誰でも自由に使えるという物ではありません。

  • 日本オーディオ協会が定める規格を満たした機器であること。
  • その機器のメーカーが以下のいずれかに該当する法人であること。
    • 日本オーディオ協会の会員である法人。
    • 日本オーディオ協会の会員ではないが、所定の費用を納めた法人。

以上の条件を満たしている場合に、ロゴを掲示することができます。

では、「Hi-Res Audio」のロゴが掲示されていない機器はハイレゾに対応していないのかというと、そうではありません。日本オーディオ協会の会員でもなくロゴの使用料も納めていない場合は、たとえハイレゾ対応を掲げられる品質であっても、ロゴの掲示はできません。逆に、基準を満たしていたらロゴを必ず掲示しなければならない、というわけではありません。

よって、「Hi-Res Audio」のロゴが掲示されていなくても、実際にはハイレゾに対応しているということは往々にしてあるわけです。