DJI OSMO Pocket 3で撮影したときにMP4の動画ファイルに収録される音声のサンプリング周波数(サンプルレート)とビット数(サンプルサイズ)はどれくらいなのでしょう?これはスペックシートなどには全く載っていませんので実機検証しました。
検証の目的
DJI OSMO Pocket 3で録画して記録されるMP4の音声データについては、詳細が全く公表されていません。これは実機で確かめるしかありません。
検証の環境
<バージョン>
DJI OSMO Pocket 3:ファームウェア 01.04.08.02
RODE Wireless GO II:ファームウェア 2.5.0
DaVinci Resolve Studio:18.6.6
<設定>
内蔵マイクでの音声バックアップ:オン
動画圧縮:HEVC
PRO設定・チャンネル:ステレオ
PRO設定・風ノイズ低減:オン
PRO設定・指向性オーディオ:前方&後方
PRO設定・外部マイク:ステレオ
PRO設定:外部マイクのゲイン:+6
検証の方法
OSMO Pocket 3本体のみで録画、OSMO Pocket 3にRODE Wireless GO IIの受信機をUSB接続し送信機(マイク)をOSMO Pocket 3の横に並べて録画。
録画はどちらも「あーっ、あーっ、あーっ」を囁き声、普通の声、叫び声でOSMO Pocket 3の前20cmほどの距離で録画した。
録画で得られたMP4動画ファイル、バックアップ録音されてOSMO Pocket 3本体内に保存されるWAVファイル、RODE Wireless GO II送信機内録音で保存されるWAVファイルをDaVinci Resolve Studio 18.6.6のFairlightで詳細情報を調べて、不審に思うところは波形を調べた。
検証結果
本体のみ(外部マイクなし)で録画
[1] MP4動画ファイルの音声:48kHz、32bit、AAC[2] 同時に記録されたバックアップWAVファイル:48kHz、16bit、Linear PCM
単体のWAVファイルの情報を調べる方法は多いのですが、ここでは全てDaVinci Resolve StuidoのFairlightを使用しました。
下のスクリーンショットは[1]のものです。
オーディオビット深度が「32」になっていますが、マジっすか?
まさか本体録音が32bitフロート(float)のわけはない…。
32bitフロート録音ではレベル調整不要であり、一見さちって(歪んで)いてもそうではない状態にレベルを落とせるといわれます。概ね事実なのですが、それはレコーダーの入口に入る信号が歪んでいないという大前提があります。
CDレベルの16bitビット深度でのダイナミックレンジは96dB、24bitのビット深度でのダイナミックレンジは144dB。人間の可聴範囲のダイナミックレンジは120dB(個人先激烈に大きいが)と言われています。32bitフロートは1500〜1600dB(これはちょっと話がややこしいのです)と言われています。
人が聞き取る最小限を仮に0dBとしますと130dB程度になると聴覚が損傷を受ける危険な大きさ、1500dBなんてこの世には存在しない音であり、仮に存在したら人体どころか地球が粉々になる「かも」しれせん。
しかし、マイクやプリアンプ、オーディオインタフェースなどのアナログ系は無限のダイナミックレンジを持っているわけではありません。どこかで最大音量の頭をきちんと押さえておかないと、レコーダーには歪んだ状態の信号が入ってくることになり、元が歪んでいれば32bit floatでもどうにもなりません。
厳密に言うと32bit floatだからレベル調整不要とは言い切れません。
RODE Wireless GO IIの受信機をUSB接続して録画
3つのファイルについてやはりDaVinci Resolve StudioのFairlightでクリップの詳細情報を調べました。
[3] MP4動画ファイルの音声:48kHz、32bit、AAC[4] 同時に記録されたバックアップWAVファイル:48kHz、16bit、Linear PCM
[5] RODE Wireless GO II送信機内部録音:48kHz、24bit、Linear PCM
MP4の動画ファイルの中の音声データ[3]については[1]と同じ疑問があります。
[5]はRODE Wireless GO IIのスペック通りです。バックアップファイルは同様に48kHz、16bitのLinear PCMの非圧縮で録音されています。
ちなみにCDは 44.1kHz、16bitですので本体録音であってもスペック上はバックアップWAVファイルのほうが上です。
MP4動画ファイルの音声を調べる
得られたタグ情報からはMP4動画ファイルの音声は48kHz、32bit、AACとなっています。
しかし、32bitといっても32bitフロートのわけはないので…。
DaVinci Resolve Studioで録音した3段階音量の「あーっ、あーっ、あーっ」を調べました。
まずはOSMO Pocket 3本体のみで撮影した時のMP4動画ファイルの中の音声波形(上)とバックアップ録音の48kHz、16bit、Linear PCMのWAVファイルの波形(下)の比較です。
(DaVinci上でクリップの高さをデカくしたままスクショをとってしまいました)
バックアップ録音(下)のほうはうまくゲイン調整されているようで、最後の叫びもさちらずに波形がきちんとしています。
MP4動画ファイルの中の音声(上)は、バックアップ録音(下)と全く同じに見えます。異なるソースであることは波形の下のファイル名をご覧いただくとわかると思います。.MP4は録画した映像ファイル、WAVはバックアップ録音されたファイルです。
次にRODE Wireless GO IIをUSB接続して撮影したときの、MP4動画ファイルの中の音声波形(上)とバックアップ録音の48kHz、16bit、Linear PCMのWAVファイルの波形(中)とRODE Wireless GO II本体内部録音の波形(下)です。
本体のみ録音と同じように、バックアップ録音(中)のほうはうまくゲイン調整されています。思い切り叫んで普通ならさちってしまうところがさちっておらず、少しノーマライズがかかっているようです。歪んでいるよりノーマライズしてでもきちんと歪まず録るのがバックアップとしての役割ですからね。
RODE Wireless GO II本体内部録音(下)はかなりさちっており、USB経由でRODE Wireless GO IIから録音したMP4の音声はRODE Wireless GO II本体内部よりさらにさちっています。
MP4録画の音声、さきほど32ビットと出ているほうは、ゲインを下げても波形は戻らずさちったままです。
32bitフロート録音だと、この程度では一見さちっていてもゲインを下げる(ラバーバンドを下げる)と本来あるべき波形がほぼ戻ってきますが、そもそもOSMO Poccket 3やRODE Wireless GO IIの両方とも32ビットフロートには対応していません。
この場合は元がおそらく歪んだ状態でUSBから入ってくるのでそのまま正直に記録している絵感じです。
MP4動画ファイルはビット深度はDaVinci Resolveでは32bitと出るのですが、少なくとも32ビットフロートではなさそうです。
外部マイクなしの場合から察すると、本体マイクのみを使う時はバックアップ録音と同じく48kHz、16bitのように思います。
一方USB経由で外部マイクを接続した時は、外部マイクからの音声の低レベルを少し持ち上げて高いレベルを心持ち下げているように見えますが、MP4に記録されるビット数はわかりません。ファイルのタグ情報では32bitということになっていますが。
まとめ
OSMO Pocket 3のMP4動画ファイルの音声はタグからは32bitになっているが、波形を見ると外部マイクがない場合はバックアップ録音と同じ16bitっぽく、USB外部マイクのときはそのbit数に合わせられているように見えるが正確なことはわからなかった。
OSMO Pocket 3の本体録音(バックアップ)はいい感じでレベル調整されるので、外部マイクの音声がいまいちの場合でも役にたつので必ず録っておくべきである。
可能であれば、外部マイクは32bitフロートに対応したDJI Mic 2やZOOM F2-BT、TASCAM DR-10L Proの32bitフロート録音で音声単独別撮りしておくのが望ましい。
OSMO Pocket 3の本体録音(バックアップ)は適度に環境音も混じるので、動画編集の際のバックグラウンド環境音としても使える。
(参考記事)RODE Wireless GO IIの設定方法、Record設定とØButton設定を詳しく解説
(参考記事)ワイヤレスマイクRODE Wireless Go II 3つのユニットの充電はどうすれば効率的?
(Yahoo!ショッピング DJI公式ストア)DJI Mic 2
(Yahoo!ショッピング検索)RODE Wireless GO II
(Yahoo!ショッピング検索)RODE Wireless PRO