とかちロイドが出来るまで (プリコグ篇)

この文書は、動画「とかちロイドで『プリコグ』」の解説です。

アイドルマスターDSの絵理シナリオをやった時から、亜美真美の歌ふ「プリコグ」を待ち焦がれてゐたのですが、公式からは一向に出て来る気配が無いので、もう自分で人力VOCALOIDをやってみました。

何分、人力VOCALOIDは初挑戦で、人力VOCALOID自体の情報も少ないので、回りいことや下手なことをやってゐるかも知れません。それでも、この文書により、人力VOCALOIDに挑戦する方への手助けができれば幸ひです。

作業工程

[作業の流れ図](流れ図のSVG版)

リンのモノマネのレポートと同様、作業の流れ図から記しておきます。動画が完成するまでの作業は,音声・画像・動画合成の大きく3つに分れますが、音声作業を重点的に解説します。

1. 音声作業

亜美真美の声でとかちロイドを作るのに色んなソフトウェアを試した結果、リサンプルの品質が高く、操作系が一番私の性に合った「UTAU」を使ふことにしました。因みに、私がUTAUを使ふのはこれが初めてです。

1.1 原音作り

UTAUで歌声を出すための準備として、元になる歌声を切り出し、それぞれの素材に「原音設定」を行ひます。手順は次の通りです。

  1. Xbox360ゲーム「アイドルマスター」に収録されてゐる亜美真美の歌声を抽出し、WAVファイルに変換しておきます。(今回はMaster BoxやMA06、MS02からも抽出してゐます)
  2. [grep画面]
    xyzzyのgrepで、検索対象のファイルをアイマス曲のひらがな歌詞(imas32_kana.txt)として、「プリコグ」の歌詞の音素ごとに、欲しい音素をひらがなで検索します。(尚、既に切り出した音素が有る場合は、そちらをまづ試してみて、上手く歌声を合成できない時のみ、新たに素材を探します)
  3. [切り出し画面]
    対応するWAVファイルの歌詞の部分をSoundEngine Freeで切り出します。原音設定時にブランクを設定できるので、前後を長めに取っておけば良いでせう。ファイル名は、音素+音階としておきます。(例: しゅA4しゅんD5など。音階の重複時は後ろに-2-3、…と付加し、えA4えA4-2などとします)
  4. UTAUで周波数表を自動作成し、原音設定を行ひます。原音設定の方法は、「中の人をプロデュース - UTAU向け音源の作り方 -」を参考にしました。尚、UTAUが基本周波数の検出を間違ってゐる場合、周波数表を手動で修正してゐますので、追加した素材の周波数表を自動作成する時に、既存の物まで上書きしない様に気をつけました。

原音作りでの要点を次に記します。

A. 原音は「綺麗」なものを選ぶ。
前の音のエコーやリバーブが重なってゐない、音割れしてゐない、欲しい歌詞の音高に近い、さういふ「綺麗」な素材を選ぶとノイズが入りにくく、有利です。
B. 原音設定は統一性が大切。
できるだけ一人で一気に設定して、音素ごとに基準がぶれない様にしないと、リズムが狂って、たどたどしい歌声になります。今回の様に、1つの音素に対して沢山の素材を切り出す場合、同じ音符に違ふ素材を選んでも発音がずれない様に、特に先行発声や子音の長さ(固定範囲)に気を遣ふと良いでせう。
C. より良い音のためには、2音節以上の素材を切り出す。
例へば「ちゃんと」といふ歌詞に対して、「ちゃ」+「ん」+「と」と音素を当てはめるより、「ちゃん」+「と」とした方が、繋ぎ目が減る分、自然な歌声になることが期待できます。
この場合、上手いこと「ちゃん」といふ歌声を探せるかが鍵で、grepして無ければ諦めるしか有りません。今回は上手いこと見つかったので、「ちゃん」+「と」を採用してゐます。他にも、「ふあん」=「ふぁ」+「あん」といふ例があります。
尚、連続音の考へ方を踏襲して、「あい」などの二重母音も切り出しておくと有利です。例へば「たい」の歌声を作るのに、「た」+「い」の他に「た」+「あい」+「い」の選択肢が有ると、より滑らかな歌声を作れる可能性が上がります。

1.2 打ち込み

歌声打ち込みの手段としては、最初にお手本として絵理の歌声を抽出し、音程や、スタッカートなども含めたリズムを聴き取って、ボーカロイドエディタで大雑把な打ち込みを行ひます。最初からUTAUを使はないのは、ボーカロイドなら打ち込みの音程とリズム感を慣れた声で確認できるのと、UTAUのエディタ操作にあまり慣れてゐないからです。

[UTAU画面]

作ったVSQをUTAUにインポートして、Shift+右クリックを駆使しながら、歌詞毎に最適な素材を選択して行きます。私のやり方では、一つの音素に対して候補が何個も有るので、歌詞が同じでも場所が異なれば、最適な素材も異なります。(例: 歌詞「ふ」に対する選択肢として、ふA4ふC4ふD#4ふE4ふF4ふF4-2、…)

一通り素材を選んだら通しで聴いてみて、微調整を行ひます。例へばリズムが狂ってゐれば、素材の原音設定をやり直すか、音符に個別で先行発声・オーバーラップを調整することも有ります。

UTAU打ち込みでの要点を次に示します。

A. 歌声の音質を前後で揃へる。
素材を選んで歌詞に当てはめる時、「綺麗」な素材を選ぶのも大切ですが、前後の音符と比べて、音質が浮いてゐないことが最も大切です。極端な話、前後の音がノイジーなら、間の音もノイジーな物を選んだ方が、違和感少なく聴けます。
B. モジュレーション(mod)は高目の75%で。
モジュレーション(抑揚)を低くすると、素材の持つ癖や生っぽさが失はれ、面白みの無いロボ声になりますので、本人っぽさを保つために、高目に設定します。
100%とすると、UTAUでのピッチ均一化の加工が減る分、音質も良くなると期待できますが、今回はピッチ変動が大きい素材が多いので、音痴に聞こえる部分が多くなってしまひます。すっぴん調教と同じ要領で試行錯誤した結果、少しだけ音程に歩み寄ってもらふ意味で、75%を基本としてゐます。
音符の素材によっては、100%にして癖を強く出したり、0%にしてピッチ曲線を手動で加へたりしてゐます。みにmodを高目にするのは、小さめに設定して「波立たせる」ツールでモジュレーションを付けるのが基本だが、音源ごとの特徴を強く出したい時はあえて大きめにするのもアリと、UTAUユーザー互助会の情報に有る通りです。
解り易い解説: 消臭Pの動画「【UTAU音源紹介】modについて/白米より麦飯(ryで遊んでみた/再会
C. 子音速度は「とかちメーター」。
子音速度は滑舌の改善や、先行発声を調整する代りに使へます。特に「さ行」の発音で有効で、子音速度を100より小さく(遅く)すると「し」が強くなり、素材によっては滑舌が良くなります。100より大きく(速く)すると「ち」が強くなり、亜美真美らしさの一つ「とかち」が増しますので、効果的に使ふと面白いかと思ひます。
今回は、例へば「遠い昔の夢が」の「し」を「ち」っぽくするのに使ってゐます。
D. ピッチ曲線は頭と尾の要所で。
語頭にしゃくり上げ(┌→)や裏返り(└→)などを付けたり、語尾に力が入って上がったり(→↑)力が抜けて下がったり(→↓)するのを表現してあげると、平坦な合成音声っぽさが減り、グッと来る歌声を作れます。音が大きく変化する所では、オートピッチ機能で滑らかなポルタメントにしてあげるのも効果的です。
但し、今回はモジュレーションを高目にしてありますから、素材を上手く選べれば、それだけで良い感じに音が揺らぎますので、ピッチ調整が不要になります。
個人的にはUTAUの様に、ピッチ情報がトラックではなく音符に紐付いてゐる方が、音符のコピーや移動がやり易くて、すっきりします。又、ピッチ調整時に音階も数値で出ますし、さまざまな曲線を描くツールも内蔵されてゐて、よく考へられた使ひ易いUIだな、と感心しきりです。
E. フラグ(Flags)には時にBREやgで味つけを。
フラグには基本的に、子音以外のノイズを抑へるといふ触れ込みのY0だけ指定してゐますが、前述の「歌声の音質を前後で揃へる」といふ観点から行くと、BREやgを少し調整してあげると、良い感じになることが有ります。特にgは±3〜5程度でも十分効果が有ります。
みにUTAUのgボーカロイドのジェンダーファクター(GEN)に相当し、「鏡音レンの蒼い鳥」で「お」が「あ」に近く聴える部分では,更にGENを上げて改善したのと同じ要領です。
又、「トゥルタラ」のスキャットの部分では、原曲の歌声には低域遮断フィルタが掛ってゐる様なので、BRE=90と高目に設定することで真似てゐます。
F. エンベロープは特に尾に気を遣ふ。
次の音符やを邪魔しない様に、要所要所で声の抜き方に気を遣ふと、より自然な歌声になります。休符の前では音符を少し長めにして、p3を長めに取ってみるのも手です。
G. 語尾専用の原音を作って使ふ。
[語尾専用音符を適用してゐるUTAU画面]
語尾のひっくり返り(→↑)は、ピッチ曲線で表現してもいのですが、語尾専用の素材を切り出すか、既に切り出した素材から語尾専用(左ブランク大き目)の原音をエイリアスで設定し、それらを音符の後ろに附ける方法も有ります。(例: と⇒とD4-2+お'D4)
特に、重音テトの語尾息音源の様に、語尾の息遣ひを再現したい場合は、この方法でないと不可能です。
H. 母音結合で滑らかに。
語頭以外の母音歌詞(「みたい」の「い」など)がデコボコするなら、母音結合が良く効きます。先述の語尾用原音にも母音結合は有効です。母音結合部にクロスフェード最適化をしても良いでせう。
母音結合でも上手く行かない時は、後ろの歌詞を半母音に変へるのも手です。例へば今回は、「ふあん」を「ふわん」としてゐます。
実はプリコグでは跳ねる音(スタッカート調)が多いので、あまり母音結合を使はなくても、結構自然に聴えました。

1.3 音響加工

人力VOCALOIDでは、素の出力だとどうしても切り貼り感が出てしまふので、音響効果で如何に誤魔化すかがポイントになります。今回の作品で使用したVSTエフェクトを、効果を重ねた順番通りに列挙します。

メインボーカル
1. BLOCKFISH compressor
素材元がバラバラで、音量もバラバラなので、コンプレッサはキツ目に掛けます。今回、opto/vcaはvca、lowcutはオフ、airはオン、compressionは10〜11時方向、saturationは最小、responseは最速としてゐます。
音量が殆ど均一になるので、カラオケに合せた最終的な音量調整は、REAPERのオートメイション機能で行ひます。
2. GSnap
[GSnapの音程モニタリング画面]
本来はピッチ補正を行ふVSTですが、今回は一切補正を掛けず、音程をモニタリングするためだけに使ってゐます。「何か音痴に聞えるので、UTAUのピッチ曲線で修正したいけれど、上下のどちらにずれてゐるか判らない」といふ時に便利です。
尚、このVSTはモノラル出力となるため、エフェクト順序で最初の方に置く必要が有ります。
3. SPITFISH de-esser
耳につく「さ行」の子音を圧縮します。senseは中央、depthも中央、tuneは9〜10kHzとし、ピーク圧縮してゐます。
実際の動きをみてゐると、「さ行」以外でも薄く働いてゐて、亜美真美+UTAU特有のキンキン声を抑制してゐる様ですので、イコライザーの役割も兼ねてゐることになります。
4. mda delay
見本となる絵理の歌声を聴くと、サビ前のBパート(溢れてこぼれ出した〜)やサビでディレイが掛ってゐますので、それを模倣してゐます。
5. SIR (1段目) + Vocal Brit Plate.wav
音質のバラつきを誤魔化すため、リバーブは少し深目にしてあげます。SIRのインパルス応答ファイルとしては、種類も豊富で効果も素敵な「Stock Algos」(Roland R-880)の、ボーカル用の明るいplateをDry=0dB、Wet=-12.5dBで使ってゐます。Auto Gainはon (+13.9dB)です。
6. SIR (2段目) + Stereo Delay.wav
「トゥルタラ」のスキャットで、ステレオディレイが掛ってゐますので、それを模倣してゐます。と言っても、オリジナルの様に、左から出た声が右へ抜けるディレイの掛け方が良く解らなかったので、似た効果を持つ物を手抜きで入れてゐます。
コーラス(ハモリ)

REAPER上のトラック音量では、メインボーカルが+2.3dBなのに対して、コーラスは-10.0dBと弱めて入れてゐます。

1. BLOCKFISH compressor
2. GSnap
3. SPITFISH de-esser
これらの効果はメインボーカルと同じなので、詳細は省略します。
4. SIR + Vocal Room.wav
コーラスはメインボーカルよりも裏に引っ込む様に、少し籠ったリバーブを深目に、Dry=0dB、Wet=-10.0dBで掛けてゐます。Auto Gainはon (-4.9dB)です。
5. Classic Chorus
コーラスにコーラス効果を掛けるといふ、或る意味当り前のことをやってゐます。プリセットの「Vocal Overdub」を元に、Depth=100%、Level=0dBとしてゐます。SPREADがオンなので、定位が中央から少し左右に拡がって、メインボーカルと喧嘩しなくなります。
マスタートラック
1. Classic compressor
狭い範囲でピーク圧縮を施して、音圧を稼ぎ易くしてゐます。Threshold=-2dB、Ratio=4:1、Knee=10%、Attack=0.5ms(最速)、Release=0.0794s、Level=0dBとしてゐます。
2. BuzMaxi3
音圧を稼ぐ際に使ふ定番のVSTです。今回、カラオケのトラック音量を-2.0dBで入れてゐますので、Mode=Aggressive、Make Up=+2.0dB、Out Ceiling=0.0dBとして、カラオケだけが鳴ってゐる時に丁度0dBとなる様にしてゐます。

2. 画像作業

画像は今回、一番最後のクレジットのみ、独立した静止画として作成しました。

づ、ボカマス祭り4のロゴをPictBearで暗くして背景化します。次にこれをJTrimで16:9に切り抜き、FLAXで縮小するといふ毎度お馴染みのコンボを決めます。最後にASS字幕でクレジットの文字を作り、先の背景とVisualDubModで合成してゐます。

ASSを使ふのは、レイアウトを記述する文法に慣れてゐるのと、アンチエイリアスが良い感じに働くからです。みにASSの文法は、「ASS(Advanced SubStation Alpha)@wiki」を辞書代りにしました。

3. 動画合成作業

音声が主役なので、動画はUTAUの画面や静止画でも良いかと思ってゐたのですが、とかちロイドに相応しい素敵なモデル「鏡音 亜美真美」や、プリコグの公式ダンスを写したモーションが公開されてゐたので、初めてMikuMikuDanceでの動画出力に挑戦してみました。

亜美真美が双子なのを活かして、亜美をメインボーカルにして口パクを合せ、真美にはモーションを反転貼り付け(反転P)して、コーラス部分のみ口パクさせてゐます。みに口パクは、モーションに附属のものは使はず、とかちロイド用の打ち込みustの歌詞をボーカロイド互換に直し(例: ひA4)、これをUTAUで歌詞用VSQとして保存し、MikuMikuDanceのリップシンクにインポートして、タイミングを実際の歌唱に直してゐます。

背景として、最初はMikuMikuDance附属の舞台(stage01.x)を使ってゐたのですが、装飾がびやか過ぎてエンコード時に破綻したため、比較的大人しい配色のステージLに変更してゐます。同様にカメラも、エンコーダーが圧縮し易い様に、あまり動かしてゐません。(参考: 「MMD杯公式動画エンコードについて」)

絵理を近くに坐らせて、「亜美真美の歌ふプリコグ」を聴いてもらったのは、アイドルマスターDSの絵理シナリオをやった方なら、「あの時の後日談かな」と察してくださると思ひます。因みに絵理は可なり小さな体格なので、パイプ椅子の大きさを0.9倍して、坐っても違和感が無い様にしてゐます。

動画のエンコードは640*360pxだとflv(vp6)が不可だったため、mp4(x264)コーデックを利用しました。映像=142kbps(QPの下限=12、ビットレート変動量(%)=60)、音声=100kbps (Q-based AAC)をエンコード時に指定した所、出力動画は映像=143kbps、音声=100kbpsとなり、ニコニコ動画のエコノミー(低画質)モード回避に成功しました。

今回エンコーダーとして使ったAviUtlでは、歌詞ASS字幕とクレジット画像の合成も行ってゐます。歌詞ASS字幕は、Vocalipsの「event-base, always with "end"」を利用して歌詞用VSQからタイムラインを得て、xyzzyでタイトルやクレジットを追加して作ってゐます。

4. 完成版とオマケ

以上の作業により、完成した動画がこちらです。

オマケとして、VSQ、UST、ASS字幕、素材元(原音を切り取った楽曲と該当箇所の歌詞)を記したカラオケファイルなどを纏めて置いておきます。これらのファイルについて、私が権利を主張する積りは一切ありませんので、元ネタに敬意を払ひながら、良識の範囲内で御自由に使ってください。

更なるオマケとして、今回打ち込んだustのUTAU画面を動画にしました。既述の打ち込みの解説と一緒に見ると、更に解り易いかと思ひます。動画の後半では、原音の素材元を列挙した映像と、UTAUで無加工出力した($direct=True所謂「未調教」の)歌声とを合せてゐます。後半の音声がUTAUによって前半の様に補正されるのだと考へると、UTAUの強力さが解るかと思ひます。

附記

使用ソフトウェア・素材一覧

今回の動画を作るにあたり、次の一覧に示したソフトウェア・素材を利用させていただききました(敬称略)。ここに感謝の意を記します。

音声ソフトウェア
xyzzy [version 0.2.2.235] (亀井哲弥)
SoundEngine Free [ver.4.51] (Cycle of 5th)
UTAU [Ver 0.2.76] (飴屋/菖蒲)
VOCALOID Editor [System Version 2.0.12.2J] (YAMAHA)
歌声りっぷ [Version 3.0] (TODAKEN)
Wpak32 [Ver. 1.09e] (MIO.H)
REAPER [v0.999] (Cockos)
VOCALIPS [Rev.0.42] (zhuo)
音声素材
アイドルマスター [Xbox360版] (NBGI)
THE IDOLM@STER DREAM SYMPHONY 01 水谷絵理 (日本コロムビア, NBGI)
imas32_kana.txt (もう、だめP)
画像ソフトウェア
PictBear [Version 2.00] (柏木泰幸)
JTrim [Version 1.52] (WoodyBells)
FLAX [10.998] (Y.Nomura, Ezi, T.Chino)
VirtualDubMod [1.5.10.2] (Avery Lee)
画像素材
ボカマス祭り4 ロゴver2 (えぬやP)
動画ソフトウェア
txt2ass [2.0.19] (Anison Generation)
MikuMikuDance [Ver.7.12] (樋口優)
AviSynth [2.5] (Ben Rudiak-Gould, et al.)
AviUtl [version 0.99i8] (KENくん)
動画素材
ふい字P [v2.9] (ふい)
きろ字 - P [Version.2.00] (kilo)
VL Pゴシック [Version 1.600] (M+ FONTS PROJECT, et al.)
MMDモデル: 鏡音 亜美真美 (やかP)
MMDモデル: 絵理Vo (狡猾全裸富竹P)
MMDモーション: プリコグ (kapi)
MMDアクセサリ: パイプ椅子 (327)
MMDアクセサリ: ステージL (tkc)