自作の音声合成シャミ子に小説を読み上げさせてみた

7月何も書いてなかったので無理やりネタをひねり出してみました。

モデルは前回記事で試してみた GlowTTS + MBMelGAN をちょこっと改造したものを使ってます。
小説はフリーで利用できる青空文庫のうち宮沢賢治作の「春と修羅」の序と「注文の多い料理店」の二つを読ませてみました。(「春と修羅」は詩集ですが )

漢字混じりの文章をひらがなにするのに yahoo ルビふり api を利用しています。読みが変な箇所をごく一部手直ししましたが、あまりちゃんと確認してないので読みが間違っている箇所とかあるかもしれませんがご了承ください。

原文はそれぞれこちらです。

生成音声

こんな感じでした。CPU でも音声時間の 1/10 程度の時間で生成することが出来ます。

ちなみに「春と修羅」はまちカドまぞくでも一節が引用されており、作者の伊藤いづも先生曰くまちカドまぞくのキャラクターの背景とも重なる部分があるようなのでファンはぜひ一読してみましょう。
こちら参照 ↓

media.comicspace.jp

注文の多い料理店」は個人的に好きなのでチョイスしました。

モデルに関して補足ですが、GlowTTS はちょこっと改造して Pitch を input に入れられるようにしています。
入力に Pitch を与えない場合は文字単位で Pitch を推定し、それを利用する構造を加えています。

せっかく Pitch を変えられるようにしたので Pitch を変えてみた結果もみてみます。
以下は「春と修羅」の序の Pitch を変更した結果です。

  • 全体を 2 音上げた場合

  • 全体を 2 音下げた場合

全体の印象が多少変わります。
(Pitch は生成時の条件として利用するだけで、厳密にその通りに変わる訳ではないです。)

おわりに

今回は小説の読み上げ音声を作ってみました。
何て言っているかわからないところが結構あるのとガサガサした音声になってしまっているのでもうちょっと精度をあげたいですね。
Pitch をいれるモデルの構造とか学習方法/条件の詳細とかは...あの...そのうちモチベが上がればまとめます...

あと、もしシャミ子の音声合成モデルを使ってみたいという方がいましたら Twitter で DM いただければ 音声合成を試せる google colab の notebook をお渡しすることは出来ますのでこちらまでご連絡くださいませ。

諸事情あり配布を停止しています。