自分がよく使うモデルは理解を深めておこうの精神。 MelGAN の論文はこちら [1] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis Multi-band MelGAN (以下 MB-MelGAN)の論文はこちら [2] Multi-band MelGAN: Faster Waveform G…
7月何も書いてなかったので無理やりネタをひねり出してみました。 モデルは前回記事で試してみた GlowTTS + MBMelGAN をちょこっと改造したものを使ってます。 小説はフリーで利用できる青空文庫のうち宮沢賢治作の「春と修羅」の序と「注文の多い料理店」の…
Glow-TTS とはこちらの論文 のことです。 下記の github リポジトリでコードも公開されています。 github.com 今回はこの github コードをお借りして JSUT のデータセットで試してみました。 作成モデル推論結果サンプル サンプルデータ 1 サンプルデータ2 …
全然上手くいかず挑戦の途中ですが(最近全く記事を書いてなかったので)一旦現状をまとめることにしました。 はじめに これまではずっと Nvidia 様の Tacotron2 (or Mellotron) + Waveglow にお世話になっていましたが、別の TTS モデルに手を出してみました…
目次 Nvidia Mellotron とは Mellotron で出来ること Mellotron の手法詳細 モデルの構造 モデルの学習方法 PitchContour SpeakerId Global Style Token モデルによる推論方法 入力データを用意する方法 音声データを用意する場合 楽譜データを用意する場合 …
おかしい...アニメ終了から半年以上たったのにまちカドまぞくのキャラソンがでない...つらい... マリーアントワネット「キャラソンが出ないなら自分で作ればいいじゃない」 なるほど!確かに!! という訳で Nvidia の mellotron というモデル を眺めていたとこ…
はじめに モデル作成編 その1のつづきです。 やってみて効果があった手法とか、なかった手法とか、今後やりたいことをまとめます。 半年以上前にやったこととかもあるので覚えている範囲をふわっとした感じで書いていきます。 効果があった手法トップ3 トッ…
はじめに データ収集編のつづきです。 次は用意したデータを用いて音声合成を行う Deep Learning モデルを作成する作業になります。 今回使用したモデルは Nvidia の Tacotron2 + Waveglow です。 このモデルは、例えば JSUT のデータをダウンロードしてデー…
はじめに 前回の記事のつづきです データセット作成流れ 3. 対象キャラクターが話しているところのみ切り取り 手作業でやるなら Audacity で音声を聞きつついらないところを切り取るだけです。 初めは手作業でやっていたのですが、非常に時間がかかる上にし…
はじめに 前回の記事の続き 今回はデータセットを作る話になります。 よく言われる事で私もそう思っているのですが、高品質の Deep Learning モデルを作るために一番大事ことは いかに多くの綺麗なデータを集めるられるか です。 今回は多くの綺麗なデータを…
アニメキャラのボイロを Deep Learning で作ってみました