VoiceChanger Demo Page

深層学習を使ったボイスチェンジャーのサンプル音声を添付するページです.
いいものができたら差し替える予定です.

Audio samples

2021-01-05

STFTの条件とネットワークの層数を変更しました。
JVS001~JVS010をJVS010に変換した結果
Condition Input Result
Target audio
JVS010
Truth (16kHz downsampled) WaveRNN Vocoder
Input:JVS001
Output:JVS010
Input:JVS002
Output:JVS010
Input:JVS003
Output:JVS010
Input:JVS004
Output:JVS010
Input:JVS005
Output:JVS010
Input:JVS007
Output:JVS010
Input:JVS008
Output:JVS010
Input:JVS009
Output:JVS010
Input:JVS010
Output:JVS010
JVS002をJVS001~JVS010に変換した結果
Condition Target Result
Input audio
JVS002
Truth (16kHz downsampled) WaveRNN Vocoder
Input:JVS002
Output:JVS001
Input:JVS002
Output:JVS002
Input:JVS002
Output:JVS003
Input:JVS002
Output:JVS004
Input:JVS002
Output:JVS005
Input:JVS002
Output:JVS007
Input:JVS002
Output:JVS008
Input:JVS002
Output:JVS009
Input:JVS002
Output:JVS010

2020-11-16


スペクトログラムを変換するネットワークと,スペクトログラムを波形にするボコーダーから構成されており, ボコーダーは2種類作成してあります.
1つは畳み込み層のみで構成されているため,リアルタイムの0.06倍程度
もう1つは再帰ニューラルネットワークを使用しているため,リアルタイムの7倍程度
の時間を必要とします.
Condition Convolution vocoder (Fast) RNN vocoder (Slow)
Input:JVS004
Vocoder only
Input:JVS004
Target:JVS001
Input:JVS004
Target:JVS001*0.9+JVS004*0.1
Input:JVS004
Target:JVS001*0.8+JVS004*0.2
Input:JVS004
Target:JVS001*0.7+JVS004*0.3
Input:JVS004
Target:JVS001*0.6+JVS004*0.4
Input:JVS004
Target:JVS001*0.5+JVS004*0.5
Input:JVS004
Target:JVS001*0.4+JVS004*0.6
Input:JVS004
Target:JVS001*0.3+JVS004*0.7
Input:JVS004
Target:JVS001*0.2+JVS004*0.8
Input:JVS004
Target:JVS001*0.1+JVS004*0.9
Input:JVS004
Target:JVS004
Input:JVS004
Target:From JVS004 To JVS 001 linearly