音響モデルの作成について

このトピックには1件の返信、2人の参加者があり、最後に匿名により7年、 4ヶ月前に更新されました。

2件の投稿を表示中 - 1 - 2件目 (全2件中)

投稿者

投稿
2019.01.24 18:03 #744

匿名
参加者

現在、KaldiのCSJモデルでnnet3-chainモデルを作成しているのですが、
特徴量をHARKで抽出したMSLS40次元の特徴量で学習をしたいのです。
どのようにやればよろしいでしょうか?
よろしくお願いします。

2019.01.28 10:14 #746

匿名
参加者

HARK特徴量の学習を行うには、HARKのSaveHTKFeaturesでMSLSの特徴量を保存してから下記コマンドでKaldiアーカイブに変換する必要があります。
copy-feats --htk-in scp:/path/to/nfbank/feats.scp ark,scp:/path/to/archive/feats.ark,/path/to/archive/feats.scp
そうすると、出来たフォルダはKaldi データフォルダと同じ扱いになります。ただ、次元数は13次元（GMM用）と40次元（chain用）が必要になりますのでご注意ください。
あと、データ水増しステップは音声ファイルをsoxで加工しますので特徴量だけでは出来ません。簡単にするなら水増しを飛ばした方が良いと思いますが、実施するなら下記ステップが追加で必要になります。
* 分離音をHARKのSaveWavePCMで保存し、そのデータを入れたwav.scpを作成する。
* utils/data/perturb_data_dir_speed_3way.shを用いて水増しwav.scpを作成する。
* wav.scpにあるコマンドを実行し、各出力ファイルをHARKで読み込んでから特徴量を抽出する。
* copy-featsで特徴量をKaldiアーカイブに変換する。

以上、よろしくお願いいたします。
投稿者

投稿

2件の投稿を表示中 - 1 - 2件目 (全2件中)

このトピックに返信するにはログインが必要です。