VOCALOIDを筆頭に「合成音声」は身近なものとなってきました。
「合成音声に喋らせる・歌わせる」系のソフトやサービスは様々登場していますが「自分の声を合成音声にできる」ものは今まであまりありませんでした。
昔からある、VOCALOIDに似たフリーソフトの「UTAU」はユーザーが作成した声で歌わせられるツールですが、UTAU用音源を作るためには専門的な技術が必要で膨大な時間も掛かるものでした。
そんな中、こんなニュースを見かけました。
15分の収録で!AI音声合成化!!!!
こいつはすげぇや!
ということで試してみました。
この記事ではCoeFont CLOUDの紹介と、実際に自分の声を合成音声にするやり方の説明をします。
CoeFont CLOUD
「CoeFont」には現在2つのサービスがあります。
まず1つ目が「CoeFont STUDIO」です。
Web音声合成サービス『CoeFont STUDIO』 https://t.co/UZs1njqQQv をリリースしました。全サービス無料公開。すべてのクリエイターに声を届けます。#CoeFontSTUDIO #CoeFont pic.twitter.com/Wu5AFJpZ9d
— CoeFont (@coefont) April 23, 2021
ユーザーが入力した文章を喋ってくれるサービスです。
「喋り方が自然だな」などはありますが、これだけなら他社のサービスと大きく違いません。
そこでもう1つの「CoeFont CLOUD」です。
500円・15分の収録で、あなたの声を「AI音声合成」化
— CoeFont (@coefont) July 19, 2021
音声合成プラットフォーム「CoeFont CLOUD」#CoeFont pic.twitter.com/XTWF8KSnPj
STUDIOの方から3ヶ月後にリリースされたCLOUDは、自分の声を合成音声化できるものです!
公開・収益化可能
使用者(好きな文章を入力して音声で喋らせたい人)の側から見た場合……
CoeFont STUDIOで喋らせるのは無料でできますが、CoeFont CLOUDで喋らせるのには料金が掛かります。声によりますが100文字当たり5~50円ぐらい。
また、CoeFont STUDIOには数人のキャラしかありませんが、CoeFont CLOUDにはアナウンサーや声優などの有名人を含む、無数の声から選択できます。
逆に作成者(自分の声を合成音声にしたい人)の側から見た場合……
作成した自分の声を他の人が利用できるように公開することができます(公開しないこともできます)。
また、自分の声がCoeFont CLOUDで利用されると収益が得られます。
プラン
自分の声を合成音声化する場合、合成の精度によって「ローエンド」「ミドルレンジ」「ハイエンド」の3つのプランがあります。
サイト上からそれぞれのサンプルが聴けますが、ローエンドはガビガビした感じが目立ちます。ミドルレンジとハイエンドは「比べれば分かる」ぐらいの違いな気がします。
高い精度での合成をする場合、収録時間が長くなり料金も高くなります。
他の方がどのプランで公開しているか見てみた感じ、ローエンドとハイエンドが多く、ミドルレンジは少ない印象でした。
今回は「ハイエンド」を試してみることにします!
事前準備
録音はパソコンのブラウザから可能です。
当然マイクが必要なので準備しましょう。
開発者の方のインタビューで、
--キレイに録るために、オーディオインターフェイス、コンデンサマイクを用意し、スタジオなどを使うほうがいいですかね?
早川:ノートパソコンの内蔵マイクなどではなく、コンデンサマイクで録音するとキレイに録れますね。なるべく静かなところで録るのがいいのですが、特にスタジオなどを使う必要はなく、普通の部屋で大丈夫です。ファンなどの環境音もシステムでチェックして消していますから、あまりその辺を神経質に考えていただかなくても大丈夫です。
500円で自分の声を深層学習させ、自在に音声合成を可能に。19歳大学生社長が開発したCoeFont CLOUDの破壊力より
とのことなので、コンデンサマイクは用意しました。
環境音は神経質に考えなくても良いとのことなので、防音等は考えずエアコンは入れたままのアパートの自室で録音することにしました。
早川:ローエンドだと100文、ハイエンドだと700文を読んでいくのですが、できる限り同じように読み上げ続けることが重要なんです。標準語なら標準語、関西弁なら関西弁のアクセントをキープし、スピードもできるだけ一定に読んでいきます。途中で休憩をはさんだり、場合によっては2日、3日に分けて録音していくことも可能ではありますが、声質を一定にするのが重要です。プロの声優さんだと、その辺のクオリティーコントロールをしっかりできますが、一般の人だと、どうしても日を分けると、変わってしまいます。そこをうまく保てるのかによって、仕上がりも変わってしまいます。
500円で自分の声を深層学習させ、自在に音声合成を可能に。19歳大学生社長が開発したCoeFont CLOUDの破壊力より
とのことなので、同じように読み上げられるよう、時間を分けずに録れる日程を確保しました。
Q.CoeFontの収録はナレーターのように落ち着いて読む方がいい?それとも自分の抑揚を意識した方がいい?
A.自分の作成したい声で収録ください。読み方や読むスピードもCoeFontにはある程度反映されます。
Q.キャラの声やものまねでCoeFontは作成できる?
A.作成できます。CoeFontの収録で全ての文章で一貫して声質・抑揚・スピードで行えれば再現されます。
よくある質問より
とのことなので、どのように読むか決めておくと良いかも知れません。
会員登録
CoeFont CLOUDに会員登録をします。
メールアドレスを入力して確認(あるいはGoogleアカウントを使用)して…と、一般的なサイトへの登録と変わらないので迷うことはないはずです。
登録を進めると姓名の入力を求められます。これは本名を入力するようです。
合成音声を作成する側であれば他の人に公開されることはないようです。
利用する側だと、利用した声の持ち主に対してのみ公開されるようです。
クレジットカード情報を入力する「お支払い情報」の欄もありますが、合成音声を作成する側であればここでは登録する必要はありません。
右側の「AI音声合成を利用しない」にチェックを入れて非表示にしましょう。
作成画面へ
登録・ログインが完了すると画面左側にメニューがあります。
「CoeFontを作成」を選びます。
お好みのプランを選択し「このプランで作成」ボタンを押します。
ここでクレジットカード情報の入力を求められるので、入力します。
クレジットカード情報を入力後すぐに作成画面に進んでしまいますが、収録はいつでも中断できます。
いざ収録!
支払いを完了していざ収録!
こんな感じの注意書き。
使用するマイクを選択します。
ノイズを確認するために、何も喋らずに少し待ちます。
右上の「原稿をダウンロードする」ボタンでPDF形式の原稿をダンロードできます。
基本的にダウンロードする必要はないと思います。
読みがな部分にアクセントが表示されるので、それを参考に読むと良いそう。
収録
収録画面はこんな感じ。
読むべき原稿とその読み方が表示されます。
「アクセントを隠す」にチェックを入れると読み方が消えます。
右上の「録音を一時中断する」で中断、マイクアイコンのボタンで録音です。
ハイエンドプランの場合は700の文章を読むようで、進捗が下のバーに表示されています。
1つ目の録音が終わるとこんな画面に。
録音した音声を確認したり、もう一度録音し直したりできます。
問題がなければ「次に進む」ボタン。
次に進んだ後でも左上の「1つ前の文章に戻る」から戻ることができます。
原稿の内容
原稿の内容は普通の文章なので割と読みやすいですね。
多分ですけど合成音声の作成って「あ」って言う音声録って、次に「い」って言って、50音全部できたら言葉の繋ぎ目のために「ああ」「あい」「あう」……っていうのをひたすら録り続ける形式もあるんじゃないかと思います。
その点、意味のある文章なので退屈はしないです。
ただ普通の文章に比べると「ピェニャッカが大躍進」「サピェハとともに猛抗議した」「ニェフスキーが、党の実質的な指導者です」「テュレンヌは、霧に隠れて陣営に接近した」のように、「どう読むの?」みたいなものが多かったです。
色んな言葉を収録しないといけないのでこういうのも含まれるんでしょうね。
収録時間
2時間喋り続けるのは結構キツイ…。
最初の10文くらいは、文章を1回リハーサルとして読んでみる→録音→録音したのを確認、という手順でやっていました。
ただこれだとあまりに時間が掛かる…。
それ以降は表示されたのをいきなり読んで録音して、聞き直したりせずちゃんと言えてた感じがしたら次に進んでました。
それでも半分の350文を終えるのに1時間ちょっと掛かりました。
噛んで読み直しとかがタイムロスになったかも知れません。
2時間ぶっ続けは無理だった(水分はちょこちょこ取ってましたが)ので、1時間終えた後休憩を挟みました。
最終的に私の場合は、休憩時間を含め3時間掛かりました。
私は割と普通に喋るようにしましたが、何かキャラを演じたりしながらやるのはかなりキツイのでは…?
その場合は複数日に分けるか、収録時間が短くて済むローエンドやミドルレンジのプランにした方が良いのかも知れません。
収録完了
700文の収録を終え……
録音完了!
あとはAIが録音内容を元にCoeFontを作成してくれるのを待ちます。
12~14時間ほどかかるとのことなので、気長に待ちましょう。
6時間後ぐらいに見たら「6~8時間ほど」に変わっていたので、残り時間に応じて表示が変わるのかも知れません。
完成!
収録完了から12時間半ぐらい後、メールが届いていました!
さっそくサイトで設定を進めます。
設定
ログインして「CoeFontを管理」から音声の名前などを設定できます。
設定したい音声のアイコンをクリックするとこんな画面に。
右上の「音声を確認する」からサンプル音声を確認できます。
設定前のもののスクショを撮り忘れてしまったのですが、最初は名前が「unnamed」に、IDがランダムな文字列になっていて、アイコン含め他の欄は空欄でした。
ここで設定したもののうち、アイコンと名前とキャプションは一覧ページで表示されます。
IDと説明は個別のページで表示されます。
また、公開設定タブからは利用許諾が必要かどうかと、利用するのに何ポイント必要にするかを決められます。
デフォルトは10ptになっていましたが、5pt(設定できる下限)にしている人が多いかなという感じです。
利用申請タブは、利用したい人がいた時に表示されるのだと思います。
最初は何も表示されていません。
最後に左上の「他のユーザーに公開」のスイッチを押して色付きにすれば……公開完了!
声を聞いてみて
自分の声だ!!!!
サンプル音声を聞いてみると、ところどころイントネーションがおかしいかなという部分はありますが、これは読ませる時にアクセントの修正ができるようです。
合成の精度なのか収録の時の読み上げアクセントに不備があったのか分かりませんが…。
文脈に合わせて感情を乗せたりということはできませんが、かなり自然な喋りです。
アクセントさえちゃんと調整すれば、ちょっと音質の悪い通話だったら肉声と区別するの難しそう。
時々滑舌が怪しい部分があるのも含め、かなり「自分の声」です。
他の人の声を聞いてみて
録音環境の影響はモロに受けてそうです。
ハイエンドプランであっても、録音環境が悪いと合成音声感が増す感じがします。
逆にローエンドプランでも音質が良くて自然な感じがする音源もありました。
完成する音声も録音した環境並みの音質になるので、可能ならちゃんとした機材を使用した方が良さそうです。
また、反響の少ない環境で録った方が良さそうです。
たまに棒読み感が強い音声もあったのですが、これは読み上げ時のアクセントが曖昧だったりしたのでしょうか…?
あと習熟度にもよるのでしょうが、作った声よりも普段通りの話し方の声の方が自然に聞こえる気がします。
まとめ
この手軽さでこのクオリティの音声が作れるのはやべぇですよ…。
クオリティでいえば市販されている音声合成ソフトに収録されている声と遜色ないと思います。
自然さで言えば、AI搭載を謳っていない、例えばボイスロイドにならCoeFontの方が勝ると思います。
ビジネスとしては、作るのは破格でやらせて、使う方で収益を上げる構造になっているように思います。
作成者本人であっても自由に喋らせるためには1文字あたり5pt消費する必要があります。
100pt=1円なので、例えば1,000文字喋らせるなら5,000pt=50円ですね。
作るのは1500円ポッキリでできますが、使う側だと月500円払って50,000ptもらえる方式なので、私はちょっと抵抗あるかも。
そんな毎月コンスタントに喋らせたいことないし…。お試しで自分の声に色々喋らせてみたいですけどね!
単に文章を自然に読み上げてもらうのが目的の場合、文字数とか気にせずに使える買い切り形式の他のツールの方が便利だと思ってしまうかも…。
自分の声、誰々さんの声、を使えるという点では唯一無二ですが。
色んなパターンで録るのもやってみたいですね。
原稿無視して喋ったら宇宙語みたいに意味分からないのが出来上がるのかとか、ボイチェン掛けて録ったらどうなるかなとか、どこまで感情乗せられるかなとか!
その時はハイエンドプランでなくミドルレンジプランで十分かも知れません。
料金はともかく、収録時間が大変です。
「かがくのちからってすげー!」ってなれるので、自分の声で作ってみるのオススメです。
他の人に使われたくない人は非公開にもできますし。
コメント