多くの人工知能が私たちの生活に組み込まれて、AIや人工知能の利用が当たり前の世の中になって来ました。
街中やインターネット上のアナウンスでも、AIにより生成された音声を聞く機会も増えて来ているのではないでしょうか。
また、会議の議事録を自動で文字起こしできるようなツールも活用されています。
この記事では、音声→テキスト、また、テキスト→音声の変換を自動的に行ってくれるサービスをご紹介いたします。ぜひ最後までご覧ください。
音声生成AI「Coqui」とは?
Coqui(コーキー)は、オープンソースの音声生成AIの一つで、テキストから音声を自動生成したり、音声からテキストを自動生成したりといった変換が可能なサービスです。
まずはCoquiの開発背景や概要について見ていきましょう。
Coquiの開発背景と技術的特徴
Coquiは元Mozila社(米国)の開発者によって創設されました。Mozilaと言えば、FirefoxやThunderbirdのサービスを使ったことのある方も多いと思います。
Coquiの開発は2016年ですが、その当時から音声生成AIはすでに世の中に存在していました。ただ、オープンソースの音声生成AIはなく、開発の自由度に懸念を感じた創設者たちがCoquiを立ち上げたという背景があります。
Coquiで利用されているライブラリはすべてGitHubで公開されているため、全世界のユーザーが利用することができます。
Coquiでできること
Coquiでできることは大きく以下の2つです。
- 「テキストから音声」を自動生成する
- 「音声からテキスト」を自動生成する
①は一般的に「text-to-speech(TTS)」と呼ばれる技術で、身近な活用例としては、音声案内や、SNSのコメントの読み上げに利用されています。
②は一般的に「speech-to-text(STT)」と呼ばれる技術で、会議の議事録の作成や、映像の字幕生成といったシーンで利用されています。
Coquiでは、現在およそ16カ国の言語がサポートされています。
Coquiと他の音声生成AIとの比較
Coquiの名前は、プエルトリコなど温暖な地域に生息するカエルに由来しています。体は小さいけれど、大きな声で、かつクリアな音で鳴き声を立てる。姿は見えないけれど、声はよく聞こえる、という特徴にインスピレーションを受けて命名されたと言われています。
その特徴にも通じるように、コンパクトなサイズで、動作環境の用意もほとんど必要なく、サービスの恩恵を享受することができます。
特徴として挙げられる点としては、地域性を加味した音声生成が可能であり、自己学習機能によりその精度が高められるという利点があります。
例えば、同じ日本語でも関東と関西の人のイントネーションに違いがある場合など、そういった地域差もモデリングすることが可能です。
次に具体的なインストールの手順も見ていきましょう。
Coquiの使い方:基本的なステップ
AIや人工知能の開発では、特に2022年頃から、オープンソースのサービスも多く公開されてきました。その中でも、Coquiはコンパクトで実行環境の用意も簡単なため、初学者が音声生成AIをキャッチアップするための導入としても良いと思います。
ここではインストール方法など、具体的な使い方を見ていきましょう。実行環境からセットアップが必要な方は、Google Collaboをご利用頂くと簡易的に利用できます。
Coquiのインストールプロセス
Coquiの代表的なライブラリであるTTSを例に挙げます。2024年4月時点では、TTSはUbuntu 18.04のOSで、pythonのバージョンが3.12〜3.9で動作確認がされています。
まずコーディング等を目的とせず、興味を持っただけであれば以下のコマンドでTTSモデルをインストールしましょう。
pip install TTS
このコマンドでTTSのプロジェクトをインストールできます。また、コーディングを必要とする場合は下記コマンドでプロジェクトを落として来ましょう。
git Iclone https://github.com/coqui-ai/TTS
pip install -e .[all,dev,notebooks] # Select the relevant extras
簡単な音声生成のための設定
実行環境であるDockerのイメージは、インストールしなくても利用可能です。イメージをインストールしない場合は、下記コマンドでサーバーを立ち上げることができます。
docker run –rm -it -p 5002:5002 –entrypoint /bin/bash ghcr.io/coqui-ai/tts-cpu
python3 TTS/server/server.py –list_models #To get the list of available models
python3 TTS/server/server.py –model_name tts_models/en/vctk/vits # To start a server
その後、デフォルトのVocoderを使うシンプルな設定の場合は、以下のコマンドで実行が可能です。
tts –text “Text for TTS” \
–model_name “///” \
–out_path folder/to/save/output.wav
ここまで実行ができればインストールは成功しています。上記で見て頂いた通り、TTSのインストールだけで簡単な動作確認は可能です。
高度なカスタマイズの方法
読み込むテキストを変更したり、読み上げるためのスピーカーを変更したり、複数のスピーカーを利用して、読み上げる音声に幅を持たせることもできます。
ユーザ定義のTTSとVocoderを利用する場合は下記コマンドで実行しましょう。
tts –text “Text for TTS” \
–config_path path/to/config.json \
–model_path path/to/model.pth \
–out_path folder/to/save/output.wav \
–vocoder_path path/to/vocoder.pth \
–vocoder_config_path path/to/vocoder_config.json
また、下記コマンドを利用することで、Coquiが提供するサーバをデモ利用することも可能です。
tts-server -h # see the help
tts-server –list_models # list the available models.
tts-server –model_name “///” \
–vocoder_name “///”
Coquiの料金プランと無料版の制限
Coqui自体はオープンソースのプロジェクトであるため、すべて無料で利用できます。さらにCoqui Studioというクラウドサービスも提供されているため、こちらも見ていきましょう。
Coqui.ai
XTTS: 1秒の音声につき2クレジット
V1: 1秒の音声につき1クレジット
Coqui Studio
バージョン | コスト/月 | クレジット/月 | API | 追加機能 |
トライアル版 | $0 | 300 | なし | なし |
Hobbyist | $5 | 3,600 | あり | なし |
Starter | $20 | 14,400 | あり | なし |
Intermediate | $50 | 36,000 | あり | なし |
Advanced | $175 | 180,000 | あり | なし |
Pro | Ask | Ask | あり | Advancedプランに加えて – チーム協力ツール – 高品質な音声クローン – 多言語合成 – プロレベルのサポート |
Enterprise | Ask | Ask | あり | Proプランに加えて – シングルサインオン(SSO) – ロールベースのアクセス(RBAC) – チーム管理ツール – プレミアム品質の音声クローン – すべてのサポート言語 – スクリプトバージョニング – 監査ログ – VPCホスティング – カスタム統合 |
Coquiの活用例
Coquiは具体的にどのような場面で利用していけるのか。Coquiは特に多言語への対応に強みがあります。そのため、海外向けのサービスを展開する際に役に立つケースが多いと考えられるでしょう。
海外顧客向けのプレゼンでの活用
例えば海外顧客に向けたプレゼンがある場合、英語でプレゼンが苦手な方にとっては、代わりに英語を読み上げてくれるだけでも利用するメリットがあると言えます。
また、Coquiの強みは、同じ英語でも、地域の特性、例えばフランス訛り、ドイツ訛り、スペイン訛りなど、地域性を加味した音声を学習しているため、ターゲットの地域に合わせた音声を選択できる点が強みです。
コンテンツ制作での活用
ナビゲーションシステムや、学習教材といったコンテンツの制作にも活用できます。ここでも、マルチリンガルに音声の生成ができることと、同じ言語でも、その地域性を出したい場合にも活用できます。
コールセンターの自動応答
海外の顧客向けの電話応対が必要な場合は、コールセンターでの利用もできるでしょう。コールセンターでは英語が利用される場合が多いですが、言語の選択をして頂き、カスタマーに合った言語でマルチリンガルに対応することができます。
Coquiの将来展望とアップデート情報
Coquiはアメリカを中心として海外で注目を集めているサービスです。現在サポートされている言語は16種類ですが、今後の展望についても見てみましょう。
Coquiの開発ロードマップ
Coquiでは、今後の開発ロードマップは公開されていませんが、会員登録することで、より最新のニュースや、直接的なフィードバックを送れるようになるようです。
Coquiは、多様な地域性を加味した音声生成や、性別、感情を加味した表現力に強みがあります。現在は16カ国の言語がサポートされていますが、学習に利用されている言語は多岐に渡るため、今後は対応する言語が拡大されていく可能性があります。
また、Coquiを音声生成AIの基盤として、新たなサービスを創り出す開発者も歓迎されています。Coquiは基盤としても、そのままクラウドサービスとしても活用されていくでしょう。
ユーザーコミュニティとサポート体制
CoquiプロジェクトのHPには、discordのリンクもありますが、現在はリンク切れのため、問合せ窓口から問合せをしたり、最新の情報は会員登録して待つなどする必要があります。
また、サポート体制としてはカスタマーサポートの窓口があり、Eメールで対応を行っているようです。何か不明な点や質問があれば「Contact us」から問合せが可能になっています。
まとめ:音声生成AIはCoquiを活用してみましょう
Coquiはクラウドサービスとしてだけでなく、今後の音声生成AIの開発を支える基盤となる可能性も秘めているプロジェクトです。
特に海外顧客向けにプロダクトやサービスを展開したいと考えている方々にとっては、活用できる場面が沢山考えられます。
これを機会に、マルチリンガルや方言といった地域性にも配慮できる音声生成AI、Coquiをお試ししてみてはいかがでしょうか。
人工知能やAIの開発やサポートでお困りのことがあれば、ぜひJiteraへ気軽にご相談ください。