2024年4月2週目：社内で話題になった「生成AIトレンド・ニュース」

こんにちは！Jiteraの岩崎です。

今週もこの一週間で社内で話題になった生成AIトレンドについて説明します。

感情を読み取るAI "Empathic Voice Interface"が登場
オープンＡＩ　東京にアジア初の拠点を開設・Voice Engineの未来
- 東京にアジア初の拠点を開設
- Voice Engineの未来
”Universal-1"がリリース
"Stability AI"で３分の楽曲が作成可能なシステムを発表
AIに関する世論
- ９割の自治体で生成AI導入へ　時間短縮事例あり
- 生成AIキャンセルカルチャーの存在
生成AIで拡散するマルウェア "Morris II" が開発される

感情を読み取るAI “Empathic Voice Interface“が登場

生成AIスタートアップ企業であるHumeが、ユーザーが話しかけると声色から感情のパラメーターまで受け取って返答を生成してくれるAI “Empathic Voice Interface” を公開しました。

Humeは2022年に開催された国際イベント「SXSW」のピッチイベントで優勝しており、先週にはシリーズBで5,000万ドルの資金調達を実施しておりまだまだ成長段階の企業です。

創業者のアラン・コーウェン氏は心理学の研究者でありGoogleで客員研究員として働いていた経歴を持ち、感情コンピューティングに関して研究しておられました。

従来のボイスアシスタントや音声認識システムが単に言葉を解釈するのに対し、EVIは話者の声のトーンやピッチなどの細かな声のニュアンスを分析することで、その人の感情の状態を理解します。そのため、単にユーザーと会話するだけでなく、ユーザーの感情に合わせて最適な対応をすることができ、より人間らしい自然なやり取りができます。

映画ではの感情が理解できずに人間を裏切ってしまうものとして描かれるAIロボットですが、彼らはAIが人間の感情を理解できればウェルビーイングな社会が実現できるとして偏りのない感情分析を目指しています。

現在は英語での会話にしか対応していませんが、デモ版が公開されているのでお試しください。

将来は感情分析対話型AIを使用したコンシェルジュサービスやカウンセリングサービスが普及するかもしれませんね。

Meet Hume’s Empathic Voice Interface (EVI), the first conversational AI with emotional intelligence. pic.twitter.com/aAK5lIsegl

— Hume (@hume_ai) March 27, 2024

オープンＡＩ　東京にアジア初の拠点を開設・Voice Engineの未来

東京にアジア初の拠点を開設

Open AIが東京に新オフィスを設立し、日本語対応を強化する方針です。アジアでは初の拠点になる予定で、いまからワクワクが止まりません。

米国国外の拠点はロンドン、ダブリンに続き3拠点目です。

（参照：https://www.bloomberg.co.jp/news/articles/2024-04-01/SB8SHZT0G1KW00）

Voice Engineの未来

先週、話し手の声を再現する生成AI “Voice Engine”を発表しました。言語障害者の支援等を目的として開発されました。

使い方としては15秒分の声のサンプルをふき込んで、話してほしい文字を入力するだけです。すると、話し手にそっくりな音声を合成することができる上、特徴的なのは、他言語への吹き替えも可能でな部分です。

この技術は上記のHumeのEVIに関連して、実際に存在する人の声であたかもその人と話しているような体験を可能にする一方で、犯罪への悪用を防ぐ安全対策が欠かせません。実際に、米国ではバイデン大統領を模した声を使った偽電話が選挙に使われたケースもあるので注意が必要です。そのため一般公開はされておらず、試験運用中です。

”Universal-1″がリリース

Assembly AIが多言語音声認識AIモデル “Universal-1” をリリースしました。

ベンチマークテストでは英語、スペイン語、フランス語、ドイツ語など多くの言語でOpenAIの “Whisper”やMicrosoftの “Azure” を超えています。

特徴は以下のとおりです。

・雑音が激しい環境やアクセントのある音声でも高精度でテキスト変換可能
・音声テキスト変換の精度は他の音声テキスト変換システムと比較して10%以上高い
・タイムスタンプ推定の精度は13%向上
・ハルシネーションを30%削減
・英語、スペイン語、ドイツ語、フランス語に対応

Introducing Universal-1, our most powerful speech recognition model to date.

Trained on over 12.5 million hours of multilingual audio data, Universal-1 achieves best-in-class speech-to-text accuracy across English, Spanish, French, and German.https://t.co/KYdlu9a43W pic.twitter.com/xCGPezm1L0

— AssemblyAI (@AssemblyAI) April 3, 2024

“Stability AI”で３分の楽曲が作成可能なシステムを発表

44.1KHzステレオで、3分までの一貫した構造を持つ楽曲を生成可能な「Stable Audio 2.0」を発表されました。Stable AudioのWebサイトにログインすることで無料で利用できます。

テキストからオーディオへの変換だけでなく、オーディオからオーディオへの変換にも対応しており、オーディオサンプルをアップロードし、自然言語によるプロンプトでサンプルをさまざまなサウンドに変換できます。

クリエイターの著作権を保護するため、オーディオのアップロードに関しては、Audible Magicと提携し、同社のコンテンツ認識(ACR)技術を活用しています。著作権侵害を防ぐためにリアルタイムのコンテンツマッチングを行なっています。

音楽生成AIとアーティストの共生については下に追記します。

Introducing Stable Audio 2.0 – a new model capable of producing high-quality, full tracks with coherent musical structure up to three minutes long at 44.1 kHz stereo from a single prompt.

Explore the model and start creating for free at: https://t.co/E9ZIGagmPf

Read the… pic.twitter.com/rFGb0KpdeX

— Stability AI (@StabilityAI) April 3, 2024

AIに関する世論

９割の自治体で生成AI導入へ　時間短縮事例あり

テレビ朝日が各都道府県に、チャットGPTをはじめ生成AIの利用状況についてアンケート調査を行った結果、岩手県や福岡県など24の自治体で生成AIが使われていることが分かりました。試験導入も含めると約9割にのぼるそうです。

主に文章の作成や翻訳などに利用していて、例えば兵庫県では政策の実現に向けたアイデア出しなど、8つの業務の作業時間が平均で3分の1程度になったそうです。

一方、「生成AIの利用で懸念していることは？」という質問に対して最も多かった回答は、セキュリティーや知的財産権の侵害です。国に対して共通のガイドラインなどを作ってほしいという声も挙がっていました。

この懸念は以前に投稿した日本でのAIに関する「骨太の方針」等にも関わってくるので注意が必要です。

生成AIキャンセルカルチャーの存在

海保が生成AIでイラスト作成のパンフレットに批判集まり配布を中止しました。他にもプリキュアの制作陣が「生成AIを使ったように見える」というだけでイラストを避難されています。

この動きは日本に限った話ではなく、海外でも、最近ではビリー・アイリッシュさんらが生成AI開発企業に対して楽曲制作AIの開発制限を求めました。

我々はこのようなキャンセルカルチャーに向き合いながらも、AIの進化に目を背けることなく向き合い、共生することが必要です。人間がする部分は人間が、AIがする部分はAIがする。その使い分けがとても重要となってきます。

生成AIで拡散するマルウェア “Morris II” が開発される

ChatGPTやGeminiにおいて拡散されるマルウェアについての研究が発表されました。

Morris IIは「Adversarial self-replicating prompt」と呼ばれる特殊なプロンプトを使用します。

感染したアプリが生成AIモデルにこのプロンプトを与えると、生成AIは攻撃者の意図した悪意ある動作を実行し、プロンプト自体も出力に含めて自己複製する。それによって生成AI連携をしている他のアプリにマルウェアは広がっていきます。

Morris IIは、テキストや画像などあらゆる入力形式を介して、生成AIをジャックできます。ユーザーの操作を一切必要とせず、生成AIを内包するシステムの脆弱性を突くゼロクリック型の攻撃であることから、検知や防御が非常に難しいとされています。

現在、生成AIを使用するアプリが普及して導入されてきている中で、生成AIのみで完結するシステムが生まれつつあります。このような世界でセキュリティに関する観点は欠かせません。

参照（https://www.wired.com/story/here-come-the-ai-worms/　https://sites.google.com/view/compromptmized）

今週は音声認識のAIサービスを中心に紹介しました。音声認識等の技術を使ったり、AIを用いたアプリを作ることは我々にとっては容易いものです。Jiteraでは、要件定義を書くだけでAIが開発をしてくれる、システム開発AIエージェントを運営しています。生成AIを活用した、システム・アプリの開発のご支援も行っております。

生成AIに関するささやかな疑問や、開発に関するお問い合わせがあれば、こちらよりお気軽にご相談ください。

来週も、Jitera社内で話題になったAIトレンドを発信していくので、お楽しみに！