AIについて調べていると出てくるのが「マルチモーダル」。
みなさんはどんなことかわかるでしょうか。この記事では、マルチモーダルAIとは何かから、シングルモーダルとの違い、どんなことに活用されているのかまで解説。
AIに関する知識を深めたい人やマルチモーダルについて知りたい人はぜひ最後まで目を通してみてください。
2014年 大学在学中にソフトウェア開発企業を設立
2016年 新卒でリクルートに入社 SUUMOの開発担当
2017年 開発会社Jiteraを設立
開発AIエージェント「JITERA」を開発
2024年 「Forbes 30 Under 30 Asia 2024」に選出
マルチモーダルAIの基本的な概要
文字も画像も同じAIに入力し、同時に処理するのがマルチモーダルAIです。マルチモーダルAIは今までのシングルモーダルAIでは対処できなかった分野での応用や課題解決を期待されています。
ここでは、マルチモーダルとは何かを説明します。
マルチモーダルAIの定義
マルチモーダルAIの定義は、文章、画像、動画、音声といった異なる種類のデータを同時に入力して、文章データを出力することができるAIのことです。
例えば、生成AIは文章から文章や画像を出力することに特化しており、AI-OCRは画像からテキスト情報を抽出することに特化しています。
これらのようなAIはシングルモーダルAIと呼ばれ、人間の五感の一部分に相当する動作を再現できていました。
しかし、人間のように動画や音声など複数の情報を同時に処理するのは再現できませんでした。
そこで、入力データを文章や画像などを組み合わせたものにし、複数の種類の情報を処理できるようAIを組み合わせることで、複数の種類の情報の同時処理を実現しました。
まとめると、マルチモーダルAIは複数の種類の情報を入力として受け取り、文章などのデータとして出力できるAIのことを指します。
シングルモーダルAIとの比較
マルチモーダルAIとシングルモーダルAIの違いは、一度に処理できる情報の種類です。
例えば、「寿司の作り方を教えてください」とテキストからテキストを返すAにI聞いても、最適な答えが返ってくるとは限りません。
なぜなら、「寿司」の中には握り寿司、手巻き寿司、ちらし寿司などの分類があるからです。
握り寿司はシャリを一口大にする工程がある一方、巻き寿司にはノリの上に敷いた酢飯と細長く切った具を巻く工程があり、向いている具材も異なります。
このように「寿司」といっても、なに寿司を作りたいかで必要な材料も作り方も違うため、文章だけで欲しいレシピの情報を正確に得るには、ある程度作りたいものの情報を知っておかなければ正しい情報が出力されません。
ここで、マルチモーダルAIを使うと、握り寿司の画像と、「この寿司の作り方を教えてください」と入力することで、握り寿司の作り方を表示してくれます。
マルチモーダルAIでは寿司に限らず、目の前に出された名前がわからない料理を自分で作ってみたい場合、写真を撮って、「この料理の使い方を教えてください」とテキストと画像を添付して送付すれば、レシピを教えてくれるのです。
既存のソフトウェアでいうと、シングルモーダルAIはGPT3.5、マルチモーダルAIの再現はGPT4やcopilotに相当します。
ここまでの内容をまとめると、複数の種類の情報を処理して情報を出力できるかどうかが、シングルモーダルAIとマルチモーダルAIの違いです。
マルチモーダルAIの機械学習への応用
機械学習における、マルチモーダルAIの役割はどのようなことになるのでしょうか。ここでは、AI技術における役割を解説します。
機械学習におけるマルチモーダルAIの役割
マルチモーダルAIにおける機械学習の役割は、複数の種類の情報を処理することです。
現在の統計的な処理でのAIの実現にたどり着くまで、1950年代は初期のコンピュータの利用、1980年代はエキスパートシステムによるルールベースでのAI実現など多くの手法が試されてきました。
しかし、いずれも現在の統計学的な手法である機械学習を基盤技術とするシングルモーダルAIで実現できる出力の精度に遠く及ばないものでした。
シングルモーダルAIの応用であるマルチモーダルAIが実現できるのも、統計学をベースにした機械学習のうちディープラーニングが発展したことが下支えしているからです。
このことから、マルチモーダルAIにとって機械学習は欠かせないインフラと言えます。
マルチモーダルAIと機械学習の相互作用
マルチモーダルAIの実現には今までの機械学習の手法の応用が必須になることが予想されます。
今時点で低コストで使えるマルチモーダルAIは画像や音声をテキストと組み合わせることはできますが、動画を低コストで運用できる段階にはまだ至っていません。ここに発展の余地があります。
また、データ化のむずかしい触覚や嗅覚などからも情報を得て処理することもまだ実用化まで至ってはいません。
インプットに関しても拡張の余地が残っている一方、アウトプットの方にも拡張の余地が残っています。それは、マルチモーダルAIがテキスト以外の情報媒体を出力できるようになることです。
機械学習の研究が進み、安価で動画を処理できるようになったり、嗅覚や触覚をテキストと組み合わせ、画像や動画のアウトプットを得られる技術革新が進む可能性があります。
機械学習が発展するとマルチモーダルAIにできることが増えるのです。
マルチモーダルAIの実用的な活用事例
マルチモーダルAIを利用することで、様々な業種で技術的な革新が起き、ビジネスチャンスの増加が見込まれます。
代表的なところでは、自動運転の基礎技術の革新、医療分野における診断精度の向上、製造業における研究開発のプロセスの変革やECサイトの運営を大きく変えつつあります。
現状は人手と時間を割くことで実現している工程や業務に対してマルチモーダルAIを用いることで品質の均一化や省人化、最終的にはコストの削減を各業界で目指しています。
自動運転
マルチモーダルAIを利用することで、完全な自動運転を実現できる可能性があります。
自動運転の実現にはレーザーを照射して周辺の情報を認識する方法と、画像認識技術を用いて実現する方法があり、画像認識を用いる手法にマルチモーダルAIを組み合わせることで技術の革新が見込めます。
私たちが自動車の運転を行う際、周囲の動いている人や他の車以外にも、道路標識や記号、緊急車両の出すサイレンの音などを把握して運転を行っています。
人の手を借りない完全な自動運転を実現するには、周囲の動いている人や車両などは動画の認識、道路標識や信号の認識は画像認識、サイレンの音は音声認識を利用して情報を集めて、周囲の状況に応じて車のスピードや進む向き、ブレーキをかけるかなどをAIが操作する必要があります。
マルチモーダルAIを活用することで、自動車の運転に必要な情報をAIが処理することで完全な自動運転の実現への道筋がついたと言えます。
医療
マルチモーダルAIの医療への応用は、産学連携で進んでおり、治療計画の最適化や疾患の早期発見を目指しています。
医療の各分野での専門化が進み、医療ビッグデータを多角的に解析するツールへのニーズが高まっている一方、既存のシングルモーダルAIではこのニーズを満たすことが難しい状況でした。
現状、臨床現場での医師(病院やクリニックにいる「お医者さん」)は、内科や外科などでレントゲンや超音波を当てることで得た体内の情報と問診票のテキストの情報を組み合わせて目の前の患者の症状を判断しています。
しかし、診察の精度は医師の臨床経験によって左右されるため、現状は質が安定しているとは言い難い状況です。
そこで、一人の医師が診察できないほど膨大な診療情報とデータをもとにAIに学習をさせ、疾患を早期発見できるようにすれば、医療費の削減や業務効率化が進みます。
いつの日かマルチモーダルAIによる診断の実用化が実現するかもしれません。
製造業
マルチモーダルAIの影響は製造業にも及び、特に、高分子化合物を複合する材料を取り扱うメーカーの研究開発を大きく変えうると期待されています。
高分子化合物とは、分子量(分子を構成する原子の重さ=炭素12を基準にして)が10000を超えるものをいいます。
この高分子化合物で作られている材料が高分子材料で、金属、セラミック、プラスチック(合成樹脂)等があり、いずれも私たちの身の回りに欠かせないものです。
具体的には、シングルモーダルAIでは扱えなかった材料の実験にマルチモーダルAIが使用でき、新しい材料の開発や量産にかかる時間が大きく短縮されることが期待できます。
現在、新しい材料の開発を行うには、多様な条件を少しずつ変更し実験を繰り返す工程が必要になります。しかし、実際に実験を行うと、ものによっては長い時間を要するので、シミュレーションを行うことが必要です。
マルチモーダルAIの考え方を導入することで、この実験にかかる時間を大幅に短縮できることが見込まれています。
これまでは単純な構造物質にしかAIが導入できていない状況でしたが、マルチモーダルAIの考え方を応用することで、取り扱うことができる材料の幅が大きく広がることが見込まれています。
まとめると、マルチモーダルAIは、製造業の中でも、素材系のメーカーの研究開発に革命的な影響を及ぼすことが期待されています。
小売業
マルチモーダルAIの小売業での活用は、ECサイトの出品されたデータの確認が挙げられます。
特に、昨今の人気があるフリーマーケットのマーケット上には人力でのチェックが追いつけないほどの出品がされています(例:Mというフリーマーケットサービスでは、2022年時点での累計出品数が30億件を突破したそうです)。出品をすべて確認し、規約違反をしていないかを人力で確認するのはとても大変です。
そこで、マルチモーダルAIを活用し、出品された商品の画像と出品者が書いた文章をすべての出品に対してチェックし、規約違反に抵触するおそれのある出品を絞り込むことができます。
この技術により、フリーマーケットサイトの運営が容易になり、小売業の変革が訪れました。
マルチモーダルAIの将来的な展望
ここまで見てきたように、マルチモーダルAIはシングルモーダルAIにできなかったことができるようになり、応用の幅が広くなっています。
一方で、シングルモーダルAI以上にAI内部の処理が複雑になるので、内部構造が現在よりもブラックボックス化しやすい問題点も孕んでいます。
これからのマルチモーダルAIは、どのように技術的な発展を行い、懸念されている問題点が何かを書いていこうと思います。
マルチモーダルAIの進化の方向性
マルチモーダルAIの進化の方向性の一例として、2024年時点ではVRやARといった拡張現実系の技術との組み合わせて、より良いVRやARの体験を提供するための研究が進んでいます。
マルチモーダルAIのVRやARの中での活用方法として、各個人ごとに最適化されたアシスタント機能があります。
現在の対話型AIは自然言語理解 (NLU)、ダイアログ状態追跡 (DST)、ダイアログ ポリシー (DP) 管理、および自然言語生成 (NLG) の4つのAIがそれぞれ別のデータセットを活用しているのを、一つのデータセットで賄うことでより自然なやり取りができるように見込めます。
また、RAGの考え方を用いて、ユーザーごとにデータセットを最適化し、的確な回答を行えるような発展が見込めます。
マルチモーダルAIを学習させるデータセットの作成と他の技術との組み合わせによっての進化が見込まれます。
ビジネスにおけるマルチモーダルAIの未来
マルチモーダルAIを用いることで、ビジネスでは既存の産業が変革し、新しい産業が生まれることが見込まれます。
既存の産業では、今まで上げた医療や製造業以外のサービス業やデザイン系の業界にも影響を与えることが見込まれます。
既存の産業のうち、業務効率化の一環としてマルチモーダルAIが有効だと考えて検証し、より精度を高めるように振る舞う動きが出てくると予想されます。
マルチモーダルAIがヒトやそれまでの手段より低コストで高品質になっていき、マルチモーダルAIが適用できる業務がヒトに任せられなくなっていくと予想されます。
また、マルチモーダルAIの発展のために、AIベンダーはより多くのAIエンジニアを必要とすると考えられます。
既存産業ではAIと人との仕事への質などで比較が起きること、マルチモーダルAIの発展のために様々な新しい仕事が生まれることが予想されます。
まとめ:マルチモーダルAIの活用でビジネスを拡大しましょう
マルチモーダルAIの現在とこれからについて見てきましたが、いかがでしたでしょうか。
これからの時代は、マルチモーダルAIに向いた仕事とヒトに向いている仕事を区別して、適切に割り振ることが大切です。
Jiteraでは、生成AIを使った独自のwebアプリ構築のシステムを提供しています。
一度ご相談いただき、AIと人がどのように共存しているかを知ることで、仕事の未来図を描くきっかけになれば幸いです。