LMMとは?先進AIモデルでできること、活用業界やおすすめツールまとめ

近年、人工知能(AI)技術の発展は目覚ましく、中でもLMMと呼ばれる大規模マルチモーダルモデルが注目を集めています。

自動運転や医療診断、ロボット制御など、幅広い分野での活用が期待されている先進AIモデル。本記事では、LMMの概要や特徴、活用事例、おすすめのLMMサービスなどをわかりやすく解説していきます。

アバター画像
監修者 猫暮 てねこ

システムエンジニア(SE)、プログラマー、ウェブサイト作成業務、ネットワークエンジニアなどを経験。 現在、フリーマルチライターとして活動中。最近はAI活用方面に没頭中。

\エキスパートが回答!/
この記事に関する質問はこちら
記事に関するご質問以外にも、システム開発の依頼やAIの導入相談なども受け付けております。

    会社名必須
    必須
    必須
    Eメール必須
    電話番号必須
    ご依頼内容必須

    LMMとは

    LMM(Large Multimodal Model)とは、テキスト、画像、音声、動画など、複数の異なるデータ形式(マルチモーダル)を組み合わせて処理できる人工知能技術です。

    従来のAIは、主にテキストのみとなる単一のデータ形式入力でしたが、マルチモーダルAIは複数のデータ形式の並列処理が可能です。中でも、大規模なデータの取り扱いを実現したモデルをLMMと呼びます。

    例えば、画像とその説明文を同時に学習することで、動画のような連続性を持つデータを生成できます。音声と口の動きを組み合わせて、まったく違和感のない吹替映画のような合成音声も作れるでしょう。

    深層学習の手法を用いて大量のデータからパターンを学習するため、まるで人間と対話しているような自然なやりとりが実現できる技術です。

    LMMとLLMの違い

    LMMLLM(Large Language Model)は、どちらも大規模な人工知能モデルですが、扱えるデータの種類が異なります。以下の比較表で違いをまとめてみました。

    項目 LMM(Large Multimodal Model) LLM(Large Language Model)
    扱えるデータ
    • テキスト
    • 画像
    • 音声
    • 動画など
    • テキスト
    学習データ マルチモーダルデータ テキストデータ
    用途
    • 画像認識
    • 音声認識
    • 動画解析
    • 自動運転
    • ロボット制御など
    • 自然言語処理
    • 文章生成
    • 質問応答など

    LLMはテキストのみを扱う一方、LMMはテキストに加え、視覚や音声、動画などのマルチモーダルな入力を組み合わせて処理できるため、より高度な認識・生成に対応できます。

    しかし、それだけ学習に必要なデータ量や複雑さが増すため、高い計算リソースが要求されるモデルともいえます。

    関連記事
    【入門】大規模言語モデル(LLM)とは?仕組みや学習本、生成AIとの違いなどわかりやすく解説!
    【入門】大規模言語モデル(LLM)とは?仕組みや学習本、生成AIとの違いなどわかりやすく解説!

    LMMでできることとは

    LMMは従来のAIモデルよりも高度な機能を備えており、マルチモーダルな情報処理によってさまざまな革新的なサービスやアプリケーションを生み出すことができます。

    画像や動画を処理できる

    LMMはテキストだけでなく、画像や動画といったマルチモーダルデータを入力として受けとり、内部にて処理できます。画像や動画の中に含まれる情報をパターンとして変換し、解析する能力を持っているためです。

    例えば、自動運転の分野では、周囲の映像から歩行者や障害物を検出したり、道路標識を読み取れたりします。あらかじめ学習したテキストパターンと画像パターン、2種類のデータを判別できているからこそ、検出が可能なのです。

    動画のように連続性を持つデータを加味することで時系列の概念が生まれ、スピードの計測や車間距離の調整といった情報も認識できます。マルチモーダルデータを増やしていくにつれ、精度が格段に上がり、人間に近い意思決定が可能となるでしょう。

    音声での対話ができる

    LMMは音声入力を認識し、内容を理解した上で適切な応答を音声で出力できます。この音声対話機能は、音声認識とテキスト生成の両方の技術を組み合わせたものです。

    ユーザーが発した自然な音声を的確に認識し、それに対して自然な応答を生成し、音声で返答できます。音声アシスタントやコールセンターのAI自動応答など、ユーザーとの自然な対話が求められるさまざまなサービスに役立つ機能です。

    多言語への対応能力も高く、リアルタイムでの通訳や翻訳など、言語の壁を越えたコミュニケーションも実現しつつあります。YouTubeの自動字幕生成や自動文字起こしサービスなど、幅広く活用されている技術です。

    行動を認識できる

    行動を認識できる

    LMMには、画像や動画から人やロボットの行動を認識する機能があります。映像から異常な行動パターンを検知したり、産業用ロボットの動作を細部にわたってモニタリングしたりすることが可能です。

    行動認識では、対象物の動きや形状の変化を時系列で捉えなくてはなりません。LMMのマルチモーダル入力に対する高い認識力により、細かな動きの違いも見逃さずに捉えられます。

    例えば、量販店の監視カメラにおいて人影を検知したとしましょう。人数や滞在時間、服装や行動のパターンから、顧客、関係者、不審者などを判断し、それらのトリガーに応じたアクションを起こす、といった仕組みです。

    行動認識の情報は、危険行為の検知や異常検知といったセキュリティ対策の分野でも幅広く活用されています。

    異変を検知できる

    LMMは、画像や音声、動画などから異常や異変を検知可能です。工場の製造ラインで異音の発生や製品の不具合を検出したり、病院では患者のバイタルサインの異常を発見したりするのに活用されています。

    平常時のパターンをモデル化し、入力データを比較することで異常を発見可能です。

    LMMは異常パターンを高い精度で検出できるため、品質管理や医療現場の状況把握など、人の目に代わって活躍の場を広げています。人員の確保が難しい夜間帯シフトの対応はもちろん、個人差の生じやすい判断基準のブレといったものも、差異が出ないよう厳密にサポートしてくれるでしょう。

    人間に近い判断ができる

    LMMには人間に近い推論や判断を下す機能が備わっています。テキストのみならず、画像や映像、音声などのさまざまな情報源から状況を認識し、総合的に判断できるからこその機能です。

    この人間に近い思考プロセスのことをニューラルネットワークと呼んだりしますね。

    入力情報も人間の五感に近いデータを並列して扱えるため、機械学習の出力も単なるテキストデータでなく視覚的・直感的なものです。

    人間と同様、訓練を積むことで精度を上げていきますが、学習スピードは人間の比ではありません。与えられたマルチモーダルデータから、短時間で人間には不可能な試行回数の予測や分析を繰り返すため、出力精度が指数関数的に改善されていきます。

    【業界別】発展中のLMM!マルチモーダル活用が進んでいる事例

    LMMを含め、マルチモーダル技術はすでにさまざまな業界で実用化が進められています。マルチモーダルを用いた代表的な活用事例をいくつか紹介しましょう。

    【自動車業界】自動運転

    出典:自動運転EV開発のチューリング、日英言語対応のマルチモーダル学習ライブラリ「Heron」と最大700億パラメータの大規模モデル群を公開

    自動車業界では、LMMの機能が自動運転システムに活用されています。カメラ映像からの物体検出や、レーダーなど各種センサーのデータを総合的に解析し、歩行者や障害物、路面状況などを的確に捉えて、なおかつ自然な言語で判断を返してくれます。

    Turing株式会社からは、国内の交通や道路に関する大画像データが学習済みのマルチモーダルライブラリ「Heron」が公開されており、完全自動運転を目指すプロジェクトが着々と進められています。

    さらに音声認識といったデータが活用されることで、他車両からのクラクションやパトカーのサイレンなど、緊急車両の存在も検知して状況に応じた動作が期待できるでしょう。

    【製造業界】産業用ロボット

    製造業界では、LMMを産業用ロボットの制御にも役立てています。ロボットに対してコントロールパネルから作業指示を出せば、マルチモーダルデータの認識を経て適切に動作するようプログラム可能です。

    カメラ映像から作業対象物の形状を認識し、適切なハンドリング(持ち方や取り扱い方)を自動で判断できます。過去の作業映像データを学習させ、より人間に近い動作も生成できるのです。

    異音検知などをパターンを学習させれば、ロボットの故障を未然に防ぐこともできます。このように、LMMの機能を組み合わせることで、柔軟で高度な産業用ロボットの制御が実現できるのです。

    【医療業界】病気の診断

    出典:NEC 、理化学研究所、日本医科大学、電子カルテとAI技術を融合し医療ビッグデータを多角的に解析

    医療分野においても、LMMは画像診断のAI支援ツールとして活用が進んでいます。LMMは医用画像データ(CT、MRI、内視鏡画像など)から病変や異常を的確に検出する機能が期待されるようになりました。

    参考の文献によれば、前立腺がんを対象に手術前の電子カルテデータや病理生検画像をマルチモーダルデータとして入力したところ、再発の予測因子のパターンを検出し、結果的に再発防止策の向上につながった事例も挙がっています。

    AIにより人間では予測しきれないパターンも含めて包括的な診断ができるようになりました。これらビッグデータを共有することで、見逃しや医療ミスの防止だけでなく、これまでになかった活気的な治療法の発見につながる可能性が示唆されているのです。

    人間と違いAIには疲労がない点も注目を浴び、医療界における人員不足の解決策としても期待されています。

    【介護業界】介護モニタリング

    介護の現場においても、LMMを活用した介護モニタリングのサービスが活用されています。介護施設に設置されたカメラから送られてくる映像をLMMが解析し、利用者の行動を解析します。

    例えば、ベッドから転落する動作をリアルタイムで検知したり、徘徊の様子を把握したりできるのです。音声認識を組み合わせて、利用者の発する「痛い」といった言葉から健康状態の変化も察知できます。

    利用者の行動や発話の分析を通じて、介護スタッフへの適切な通報が可能になり、事故の未然防止や的確な健康管理に役立っているのです。

    【家電業界】防犯ロボット

    家電業界でも、LMMの技術を搭載した防犯ロボットの開発が進んでいます。このロボットは、搭載されたカメラ、マイク、さまざまなセンサーから収集したマルチモーダルな情報を解析することで、不審者の侵入を検知してくれるのです。

    通常と異なる動きや音、形状の変化を認識し、異常と判断した際に警報を発する機能を備えています。高度に学習の進んだ防犯機能は、人間の微細な動きも読み取るため、人間の目をほとんど超えているといえるでしょう。

    音声対話機能により、ロボットが不審者に対して直接の警告や通報も行えます。LMMならではの高度な環境認識力と対話能力によって、徹底した防犯・セキュリティが実現できるでしょう。

    【Web業界】コンテンツ生成

    出典:ChatGpt公式サイト

    WebマーケティングやコンテンツSEOの分野においても、LMMの活用が進んでいます。LMMはテキストだけでなく、画像や動画などのマルチモーダル入力を用いて、適切なコンテンツの自動生成が可能です。

    例えば、商品の特徴や利用シーンをイメージした画像を入力すると、それに合わせた説得力のある文章を生成してくれます。参考の画像はOpenAI社の「ChatGPT」の説明内にあるものですが、画像と解決したい内容のマルチモーダルデータを解釈し、見事に回答を出力しています(例では座面の高さの調整方法を教えてくれています)。

    単一のLLMだけでは解決しえないアプローチでしょう。近年では、ついに高精細な動画の生成も活発になってきました。PV映像の作成やドラマ、映画、アニメといった業界にも大きく影響を与える技術といえます。

    【小売り業界】マーケティング

    小売り業界ではLMMを使って来店客の行動を分析し、購買意欲のある客や満足度の高い客を認識するといった活用方法が盛んになってきました。

    従来の購買データから逆算する手法に加えて、情報量を増やして多角的な分析ができるようになっています。

    商品の画像データと購買履歴を組み合わせて分析することで、「どのようなデザインの商品が、どのような客層に人気があるのか」といった理解が深まるでしょう。

    こうしたマルチモーダルデータの活用は、需要予測やマーケティングの実現、新商品開発の参考情報など、マーケティング戦略全般に大きな影響を与えると期待されています。

    LMMの課題

    LMMは革新的な技術ですが、解決すべき課題としてプライバシーやセキュリティ、倫理的な問題などが指摘されています。

    • AIの説明責任と制御の問題
    • AIによる機密情報の漏洩リスク
    • 誤った情報やバイアスの伝播

    LMMのような高度なAIは情報のブラックボックス化が起こりやすく、制御が難しくなります。

    LMMが不適切なデータを学習してしまうと、倫理に反する出力をするリスクも生じかねません。システムがバイアス(偏った情報)を増幅して公平性に欠いた判断をしたり、本来開示してはならない情報を漏洩したりするケースもあります。

    AIシステムに何を学習させ、どんな価値観を組み込んでいくか、規定やガバナンスがまだ策定中なのが現状です。人の手による事実確認(ファクトチェック)は欠かせないため、まだまだ慎重に対応していかなければならない技術でしょう。

    LMMを活用したおすすめAIサービス5選

    LMMは非常に高度な技術で、すでにいくつかのサービスで実用化が進んでいます。代表的なものをご紹介しましょう。

    ChatGPT

    ChatGPTは OpenAIが開発したLLMベースの対話型AIです。GPT-4、InstructGPTとも呼ばれ、マルチモーダル入力にも対応しています。 テキスト以外に画像、音声、ファイル、コードなど、多彩なデータの入力および出力が可能です。

    課題に応じて高度な回答を生成し、ユーザーと自然な対話を行えます。質問応答からタスクの実行まで、幅広い用途に適用できるでしょう。

    項目 内容
    主な機能
    • 自然言語処理
    • 情報検索
    • タスク自動化
    • コーディング支援
    • 画像認識など
    プランと料金
    • 無料版あり(GPT-3.5)
    • ChatGPT Plus:月額$20
    運営会社 OpenAI

    ChatGPTはこちら

    Copilot

    Microsoft Copilotは、ソフトウェア開発を支援するAIアシスタントツールです。LLMベースのCopilotに加え、GitHub Copilot XではLMMの機能も備えています。

    自然言語からのコード生成だけでなく、画像や図解からコードを生成も可能です。業務の効率化が期待できるほか、コードレビューの機能も搭載されており、開発現場のサポートAIとして活躍するでしょう。

    項目 内容
    主な機能
    • コード自動生成
    • ドキュメント生成
    • コードレビュー
    • リファクタリングなど
    • GitHubとの連携
    プランと料金
    • 無料版:60日間
    • 個人ライセンス:月額$10 または 年額$100
    • 企業ライセンス:ユーザー数により可変
    運営会社 Microsoft

    Copilotはこちら

    Gemini

    Geminiは、画像やテキストを組み合わせた入力から、マルチモーダルな出力を生成できるLMMサービスです。

    例えば、製品画像を添付して「これは何に使うの?」と質問すれば、その製品の用途を解説します。自然な対話により、画像からの理解を深められるため、マーケティングやe-コマースの分野での活用が見込まれるサービスです。

    以前はBardというサービス名で運用されていましたが、2024年2月に統合され名称が変更されました。

    項目 内容
    主な機能
    • 画像認識
    • マルチモーダル入出力処理
    • 質問応答
    • 高度な情報検索
    • web検索サポートなど
    プランと料金
    • 無料版あり
    • Gemini Advanced:月額$20
    運営会社 Google LLC

    Geminiはこちら

    Claude 3

    Claude 3はAnthropicが開発したLLM/LMMデモサービスです。テキスト入力だけでなく、画像や音声入力にも対応しており、マルチモーダルな質問応答が体験できます。

    自然で論理的な会話が可能で、視覚・音声情報を活用した回答の質の高さが魅力です。無料デモ版を利用することで、LMMの機能をすぐに試すことができるでしょう。さらにAnthropicはLMMのAPIも提供しており、企業での活用も期待されています。

    項目 内容
    主な機能
    • マルチモーダル出入力
    • 質問応答
    • 自然な文章生成
    • タスク自動化
    • APIによる連携
    プランと料金
    • 無料版あり
    • claude Pro:月額$20
    • claude API:従量課金制
    運営会社 Anthropic

    Claude 3はこちら

    Runway

    RunwayはLMMを活用した、動画や画像を扱う総合的なクリエイティブツールです。画像生成、画像編集、動画編集など多様な機能を搭載しています。まるで現実と思ってしまうような動画生成の精細さによって注目されました。

    テキストや画像、動画を入力すると、それらを理解してさまざまな創作物を生成することが可能です。AIに対して自然言語の指示も与えられます。VFX、3Dアニメ、イラストなど、さまざまな分野のクリエイターにとって有用なツールでしょう。

    項目 内容
    主な機能
    • 画像生成
    • 動画生成
    • 画像編集
    • 動画編集
    • 3Dアニメーション
    • 自然言語制御など
    プランと料金
    • 無料版あり
    • 標準:月額$15
    • プロ:月額$35
    • 無制限:月額$95
    運営会社 Runway AI Research

    Runwayはこちら

    関連記事
    【最新】おすすめのAIツール一覧!ビジネスで使える便利なツール30選
    【最新】おすすめのAIツール一覧!ビジネスで使える便利なツール30選

    まとめ: LMMでAIビジネスを加速! 業務効率や生産性の向上に活用を

    LMMの概要や特徴、活用事例、おすすめのLMMサービスなどを解説してきました。

    LMMは従来のAIを遥かに超える高度な機能を備えており、人の手によらない自動化や生産性の向上といった活用が期待されている分野です。AIを駆使してビジネスのスタートを考えている方にとって、注目の技術といえるでしょう

    当社Jiteraでは、アプリ・システム開発を積極的に行っています。小さなスタートからビジネスを確実に前に進める開発をサポートさせて頂いております。

    LMMやマルチモーダルAIに関するご相談やご質問がありましたら、Jiteraまでお気軽にお問い合わせください。最適なソリューションをご提案させていただきます。

    Jiteraへのご相談はこちらから

    例:開発手順、ツール、プロンプト

    メルマガ登録

    社内で話題になった「生成AIに関するニュース」をどこよりも早くお届けします。