2024年7月4週目:社内で話題になった「生成AIトレンド・ニュース」

こんにちは!Jiteraの岩崎です。最近はあつすぎますね。私は大阪のフェスに参戦してきました!

アバター画像
監修者 岩崎亮太

\エキスパートが回答!/
この記事に関する質問はこちら
記事に関するご質問以外にも、システム開発の依頼やAIの導入相談なども受け付けております。

    会社名必須
    必須
    必須
    Eメール必須
    電話番号必須
    ご依頼内容必須

    画期的なAI搭載検索機能:OpenAIの「SearchGPT」発表

    2024年7月25日、OpenAIは革新的なAI搭載検索機能「SearchGPT」を発表しました。この新機能は、現在プロトタイプ版として一部のユーザーに提供されており、将来的にはChatGPTに統合される予定です。SearchGPTの特徴と機能は非常に興味深いものです。

    • リアルタイム情報の提供: インターネットから最新の情報を即座に取得し、ユーザーの質問に対して時事的な回答を提供します。これは、変化の激しい現代社会において非常に価値のある機能です。
    • 会話形式の検索: ユーザーは自然な言葉で質問を入力し、AIと対話しながら情報を探すことができます。これにより、検索体験がこれまで以上に直感的かつインタラクティブになります。
    • ソース情報の明示: 回答の出典となったウェブサイトへのリンクを明確に表示することで、ユーザーが情報の信頼性を容易に確認できるようになっています。
    • フォローアップ質問: ユーザーは初回の回答に対して追加の質問をすることができ、より詳細で深い情報を得ることが可能です。
    • パブリッシャーとの連携: OpenAIはコンテンツ提供者との協力関係を重視し、適切な帰属や引用を行うことで、パブリッシャーとユーザーの双方に利益をもたらす設計を目指しています。
    • コンテンツ管理オプション: パブリッシャーは自社のウェブページがSearchGPTでどのように表示されるかを管理でき、検索結果への表示を許可しつつAIモデルの学習には使用しないという選択も可能です。

    これに対し、Perplexityには以下のような違いがあります:

    • 開発元と技術基盤: SearchGPTはOpenAIが開発し、GPT-4モデルファミリーを使用しています。一方、PerplexityはPerplexity AI社が開発し、OpenAIのGPT-3.5モデルとMicrosoftのBing検索エンジンを利用しています。
    • パブリッシャーとの関係: OpenAIはThe Wall Street Journal、The Associated Press、Vox Mediaなど多くの出版社と提携していますが、Perplexityは一部の出版社から許可なくコンテンツを使用していると批判されています。
    • 情報の引用と表示: SearchGPTは情報源を明確に示し、インライン引用とリンクを提供することを強調しています。これにより、ユーザーは出典を確認しながら信頼性の高い情報を取得できます。
    • パブリッシャーのコントロール: OpenAIはパブリッシャーがSearchGPTでの表示方法を管理できるオプションを提供していますが、Perplexityにはそのような機能の提供が明確に報告されていません。
    • 統合計画: OpenAIはSearchGPTの機能を将来的にChatGPTに統合する計画を発表していますが、Perplexityは独立したサービスとして運営されています。
    • ユーザーインターフェース: SearchGPTはより簡潔で整理されたインターフェースを提供しています。Perplexityのインターフェースは、より多くの情報を同時に表示する傾向があります。

    これらの違いは、OpenAIがSearchGPTを通じて、より倫理的で透明性の高い検索エクスペリエンスを提供しようとしていることを示しています。特に、パブリッシャーとの関係構築や情報の適切な引用に重点を置いている点が注目されます。

    Metaの新しい大規模言語モデル:Llama 3.1のリリース

    次に、Metaが2024年7月23日に発表した「Llama 3.1」を紹介します。これは最新のオープンソース大規模言語モデル(LLM)であり、いくつかの重要な改善と新機能を備えています。Llama 3.1は、8B、70B、405Bの3つのパラメータサイズで提供されており、特に405Bモデルは世界最大のオープンソースLLMとして注目されています。

    主な特徴

    • パラメータサイズ:
      • 8Bモデル: 小規模なタスクやリソースが限られた環境に適しています。
      • 70Bモデル: 汎用的なタスクに対応し、高い性能を発揮します。
      • 405Bモデル: 最も大規模で、最先端の性能を提供します。
    • コンテキストウィンドウの拡張: Llama 3.1は、コンテキストウィンドウを128Kトークンに拡大しており、これにより長文のテキストを処理し、より複雑な推論が可能になります。
    • 多言語対応: 英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語の8言語に対応しています。
    • マルチモーダル能力: 将来的には、テキストだけでなく画像やその他のデータ形式も処理できるマルチモーダルモデルのリリースが予定されています。
    • 強化されたコーディング能力: CodeLlamaからのインサイトを基に、コード生成や理解に優れた性能を発揮します。
    • 合成データ生成とモデル蒸留: 405Bモデルは、合成データ生成やモデル蒸留に利用され、他の小規模モデルの性能向上に寄与します。

    性能評価

    Llama 3.1は、MMLU(Massive Multitask Language Understanding)やHumanEvalなどの主要なベンチマークで、GPT-4やClaude 3.5 Sonnetと同等またはそれ以上の性能を示しています。例えば、HumanEvalではLlama 3.1 70Bが81.7のスコアを達成し、GPT-4の67を上回っています。

    商用利用とライセンス

    Llama 3.1は、商用利用が可能でありながらも無料で提供されており、開発者や企業が自由に利用できるようになっています。Metaは、モデルの出力を他のモデルの改善に利用できるようライセンスを変更しています。

    利用方法

    • ローカルでの利用: 必要な依存関係をインストールし、Hugging Faceからモデルをダウンロードして使用できます。

      python

      from transformers import AutoModelForCausalLM, AutoTokenizer

      model = AutoModelForCausalLM.from_pretrained(“meta-llama/Meta-Llama-3.1-70B”)
      tokenizer = AutoTokenizer.from_pretrained(“meta-llama/Meta-Llama-3.1-70B”)

      inputs = tokenizer(“Your prompt here”, return_tensors=“pt”)
      outputs = model.generate(inputs.input_ids)
      print(tokenizer.decode(outputs))

    • クラウドサービスでの利用: Amazon Bedrock、Microsoft Azure、Google Cloudなどの主要なクラウドサービスを通じて利用可能です。

    今後、Llama 3.1を通じてオープンソースAIの新しい標準が確立され、技術の進歩と普及が期待されます。

    Googleの新たな挑戦:動画生成AI「Veo」の登場

    最後に、Googleが2024年7月に発表した動画生成AI「Veo」についてご紹介します。このツールは、動画生成市場における新たなスタンダードを打ち立てる可能性を秘めています。

    Veoの主な特徴

    • 高品質動画生成: 60秒以上の高品質な1080pクリップを生成可能です。
    • 多様なスタイル対応: フォトリアリズム、シュールリアリズム、アニメーションなど、幅広い映画的スタイルに対応しています。
    • タイムラプスや空撮: 特定の映像関連用の用語を理解し、対応した動画生成が可能です。
      • 既存動画の編集: ユーザーがアップロードした動画に物体を追加する機能があります。例えば、ハワイの海岸線の映像にカヤックを追加することができます。

      この「Veo」は、動画生成のプロフェッショナル向けツールとして、特に編集機能や多様なスタイル対応が強みとなっています。

      LumaAIの「Dream Machine」との比較

      LumaAIの「Dream Machine」は、2024年6月にリリースされた高解像度動画生成AIです。以下は、VeoとDream Machineの主な違いです。

      • 解像度: Veoは1080pの高品質動画を生成しますが、Dream Machineは最大4K解像度での動画生成が可能です。
      • 動画長: Veoは60秒以上の動画生成が可能で、Dream Machineは最大5秒の動画を生成します。
      • スタイル対応: Veoはフォトリアリズム、シュールリアリズム、アニメーションに対応し、Dream Machineはリアルな描写と映画的カメラワークを重視しています。
      • 特殊機能: Veoは既存動画の編集、タイムラプス、空撮に対応しており、Dream Machineはキーフレーム機能とテキスト・画像入力による動画生成が特徴です。
      • 無料プラン: Veoには無料プランがなく、Dream Machineは月30本まで無料で動画生成が可能です。

      市場への影響と今後の展望

      Googleの「Veo」とLumaAIの「Dream Machine」は、それぞれ独自の強みを持ち、動画生成AI市場に新たな風を吹き込んでいます。特に、Dream Machineはその高解像度と簡単な操作性で多くのユーザーに支持されています。一方、Veoはプロフェッショナル向けの需要を狙い、既存動画の編集機能や多様なスタイル対応で差別化を図っています。

      今後、動画生成AIの進化は、クリエイティブ業界やマーケティング分野に大きな影響を与えると予想されます。これらのツールが普及することで、動画制作のハードルが下がり、より多くの人々が高品質な動画コンテンツを作成できるようになるでしょう。ただし、AIによる動画生成には著作権や倫理的な課題も伴うため、ガイドラインの整備が求められます。これらのツールの今後の展開と、それに伴う議論の行方に注目が集まります。

      今週は、OpenAIの新しい検索機能「SearchGPT」、Metaの「Llama 3.1」、そしてGoogleの動画生成AI「Veo」についてご紹介しました。これらの新技術がどのように市場を変革し、私たちの生活やビジネスに影響を与えるか、今後も注目していきたいと思います。

      Jiteraでは、要件定義を書くだけでAIが開発をしてくれるシステム開発AIエージェントを運営しています。生成AIを活用したシステム・アプリの開発のご支援も行っております。生成AIに関するささやかな疑問や、開発に関するお問い合わせがあれば、こちらよりお気軽にご相談ください。

      来週も、Jitera社内で話題になったAIトレンドを発信していくので、お楽しみに!

    例:開発手順、ツール、プロンプト

    メルマガ登録

    社内で話題になった「生成AIに関するニュース」をどこよりも早くお届けします。