2024年7月3週目：社内で話題になった「生成AIトレンド・ニュース」

こんにちは！Jiteraの岩崎です。

暑い日が続いていますが、皆さんいかがお過ごしでしょうか？私は先週末、家族と一緒に海辺でのんびりと過ごしました。リフレッシュできたので、今週も元気いっぱいで仕事に励んでいます。では今週もこの一週間で社内で話題になった生成AIトレンドについて説明します。

GoogleのImageFX
LINEヤフー、生成AIモデルコース
CyberAgentLM3
Odyssey
SenseNova 5.5
Anifusion

GoogleのImageFX

GoogleのImageFXは、テキストプロンプトから高品質な画像を生成する無料のAI画像生成ツールです。以下にImageFXの主な特徴と使用方法をまとめます。

主な特徴:

Imagen 2モデル: GoogleのImagen 2モデルを使用し、高品質でリアルな画像を生成します。Imagen 2は、テキストから画像を生成するための先進的な技術を備えており、非常にリアルな画像を生成できます。
無料利用: 無料で利用可能で、誰でも簡単にアクセスできます。
SynthID: 生成された画像にはSynthIDという不可視の電子透かしが埋め込まれ、AI生成画像であることが識別可能です。これは、偽造や著作権侵害を防ぐための重要な機能です。
Expressive Chips: 「expressive chips」機能により、プロンプトの一部を簡単に変更して画像を調整できます。これにより、ユーザーは生成された画像を簡単にカスタマイズできます。

使用方法:

AI Test Kitchenにアクセス: AI Test KitchenのウェブサイトにアクセスしてImageFXを選択します。
Googleアカウントでログイン: Googleアカウントでログインします。
テキストプロンプトを入力: テキストプロンプトを入力して画像を生成します。できるだけ詳細なプロンプトを入力することが推奨されます。画像の形式(写真、3Dレンダリング、イラストなど)やスタイルも指定可能です。
生成された画像を表示、ダウンロード、共有: 生成された画像を表示、ダウンロード、共有できます。

注意点:

利用制限: 現在、日本を含む一部の国では正式に利用できません。VPNを使用すれば日本からも利用可能ですが、接続速度が低下する可能性があります。
画像生成数の上限: 1日あたりの生成画像数に上限があります。
ポリシー制約: 使用ポリシー上の制約により、一部のプロンプトが受け付けられない場合があります。

ImageFXは、他のAI画像生成ツールと比較してもリアルで高品質な画像を生成できると評価されていますが、まだ改善の余地があるようです。今後のアップデートにより、さらに機能が向上することが期待されます。

具体的な事例と比較: ImageFXは、特にフォトリアリスティックな画像生成に優れています。例えば、DALL-E 3と比較すると、ImageFXはGoogleの強力な言語理解能力を活かして、より詳細でリアルな画像を生成できます。一方、DALL-E 3は、多様なスタイルやクリエイティブな表現に優れています。どちらのツールもそれぞれの強みを持っており、使用目的に応じて選択することが重要です。

LINEヤフー、生成AIモデルコース

LINEヤフーは、生成AIを活用した観光モデルコースの提案機能を提供しています。この機能は、Yahoo! JAPANの検索結果で「地名観光」と検索すると、該当エリアの観光情報に加えて、生成AIがテーマに沿った観光モデルコースを提案するものです。

観光モデルコースの特徴:

テーマ別コース: 「王道」「ファミリー」「女子旅」「友達」「デート」の5つのテーマ別コースが用意されています。これにより、ユーザーは自分のニーズに合った観光プランを簡単に見つけることができます。
詳細な情報提供: コースには地図、拠点間の移動手段、移動時間が含まれており、ユーザーは具体的な旅行計画を立てやすくなっています。
対応地域の拡大: 現在、約200の地域に対応しており、今後さらに対応地域を拡大する予定です。

生成AIモデルコースの利用方法:

検索: Yahoo! JAPANで「地名観光」と検索します。
提案されたコースの確認: 検索結果に表示される生成AIが提案する観光モデルコースを確認します。
詳細情報の確認: コースの地図や移動手段、移動時間などの詳細情報を確認し、旅行計画を立てます。

背景と目的: LINEヤフーが2023年8月に実施した調査によると、観光をする際にガイドブックのような地域紹介やモデルコースを求める声が多かったことが分かりました。このニーズに応えるために、生成AIを活用した観光モデルコースの提案機能が開発されました。この機能は、新型コロナウイルス禍明けから回復傾向にある旅行需要に対応し、ユーザーが自分好みの旅行計画を立てられるようにすることを目的としています。

法人向け生成AIモデルコース: LINEヤフーは、生成AIやビッグデータの業務活用方法を学べるリスキリングプログラムも提供しています。このプログラムでは、生成AIの基礎知識から実践的な活用方法までを学ぶことができ、企業のニーズに応じたコースが用意されています。

このように、LINEヤフーの生成AIモデルコースは、観光分野だけでなく、業務効率化や人材育成にも活用されています。

CyberAgentLM3

CyberAgentLM3は、株式会社サイバーエージェントが開発した日本語特化の大規模言語モデル（LLM）です。

主な特徴:

パラメータ数: 225億
モデル名: CyberAgentLM3-22B-Chat
ライセンス: Apache License 2.0（商用利用可能）
開発方法: 既存モデルをベースにせず、スクラッチから開発
対応言語: 主に日本語、英語も対応

性能:

日本語能力評価: 日本語能力評価指標「Nejumi LLM リーダーボード3」において、Metaの700億パラメータモデル「Meta-Llama-3-70B-Instruct」と同等の性能を示す。
用途: チャット形式での対話に特化したチューニングが施されています。

利用方法: モデルはHugging Faceからダウンロード可能で、デモも提供されています。以下は使用例です：

python

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model = AutoModelForCausalLM.from_pretrained(“cyberagent/calm3-22b-chat”, device_map=“auto”, torch_dtype=“auto”)
tokenizer = AutoTokenizer.from_pretrained(“cyberagent/calm3-22b-chat”)
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

messages = [
{“role”: “system”, “content”: “あなたは親切なAIアシスタントです。”},
{“role”: “user”, “content”: “AIによって私たちの暮らしはどのように変わりますか？”}
]

input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors=“pt”).to(model.device)
output_ids = model.generate(input_ids, max_new_tokens=1024, temperature=0.5, streamer=streamer)

開発背景と目的: 開発経緯として、2023年5月に初版の「CyberAgentLM」を公開し、その後バージョン2（CyberAgentLM2）、視覚言語モデル（VLM）を経て、今回のCyberAgentLM3がリリースされました。日本語特化のLLMとして、国内の自然言語処理技術の発展とビジネス活用を推進するために開発されました。

応用分野:

サービス: サイバーエージェントが提供する「極予測AI」などのサービスに広く活用されています。
ビジネス: デジタル広告、クリエイティブ制作、オンライン対話システムなど多岐にわたる分野での活用が見込まれています。

今後の展望: 地域貢献として、モデルの公開や産学連携を通じて、国内における自然言語処理技術の発展に寄与することを目指します。技術革新として、今後もLLMの開発とビジネス活用を進め、より高度なモデルや新たなプロダクトの開発が期待されます。

Odyssey

Odysseyは、ハリウッドグレードの視覚AIを目指して開発されている先進的なAIビデオ制作ツールです。

主な特徴:

高品質な映像生成: ハリウッド品質の映像制作を目指し、プロフェッショナルレベルの品質とコントロールを提供します。
複数のAIモデルの統合: ジオメトリ、マテリアル、ライティング、モーションの4つの層を生成する複数のAIモデルを使用しています。
精密なコントロール: 各視覚要素の詳細な制御が可能で、より柔軟な創作を実現します。
業界標準との互換性: USDなどの標準3Dファイル形式をサポートし、既存のワークフローとの統合を容易にしています。
AIと専門知識の融合: AI研究者、コンピューターグラフィックス専門家、ハリウッドのアーティストによって開発されています。

想定される用途:

映画製作: 高品質な映像生成により、シネマティックなビジュアルを実現します。
テレビ番組制作: テレビ番組の視覚効果を強化し、視聴者を引き込む映像を提供します。
ビデオゲーム開発: ゲーム開発において、リアルタイムで高品質なビジュアルを生成します。
バーチャルリアリティコンテンツ制作: VRコンテンツの没入感を高めるために、高品質なビジュアルを生成します。

開発状況と今後の展望: 現在も開発中であり、完全な製品リリースの詳細は明らかにされていませんが、業界のリーダーや投資家（Google VenturesやDCVCなど）からの支援を受けています。将来的には、ストーリーテリングの新しい可能性を開くことが期待されています。

Odysseyの適用例: Odysseyは、映画製作やテレビ番組制作、ビデオゲーム開発などのプロフェッショナルな制作現場での使用を想定しており、一般的なAI動画生成ツールとは一線を画す高度な機能と品質を目指しています。

SenseNova 5.5

SenseNova 5.5は、中国のAI企業SenseTimeが開発した最新の大規模言語モデル（LLM）であり、特に多モーダル処理能力に優れています。

主な特徴と性能:

多モーダル処理能力: テキスト、画像、音声、ビデオなどのデータを統合して処理できるため、リアルタイムの対話や音声認識が可能です。ユーザーとのインタラクションが強化されており、複数の異なる形式の情報をリアルタイムで同時に利用し、ユーザーとシステムが相互作用することができます。
高精度な推論能力: 数学的推論や英語能力が向上し、複雑な質問にも迅速かつ正確に対応できます。ベンチマークテストでは、GPT-4oに匹敵するか、あるいはそれを上回る性能を示しています。
エッジデバイス対応: エッジサイドでの大規模モデルの展開が可能で、年間コストを大幅に削減しています。デバイス1台あたりの年間コストがわずか9.90人民元（約220円）に設定されています。
リアルタイム会話と音声認識: リアルタイムの会話や音声認識アプリケーションに特に適しており、ユーザーとの自然な対話が可能です。
コスト効率: 他の主要なAIモデルと比較して非常に安価であり、広範な展開を可能にする価格設定です。新規ユーザー向けに、導入、移行、トレーニングサービスが無料で提供されています。

応用事例:

政府機関や企業での利用: SenseNova 5.5は、金融、ヘルスケア、技術開発などの分野で広く利用されています。既に3,000を超える政府機関や企業にモデルが導入されており、さまざまな業界での応用が進んでいます。
エンターテインメントとインタラクティブアプリケーション: SenseTimeは、VimiというAIアバター動画生成ツールを導入しており、これにより高品質な短編動画を生成することができます。
プロダクティビティツール: SenseNova 5.5は、SenseChat Lite-5.5などのエッジサイドモデルを含むプロダクティビティツールにも応用されており、推論時間の短縮と性能向上が図られています。

技術的背景: SenseNova 5.5は、クラウドとエッジのシナジーを最大化し、推論コストを削減するためのハイブリッドクラウドエッジアーキテクチャを採用しています。10TBを超える高品質なトレーニングデータを使用し、推論能力を強化しています。

Anifusion

Anifusionは、AIを活用してアニメスタイルのアートや漫画を作成するためのオンラインツールです。

主な特徴:

ブラウザベースのツール: 特別なソフトウェアのインストールが不要で、ウェブブラウザ上で動作します。
AI画像生成機能: テキストプロンプトから画像を生成できます。Danbooruスタイルのタグを使用することで、最適な結果が得られます。
漫画制作に特化: コマ割り、パネル配置など、漫画制作に特化した機能を提供。背景の削除、ポーズの指定、バリエーションの作成などの多機能を備えています。
編集機能: インペイント、顔の改善、ポーズコントロールなどの編集機能があります。
使いやすさ: シンプルなユーザーインターフェースを採用。キーボードショートカットを使用して、ツールを素早く切り替えられます。
料金体系: 基本的な機能は無料で利用可能。月額$20の有料プランでは、1日300画像の生成、ワークスペースの保存、複数のモデルとLoRAのサポート、新機能へのアーリーアクセスが可能です。
開発者: ドイツ/フィリピンでLLMと拡散モデルを研究するコンピュータサイエンスの大学院生Nucleusさんが開発。
最新のアップデート: Animagine XL 3.0および3.1のサポートが追加されました。

制限事項: 現時点では、吹き出しやセリフの入力機能はありませんが、継続的なアップデートにより、機能の拡張や改善が行われています。

Anifusionは、特に漫画制作に特化した機能と使いやすさ、コストパフォーマンスの面で他のAI漫画ツールと比較して優れています。これにより、プロフェッショナルな漫画制作を誰でも簡単に行える点が大きな魅力です。

今週はGoogleのImageFXとLINEヤフーの生成AIモデルコースについて特に注目しました。Jiteraでは、要件定義を書くだけでAIが開発をしてくれる、システム開発AIエージェントを運営しています。生成AIを活用した、システム・アプリの開発のご支援も行っております。生成AIに関するささやかな疑問や、開発に関するお問い合わせがあれば、こちらよりお気軽にご相談ください。

来週も、Jitera社内で話題になったAIトレンドを発信していくので、お楽しみに！