OpenAIと聞くと、ChatGPTを思い浮かべる人は多いのではないでしょうか。
今やChatGPTをビジネスで活用しない手はないほど有用なツールとなっています。
本記事ではOpenAI社が提供するAPIについて解説していきます。
プロンプトに対してテキストで返すだけではなく、画像や動画、音楽までもAPIを利用することで生成することができるのです。
OpenAI APIとは?基本的な概要
OpenAI APIとは、OpenAI社が提供するAPIのことです。
そもそもAPI(Application Programming Interface)とは、ソフトウェアやプログラム、Webサービスの間をつなぐインターフェースのことです。
OpenAI APIを利用することでチャットボットの開発、文章生成、翻訳などの機能の実現が可能になります。
OpenAI APIの種類
APIの種類には次の二つがあります。
- エンタープライズAPI
複数のユーザーが混在した環境でのAPI利用が前提 - 研究開発API
研究や開発プロセスにおいて利用されることが前提
それでは、詳しく見ていきましょう。
エンタープライズAPI
エンタープライズAPIは、企業や組織がシステムやアプリケーション間でデータや機能を共有するためのAPIです。
特徴としては、企業ごとのニーズに合わせてカスタマイズすることができる点、セキュリティやプライバシーを重視して設計されている点などが挙げられます。
研究開発API
研究開発APIは研究や開発プロセスにおいて利用されるAPIのことです。
研究データの収集や分析、研究成果の共有などの用途で利用されます。
研究開発APIはオープンソースのAPIが多く、研究者や開発者が自由に利用できることが一般的です。
OpenAI APIの主要なモデル
OpenAI APIのモデルは複数あります。
その中でも次の主要なモデルについて紹介します。
- GPT-4V
- GPT-3
- Jukebox
- Muse
- DALL-E 2
- CLIP
- Whisper
- SORA
各モデルにはどのような特徴があるのでしょうか。
詳しくみていきましょう。
GPT-4V
参考サイト:https://www.seraku.co.jp/tectec-note/industry/gpt_4v/
2023年9月にOpenAIは新しいAPIである「GPT-4V」をリリースしました。
「GPT-4」は自然言語処理や自然言語生成においては圧倒的な性能を持っていますが、テキストのみしか扱うことができません。
しかし、「GPT-4V」では画像処理能力が追加されました。
PythonやNode.jsなどのプログラムを経由して画像の説明やテキストの読み取り、画像内に映っている物体のカウントなどの機能を利用することができます。
具体的には次のような活用方法があります。
- 画像からHTMLやCSSを生成する
- 画像の内容をテキストで説明させる
- サイトの画像から改善アドバイスをもらう
GPT-3
参考サイト:https://aiacademy.jp/media/?p=1016
GPT-3は機械学習させたパラメータの数が1750億個あります。
パラメータとは、AIが文章の予測モデルを作る際に必要な変数のことです。
パラメータの数が多ければ多いほど、高い精度で文章を作ることができます。
そのため、GPT-3では人間が書いた文章と遜色ない自然な文章を書くことができます。
また、GPT-3ではアルゴリズムを並列処理をすることが可能になりデータの処理を高速に行うことができます。
人間であれば作成するのに1時間程かかる文章でも、GPT-3ではものの数分で書き上げてしまいます。
Jukebox
https://openai.com/research/jukebox
Jekeboxは「アーティスト」「ジャンル」「歌詞」「音楽サンプルの長さ」を指定するだけで、ゼロから作成した新しい音楽サンプルを出力することができます。
ディープラーニングにより、リアルな歌声や歌詞の特徴を把握し、音楽サンプルを出力します。音楽クリエイターやアーティストにおすすめのツールとなっています。
Muse
https://openai.com/research/musenet
MuseNetは、10種類の楽器で4分間の音楽を作成することができます。
ジャンルはカントリーからクラシック、ポップまでの様々なスタイルを組み合わせて音楽を生成します。MuseNetはユーザーが入力した指示に従って音楽を自動生成します。
音楽家やアーティストのみならず、一般のユーザーにとっても新しい音楽体験を提供することができる魅力的なツールとなっています。
DALL-E 2
DALL-E2は、OpenAI社が開発した画像生成AIツールです。基本機能としては主に次の4つの機能があります。
- テキストから画像を生成する機能
入力されたテキスト内容を基に画像を作成します。 - 作成した画像の別バリエーションを生成する機能
一度作成した画像を基にニュアンスを変えた様々なバリエーション画像を生成することができます。 - 画像の一部をAIによって編集する機能
例えば、人物のイラストの洋服のデザインをAIによって別の洋服のデザインに編集することなどができます。
CLIP
https://openai.com/research/clip
CLIPは2021年2月にOpenAI社によって公開された画像とテキストを学習したモデルです。
インターネットから集められた4億もの画像とテキストのペアのデータセットを使用しています。
そこに、自然言語処理による「教師あり」学習を組み合わせることで初めて見る画像についてもうまく分類できるようになっています。
CLIPはこれまでの、画像分類技術の問題点であったラベル付けにかかるコストや、初めて見る対象についての分類制度が低いといった点をクリアしたツールとなっています。
Whisper
https://openai.com/research/whisper
WhisperはOpenAI社が文字起こしサービスとして公開した無料の音声認識ができるAPIです。
Webから68万時間分の多言語音声データを学習させているため、高い精度で入力した音声の文字起こしをすることができます。
Whisperの機能は主に「音声の文字起こし」「翻訳処理」の2つです。
オープンソースで公開されているため、企業や個人が開発したソフトウェアやシステムに機能を追加することができます。
Sora
SoraはOpenAI社が発表した動画生成AIモデルです。
テキストのプロンプトを入力するだけで、高画質の動画を生成することができるツールです。
Soraを利用することで次のようなことが実現できます。
- テキストから動画を生成
- 静止画から動画を生成
- 画像の生成
現時点では一般公開はされておらず、利用対象者など詳細な条件は未定となっています。
リリースがされれば動画作成が大幅に効率化されるでしょう。
OpenAI APIが実現すること
OpenAIのAPIは革新的な自然言語処理技術を世界中の開発者が利用することができます。また、プランによっては無料で利用することができるAPIもありますが制限がある場合も。ここでは次の2つの項目について説明していきます。
- 多言語対応と日本語での使用
- APIの無料利用とその制限
それでは、一つずつ見ていきましょう。
多言語対応と日本語での使用
OpenAIのAPIは複数の言語に対応しています。そのため、世界中の多様な言語で自然言語処理やプログラミングによってOpenAIのモデルを利用することができます。
英語、スペイン語、フランス語、中国語など、様々な言語のテキストを入力することも可能です。APIはこれらの各言語の特性を理解し、適切な処理を行うことができます。
もちろん、日本語での利用も可能です。APIは日本語の文脈や構造を理解し、適切な応答を生成することができます。
翻訳や日本語の自然言語処理タスクにおいても、OpenAIのAPIは有用なツールとして活用されています。
APIの無料利用とその制限
OpenAIのAPIはプランによっては無料で利用することができます。
しかし、主に次の3つの制限があるため注意が必要です。
- 利用制限
無料プランでは、APIの利用に制限があります。
通常は月額の利用量制限が設定されており、それを超えると追加料金が発生する場合があります。 - 機能制限
無料プランでは、APIの機能が制限されていることがあります。
処理可能なテキストの長さやリクエストの形式に制限がある場合もあります。 - サポートの制限
無料プランでは、サポートが制限されていることがあります。
そのため、問題が発生した場合や質問がある場合に迅速な対応がされない場合があるため注意が必要です。
OpenAI APIの使い方と導入手順
OpenAIのAPIにはどのような種類があるのかを紹介してきました。
では、実際に使う場合はどのように導入をしたらよいでしょうか。
次の2つのテーマについて解説をしていきます。
- 初心者向けの使い方ガイド
- GPT-3の活用方法
では、詳しく見ていきましょう。
初心者向けの使い方ガイド
OpenAI APIが提供するモデルは、様々なシーンで活用されています。次に示す手順でOpenAI APIを利用することができます。
- OpenAIのWebサイトでアカウントを作成します。
- OpenAIとの通信を認証するためのAPIキーを取得します。
- プロジェクトに合ったモデルを選びます。
例えば、テキスト生成を行う場合はGPT-4、画像生成を行う場合はDALL-E2など、プロジェクトの目的に応じて選定します。 - プログラミング言語で実装をします。
Pythonなどのプログラミング言語を利用することが一般的です。 - APIからのレスポンスを処理し、目的に合わせた必要な情報を取り出せるようにします。
GPT-3の活用方法
GPT-3は文章の生成や翻訳、文章の要約、質問応答などのアプリケーションを開発することができます。では、どのような活用方法があるのでしょうか。分野別にまとめると以下の通りとなります。
コンテンツ生成
・ブログ記事の作成
・小説の作成
・広告文の作成
教育分野
・教育用教材の作成
・学習支援ツールとしての利用
ビジネス分野
・カスタマーサポートやチャットボットとしての活用
・データ分析
OpenAI APIを利用できる便利なツール
OpenAI APIを利用できる便利なツールは様々あります。ここでは次の5つについて紹介をします。
- ChatGPT
- OpenAI Codex
- BardGPT
- InstructGPT
- Playground
それでは、詳しく見ていきましょう。
ChatGPT
「ChatGPT API」はOpenAIによる自然言語処理のためのAIモデル「ChatGPT」を使用して、開発者が自然減処理を行う際に使われるAPIです。
以前までは、ChatGPTはブラウザからしか利用できませんでしたが、APIが登場したことにより、ソフトウェアやプログラムなどとChatGPTを連携することができるようになりました。
ChatGPT APIを使うことで、次のようなことができるようになります。
- 翻訳
- 文章の作成・要約・添削
- プログラミングコード生成
- 会議の議事録作成
- 資料のたたき台作成
OpenAI Codex
https://openai.com/blog/openai-codex
Codexは自然言語と数十億行のコードの両方を学習したGPT-3ベースのモデルです。JavaScriptやGo,Perl,PHP、Pythonなど10を超える言語に対応しています。
Codexの利用は、プログラマーの作業効率を向上させるだけではなく、プログラミング言語の文法や構文を覚えることなく、直観的にプログラミングを行うことができます。
ただ、Codexはまだまだ開発段階のため、完全な自動化やすべてのコード生成タスクに対応しているわけではないため、必要に応じて修正や調整を行うことが必要です。
BardGPT
参考サイト:https://forbesjapan.com/articles/detail/61842
BardGPTは、テキスト生成のタスクに特化しており、与えられた文脈に基づいて詩や物語などの文学的なテキストを生成します。
このモデルは、詩や物語のスタイルやトーンを理解し、それに基づいて自然なテキストを生成することができます。
文学の創作や文学的な表現をサポートするために使用され、小説や詩の執筆といった、クリエイティブな文章の生成などに活用されています。
InstructGPT
参考サイト:https://atmarkit.itmedia.co.jp/ait/articles/2301/13/news023.html
InstructGPTは与えられた指示や質問に基づいて、具体的な情報や手順を生成します。
このモデルは、コードの説明やドキュメントの生成、技術的な問い合わせへの対応など様々な用途に活用されます。
教育や技術サポート、情報提供などの分野で広く活用されています。
Playground
参考サイト:https://zenn.dev/enechange_blog/articles/ec4054903773f0
PlaygroundはOpenAIの技術やモデルにアクセスし、それらを使って実験をしたり、機能をテストしたりするための環境です。
オンライン上でブラウザベースのインターフェースを通じて提供され、ユーザーはそこでOpenAIの機能を利用することができます。
OpenAIの機能を実際に使ってみたい人や、APIを利用する前に機能や挙動を試したい開発者にとって便利なツールです。
OpenAI APIを活用したビジネス事例
では実際にOpenAI APIをビジネスで活用するとどのようなことが実現できるのでしょうか。
次の会社の活用事例を紹介します。
- Zホールディングス(ZHD)
- Stripe
- 株式会社石垣
Zホールディングス(ZHD)
Zホールディングスはグループ会社のLINEとその子会社、ヤフーの従業員約2万人に向けて、OpenAI APIを活用したAIアシスタントサービスの提供をしています。
ZホールディングスはOpenAI社が提供する全APIに関する利用契約を締結しています。
AIアシスタントサービスの社内利用では、出入力情報が2次利用や第3者への提供がされない仕様としているため、社外秘情報の入力を行っても安全に利用ができるようになっています。
グループの全部門で活用を推進しており、業務効率、サービスの向上を図っています。
Stripe
オンライン決済プラットフォームを提供しているStripeは、OpenAIのGPT-4を製品やサービスに導入した企業の一つです。
ChatGPTとStripe APIを連携させることで、商品の価格の問い合わせに対し、ChatGPTが商品の価格を返し、その後StripeAPIを利用してユーザーからの支払処理をすることができます。
この連携により、ユーザーはスムーズに決済を行うことができるのです。
株式会社石垣
株式会社石垣は社内の生産性向上を目的とし、Azure OpenAI Serviceを基盤とした対話型AIチャットボットを活用しています。
マイクロソフト社が提供するクラウド環境に、独自の領域を構築することで、蓄積されたデータが二次利用されないセキュリティが担保された環境での活用が可能になっています。
グループを横断したノウハウの共有、ドキュメントの作成、チェックの精度の向上により生産性の向上を図っています。
まとめ:OpenAI APIの将来性とビジネスへの影響
本記事では、OpenAI APIの各モデルの紹介や活用の方法について紹介をしました。
OpenAI APIの活用は将来的にさらなる進化が期待され、ビジネスにおいて重要なツールとなることは間違いないでしょう。
業務効率化や生産性向上、革新的なアプリケーションの開発、さらには新たなビジネスモデルの創出の実現も可能になります。
OpenAI APIの活用にご興味のある方は、是非Jiteraへご相談ください。