大規模言語モデルという単語を聞いたことがありますか?現代ではAIイラストやChatGPTなど、AIを利用した技術がどんどん発展しています。
しかし、大規模言語モデルは生成AIを利用した技術でなく、人間がアウトプットしたさまざまな要素をディープランニングさせ、チャットボットとして動作させる事を可能にする技術です。今回はそんな大規模言語モデルについて、徹底解説していきますので、是非最後までご覧ください。
2014年 大学在学中にソフトウェア開発企業を設立
2016年 新卒でリクルートに入社 SUUMOの開発担当
2017年 開発会社Jiteraを設立
開発AIエージェント「JITERA」を開発
2024年 「Forbes 30 Under 30 Asia 2024」に選出
大規模言語モデルとは(LLM:Large language Models)
ここでは、従来の言語モデルと比らべて大規模言語モデルはどのような特徴を持つのかを解説しています。
大規模言語モデル(LLM)は、人間の使う自然言語をコンピュータで処理する(自然言語処理(NLP))の分野でとても革新的な技術です。
大規模言語モデル(LLM)は、膨大なデータと複雑なディープランニングを用いて構築され、従来のモデルよ以 下の3つの要素が強化されています。
そもそも言語モデルとは、人間が使う「言語」や「文章」をもとにして出現確率をモデル化するものです。例えば「私」という単語の後に「プログラマ」ですや「男」ですという単語と、「赤色」や「海」などが出現する確率を統計的に分析して、コンピュータが予測するようにします。
大規模言語モデル(LLM)では、3つの要素を強化しているため従来のモデルが単に単語の出現率をモデル化するのに対して、文脈やニュアンスまでも予測することができて以下のNLPのタスクに対応します。
以上のように、大規模言語モデル(LLM)は従来の言語モデルよりも複雑で多様な言語タスクを処理することができます。
※ディープランニングとは:人間の脳の神経細胞ネットワークを模範したコンピュータに学習をおこなわせる技法(機械学習)のひとつです。LLMでは大規模なデータを学習させることにより、質問に対して自然な回答を得ることができています。
大規模言語モデルの仕組み
大規模言語モデルは、2018年にGoogleが公表したBERTと呼ばれるものや、2020年にOpenAIが発表したGPT-3などが例として挙げられます。
すでに解説しましたが、大規模言語モデルは膨大なデータをディープランニングという手法で学習をおこないます。その際に必要な主要な5つのステップがあります。
以上のステップを踏んで、大規模なデータを「トークン」に分割して、文脈や言葉の意味を学習するのが特徴です。
次では5つのステップについて詳しく説明いたします。
トークン化
トークン化とは、テキストを最小の単位であるトークンに分けることです。トークン化することにより機械学習のモデルがテキストを扱いやすくなります。
トークンは普通は、「句」・「文」・「単語」などの形でテキストの中に存在します。LLMでは一般的にはサブトークン化が使用されます。以下はいくつかのトークン化の手法です。
テキストを単語ごとに分割します。句読点やスペースに基づいて分割しますが、辞書を用いて単語を特定して分割する方法などがあります。
個々の文字に分割する方法です。単語ではなく、文字の並びをトークンとして扱います。
テキストをより小さな部分文字列(サブワード)に分割する方法です。例えば英語の単語「unbelievable」は、「un-」・「believe」・「-able」というサブワードに分割できます。それによってモデルは「believe」という単語を学習し、接頭辞や接尾辞が付いた派生語を理解することができます。有名なサブワードトークン化手法には、Byte-Pair Encoding(BPE)やSentencePieceなどがあります。
トークン化の手法は、新たなものを生み出す研究対象となっており、今後もより洗練されたトークン化の手法が開発されることが期待されます。
それにより、LLMの理解能力や生成能力が向上していきます。
文脈理解
テキストをトークンに分割した後は、文脈理解をおこないます。文脈とは例えば「ウィルス」という単語の場合その言葉が病原体をあらわすのかコンピュータの悪意あるソフトウェアなのかがわかりません。そのためその単語の前後の言葉から背景を読みとり意味を理解します。
そのことを文脈といいます。
文脈理解は以上のように、前後のトークンからの文脈情報を利用します。同じ単語でも前の文脈によって意味がことなることがあります。例えば、「バット」が野球の用語か、コウモリを指すのかは、前後の文脈に依存します。
また、大規模言語モデルは、前後の文脈だけでなく過去の文脈も考慮します。このことによりより長期的な文脈を理解することができます。長い文章や対話において、適切な文脈を保持することはとても重要となります。
文脈理解はいまだに課題があり、より多様なトレーニングデータが必要です。
エンコード
文脈理解をおこなうために、分割されたトークンをベクトルという数値の形式に変換します。これをエンコーディングと呼びます。分割された各トークンは大雑把にいうと1列に並んだ数値の配列の形式(ベクトル)にされます。この配列を「埋め込みベクトル」とも呼びますがトークンの意味を数値的に表したものです。
このベクトル化によって、モデルは単語(トークン)を数値化するので、トークンの関係性を算術的に計算式で表すことができるようになります。例えば「王」― 「男」+「女」=「女王」のように表せます。
※これは例なので、実際はもっと複雑な計算をおこなっています。
要するにコンピュータに分かるように数値化できて、その文脈の関係性を計算できるようになります。そして、それを記憶(記録)しておくことができます。
代表的なベクトル化手法には以下のものがあります。※LLMにおいても製品によってベクトル化の手法は違っています。
単語の出現回数をベクトルで表現する方法です。テキスト内の単語の出現回数を数値化して、機械学習で扱いやすい形式に変換します。
文章内での重要度と単語の出現頻度を考慮してベクトル化します。無視すべき単語を除外し、重要な単語を強調します。
人間の脳神経を模したニューラルネットワークを用いて、単語の意味を考慮したベクトル表現を学習する方法です。単語の意味的な類似性を捉え、密なベクトル形式で表現します。
以上の手法を使って、テキストデータを機械学習で使える形式に変換して、感情分析や文書分類、意味の類似度計算などのタスクに活用します。
デコード
いままでのステップを振り返ってみると
2.トークンを数値のベクトルにエンコードする。
でした。エンコードされたデータはモデルが理解できる形式になり、モデルの内部で更に複雑な変換を経て、特定のタスクに必要な情報を得るために使われます。
デコードのステップでは、エンコードされたベクトルを新しいテキストや元のテキストに変換します。新しいテキストに変換する場合は、モデルが内部的に生成した情報をもとに、次に来るべき単語やフレーズを予測します。
具体的には、デコードのプロセスでは、エンコードされたコンテキスト情報とモデルが記録している言語の知識を組み合わせて、意味のある出力を生成します。
この時、モデルは複数の可能性から最も適切な単語やフレーズを選択するために、確率的な技法を用いておこないます。
そのような技法を使用して新しいテキストを生成して、回答を作り出すプロセスがデコードということになります。
入力文の次のトークンの確率を出力
繰り返しになるかも知れませんが、デコードにおいて新しいテキストを生成する際には、入力されたテキストのトークンの次にくるトークンを予測すると説明しました。
これを具体的に説明するとしたら、エンコードによって作成された内部表現に基づいて、モデルは次に来るべきトークンの確率分布を計算します。
この時に使用される関数は、ソフトマックス関数と呼ばれるもので、次に来るべきトークンのスコアを0と1の間の確率に変換するものです。
最終的に、次に来るトークンが何であるかを予測するたにモデルは各トークンの確率を出力します。確率の高いトークンが選ばることになります。
このようにLLMは複雑な確率計算をおこなうことで、流暢な自然な言語生成を行うことが出来ています。
大規模言語モデル(LLM)の特徴・メリット
ここまで大規模言語モデルとその概要、仕組みまで細かく解説していきました。
ここでは大規模言語モデルにおける特徴と、そのメリットについて詳しく解説していきます。大規模言語モデルはここ最近発展してきた技術でもあるので、大規模言語モデルについて、もっと知りたい方もいるかと思いますので、出来るだけ解りやすく解説します。
言語生成能力が高い
大規模言語モデルは、他のディープランニングプログラムと比べて、言語生成能力がとても高いです。
何故かというと、大規模言語モデルは開発される際に大量のテキストデータセットを入力し、その内容を3つの要素に分割させ、効率よくディープランニングさせました。
さらに先ほども述べました通り、高いレベルの文章を学習させているので、ある程度応用の聞いた言語生成能力を持っています。それ故に、オンラインショップ等にあるチャットボットや、質疑応答に対しては、人間には及びませんが、ある程度の質問に対し、高いレベルの文章で答える事を可能としています。
これらが大規模言語モデルのメリットの一つと言えるでしょう。
多様なテキストデータから学習した知識を網羅的に活用できる
大規模言語モデルは、さまざまな要素からテキストを出力する事を得意としています。さらに、テキストデータも細分化してディープランニングさせる事で、さまざまな分野で網羅的にテキストを生成する事ができます。
それ故に、いろいろなパターンのテキスト生成を行い、大規模言語モデルを人間に記憶されている頭脳のように構築する事が可能です。これにより、大規模言語モデルはある分野において網羅的に回答を行うことができます。
企業によっては大規模言語モデルに大量のディープランニングの仕組みを行い、大規模言語モデルにある程度の対応を任せ、人員のリソースを節約させる事ができます。
豊富な文脈をもとに推論を行う
大規模言語モデルは、予め大量のテキストデータが蓄積されています。さらに大規模言語モデルはファインチューニングと呼ばれる機能を持っていて、テキストの分類や生成、人間的な感情の分析、文章の要約などを行えます。
これにより、大規模言語モデルはさまざまな文脈から推論を行えます。ですので、質問に回答するといった分野において、大規模言語モデルは力を発揮すると言えます。
また、大規模言語モデルはテキスト生成に特化したAIでもありますので、他の生成AIと比べて文章作成能力が高い点も、大規模言語モデルを導入するにあたってメリットと言えるでしょう。
ファインチューニングや転移学習ができる
大規模言語モデルは、ファインチューニングや転移学習も行えます。ファインチューニングは少し前に紹介した通り、テキスト生成及び分類、感情の表現や文章を行えます。さらに、転移学習という技術も、大規模言語モデルは搭載しています。
転移学習とは、既に学習したテキストを再利用することで、効率的に文章の生成を行えます。これにより、大規模言語モデルにあまり負担や時間をかけず、文章の生成を行えます。
この二つの技術を組み合わせることで、まるで人間が文章を生成したかのような感情表現と、その出力の速さを実現します。
AI導入に関することはJiteraにご相談ください!
大規模言語モデル(LLM)の種類
一般的なLLMの種類には、GoogleのBERT(Bidirectional Encoder Representations from Transformers)やOpenAIのGPT(Generative Pre-trained Transformer)シリーズや)などがあります。
どちらかというとBERTは、文章の理解に特化しています。文章の意味を分析したり、文章中の空欄を埋めることが得意です。
GPTの方は文章生成に特化しています。与えられたテキストに基づいて、新しく文章を生成したり、続く文章を生成したりすることができます。
他にも現在でもLLMの研究開発は進んでおり、より精度の高いモデルや特定のタスクに特価したモデルが次から次へと生まれています。
ここでは、BERTとGPTについて詳しく説明していきます。
BERT(BidirectionalEncoderRepresentations from Transformesrs)
2018年に発表されたGoogleの自然言語処理(NLP)のための革新的なモデルがBERTです。
BERTは、それまでのモデルが文章を左から右へ、もしくは右から左へと一方向でしか文脈理解ができなかったのを、両方向からの文脈理解をおこないます。それゆえにより深い言語の理解が実現できています。
この特徴によって、BERTは単語の意味をより正確に捉えることが可能となります。
BERTは文中のいくつかの単語をマスキング(非表示にする・隠す)ことによって、そのマスクされた単語を双方向で探索し予測させるという学習方法を採用しています。これをマスク言語モデルと呼ぶことがあります。
また、BERTはGoogleが開発した、Transformerアーキテクチャを採用しています。Transformerアーキテチャは長距離(長い文章)の単語の文脈を解釈できます。
※何故、長距離というのかは単語と単語がかなり離れていても解釈できるということです。
上記の2つの仕組みにより、BERTは教師なしデータで学習することができます。
※教師なしデータとは、正解がついていないデータのことです。つまりは勝手に自己学習を行うということです。これは実は画期的なことでした。
さらにBERTの学習済みパラメータは公開されていて、開発者や研究者はそれぞれの必要とするタスクに対応したモデルを構築できます。
※学習済みパラメータというのは、LLMが入力したデータから作成した「知識」のことです。それを使ってLLMは回答を作ります。
GPT-3
OpenAIによって開発された、GPT-3(Generative Pre-trained Transformer 3)は2020年に発表された大規模言語モデルです。
ちなみにOpenAIは人工知能の研究機関とその子会社からなる組織です。
GPT-3は1750億個のパラメータを持ち、あたかも人間が作成したようなテキストを生成します。使っているとわかりますが、質問をすると即時に回答が返ってきてまさに人間とチャットしてるかような幻想にとらわれます。
※GPT-3.5がChatGptというチャットポットのようなアプリで提供されています。
GPT-3は、自己回帰型であるTransfomerアーキテクチャから作られていて、2048の長さのトークンのテキストを理解します。
GPTの後の-3はバージョンを表しており、GPT-3の前のバージョンはGPT-2でした。GPT-2も自然言語処理において画期的な成果をあげましたが、生成能力がまだ低かったため一部しか公開されませんでした。
GPT-3は、GPT-2を凌ぐ大規模なデータセットとパラメータが用いられて、さらなる高度な言語生成能力を持っています。
GPT-3の特徴は、適用範囲の広さと柔軟性にあります。少数ショット学習やゼロショット学習によって、特定のタスクに事前訓練なしに多様なる言語タスクをこなすことができます。
このことにより、文章の要約、創作、質問応答、翻訳など幅広い分野での応用が可能になっています。
ちなみに、GPT-3.5(ChatGpt)が大規模言語モデルまたは人工知能(AI)を広く世間に知れ渡らせたと言っても過言ではありません。
GPT-4
GPT-4(Generative Pre-trained
Transformer4)は、OpenAIが開発した、GPT-3の次のバージョンで最先端の大規模言語モデルです。
※現段階(2024/4時点)では、GPT-4 truboが最新バージョンとなってます。
GPT-4はGPT-3よりも大幅に改善されて。広範な一般知識、より正確な問題解決能力、そしてさらに改善された創造性を備えています。
特に新しい機能として、画像入力が出来るようになりました。画像を解析し、分析して回答を提示することができます。また、画像生成も可能でプロンプトにテキストで画像を作成するように指示すると画像生成して回答します。
また、トークンの長さは25,000個以上のテキストを扱うことができて、長期に渡る会話や長文コンテンツの作成、専門知識の論文作成などの用途に使用できます。
GPT-4は、先程紹介したBERTから始まったTransformerアーキテクチャに対応しており。自然言語処理のAI革命の最新の成果ということができます。
先程も説明しましたが2017年に登場したBERTが画期的なのは、は2017年に登場して、トレーニングが、注釈付きデータセットに依存せずにできるという点です。
GPT-4は、Transformerアーキテクチャをさらに発展させ、改善された文脈理解、より大きなモデルサイズ、推論能力、優れた多言語能力を持っています。
そのことにより、チャットポット、テキスト要約、質問応答、個人アシスタント、言語翻などさらに応用範囲が広がりました。
ちなみにGPT-4を使うには、ChatGPT plusと呼ばれる有料のサービスに登録する必要があります。
大規模言語モデル(LLM)の学習書籍
ここまで大規模言語モデルの仕組みから概要、その特徴から導入する上でのメリットについて解説してきました。ここでは大規模言語モデルにおいて、おすすめの学習書籍を紹介します。
さまざまにある大規模言語モデルの学習書籍の中から3つ、厳選しましたので、是非参考にしてみてください。
大規模言語モデル入門
大規模言語モデル入門は、大規模言語モデルに興味のあるエンジニアや研究者、学生に向けた書籍です。大規模言語モデルにおいて利用される技術の内容や、どういった仕組みで大規模言語モデルは動作しているかの概要や、大規模言語モデルに搭載されている言語や理論など、幅広く解説されています。
実際に実装する場合においてどうすればよいのかについても説明がありますので、大規模言語モデルを使ってビジネスをしたいという方や、大規模言語モデルについて詳しくなりたい方に向いている書籍と言えるでしょう。
大規模言語モデルは新たな知能か
大規模言語モデルは新たな知能か、は、大規模言語モデルが実装されて現状どうなっているか、どのような課題があるのか、今後大規模言語モデルとどう向き合っていくのかといった事を解説している書籍です。
大規模言語モデルを導入している方向けの書籍であり、前半では大規模言語モデルの可能性やリスク、後半はなぜ大規模言語モデルが普及したのか、人と大規模言語モデルの違いは何かなど、科学的な視点が多い内容が特徴です。
大規模言語モデルを導入していて、今後どのような対応をしていく必要があるのか、という事を考えている場合は是非購入して読んでみるとよいでしょう。
Transformerから並列はじめての大規模言語モデル化まで
Transformerから並列はじめての大規模言語モデル化まで
この書籍は大規模言語モデルを初めて使用するという方、これから導入したい方向けの書籍となっています。ChatGPTとの違いや、大規模言語モデルの取り扱い、どのようにしてテキストを生成するのか、どうやって学習させるのか、その理論と実践の両方の観点から、大規模言語モデルについて解説しています。
技術書店マーケットと呼ばれるオンライン書籍サイトにて安価で販売されているので、大規模言語モデルについて少し触って、どのようなものなのか知りたい方にも向いている書籍と言えるでしょう。
大規模言語モデル(LLM)と生成AIの違い
ここまで大規模言語モデルと特徴とその仕組み、及び概要からメリットまで紹介していきました。ここでは大規模言語モデルと、生成AIの違いについて、詳しく解説していきます。
大規模言語モデルと生成AIは、よく似ていますが少し違います。比較表もまじえて詳しく解説していきますので、参考にしてください。
大規模言語モデル(LLM)と生成AIの定義と機能の違い
項目 | 生成するもの | 学習(トーレニング)を何を使うか |
生成AI | テキストや画像・音楽・コードなど | テキストや画像・音楽・コードなど |
大規模言語モデル | 自然言語に近いテキスト | テキスト |
1.大規模言語モデル(LLM)とは:
2.生成AIとは:
3.大規模言語モデル(LLM)と生成AIの違い:
補足.ChatGPTとの違い:
以上が大規模言語モデルと生成AIの主な違いと特徴です。
大規模言語モデルと生成AIの活用事例の比較
1.大規模言語モデルの活用事例
広告文を作成してくれます。
2.生成AIの活用事例
総じて対規模言語モデルは、文章の処理や対話・情報の取得などに使われ、生成AIは画像解析を応用した幅広い使われ方をしています。広告の分野では大規模言語モデルで広告文を、広告の画像や動画作成などを生成AIを使うという複合的な使い方もされています。
大規模言語モデル(LLM)の応用例
ここまで大規模言語モデルの仕組みと概要、大規模言語モデルを利用する上でのメリット、参考にすべき書籍から、大規模言語モデルと生成AIの違いについて詳しく解説していきました。最後に大大規模言語モデルを実際の業務で使用した例について解説していきます。
主に自然言語処理における応用事例と、言語翻訳における応用事例の二つについて説明していきます。
自然言語処理の応用事例
まず一つが、テキストマイニングです。自然言語処理において、大規模言語モデルがさまざまな解析を行い、文章をステップごとに分割する事で、大規模言語モデルの利用者が膨大なページの中から必要な部分を抽出する事を可能にします。主に大きな会議でのミーティングの場や、Web管理者がビッグデータを用いて解析を行いたい場合に利用されます。
その次に利用されるのが、チャットボットです。チャットボットに自然言語処理として予めディープランニングを行い、文章のパターンや文脈を記憶させておくことで、大規模言語モデルの特性から、ユーザーがチャットボットに質問を送った際に、瞬時に自動で回答を返す技術です。これにより、顧客との対応に関しての自動化や、業務の効率化を図っています。
3つめが、文字変換予測です。スマホ等でよく利用されるシーンがあるかと思います。自然言語処理として文字の羅列やパターンを、最初に大規模言語モデルが学習し、スマホユーザーが文字を入力している際に、さらに大規模言語モデルがユーザーの挙動を学習する事で、文字の予測を行っていきます。これによりユーザーの文字入力の手間が省け、スマホの文字入力の操作を簡単にします。
4つ目が、GoogleやAmazonなどが利用しているスマートアシスタントです。ユーザーが利用するスマートアシスタント機器の内部で、自然言語処理を大規模言語モデルが学習する事で、ユーザーが読み上げた文章を自然言語処理として入力され、その解答を返します。これにより、ユーザーの生活のクオリティを高めます。
言語翻訳の応用事例
言語翻訳の応用事例の一つは、機械翻訳エンジンです。機械翻訳は、言い回しが独特である点により、社員が機械翻訳を手作業で行っているため、設計書の作成がとても大変でした。大規模言語モデルのディープランニングで、文字列のパターンや文章の解析を行う事により、機械翻訳を自動化する事に成功したのです。これにより、機械翻訳に関する手間が省け、設計段階がとても容易になりました。
二つ目は、英語翻訳です。これはインターネットを使用している際も、よく見るシーンかと思います。英語翻訳の機能が無いインターネット社会では、英語の能力を問われる技術を利用する際、ある程度の英語能力が必要不可欠でした。大規模言語モデルによる自然言語処理により、翻訳エンジンに変換前の英語を張り付けるだけで、高いレベルの日本語に変換してくれます。さらに現代では、エクセルやワード等のファイルをアップロードするだけで、中身のデータをさまざまな言語に変換してくれる技術も存在します。
大規模言語モデル(LLM)のまとめ
大規模言語モデル(LLM)はディープランニングを用いて従来のモデルよりも3つの要素が強化されています。
そのため、より多用な言語タスクに対応しています。
大規模言語モデル(LLM)の仕組みでは、5つの主要なステップがあります。
5つのステップそれぞれについて説明しました。
また、大規模言語モデル(LLM)の特徴とメリットについても説明をして、大規模言語モデル(LLM)の種類としてBERTとGPTについてと、大規模言語モデル(LLM)の書籍を紹介しています。
他にも大規模言語モデル(LLM)と生成AIの定義や機能の違いや、大規模言語モデル(LLM)を実際の業務で使用した例を解説しています。
jiteraでは大規模言語モデル(LLM)を使ったシステム開発や生成AIの導入支援も行っています。 AIに関する質問や案件のご相談などが御座いましたら、ぜひjiteraにお問合わせください。お問合わせは->こちら