【入門】大規模言語モデル(LLM)とは?仕組みや学習本、生成AIとの違いなどわかりやすく解説!

大規模言語モデルという単語を聞いたことがありますか?現代ではAIイラストやChatGPTなど、AIを利用した技術がどんどん発展しています。

しかし、大規模言語モデルは生成AIを利用した技術でなく、人間がアウトプットしたさまざまな要素をディープランニングさせ、チャットボットとして動作させる事を可能にする技術です。今回はそんな大規模言語モデルについて、徹底解説していきますので、是非最後までご覧ください。

監修者 元エンジニア takakuni7777

コンピュータの専門学校がプログラミング及び、コンピュータの基礎を学び、その後、日本電気の子会社で働きました。その後、いくつかの開発の仕事を経て,コンピュータの専門学校の講師兼担任を経験し、その後はフリーにてシステムエンジニアやプログラマーの開発の仕事を担当、そのかたわらプログラミングスクールや職業訓練所、企業の新人教育などを担当しました。 25年以上のシステムエンジニア、プログラマーの仕事の経験があります。

\エキスパートが回答!/
この記事に関する質問はこちら
記事に関するご質問以外にも、システム開発の依頼やAIの導入相談なども受け付けております。

    会社名必須
    必須
    必須
    Eメール必須
    電話番号必須
    ご依頼内容必須

    大規模言語モデルとは(LLM:Large language Models)

    大規模言語モデルとは

    ここでは、従来の言語モデルと比べて大規模言語モデルはどのような特徴を持つのかを解説しています。

    大規模言語モデル(LLM)は、人間の使う自然言語をコンピュータで処理する(自然言語処理(NLP))の分野でとても革新的な技術です。

    大規模言語モデル(LLM)は、膨大なデータと複雑なディープランニングを用いて構築され、従来のモデルよ以 下の3つの要素が強化されています。

    • 計算の量(コンピュータの処理する量)
    • データの量(入力された情報量)
    • モデルのパラメータ数(ディープランニング技術に特有の係数の集合体)

    そもそも言語モデルとは、人間が使う「言語」や「文章」をもとにして出現確率をモデル化するものです。例えば「私」という単語の後に「プログラマです」や「男です」という単語が続く確率と、「赤色」や「海」などの単語が続く確率を統計的に分析して、コンピュータが予測するようにします。

    大規模言語モデル(LLM)では、3つの要素を強化しているため従来のモデルが単に単語の出現率をモデル化するのに対して、文脈やニュアン

    • テキスト分類
    • 感情分析
    • 情報要約
    • テキスト生成
    • 質問応答

    以上のように、大規模言語モデル(LLM)は従来の言語モデルよりも複雑で多様な言語タスクを処理することができます。
    ディープランニングとは:人間の脳の神経細胞ネットワークを模範したコンピュータに学習をおこなわせる技法(機械学習)のひとつです。LLMでは大規模なデータを学習させることにより、質問に対して自然な回答を得ることができています。

    大規模言語モデルの仕組み

    大規模言語モデルは、2018年にGoogleが公表したBERTと呼ばれるものや、2020年にOpenAIが発表したGPT-3などが例として挙げられます。

    すでに解説しましたが、大規模言語モデルは膨大なデータをディープランニングという手法で学習をおこないます。その際に必要な主要な5つのステップがあります。

    • トークン化
    • 文脈理解
    • エンコード
    • デコード
    • 入力文の次のトークンの確率を出力

    以上のステップを踏んで、大規模なデータを「トークン」に分割して、文脈や言葉の意味を学習するのが特徴です。

    次では5つのステップについて詳しく説明いたします。

    トークン化

    トークン化とは、テキストを最小の単位であるトークンに分けることです。トークン化することにより機械学習のモデルがテキストを扱いやすくなります。

    トークンは普通は、「句」・「文」・「単語」などの形でテキストの中に存在します。LLMでは一般的にはサブトークン化が使用されます。以下はいくつかのトークン化の手法です。

    • 単語トークン化(Word Tokenization):
      テキストを単語ごとに分割します。句読点やスペースに基づいて分割しますが、辞書を用いて単語を特定して分割する方法などがあります。
    • 文字トークン化(Character Tokenization)
      個々の文字に分割する方法です。単語ではなく、文字の並びをトークンとして扱います。
    • サブワードトークン化(Subword Tokenization):
      テキストをより小さな部分文字列(サブワード)に分割する方法です。例えば英語の単語「unbelievable」は、「un-」・「believe」・「-able」というサブワードに分割できます。それによってモデルは「believe」という単語を学習し、接頭辞や接尾辞が付いた派生語を理解することができます。有名なサブワードトークン化手法には、Byte-Pair Encoding(BPE)やSentencePieceなどがあります。

    トークン化の手法は、新たなものを生み出す研究対象となっており、今後もより洗練されたトークン化の手法が開発されることが期待されます。

    それにより、LLMの理解能力や生成能力が向上していきます。

    文脈理解

    テキストをトークンに分割した後は、文脈理解をおこないます。文脈とは例えば「ウィルス」という単語の場合その言葉が病原体をあらわすのかコンピュータの悪意あるソフトウェアなのかがわかりません。そのためその単語の前後の言葉から背景を読みとり意味を理解します。
    そのことを文脈といいます。

    文脈理解は以上のように、前後のトークンからの文脈情報を利用します。同じ単語でも前の文脈によって意味がことなることがあります。例えば、「バット」が野球の用語か、コウモリを指すのかは、前後の文脈に依存します。

    また、大規模言語モデルは、前後の文脈だけでなく過去の文脈も考慮します。このことによりより長期的な文脈を理解することができます。長い文章や対話において、適切な文脈を保持することはとても重要となります。

    文脈理解はいまだに課題があり、より多様なトレーニングデータが必要です。

    エンコード

    文脈理解をおこなうために、分割されたトークンをベクトルという数値の形式に変換します。これをエンコーディングと呼びます。分割された各トークンは大雑把にいうと1列に並んだ数値の配列の形式(ベクトル)にされます。この配列を「埋め込みベクトル」とも呼びますがトークンの意味を数値的に表したものです。

    このベクトル化によって、モデルは単語(トークン)を数値化するので、トークンの関係性を算術的に計算式で表すことができるようになります。例えば「王」― 「男」+「女」=「女王」のように表せます。
    ※これは例なので、実際はもっと複雑な計算をおこなっています。

    要するにコンピュータに分かるように数値化できて、その文脈の関係性を計算できるようになります。そして、それを記憶(記録)しておくことができます。

    代表的なベクトル化手法には以下のものがあります。※LLMにおいても製品によってベクトル化の手法は違っています。

    • カウントベクトル(Bag of Words) :
      単語の出現回数をベクトルで表現する方法です。テキスト内の単語の出現回数を数値化して、機械学習で扱いやすい形式に変換します。
    • TF-IDF (Term Frequency-Inverse Document Frequency):
      文章内での重要度と単語の出現頻度を考慮してベクトル化します。無視すべき単語を除外し、重要な単語を強調します。
    • Word2Vec:
      人間の脳神経を模したニューラルネットワークを用いて、単語の意味を考慮したベクトル表現を学習する方法です。単語の意味的な類似性を捉え、密なベクトル形式で表現します。

    以上の手法を使って、テキストデータを機械学習で使える形式に変換して、感情分析や文書分類、意味の類似度計算などのタスクに活用します。

    デコード

    いままでのステップを振り返ってみると
    1.入力されたテキストをトークンに分割する。
    2.トークンを数値のベクトルにエンコードする。
    でした。エンコードされたデータはモデルが理解できる形式になり、モデルの内部で更に複雑な変換を経て、特定のタスクに必要な情報を得るために使われます。

    デコードのステップでは、エンコードされたベクトルを新しいテキストや元のテキストに変換します。新しいテキストに変換する場合は、モデルが内部的に生成した情報をもとに、次に来るべき単語やフレーズを予測します。

    具体的には、デコードのプロセスでは、エンコードされたコンテキスト情報とモデルが記録している言語の知識を組み合わせて、意味のある出力を生成します。

    この時、モデルは複数の可能性から最も適切な単語やフレーズを選択するために、確率的な技法を用いておこないます。

    そのような技法を使用して新しいテキストを生成して、回答を作り出すプロセスがデコードということになります。

    入力文の次のトークンの確率を出力

    繰り返しになるかも知れませんが、デコードにおいて新しいテキストを生成する際には、入力されたテキストのトークンの次にくるトークンを予測すると説明しました。

    これを具体的に説明するとしたら、エンコードによって作成された内部表現に基づいて、モデルは次に来るべきトークンの確率分布を計算します。

    この時に使用される関数は、ソフトマックス関数と呼ばれるもので、次に来るべきトークンのスコアを0と1の間の確率に変換するものです。

    最終的に、次に来るトークンが何であるかを予測するたにモデルは各トークンの確率を出力します。確率の高いトークンが選ばることになります。

    このようにLLMは複雑な確率計算をおこなうことで、流暢な自然な言語生成を行うことが出来ています。

    大規模言語モデル(LLM)と生成AIの定義と機能の違い

    項目 生成するもの 学習(トーレニング)を何を使うか
    生成AI テキストや画像・音楽・コードなど テキストや画像・音楽・コードなど
    大規模言語モデル 自然言語に近いテキスト テキスト

    大規模言語モデル(LLM)とは

    • LLMは、深層学習モデルの一種で、自然言語処理(NLP)の分野で使用されます。
    • 人間のような自然な言語生成や理解を実現するために、膨大なテキストデータを学習します。
    • 文章要約、感情分析、テキスト分類、情報抽出、テキスト生成、質問応答など、さまざまな自然言語処理タスクに適応可能です。

    生成AIとは

    • 生成AIは、人工知能(AI)モデルの総称です。コンテンツを自動生成する機能を持っています
    • テキスト、画像、動画、音楽、コードなどを生成できます。
    • 例としては「Midjourney」、「DALL-E」、「GPT-4V」などがあります。

    大規模言語モデル(LLM)と生成AIの違い

    • LLMはテキストで訓練され、テキストでのコンテンツ生成に特化しています。
    • 生成AIは多様なコンテンツ(画像・動画・音楽)を生成できる全般的なAIモデルです。
    • LLMは生成AIの一部という説もあります。

    補足.ChatGPTとの違い

    • 最近よく使われるChatGPTは人と自然な会話ができるように特化した対話型AIです。LLMを使っています。
    • ChatGPTはOpenAI社が提供するサービスの一部です。
    • 最近のChatGPT plus(GPT-4)では、「DALL-E」や「GPT-4V」と連関して画像生成や、画像解析もできるようになっているので生成AIと言われることもあります。

    以上が大規模言語モデルと生成AIの主な違いと特徴です。

    大規模言語モデルと生成AIの活用事例の比較

    大規模言語モデルの活用事例

    • 情報の検索や情報を意味づける作業のサポート
      過去の会議録や関係する情報を素早く検索して要約して出力が可能です。情報の意味付けもデータを検索して、まとめて出力ができます。
    • 広告・マーケティングやクリエイティブ政策
      商品のターゲット層や商品名などをLLMに入力して、キャッチコピーや広告文を作成してくれます。
    • 教育や学習のサポート
      LLMに質問して学習することができます。また学習の計画やヒント、書籍の紹介なども可能です。
    • カスタマーサポートなどのオペレーション効率化
      ヘルプデスクなどをチャットポッド化してLLMに回答させることが可能です。ヘルプの一次切り分けができ、効率化が図れます。

    生成AIの活用事例

    • 不良品検品:
      画像処理技術を使って、良品と不良品を見分けるAIが活用されています。ロボットアームと連動させた不良品の除去も可能です。
    • 農作物を選別:
      きゅうりの大きさやツヤから自動できゅうりを等級に分ける画像認識機械を自作で作成し、出荷作業がスピードアップしました。
    • ドローンを使った農薬散布:
      AIで害虫を特定し、その害虫に必要な分量の農薬を吹きかけることで、効率的な農作業を実現しています。
    • クレジットカードの不正を検知:
      トランザクションの異常を検出して、不正利用を防止しています。
    • 株価の予測:
      過去のデータを学習し、将来の株価変動を予測可能です。投資家の方に有益な情報を提供しています。

    総じて対規模言語モデルは、文章の処理や対話・情報の取得などに使われ、生成AIは画像解析を応用した幅広い使われ方をしています。広告の分野では大規模言語モデルで広告文を、広告の画像や動画作成などを生成AIを使うという複合的な使い方もされています。

    大規模言語モデル(LLM)の特徴・メリット

    ここまで大規模言語モデルとその概要、仕組みまで細かく解説していきました。
    ここでは大規模言語モデルにおける特徴と、そのメリットについて詳しく解説していきます。大規模言語モデルはここ最近発展してきた技術でもあるので、大規模言語モデルについて、もっと知りたい方もいるかと思いますので、出来るだけ解りやすく解説します。

    言語生成能力が高い

    大規模言語モデルは、他のディープランニングプログラムと比べて、言語生成能力がとても高いです。

    何故かというと、大規模言語モデルは開発される際に大量のテキストデータセットを入力し、その内容を3つの要素に分割させ、効率よくディープランニングさせました。

    さらに先ほども述べました通り、高いレベルの文章を学習させているので、ある程度応用の聞いた言語生成能力を持っています。それ故に、オンラインショップ等にあるチャットボットや、質疑応答に対しては、人間には及びませんが、ある程度の質問に対し、高いレベルの文章で答える事を可能としています。

    これらが大規模言語モデルのメリットの一つと言えるでしょう。

    多様なテキストデータから学習した知識を網羅的に活用できる

    大規模言語モデルは、さまざまな要素からテキストを出力する事を得意としています。さらに、テキストデータも細分化してディープランニングさせる事で、さまざまな分野で網羅的にテキストを生成する事ができます。

    それ故に、いろいろなパターンのテキスト生成を行い、大規模言語モデルを人間に記憶されている頭脳のように構築する事が可能です。これにより、大規模言語モデルはある分野において網羅的に回答を行うことができます。

    企業によっては大規模言語モデルに大量のディープランニングの仕組みを行い、大規模言語モデルにある程度の対応を任せ、人員のリソースを節約させる事ができます。

    豊富な文脈をもとに推論を行う

    大規模言語モデルは、予め大量のテキストデータが蓄積されています。さらに大規模言語モデルはファインチューニングと呼ばれる機能を持っていて、テキストの分類や生成、人間的な感情の分析、文章の要約などを行えます。

    これにより、大規模言語モデルはさまざまな文脈から推論を行えます。ですので、質問に回答するといった分野において、大規模言語モデルは力を発揮すると言えます。

    また、大規模言語モデルはテキスト生成に特化したAIでもありますので、他の生成AIと比べて文章作成能力が高い点も、大規模言語モデルを導入するにあたってメリットと言えるでしょう。

    ファインチューニングや転移学習ができる

    大規模言語モデルは、ファインチューニングや転移学習も行えます。ファインチューニングは少し前に紹介した通り、テキスト生成及び分類、感情の表現や文章を行えます。さらに、転移学習という技術も、大規模言語モデルは搭載しています。

    転移学習とは、既に学習したテキストを再利用することで、効率的に文章の生成を行えます。これにより、大規模言語モデルにあまり負担や時間をかけず、文章の生成を行えます。

    この二つの技術を組み合わせることで、まるで人間が文章を生成したかのような感情表現と、その出力の速さを実現します。

    大規模言語モデル(LLM)の種類

    一般的なLLMの種類には、GoogleのBERT(Bidirectional Encoder Representations from Transformers)やOpenAIのGPT(Generative Pre-trained Transformer)シリーズや)などがあります。

    どちらかというとBERTは、文章の理解に特化しています。文章の意味を分析したり、文章中の空欄を埋めることが得意です。

    GPTの方は文章生成に特化しています。与えられたテキストに基づいて、新しく文章を生成したり、続く文章を生成したりすることができます。

    他にも現在でもLLMの研究開発は進んでおり、より精度の高いモデルや特定のタスクに特価したモデルが次から次へと生まれています。

    ここでは、BERTとGPTについて詳しく説明していきます。

    BERT(BidirectionalEncoderRepresentations from Transformesrs)

    BERT公式サイト

    2018年に発表されたGoogleの自然言語処理(NLP)のための革新的なモデルがBERTです。

    両方向からの文脈理解ができる

    BERTは、それまでのモデルが文章を左から右へ、もしくは右から左へと一方向でしか文脈理解ができなかったのを、両方向からの文脈理解をおこないます。それゆえにより深い言語の理解が実現できています。

    この特徴によって、BERTは単語の意味をより正確に捉えることが可能となります。

    BERTは文中のいくつかの単語をマスキング(非表示にする・隠す)ことによって、そのマスクされた単語を双方向で探索し予測させるという学習方法を採用しています。これをマスク言語モデルと呼ぶことがあります。

    また、BERTはGoogleが開発した、Transformerアーキテクチャを採用しています。Transformerアーキテチャは長距離(長い文章)の単語の文脈を解釈できます。

    ※何故、長距離というのかは単語と単語がかなり離れていても解釈できるということです。

    上記の2つの仕組みにより、BERTは教師なしデータで学習することができます。

    ※教師なしデータとは、正解がついていないデータのことです。つまりは勝手に自己学習を行うということです。これは実は画期的なことでした。

    タスクに対応したモデル構築

    さらにBERTの学習済みパラメータは公開されていて、開発者や研究者はそれぞれの必要とするタスクに対応したモデルを構築できます。

    ※学習済みパラメータというのは、LLMが入力したデータから作成した「知識」のことです。それを使ってLLMは回答を作ります。

    GPT-4

    Open AI ChatGpt plus 公式サイト

    GPT-4(Generative Pre-trained
    Transformer4)は、OpenAIが開発した、GPT-3の次のバージョンで最先端の大規模言語モデルです。
    ※現段階(2024/4時点)では、GPT-4 truboが最新バージョンとなってます。

    GPT-4はGPT-3よりも大幅に改善されて。広範な一般知識、より正確な問題解決能力、そしてさらに改善された創造性を備えています。

    画像入力が可能

    特に新しい機能として、画像入力が出来るようになりました。画像を解析し、分析して回答を提示することができます。また、画像生成も可能でプロンプトにテキストで画像を作成するように指示すると画像生成して回答します。

    また、トークンの長さは25,000個以上のテキストを扱うことができて、長期に渡る会話や長文コンテンツの作成、専門知識の論文作成などの用途に使用できます。

    Transformerアーキテクチャに対応

    GPT-4は、先程紹介したBERTから始まったTransformerアーキテクチャに対応しており。自然言語処理のAI革命の最新の成果ということができます。

    先程も説明しましたが2017年に登場したBERTが画期的なのは、は2017年に登場して、トレーニングが、注釈付きデータセットに依存せずにできるという点です。

    優れた機能を搭載

    GPT-4は、Transformerアーキテクチャをさらに発展させ、改善された文脈理解、より大きなモデルサイズ、推論能力、優れた多言語能力を持っています。

    そのことにより、チャットポット、テキスト要約、質問応答、個人アシスタント、言語翻などさらに応用範囲が広がりました。

    ちなみにGPT-4を使うには、ChatGPT plusと呼ばれる有料のサービスに登録する必要があります。

    関連記事
    自然言語処理(NLP)とAIの違いとは?関連性や最新の事例をもとに紹介
    自然言語処理(NLP)とAIの違いとは?関連性や最新の事例をもとに紹介

    GPT4o

     GPT-4o

    GPT-4oはGPT-4に比べて効率が大幅に向上しています。高速で動作し、計算資源の使用も抑えられているため、コストパフォーマンスが高いのが特徴です。

    応答速度や効率がアップしている

    GPT-4に比べ、応答速度が改善されており、リアルタイムでの対話やレスポンスが求められる状況で効率よく作業ができます。

    また、パフォーマンスとコストのバランスが良く、リアルタイムの対話システムや、スケーラビリティが求められるプロジェクトに向いているのが特徴です。多くのリクエストを迅速に処理する必要がある場面で活用できます。

    ユーザーエクスペリエンスに優れている

    GPT-4oは、高速で効率的な応答が可能であり、ユーザーとのインタラクションがスムーズに行えます。ユーザーエクスペリエンスに優れているだけでなく、応答の品質も十分です。

    大規模言語モデル(LLM)の学習書籍

    ここまで大規模言語モデルの仕組みから概要、その特徴から導入する上でのメリットについて解説してきました。ここでは大規模言語モデルにおいて、おすすめの学習書籍を紹介します。

    さまざまにある大規模言語モデルの学習書籍の中から3つ、厳選しましたので、是非参考にしてみてください。

    大規模言語モデル入門

    大規模言語モデル入門は、大規模言語モデルに興味のあるエンジニアや研究者、学生に向けた書籍です。大規模言語モデルにおいて利用される技術の内容や、どういった仕組みで大規模言語モデルは動作しているかの概要や、大規模言語モデルに搭載されている言語や理論など、幅広く解説されています。

    実際に実装する場合においてどうすればよいのかについても説明がありますので、大規模言語モデルを使ってビジネスをしたいという方や、大規模言語モデルについて詳しくなりたい方に向いている書籍と言えるでしょう。

    大規模言語モデル入門

    大規模言語モデルは新たな知能か

    大規模言語モデルは新たな知能か、は、大規模言語モデルが実装されて現状どうなっているか、どのような課題があるのか、今後大規模言語モデルとどう向き合っていくのかといった事を解説している書籍です。

    大規模言語モデルを導入している方向けの書籍であり、前半では大規模言語モデルの可能性やリスク、後半はなぜ大規模言語モデルが普及したのか、人と大規模言語モデルの違いは何かなど、科学的な視点が多い内容が特徴です。

    大規模言語モデルを導入していて、今後どのような対応をしていく必要があるのか、という事を考えている場合は是非購入して読んでみるとよいでしょう。

    大規模言語モデルは新たな知能か

    Transformerから並列はじめての大規模言語モデル化まで

    この書籍は大規模言語モデルを初めて使用するという方、これから導入したい方向けの書籍となっています。ChatGPTとの違いや、大規模言語モデルの取り扱い、どのようにしてテキストを生成するのか、どうやって学習させるのか、その理論と実践の両方の観点から、大規模言語モデルについて解説しています。

    技術書店マーケットと呼ばれるオンライン書籍サイトにて安価で販売されているので、大規模言語モデルについて少し触って、どのようなものなのか知りたい方にも向いている書籍と言えるでしょう。

    Transformerから並列はじめての大規模言語モデル化まで

    大規模言語モデル(LLM)のまとめ

    大規模言語モデル(LLM)はディープランニングを用いて従来のモデルよりも3つの要素が強化されています。

    • 計算の量(コンピュータの処理する量)
    • データの量(入力された情報量)
    • モデルのパラメータ数(ディープランニング技術に特有の係数の集合体)

    そのため、より多用な言語タスクに対応しています。

    大規模言語モデル(LLM)の仕組みでは、5つの主要なステップがあります。

    • トークン化
    • 文脈理解
    • エンコード
    • デコード
    • 入力文の次のトークンの確率を出力

    5つのステップそれぞれについて説明しました。

    また、大規模言語モデル(LLM)の特徴とメリットについても説明をして、大規模言語モデル(LLM)の種類としてBERTとGPTについてと、大規模言語モデル(LLM)の書籍を紹介しています。

    他にも大規模言語モデル(LLM)と生成AIの定義や機能の違いや、大規模言語モデル(LLM)を実際の業務で使用した例を解説しています。

    jiteraでは大規模言語モデル(LLM)を使ったシステム開発や生成AIの導入支援も行っています。 AIに関する質問や案件のご相談などが御座いましたら、ぜひjiteraにお問合わせください。お問合わせは->こちら

    例:開発手順、ツール、プロンプト

    メルマガ登録

    社内で話題になった「生成AIに関するニュース」をどこよりも早くお届けします。