クラスタリングとは？仕組みや分析手法・分類との違いについて解説！

2024年6月27日

クラスタリングは、データ分析において代表的な手法の一つです。大量のデータから類似性に基づいてグループを形成することで、データの構造を明らかにし、より詳細な洞察を提供します。
この手法は、マーケティング、社会科学、生物学、そして情報技術の分野で広く利用されています。また、クラスタリングと分類はしばしば混同されますが、それぞれの手法には独自の目的と適用範囲があります。

この記事では、クラスタリングの基本から始めて、その実用的な事例とともに、分類との違いについても詳しく解説します。

監修者 Jitera代表取締役柳澤直

2014年大学在学中にソフトウェア開発企業を設立

2016年新卒でリクルートに入社 SUUMOの開発担当

2017年開発会社Jiteraを設立
開発AIエージェント「JITERA」を開発

2024年「Forbes 30 Under 30 Asia 2024」に選出

執筆者元エンジニア takakuni7777

コンピュータの専門学校がプログラミング及び、コンピュータの基礎を学び、その後、日本電気の子会社で働きました。その後、いくつかの開発の仕事を経て,コンピュータの専門学校の講師兼担任を経験し、その後はフリーにてシステムエンジニアやプログラマーの開発の仕事を担当、そのかたわらプログラミングスクールや職業訓練所、企業の新人教育などを担当しました。 25年以上のシステムエンジニア、プログラマーの仕事の経験があります。

この筆者に質問する

クラスタリングとは

クラスタリングは、大規模なデータセット内で似た特性を持つデータを見つけ出し、それらをグループにまとめる分析手法です。この手法によって、データの構造を理解しやすくし、有効な情報を抽出することが可能になります。クラスタリングは、さまざまな業界で利用されており、顧客セグメンテーション、画像分類、文書のカテゴライズなど、多岐にわたる用途で活用されています。

データポイントを類似性に基づいてグループ化するデータマイニング技術です。目的は、データの自然な構造を発見し、データを意味のあるクラスターに分類することです。各グループ内のデータポイントは互いに類似性が高く、グループ間の類似性は低くなります。

クラスタリングは教師なし学習の一種であり、ラベルのないデータからパターンを見つけ出します。距離測度（例：ユークリッド距離）を用いてデータポイントを比較し、類似点を基にグループ化します。

適用範囲は広く、

・マーケティングの顧客セグメンテーション
・生物学の遺伝子表現データ分析
・文書分類

などで利用されます。

これにより、類似の特徴を持つ顧客や文書を効率的にグループ化し、ターゲットを絞った戦略の策定や新しい洞察の獲得を助けます。

クラスタリングの役割は多岐にわたり、データの整理、パターンの可視化、異常値検出、マーケティング戦略の最適化など、多岐にわたる役割を持ち、ビジネスや研究におけるデータ駆動の意思決定を支援します。

このようにクラスタリングは、データ分析のさまざまな場面で欠かせない技術であり、その役割と価値も多方面にわたります。

クラスタリングのメリット

クラスタリングのメリットは以下のとおりです。

データのパターン発見がしやすい。
データの可視化が可能。
異常検知に役立つ。
さまざまなデータに適用できる。

ここでは、上記のメリットについて詳しく説明していきます。

データのパターン発見がしやすい

簡単に言うと、クラスタリングは、膨大なデータを類似点によってグループ化します。このことにより、データの内部構造や全体像が明確化されます。

それにより、人間では読み切れなかったパターンの発見をすることができます。

データの可視化が可能

クラスタリングでは、データをグラフや図に可視化する手法があります。散布図・テンドログラム・主成分分析（PCA）・ビートマップなどです。

可視化することにより、結果の理解や考察のやりやすさなどが得られます。

異常検知に役立つ

先程も説明しましたが、クラスタリングはデータをグループ化するので、パターンが見つけやすくなり、それは同時に異常なパターンや、外れる値を見つけやすくなることでもあります。つまりは、異常な値を検知することに役立ちます。

さまざまなデータに適用できる

クラスタリングは、様々なデータタイプに適用することができるのが大きな利点です。数値データだけでなく、テキストデータや画像、音声といった様々なデータ形式に対して、適切な距離尺度や類似度の指標を設定すれば、クラスタリングが可能になります。

たとえば、ニュース記事のテキストデータであれば、単語の共起頻度をもとにした距離指標を設定し、トピックごとにクラスタリングできます。画像データの場合は画像のパターン類似度に基づいてクラスタリングでき、似た種類の画像がまとめられるでしょう。

生物学の分野において、目・科・属・種といった基準にしたがって動植物を分類してパターン化していくシステムやデータベース開発に、クラスタリングはまさにうってつけのアルゴリズムといえるでしょう。このように、様々なデータに対して活用することで、システムの効率化と時間の短縮を図ることができます。

クラスタリングの仕組みや分析手法、分類との違いについてのご相談は、ぜひ当社にお任せください！

Jiteraが無料で技術相談に乗ります！
お気軽にご相談ください！

クラスタリングのデメリット

良いことだらけのようなクラスタリングですが、当然デメリットもあります。

クラスター数の調整が難しい。
データに含まれる誤った値や異常な値（ノイズ）の影響を受けやすい。
計算量が多い。

ここでは、上記のデメリットについて、詳しく説明していきます。

クラスター数の調整が難しい

クラスタリングでは、クラスタリングの過程でクラスター数を調整するのが難しいという課題があります。クラスター数は事前に指定しておく必要がないのですが、反対にいえば、その分クラスター数がいくらでも増大してしまうという可能性をはらんでいます。

たとえば、新規参入する市場の候補が上がっている場合において、ユーザーに販売したい商品がすでに決まっているとします。

クラスタリングでは要素に応じてデータを分類・統合していくため、事前に用意していたテストケースに当てはめきれないデンドログラムを作成されてしまう可能性があります。つまり候補が絞り切れず学習が不十分な状態になってしまう恐れがあるということです。

後述するリンゲージ方法の計算を変えたり、非階層的クラスタリング（クラスター数が決まっている状態で、データの分布やある部分の密度といった評価基準をラベリングしていく）などのアルゴリズムを採用するといった選択が必要でしょう。

データに含まれる誤った値や異常な値（ノイズ）の影響を受けやすい

クラスタリングは、データに含まれるノイズの影響を受けやすい傾向があります。ノイズとは、データセット中に不適切に混入してしまった誤った値や異常値のことを指し、適切なデータ整形を阻害してしまいます。外れ値とノイズは混同されがちですが、機械学習においては意味が異なります。

外れ値はデータ自体の整合性が保たれているけれど稀なサンプルであるのに対し、ノイズはデータ自体を不鮮明にする要素が含まれていたり、そもそもサンプルとして適さないデータを指している、といった区別があるのです。

ノイズが存在すると、そのノイズデータ同士が1つのクラスタを形成してしまったり、本来別のクラスタに所属すべきデータがノイズの影響でまったく違うクラスタに分類されてしまう可能性があり、クラスタリング精度を大きく低下させる要因となってしまいます。

入力するデータの整合性をよく確認したり、ノイズ除去を行うことがクラスタリングにおいては課題となるでしょう。

計算量が多い

クラスタリングでは、全てのデータ間の距離を計算し、最も近い組を見つける必要があります。そのため、データ数が多くなるほど計算量が指数関数的に増加してしまいます。

大規模データに対しては、計算リソースと時間がボトルネックとなり、効率的なクラスタリング実行が難しくなる可能性があります。このため、大規模データに対しては、他の手法との併用や、近似的なアルゴリズムの採用が検討されることがあります。

この問題について、分離型（ディビシブ）アルゴリズムであれば、あらかじめ決められたクラスター数にデータを分類していく方式を組み合わせることで計算量を減らし、時間の短縮が期待できるでしょう。

クラスタリングの仕組み

大きく分けると、結合型（アグロメラティブ）アルゴリズムと分離型（ディビシブ）アルゴリズムが存在します。結合型（アグロメラティブ）とは、最初に各データポイントを1つのクラスタとして扱い、徐々にクラスタを統合していく方式です。クラスタリングは結合型のアルゴリズムが用いられます。

分離型（ディビシブ）とは、はじめにすべてのデータポイントを1つのクラスタとして扱い、そこから事前に指定したクラスター数になるまで分割していく方式です。K-meansクラスタリングといったアルゴリズムでよく用いられます。

ここでは結合型アルゴリズムの手順を説明します。クラスタリングのアルゴリズムは、基本的に以下の順序で進められ、最終的にデンドログラムで表示が可能な状態になります。

初期設定
データポイントとなるクラスタの設定
1つのクラスタになるまで統合を繰り返す
デンドログラムの可視化

順番に見ていきましょう。

ステップ1. 初期設定

クラスタリングの初期状態では、与えられたデータセットに含まれる各データポイントがそれぞれ1つのクラスタとみなされます。つまり、n個のデータポイントがあれば、n個のクラスタが存在することになっているので、この段階では、クラスタの数がデータ数と等しくなっています。

データの分布はとてもまばらで、データ同士の比較も階層化もされていない状態ですね。次のステップからクラスタ同士を統合（結合）していく作業に入ります。

ステップ2. 一つのクラスタを設定

初期設定で作られた複数のクラスタから、最も近い2つのクラスタを選び出します。これらの距離は、指定したリンケージ方法に従って計算されます。

リンケージ方法の種類については後述しますが、一般的にward法という2者間の距離を複雑な式を用いて計算する方法がよく用いられ、クラスタの統合において最も自然な結果を出力してくれます。

リンゲージ方法によって選び出した2つのクラスタを1つに結合することで、クラスター数が1つ減ります。この時点で、データセット内に（n-1）個のクラスタが存在することになります。

ステップ3. 2を繰り返す

ステップ2の操作を繰り返し、残りのクラスタが1つになるまで、最も近い2つのクラスタ同士を順次結合していきます。各ステップでクラスタ同士の距離を再計算し、最も近いクラスタの組み合わせを選んで結合していきます。この作業を繰り返すことで、階層的にデータがクラスタリングされていきます。

クラスタリングの度に、クラスタ間の距離計算方法が変わるため注意が必要です。また、これらの距離の尺度にも種類があります。

「ユークリッド距離」が最もよく使われる距離尺度で、2点間の直線距離を計算します。もう一方のメジャーな距離尺度「マンハッタン距離」は2点間の城壁の距離と呼ばれ、各次元（二次元データであれば、x、y）での距離の総和を計算する方法です。

ステップ4. 最終的にクラスタが一つになり終了

ステップ3を続けると、最終的に全てのデータポイントが1つのクラスタにまとめられることになります。この状態でクラスタリングのプロセスは終了となり、一連の結合過程がデンドログラムとして可視化され、どのようにデータがクラスタリングされていったかを確認できます。

デンドログラムを見ることで、適切なクラスター数を判断することも可能でしょう。分析の目的に応じて、ツリー構造の中間地点でクラスタリングを止める（カットオフ）ことができます。こうしてクラスタリングされたデータは、商品の統計情報、ドキュメントの分類、外れ値の検出といった分野で役立ちます。

クラスタリングの手法

クラスタリング手法は、データのグループ化に用いられる多様なアプローチを指します。これらの手法は、データセット内の類似性を基にグループを形成することで、データの理解を深めるのに役立ちます。具体的な手法としては、K-meansクラスタリングや階層的クラスタリングがよく知られていますが、用途に応じて選択するクラスタリングの手法は異なります。各手法は、特定のタイプのデータや特定の分析目的に最適化されています。

K-meansクラスタリング

は、クラスタリング手法の中でも特に広く利用されるアルゴリズムの一つです。この手法は、指定されたクラスタ数 Kに基づいてデータセットを分割します。プロセスは、ランダムに選ばれたデータポイントを初期のクラスタ中心として設定し、残りのデータポイントを最も近い中心に基づいてグループ化することから始まります。
各繰り返し後、クラスタの中心はそのクラスタに属するすべてのデータポイントの平均位置に更新されます。このステップは、クラスタ内のデータポイントが変更されなくなる、すなわち収束するまで繰り返されます。

K-meansは効率的であり、大規模なデータセットに対しても比較的高速に動作しますが、クラスタの数 K を事前に知っている必要があります。

このアルゴリズムの主な利点は、実装の単純さと計算効率の高さです。しかし、クラスタの形状が球状でない場合やクラスタサイズが非常に異なる場合、K-meansの性能は低下する可能性があります。また、初期のクラスタ中心の選択によって結果が大きく左右されるため、異なる初期値で複数回実行し、最も良い結果を選択することが一般的です。

K-meansクラスタリングは、顧客セグメンテーション、画像処理、市場調査など、多岐にわたる分野で有効なツールとして活用されています。データの明確なグループを迅速に識別する能力により、多くの企業や研究者にとって価値のある方法とされています。

階層的クラスタリング

階層的クラスタリングは、データを階層構造でグループ化する手法であり、K-meansと並んで広く使用されています。

この手法は「ボトムアップ」（凝集型）または「トップダウン」（分割型）のアプローチで進められ、クラスタを段階的に構築していきます。凝集型の階層的クラスタリングでは、最初に各データポイントを個別のクラスタとみなし、次第に類似のクラスタを統合していきます。

一方、分割型では全データを一つのクラスタとしてスタートし、徐々に細分化していく方法です。
この手法の大きな特徴は、クラスタリング過程が「デンドログラム」と呼ばれるツリー図で視覚化できることです。デンドログラムは、クラスタがどのように統合されていったか、または分割されていったかを示し、データの内部関係を理解するのに役立ちます。これにより、分析者は適切なクラスタ数を視覚的に決定することが可能となります。

階層的クラスタリングは、クラスタの数を事前に決定する必要がないため、柔軟性に優れています。また、異なるクラスタリングレベルでのデータの振る舞いを詳細に分析できるため、より深い洞察が得られる場合があります。しかし、計算コストが高く、特に大規模データセットに対しては時間がかかるという欠点もあります。

階層的クラスタリングは、市場研究、生物学的分類、文書のクラスタリングなど、さまざまな分野での応用が見られます。データ間の類似性や関連性を詳細に把握する必要がある場合に特に有効であり、複雑なデータセットの探索に適しています。

クラスタリングと分類の違い

クラスタリングと分類はデータ分析においてよく使用される二つの異なる手法ですが、その目的とアプローチには顕著な違いがあります。以下の比較表は、これら二つの手法の主な違いを概説しています。

特徴	クラスタリング	分類
学習の種類	教師なし学習	教師あり学習
目的	データを類似性に基づきグループ化	事前に定義されたクラスにデータを割り当て
データの要件	ラベル不要	ラベルが必要
主な用途	データの探索と理解	予測モデリング
アルゴリズムの例	K-means、階層的クラスタリング	決定木、サポートベクターマシン
結果の解釈	グループ間の境界は不明瞭	明確なカテゴリ判定

この比較から明らかなように、クラスタリングはデータ内の自然なパターンを見つけるために使用され、主に探索的なデータ分析に適しています。一方、分類は明確なクラスにデータを割り当てることで、より具体的な予測や意思決定を行う目的で利用されます。

各手法は、特定のデータセットと分析の目的に応じて選ばれるべきで、その選択は分析の目標に大きく影響されます。

クラスタリングのまとめ

クラスタリングは、データセット内の自然なグループやパターンを識別するための強力な教師なし学習技術です。この手法は多様な業界で利用されており、マーケティングの顧客セグメンテーションから、医療、生物学、金融市場分析に至るまで幅広い応用が可能です。クラスタリングを通じて、大量のデータから洞察を得ることができ、意思決定プロセスを大幅に向上させることができます。
クラスタリング技術の選択、実装、そして評価は、シナリオに応じて異なりますが、K-means、階層的クラスタリング、DBSCANなど、様々なアルゴリズムがそれぞれのニーズに合わせて利用できます。これらの技術は、データの特性を理解し、適切なクラスタリングアプローチを選択することで最大の効果を発揮します。

システム設計においても、クラスタリングはリソースの最適化、負荷分散、システムの可用性と信頼性の向上に貢献します。効率的なクラスタリングは、システムのパフォーマンスを高めるだけでなく、運用コストの削減にも繋がります。

弊社では、クラスタリングを含む最先端のデータ分析技術を駆使し、要件定義から開発、運用に至るまで一貫したサポートを提供しています。アプリケーションやシステムの開発においても、要件の変更に柔軟に対応しながら品質の高いソリューションを提供することを心掛けています。

クラスタリングに関する質問や相談を含め、アプリ開発やシステム開発でお困りのことがあれば、弊社にお気軽にお問い合わせください。
jitara

クラスタリングとは？仕組みや分析手法・分類との違いについて解説！

クラスタリングとは