Blog

相関分析とは?分析手順や結果の書き方・注意点を解説

記事の監修

代表取締役村越 聖人

2006年からエンジニアよりデジタル業界でのキャリアをスタート。
大小様々なWebシステム開発およびシステム運用保守を経験。

フルスタックエンジニアとして上流から下流工程まで一連の業務を担当するとともに、サーバー設計、構築、運用設計などのサーバー管理者業務も兼任。

近年は、顧客折衝を含む提案型営業からDMP絡みのデータ分析業務をはじめ、プロジェクトの全体統括・SEなど業務要件に合わせたポジショニングで顧客ニーズの最大化を図るサービス提案を実施。

新規事業で立ち上げた自社サービスにて、発明者として特許取得。

2019年5月 株式会社glorious future 設立。

2006年からエンジニアよりデジタル業界でのキャリアをスタート。
大小様々なWebシステム開発およびシステム運用保守を経験。

フルスタックエンジニアとして上流から下流工程まで一連の業務を担当するとともに、サーバー設計、構築、運用設計などのサーバー管理者業務も兼任。

近年は、顧客折衝を含む提案型営業からDMP絡みのデータ分析業務をはじめ、プロジェクトの全体統括・SEなど業務要件に合わせたポジショニングで顧客ニーズの最大化を図るサービス提案を実施。

新規事業で立ち上げた自社サービスにて、発明者として特許取得。

2019年5月 株式会社glorious future 設立。

現代では、多くの企業がビジネス上の意思決定のためにさまざまなデータを分析しています。データ分析には多くの方法があり、その中のひとつが「相関分析」です。

データ活用に興味がある企業経営者や担当者にとっては、相関分析は馴染みのある言葉かもしれません。しかし、相関分析の分析手順や結果の解釈は難しいと感じている人も多いでしょう。

本記事では、相関分析を活用したいと考えている方に向けて、相関分析の意味や結果の書き方、相関分析が有効なケース、分析結果の注意点、Excelを使った相関分析の手順などについて解説します。

この記事はこんな人におすすめ
  • データ活用を自社に導入したい企業経営者の方
  • 情報システム部門に属しているデータ担当者
  • データサイエンティストやデータマネジメントに興味がある方

相関分析とは?相関係数を使った分析

相関分析とは、二つのデータ間の関係性を調べるためのデータ分析手法です。 例えば、あるデータの数値が増減すると、もう1つのデータも増減するような2つの数値間の関係性を「相関関係」と言います。

具体例としては、データによって「身長が高い人は体重も多い」という傾向が見られる場合、これは身長と体重が直線的な関係にあることを示し、相関関係があると言えます。 相関関係を分析する際、相関係数を計算し散布図と呼ばれるグラフを作成して、これらのデータから結論を導き出します。本章では、相関係数と散布図について詳しく解説していきます。

散布図:データの分布を表したグラフ

散布図は、二つのデータを縦軸と横軸にして、各データに当てはまる箇所に点を入れて作るグラフにことです。 散布図を使うと、データの分布や特異なデータ点を一目で理解できます。

※相関がある場合の散布図の例

※相関が薄い場合の散布図の例

ただし、直線的ではない曲線や二次関数のような関係を持つデータは、散布図からは関連性を明確に判断することは難しいです。
このため、散布図はデータの関係を視覚化するのに役立ちますが、すべての関係性を明示するものではありません。

相関係数:データ間の相関の強さを表す指標

相関係数とは、複数のデータ間の相関関係を、-1から1の範囲の数値で表す指標のことです。プラスの場合は正の相関、マイナスの場合は負の相関と呼ばれます。 相関係数は、データの平均値と標準偏差を求め、その後に共分散を計算することで算出できます。 また、Excelや統計分析ツールを使えば、これらの計算を自動で行えます。相関係数によって、データの関連性を数値で簡単に理解できます。

相関分析の結果の考え方

散布図を使って二つのデータの傾向を視覚的に確認することはできますが、厳密な判断基準はなく、主観的な解釈が入り込む余地があります。データ間の相関関係を客観的に理解するためには、相関係数を用いて数値化することが大切です。 相関係数は、数値が1に近ければ強い正の相関、0に近ければ相関がない、-1に近ければ強い負の相関を意味します。

相関係数相関関係
1に近い正の相関あり
0に近い相関なし
-1に近い負の相関あり

相関係数の数値が1に近づくほど、二つのデータ間には強い正の相関があると言えます。これは、一方のデータが大きくなると、もう一方も大きくなる傾向があることを示します。 相関係数が0.7以上なら、その関係は「強い正の相関」と見なされ、0.2から0.7の間なら「弱い正の相関」とされます。例えば、「気温が上昇するとビールの売り上げが増える」というのは、正の相関の一例です。

相関係数が0に近い場合、二つのデータ間に相関がないことを意味します。これは、一方の値が変わっても、もう一方の値に明確な直線的な変化がない状態です。散布図上で見ると、点の分布がランダムで散らばっているような状況になります。 相関係数が-0.2から0.2の範囲内であれば、一般的には相関がないとされます。例えば、「特定の生徒の体重と学力」といった場合、これらの間には相関関係がないと考えられます。

相関係数の数値が-1に近づくほど、強い負の相関があると言えます。これは、一方のデータの値が増えると、もう一方の値が減るという関係を示しています。 相関係数が-0.7以下であれば、その関係は「強い負の相関」と見なされ、-0.7から-0.2の間では「弱い負の相関」とされます。例えば、「ある地域で建物の数が増えると、その地域の森林面積が減る」というのは、負の相関の一例です。

相関分析が有効なケース

相関分析の使い方が適切であれば、目的の結果をより簡単に得ることができます。相関分析が特に有効なのは、主に二つの状況です。
ひとつは広告のように売上に影響を与える要素を調べる場合です。 また、データ間の関係を客観的に示すときにも相関分析が役に立ちます。本章では、相関分析が有効なケースを紹介します。

売上に関係する要素を分析する

相関分析は、売上にどの要素が大きく影響しているかを理解するのに有効です。例えば、ある商品の月別売上と、メールマガジンの配信数やWeb広告の配信数など、関連しそうな要素を分析し、その間の相関関係を見つけ出せます。 相関分析を通じて、売上に影響を与える要素の意味や傾向が把握できるため、広告や販売の戦略立案に役立ちます。

データ間の関係を客観的に示す

相関係数は、データ間の関係を客観的に分析する際の重要な要素としても役立ちます。例えば、特定のサービスの有効性を数値的に示したい場合などが当てはまります。 散布図を用いてデータ間の相関を視覚的に表示し、同時に相関係数を使って数値化することで、データの解釈に信頼性のある根拠を与えることが可能です。

分析結果を考察する際の注意点

分析結果を考察する際には以下のような注意点があります。

ここからそれぞれ詳しく説明します。

因果関係とは切り離して考える

最初に挙げられる注意点としては、相関関係と因果関係を区別して考えることです。因果関係とは、ある事象(原因)が別の事象(結果)を引き起こす関係を指します。 例えば、「果物の消費量」と「平均寿命」のデータとの間に相関が見られても、これが「果物を多く食べると寿命が延びる」という因果関係を証明するわけではありません。 相関関係と因果関係を混同すると、間違った情報を伝えるリスクがあるため、注意が必要です。

散布図からも必ず考察する

散布図からも必ず考察することも重要なポイントになります。その理由は相関係数が0に近くても、データ間に何らかの関係が隠れている可能性があるからです。 データ間に直線的ではない曲線的な関係や二次関数的な関係がある場合、相関係数では判断ができません。相関係数のみに依存せず、散布図を使ってデータの分布の特徴を視覚的に確認することで、データ間の隠れた関係や意味を見つけることが可能です。

外れ値を考慮する

分析する際には、外れ値の存在にも注意が必要です。外れ値は、他のデータと比べて極端に異なる値を持つデータのことを指します。外れ値が生じるのは、計算ミスや入力ミス、特殊な状況などが主な原因です。 外れ値は、相関係数に大きな影響を与える可能性があり、場合によっては外れ値を除外することで、強い相関が明らかになるケースもあります。 このような理由から、散布図を使ってデータ全体を確認し、外れ値を見落とさないようにすることが重要です。

見かけだけの相関(疑似相関)に注意する

データ分析を行う際には、疑似相関にも注意しましょう。相関分析で二つのデータ間に強い相関が見られる場合でも、それが他の要因による影響である可能性があります。 例えば、「クーラーの売上」と「ビールの売上」に相関があるように見えるケースでは、直接的な関係ではなく、「気温」が両者に影響を与えている可能性があります。 このように、外部の要素によって生じた見かけ上の相関を「疑似相関」や「見せかけの相関」と呼びます。

Excelを使った相関分析の手順

Excel(エクセル)は、相関分析を行うための便利なツールとして使用できます。Excelでの相関分析の手順は次のようになります。

① データをExcelに入力
② 散布図を描画して視覚化
③ CORREL関数を用いて相関係数を計算
④ データが3つ以上の場合は「分析ツール」を活用

ここからは、それぞれの手順について詳しく解説していきます。

データを挿入する

まずは、対象となるデータをExcelの項目ごとに一列ずつ挿入します。相関分析を含むデータ分析では、データの量が重要な役割を果たします。データ数が不十分である場合、得られる相関係数の信頼性は低下します。 具体的には、少なくとも100個以上のデータを用意することが望ましいとされています。十分なデータ量を用意することで、より正確で信頼性の高い分析結果を得られます。

散布図を描画する

次に、散布図の作成に進みます。散布図を描く手順は以下の通りです。

1.分析したいデータの範囲を選択する
2. 「挿入」タブを開く
3.「グラフ」メニューから「散布図(X,Y)またはバブルチャートの挿入」を選ぶ

4・「散布図」を選択する

散布図が表示されたら、グラフタイトルを入力しましょう。 右上の+ボタンを押して表示されるグラフ要素のメニューから「近似曲線」にチェックを入れると、グラフ内に近似曲線を表示できます。

ORREL関数で相関係数を算出する

Excelを使用して1組のデータ間の相関係数を計算するには、「CORREL関数」を使います。 これを行うには、まず結果を表示させたいセルを選択し、次に「=CORREL(データ1の範囲, データ2の範囲)」と入力します。

分析する項目が3つ以上の場合は、後述する「分析ツール」を使用します。

複数組の相関分析には「分析ツール」を用いる

Excelで3つ以上の項目を含むデータの相関分析を行う場合、以下の使い方で「分析ツール」を使います。

1「データ」タブを開き、「データ分析」をクリックします。
2 表示されたリストから「相関」を選びます。
3「入力範囲」に分析する全データを指定し、出力先を選択します。
 ※項目名を結果に表示したい場合は、データの項目名を含めて「先頭行をラベルとして使用」にチェックを入れます。

「データ」タブに「データ分析」のオプションがない場合は、以下の手順を踏みます。

1「データ」タブから「分析ツール」をクリックします。
2「Solver Add-In」と「分析ツール」のチェックボックスにチェックを入れて「OK」を選択します。
 これにより、「データ」タブに「データ分析」ボタンが表示されるようになります。

まとめ

本記事では、相関分析の意味や結果の書き方、相関分析が有効なケース、分析結果の注意点、Excelを使った相関分析の手順などについて解説しました。

相関分析は、二つのデータ間の関係性を調査するための手法で、一方の数値が変わるともう一方も変化する関係を「相関関係」と言います。相関分析には主に相関係数と散布図が使用されます。

相関係数はデータ間の関係の強さを-1から1の範囲で数値化し、散布図はデータの分布を視覚的に示すグラフです。しかし、散布図からは直線的でない関係を判断するのが難しく、相関係数のみに頼ると誤った解釈をするリスクがあります。

分析結果を考察する際は、因果関係とは切り離して考え、散布図と相関係数の両方を使用し、外れ値や疑似相関に注意が必要です。データ分析で相関分析を活用してみたいと検討されている方は、本記事を参考に相関分析にチャレンジしてみてはいかがでしょうか。

この記事のまとめ
  • 相関分析は二つのデータ間の関連性を明らかにする手法で、相関係数と散布図を用いる
  • 相関係数は-1から1の間でデータ間の関連の強さを示し、正の相関や負の相関を表す
  • 散布図はデータの分布を視覚的に示すが、直線的でない関係の判断は難しい
  • 分析結果の考察には因果関係と相関関係の区別、外れ値、疑似相関への注意が必要

Share

FacebookでシェアTwitterでシェアLINEでシェア