相関

二つの属性について、大きさが同じデータ、があるとき、座標平面上に,・・・,をプロットしたものを散布図と言う。の要素の平均値をの要素の平均値をとするとき、の各要素ととの差(偏差)の各要素ととの差(偏差)の積の平均値、
共分散と言う。の要素の標準偏差の要素の標準偏差として、
相関係数と言う。となるが、一般的に以下のことが言える。
r0に近いとき、の間には相関がない。
r1に近いとき、の間には正の相関がある。つまりの要素の値が大きくなるとの要素の値も大きくなる。
rに近いとき、の間には負の相関がある。つまりの要素の値が大きくなるとの要素の値は小さくなる。
直線:回帰直線と言う。1に近いときに散布図は回帰直線に近くなる。

身長と体重とか、数学の点数と英語の点数とか、
2種類の属性について、どんな関係があるのかを調べたいときがあります。そのとき、2種類の属性の相関を考えることになります。相関係数や回帰直線を求めれば、両属性の関係について調べることができます。

共分散についても、分散の公式:と同様の公式があります。


よって、
つまり、共分散は、積の平均値から平均値の積を引いたものになります。

相関係数:となるのは
コーシー・シュワルツの不等式によります。xyがそれぞれ3通りの値を取るときは、の内積を考えることにより、
,即ち、
が成り立ちます。ここで、 ()と見れば、それぞれのデータの大きさが3の場合のを意味します。n次元ベクトルにおいても、コーシー・シュワルツの不等式:は成立するので、 ()と見ることにより、一般的な、それぞれのデータの大きさがnの場合の相関係数rについても、となります。

のデータの組
()と、直線上の点とのy座標の差の2乗の和Sを最小とするabを求めてみます。に注意して、






これは、かつ,つまり、のときに最小になります。従って、散布図を最も良く近似する直線、つまり回帰直線は、
ということになります。傾きがで、平均値を座標とする点を通る直線です。

データの整理で取り上げたデータを再掲します。
 日最高気温日照時間湿度 日最高気温日照時間湿度 日最高気温日照時間湿度
 121.4071 1127.62.754 2129.311.431
 225.20.967 1223.50.971 2231.96.046
 324.71.467 1326.77.937 2330.08.134
 424.00.371 1425.21.058 2426.27.950
 526.96.457 1526.38.651 2527.38.246
 624.96.553 1627.25.445 2619.80.770
 726.39.644 1725.31.856 2724.910.548
 819.7068 1825.3071 2825.97.047
 928.46.855 1927.611.446 2927.75.748
 1029.78.242 2029.07.838 3027.87.948

最高気温の平均値は,分散は、
標準偏差はです。

上記のデータについて、最高気温を横軸、日照時間を縦軸に取って作った散布図を右図に示します。
日照時間の平均値は,分散は、

標準偏差はです。
最高気温が高いと日照時間も長くなる傾向があり、正の相関をしていることがわかります。実際に共分散は、

で正です。相関係数は、
で、相関係数も正です。強い相関とまでは言えませんが、かなり強い正の相関です。
より、散布図を近似する直線(回帰直線)は、
です。

上記のデータについて、最高気温を横軸、湿度を縦軸に取って作った散布図を右図に示します。
湿度の平均値は,分散は、

標準偏差はです。
最高気温が高いと湿度は低くなる傾向があり、負の相関をしていることがわかります。実際に共分散は、

で負です。相関係数は、
で、相関係数も負です。強い負の相関です。
より、散布図を近似する直線(回帰直線)は、
です。



   数学基礎事項TOP   数学TOP   TOPページに戻る

各問題の著作権は出題大学に属します。
©2005-2022
(有)りるらる
苦学楽学塾 随時入会受付中!
理系大学受験ネット塾苦学楽学塾(ご案内はこちら)ご入会は、
まず、こちらまでメールをお送りください。
 雑誌「大学への数学」出版元