メインのコンテンツ
データに直線をフィットする
散布図を作成し,それからカルフォルニアの家族の収入についての中央値 (メジアン) のデータを直線にフィットさせます。 Sal Khan により作成されました。
ビデオのトランスクリプト
このビデオでは,データへの
直線の当てはめ, または直線のフィットとは
どういう意味かの 例を見せたいと思います。 いつものペンタブレットのビデオではなく, エクセルでやってみましょう。 そうすると,あなたがエクセルや 他のスプレッドシート
プログラムを持っていたら それでどうすればいいかわかるでしょう。 ここでは,データへのフィットの
数学はやりません。 まずはデータへの直線のフィットや 線形回帰とは何かを知ってほしいです。 そのメカニズムについてはやりません。 では問題を読みましょう。 次の表は,アメリカの国勢
調査局のレポートに基づく, 1995 年から 2002 年の
カリフォルニアの 家庭の収入の中央値を示しています。 中央値とはデータを順に並べた
時の中央の値のことでした。 この散布図を描き,
その方程式を求めましょう。 そして,2010 年の
カリフォルニアの家庭の 収入の中央値を予想しましょう。 ここで傾きと y 切片は
何を意味しますか? このデータは,
私が単に問題の画像を コピーペーストしたものなので まずは,これらのデータを, スプレッドシートが理解できる
形にする必要があります。 ここに表を作りましょう。 まずは1995 年からの
年数としましょう。 それを 1 つのカラムにします。 ちょっと幅を広くして,… それからここに収入の
中央値を入力します。 これがカリフォルニアの
家庭の収入の中央値です。 では,「1995 年から
0 年経過」から始めます 0, 1, 2, 3, 4,4 年経過しました。 実はこのように同じパターンを
続ける時はこうすると簡単です。 こうすると,スプレッドシートが 1 ずつ増えている傾向を
見つけて補完してくれます。 そして収入を入力します。 53,807 55,217 55,209
55,415 63,100 63,206 63,761 そして
65,766 ドルです。 ここのセルは不要になったので
消しておきましょう。 「クリア」します。 全部あるか確認しましょう。 1, 2, 3, 4, 5, 6, 7, 8。 こちらも 1, 2, 3, 4, 5, 6, 7, 8 あります。
大丈夫です。 データの値も確認しましょう。 53,807 55,217 55,209 415
100 206 761 766... はい,合ってます。 では,どこをクリックすれば
良いのかを知っていれば, エクセルは驚くほど簡単に
使えるということを見せましょう。 まずこのデータのプロット,
散布図を作ります。 さらにデータの回帰までできます。 まずやることは簡単で,
こうしてデータを選択して, 「挿入」をします。 ここでは散布図を挿入して。 色々な散布図が選べます。 今回はデータの点を
プロットできればいいです。 できました。 エクセルがデータ点を
プロットしてくれました。 こんな感じです。 こちらの軸が実際の収入で, こちらは 1995 年以降の
経過年数です。 この時点で 1995 年で
収入は 53,807 ドル。 1996 年は,55,217 ドルです。 このように,全てのデータを
プロットしました。 さて,次にやりたいことは,
直線の当てはめ,フィット,です。 このデータは厳密には
直線ではないのですが, しかし,このデータの点の集合が 直線のモデルで表現できると考えて, エクセルに直線を
フィットしてもらいましょう。 様々な直線の
フィット方法が選べます。 これを選びましょう。 ちょっと小さくて
見えないかもしれませんが, 点の集合にフィットした直線が
描かれています。 また,「fx」と書かれているのは, 直線の方程式も
求めるということです。 そして,これをクリックすると,
このとおり 直線をフィットするだけでなく,
同じデータを 別のグラフにもう一度
プロットしてくれました。 もうちょっと大きくしましょう。 こうしたいのではなくて,
もう少し大きくしたいのです。 元データは隠しても
問題ないですね。 何をしているか分かるでしょう。 大きくしてここに持ってきます。 データの点をプロット
しただけではなくて, 与えられたデータに
直線をフィットさせ, さらに,その直線の方程式も
求めてくれました。 もうちょっとこれを大きく
できるかやってみます。 少なくとも,こっちに持ってくれば
もうちょっと読みやすいでしょう。 少なくとも,あなたが
読めるようにしたいです。 この直線の方程式は,
y = 1,882.3 x + 52,847 です。 直線の傾きと y 切片は
何だったでしょうか? y 切片は 52,847 です。 y 切片はこの直線が x 軸が 0年,
つまり,1995年の時に y 軸とどこで交わっているかを
言います。 この直線をモデルとして使うと
1995 年では 収入は 52,847 ドルです。 実際のデータとはちょっとずれがあります。 実際のデータはもう少し高くて
53,807ドルでした。 ちょっと違っていました。 線形回帰というのは,
全部のデータに 最もフィットする直線を
見つけるものです。 実は,実際のデータ点と直線との
距離の 2 乗を最小化します。 その数学はここでは取り上げません。 しかしこの素敵な方程式が求まり, この方程式を使って予想ができます。 この直線が,これらのデータを 上手く表しているモデルとすれば, ちょっ下に下ろして-- 散布図は描きました。まあ,
エクセルに描いてもらいました。 それから方程式も求めてもらいました。 問題は,カリフォルニアの
家庭の収入の中央値が 2010 年にはいくら位になっているか 予想しましょう,と言っています。 ここではこの方程式を使います。 ここが 2002 年なので, 年も書きましょう ここが 2002年 ですから 2010 年は,さらに 8 年後です。 もうひとつカラム,
列を作ってみましょう。 ここに年のカラムを作ります。 ここが 1995 (年で,
ここが) 1996 年, そして,これらのセルを選択してエクセルが パターンを認識できるようにして, この右下の正方形を下に引っ張ると, 私が 1 年ずつ増やして
入力しようとしていたことを, エクセルがみつけて
補完してくれました。 もし 1995年から経過した
年数なら,ここも同じように, エクセルが傾向をみつけて
表を埋めてくれます。 すると,2010 年は 15 年後です。 では,この方程式を使いましょう。 この線形モデルによると,15 年後は,--- ここにタイプします。--読めますかね。-- 1,882.3 かける x,... x は,1995 年から経過した年数です。 ですから,かける,
このセルを選択するか, または,15 と直接数を
タイプしてもいいです。 さらに,たす 52,847 です。 そして,エンターを押すと, 81,081.50 ドルと予測しました。 つまり,この直線をあと
8 年くらい伸ばすと, カリフォルニアの家庭の
収入の中央値は, 81,000 ドル位という
予測になります。 とにかく,これに興味を
持ってもらえたら嬉しいです。 スプレッドシートというのは,
データを操るのに, 実に役に立つ道具です。 なぜ線形モデルが興味深いか, データの解釈や予測の
ためのある種の外挿では, こういう道具をどう使うのか, などを感じてもらえたらと思います。 ここでは,線形回帰を使って, データの外挿をして,予測をしました。(柱:直線の傾きは収入の中央値が1年にどれだけ変化するかを意味します。ここでは年に1882.3ドル収入が増えます。)