データ穴リストのブログ

文系へっぽこリサーチャーから穴リストへジョブチェンジ中。渋谷の片隅でニヤニヤしております。・・・動いたら、ね。

線形判別を描く、その苦悩の日々

 
前回の線形判別の後編です。
 
今回はみんな大好きびじゅあらいずのお話だよ!
 
 
ところでタイトルの「ニヤける」、
にやけるはニヤニヤするの意味でない、ということ、ご存知でしたか?
 
私は最近知りました\(^o^)/
 
大丈夫、"ニヤ"けるなので、「にやける」にあらず。
そういうことにしておこう。
 
 
 
 
※前回のところでとりあえず扱うモデルは決まった。ということにしておきます。
 細かな過程をしょっぴいてるけど、省きすぎてたらごめんなさい。
 
 
やぁ、あとはR屋さんが主張する綺麗なビジュアライズとやらを、
ステキなパッケージの言う通りに描いてやれば終了だ。
 
…なんてうまくいくはずもなく、むしろここからが本番でした。
 
 
ひとまず、みんなのアイリスたんを参考に、
プロットしてみたら、そこそこうまくいった*1
 
参考にしたのはこのブログ↓
 
こちらは本の通り3群判別だったけど、2群にしてもとりあえずできた。
 
よしよし、なら実データでもやってみるかと、
やってみたのが運の尽き。
 
このブログ(本)で紹介されているケースは、一次方程式しか対応できないということを後になって思い知りました。
係数はそれはそれで重要だけど、
図示するには事後確率をベースにすべきでした。
 
ということが分かったのはこちらのサイトから↓

判別分析(東大の農学あたりの授業資料みたい。)

 
 
上の方法の何がダメだったのか、
それは、交互作用項が入った段階でyの値を再現できなかったから(たぶん出来るハズだけど、自分にはその方程式が計算できなかった、という方が正しいのかな)。
 
y = α + β1X1 + β2X2 なら再現はできるけど、
y = α + β1X1 + β2X2 + β1*2X1*2 が出来なかった。
 
式だけなら数学の得意な後輩に聞いてとりあえず作れたけど(っていうレベルでいいのか激しく疑問だけど)、
そのまま式を作ってもおかしな線にしかならない。
たぶんX1X2の掛け算が不適切なんだろうと思うけど。
 
まぁ、
理解できるなら理解したい。
でも絵が描けることの方が最優先(キリッ
ということで、東大の資料に行きつきました(1~2週間悩んだ)
 
で、出来たのが以下
 
・・・に図を載せたりそのコードを書いたり線を複数書いたり非線形にしてみたり、
ということを載せようと思ったんだけど、
今日はもう時間がない。
 
とりあえず進めたから、すごく中途半場だけど公開しよう。
公開しないと何も動いていないのと同じだから(前回の記事がまさに)。
 
 
・・・と思ったけど、やっぱり絵だけはとりあえずいっこ載せとこう。
載せられないとこだけ伏せました(出し直せよって話ですが)
 

f:id:cun-wang:20160312133911p:plain

決定面を3つ書いているのは元々の判定基準が連続量を上の基準でぶったぎったから。

XYの基準を超えたらとりあえずそのくらいの値にはなるんじゃね?という。

 

ここまでするのに、knitrとかなんやかんやまだ紆余曲折しているんだけど、

その辺りはまた今度。

 

次はknitrでつまずいた話か、rChartsをマークダウンに載せられない話か、

なんか色々つまずいた話をご紹介します。

 

…無事に解決出来たらね。(や、解決してなくても載せるか)

 

それではまた。私のやる気が続いていたら。

 

 

*1:その辺は省略