お金と数字と温泉を考えるブログ

お金と数字と温泉を考えています。

ポアソン分布による台風上陸数モデリング(2016 改)

稀に起こる事象をモデリングするにはどうすればよいか。
そういった場面で用いられるのがポアソン分布です。
二項分布において、nが無限大に大きく、pが限りなく小さいときに利用できる確率分布です。

起こりうる確率が小さいものに対して適用されるので、例えば地震の回数や飛行機の墜落数、
交通事故件数などの予測に用いられます。
今回は台風の上陸数をモデリングすることにします。

データ
用いるのは、気象庁がweb上に挙げているデータです。csvファイルがあるので、それをPCに保存しましょう。
私はこのデータから年数と1年あたりの上陸数の列だけ取り出しました。
www.data.jma.go.jp

ソースコード①(ヒストグラムポアソン分布を重ねる)

d<-read.csv("C:/Users/Hiroki/Desktop/landing.csv",header=F)
#ポアソン分布に従っているかどうか確認
table(d[,2],exclude=NULL)
mean(d[,2])#平均値は2.925373
var(d[,2])#分散は2.857983で平均=分散でポアソン分布っぽい
hist(d[,2])
par(new=T)
y<-0:10
prob<-dpois(y,lambda=2.925373)
lines(y,50*prob)

f:id:umejiro330:20180503234526p:plain
見た感じヒストグラムポアソン分布は重なっていてうまく予測できているように思えます。
これが上手く適合しているかχ二乗適合度検定で見てみましょう。

ソースコード②(χ二乗適合度検定)

#chisq.test関数で上手くいかなかったので手打ちでやってみました
a<-c(4,7,17,18,12,5,3,0,0,0,1)
b<-67*prob
c<-(a-b)^2/b
c
sum(c)#統計量は24.3
qchisq(0.95,9)#帰無仮説が成り立つときのχ二乗分布の値は16.91,帰無仮説は棄却される

χ二乗適合度検定を行うと、差がないという帰無仮説が棄却されてしまいました。これではポアソン分布に従っているとは言えないようです。
詳しく見てみると、台風の上陸数が10以上のものが統計量を大幅に引き上げているようです。
この場合は、上陸数が6個以上もしくは7個以上のものを合併してχ二乗検定をすれば理論値と観測値の差を小さくでき、
実際にやってみると帰無仮説は棄却されず、ポアソン分布に従っていないとはいえない(帰無仮説を肯定的に見て、ポアソン分布に従っているとする)
と結論付けることができます。