Phantasy Garden

日本語の形態素解析で、kakasiやchasenが使えそう。XREAのサーバ仕様を見て回ったところ、これらの外部プログラムをコールできそうなので単語分解はなんとかなりそうな希ガス。

ただ、精度を良くするためGary Robinson-Fisher方式で行きたいんだが、PHPでchi-square test(カイ自乗検定)を行えるかどうか不明。PECLモジュールにはそれらしきものがあったりするんだけど、マニュアルに詳しい説明がないんだよなぁ。引数しか載ってない。やるとしたらGary Robinson方式だろうか。Graham方式はいろいろと欠点があるから見送る方向で。

あとはトークンのデータベースをどうするか、だ。なるべく高速に解析したいからある程度プレ解析したデータベースにしたいんだが……。まだベイジアンフィルタの動作原理を脳内アルゴリズムに落とし込めていないので、実装までには時間がかかりそう。

Comment

名前:

機械的スパムを防止するための検証です。以下の画像に書かれている文字列(半角英数字)を入力してください。
Captcha Image
認証:

Information

About this website

サイト名『空想庭園』。御巫 悠が自由気ままに運営しているサイトです。役に立たないコラム書きがメインなのかもしれません。

本サイトはクリエイティブ・コモンズ表示4.0 国際ライセンスの下に提供されています。

Recent Weblog

Recent Comment

Weblog Search

Weblog Category

Friend Links