SSブログ

ハートキャッチプリキュア問題を考える [プログラミング]

Windows Vista/7 ではハートキャッチプリキュアを「プリキュア」で検索できない

これは、日本語の形態素解析(日本語の分割)が難しいためにおこる

ハートキャッチプリキュア はどこで切れるだろうか?

人間の場合、ハート、キャッチ、プリキュアが単語だと分かっているが、機械にはそういうものだと教えないといけない。あと、小さいお友達の場合、プリキュアの意味はわかっていても、ハートキャッチの意味がわからないので、ハートキャッチが単語だと思っているかもしれない。そもそもアニメを知らない人は「プリキュア」という単語の意味がわからない。人間でもその人の知識が重要になってくる。

XPのときはなぜ検索できていたのかというと、馬鹿真面目にハートキャッチプリキュアの1文字目と比較、2文字目と比較・・・8文字目と比較、一致 というようなことをしている。(実際にはもうちょっと高度な方法もあるが基本的な考え方は同じ)

分割の難しさはいつものWikipediaに書いてある

日本語の形態素解析における諸問題
http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90#.E6.97.A5.E6.9C.AC.E8.AA.9E.E3.81.AE.E5.BD.A2.E6.85.8B.E7.B4.A0.E8.A7.A3.E6.9E.90.E3.81.AB.E3.81.8A.E3.81.91.E3.82.8B.E8.AB.B8.E5.95.8F.E9.A1.8C

大学ではこの形態素解析は昔から論文のネタだし、携帯電話やWebの登場で、コンピューターの文字の理解力というものが非常に重要になっている。

なのに天下のMSが欠陥製品とも言うべきものを何故だしてしまったのか?

これは本国と日本との力学にあると推測する。

米「Vistaから形態素解析使って検索できるようにしたから」
日「えっ、日本語だとすごいデータベース使ったりしないとだめなんだけど・・・どうにかならない?」
米「この天才米様の考えた仕様にケチつけるやつがいるとはな・・・おまえクビ」
日「あ、うそうそ、すばらしいです。はい。認識率もばっちりです。はい。」

そして発売され、検索を利用するユーザーが途方にくれる。

この問題、MSは認識しつつも解決しようとしない。

Windows Vista の検索において、語句が検索されない場合がある
http://support.microsoft.com/kb/952003/

所詮日本語ローカルの問題ですからね。アメリカさんは真面目に対処してくれないのは当然です。

ちなみにGoogleは形態素解析のプロを雇ってGoogleIMEを作りました。
http://mecab.sourceforge.net/

nice!(0)  コメント(1)  トラックバック(0) 
共通テーマ:パソコン・インターネット

nice! 0

コメント 1

medapa

自分はLocate32を使ってます
by medapa (2010-11-03 00:03) 

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。