ハートキャッチプリキュア問題を考える [プログラミング]
Windows Vista/7 ではハートキャッチプリキュアを「プリキュア」で検索できない
これは、日本語の形態素解析(日本語の分割)が難しいためにおこる
ハートキャッチプリキュア はどこで切れるだろうか?
人間の場合、ハート、キャッチ、プリキュアが単語だと分かっているが、機械にはそういうものだと教えないといけない。あと、小さいお友達の場合、プリキュアの意味はわかっていても、ハートキャッチの意味がわからないので、ハートキャッチが単語だと思っているかもしれない。そもそもアニメを知らない人は「プリキュア」という単語の意味がわからない。人間でもその人の知識が重要になってくる。
XPのときはなぜ検索できていたのかというと、馬鹿真面目にハートキャッチプリキュアの1文字目と比較、2文字目と比較・・・8文字目と比較、一致 というようなことをしている。(実際にはもうちょっと高度な方法もあるが基本的な考え方は同じ)
分割の難しさはいつものWikipediaに書いてある
日本語の形態素解析における諸問題
http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90#.E6.97.A5.E6.9C.AC.E8.AA.9E.E3.81.AE.E5.BD.A2.E6.85.8B.E7.B4.A0.E8.A7.A3.E6.9E.90.E3.81.AB.E3.81.8A.E3.81.91.E3.82.8B.E8.AB.B8.E5.95.8F.E9.A1.8C
大学ではこの形態素解析は昔から論文のネタだし、携帯電話やWebの登場で、コンピューターの文字の理解力というものが非常に重要になっている。
なのに天下のMSが欠陥製品とも言うべきものを何故だしてしまったのか?
これは本国と日本との力学にあると推測する。
米「Vistaから形態素解析使って検索できるようにしたから」
日「えっ、日本語だとすごいデータベース使ったりしないとだめなんだけど・・・どうにかならない?」
米「この天才米様の考えた仕様にケチつけるやつがいるとはな・・・おまえクビ」
日「あ、うそうそ、すばらしいです。はい。認識率もばっちりです。はい。」
そして発売され、検索を利用するユーザーが途方にくれる。
この問題、MSは認識しつつも解決しようとしない。
Windows Vista の検索において、語句が検索されない場合がある
http://support.microsoft.com/kb/952003/
所詮日本語ローカルの問題ですからね。アメリカさんは真面目に対処してくれないのは当然です。
ちなみにGoogleは形態素解析のプロを雇ってGoogleIMEを作りました。
http://mecab.sourceforge.net/
これは、日本語の形態素解析(日本語の分割)が難しいためにおこる
ハートキャッチプリキュア はどこで切れるだろうか?
人間の場合、ハート、キャッチ、プリキュアが単語だと分かっているが、機械にはそういうものだと教えないといけない。あと、小さいお友達の場合、プリキュアの意味はわかっていても、ハートキャッチの意味がわからないので、ハートキャッチが単語だと思っているかもしれない。そもそもアニメを知らない人は「プリキュア」という単語の意味がわからない。人間でもその人の知識が重要になってくる。
XPのときはなぜ検索できていたのかというと、馬鹿真面目にハートキャッチプリキュアの1文字目と比較、2文字目と比較・・・8文字目と比較、一致 というようなことをしている。(実際にはもうちょっと高度な方法もあるが基本的な考え方は同じ)
分割の難しさはいつものWikipediaに書いてある
日本語の形態素解析における諸問題
http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90#.E6.97.A5.E6.9C.AC.E8.AA.9E.E3.81.AE.E5.BD.A2.E6.85.8B.E7.B4.A0.E8.A7.A3.E6.9E.90.E3.81.AB.E3.81.8A.E3.81.91.E3.82.8B.E8.AB.B8.E5.95.8F.E9.A1.8C
大学ではこの形態素解析は昔から論文のネタだし、携帯電話やWebの登場で、コンピューターの文字の理解力というものが非常に重要になっている。
なのに天下のMSが欠陥製品とも言うべきものを何故だしてしまったのか?
これは本国と日本との力学にあると推測する。
米「Vistaから形態素解析使って検索できるようにしたから」
日「えっ、日本語だとすごいデータベース使ったりしないとだめなんだけど・・・どうにかならない?」
米「この天才米様の考えた仕様にケチつけるやつがいるとはな・・・おまえクビ」
日「あ、うそうそ、すばらしいです。はい。認識率もばっちりです。はい。」
そして発売され、検索を利用するユーザーが途方にくれる。
この問題、MSは認識しつつも解決しようとしない。
Windows Vista の検索において、語句が検索されない場合がある
http://support.microsoft.com/kb/952003/
所詮日本語ローカルの問題ですからね。アメリカさんは真面目に対処してくれないのは当然です。
ちなみにGoogleは形態素解析のプロを雇ってGoogleIMEを作りました。
http://mecab.sourceforge.net/
自分はLocate32を使ってます
by medapa (2010-11-03 00:03)