第2回コラムで、
「kんせい」のように母音が欠落した場合も、前後の語のつながりを見て、意図した読みに修復できるようになるというお話を伺いました。
例えば、私はお刺身が好きなのですが、「mぐろのさしみ」のような入力ミスをしてしまうことがよくあります。
これも、前後の語のつながりから、「まぐろのさしみ」が入力したかった読みだと判断して自動で修復してくれるのでしょうか。
はい。修復されますよ!
「まぐろのさしみ」という読みに自動で修復した後、「マグロの刺身」に変換されます。
お刺身といえばマグロがポピュラーですもんね。
そういえばこの前、魚屋さんで「メジナ」という魚を見かけまして、
スーパーではあまり目にしたことがなかったのでどんな魚なのか調べたんです。
脂がのっていてお刺身で食べるのもおいしいということでした。
それで、ふと疑問に思ったのですが、マグロほどポピュラーではない魚について入力ミスをしたときも、
同様に修復してくれるのでしょうか。
よく使われるフレーズしか修復してくれないの?
例えば、「mじなのさしみ」と入力したときにどうか?ということですね。
ここで、少し自然言語処理における課題の話をしたいと思います。
「マグロの刺身」は、たくさんの人が作成した文章の中で比較的多く出現するフレーズです。
このように、文章中によく出現するという傾向を手がかりに、「マグロ」と「刺身」は意味的なつながりを持っていると判断し、
「mぐろのさしみ」から「まぐろのさしみ」という正しい読みを推定することができます。
一方、「メジナの刺身」は、「マグロの刺身」ほど文章中で出現しなかったとします。
その場合に、「mぐろのさしみ」は修復できるが、
「mじなのさしみ」は修復できないということが起きてしまうのです。
なるほど・・・。
その場合、どのようになるのでしょうか。
「mじなのさしみ」は、利用する環境にもよりますが、
「むじなのさしみ」に修復される場合がありました。
「むじな」というと、あの動物の「狢」ですか?!
「狢の刺身」はちょっと怖いです・・・。
ですよね(笑)。
これを解決するために取り入れたのが、
文章中であまり出現しない語であっても、同じ「魚」という意味グループに属するものを
同じものとして扱うという仕組みです。
これにより「マグロの刺身」というよく出現するフレーズから
同じ魚である「メジナ」にも同様の意味的なつながりを展開することで、
「mじなのさしみ」についても、正しい読みを推定できるようになりました。
同じ意味グループに属する語を同じように扱い、正しく修復できるようになりました!
特願2023-223689
それはすごいですね!
いろいろと工夫がされているんですね。
はい。
そしてこれは、ATOKが「変換」のかしこさを実現するために、以前から取り入れてきた手法でもあります。
この仕組みによって
同じ「鳥」というグループに属するものであれば、たとえ「跳ぶ」を学習していた場合でも、
「カラスが飛ぶ」だけでなく
「オニオオハシが飛ぶ」や
「キクイタダキが飛ぶ」も、
すべて正しい「飛ぶ」の表記に変換することができるのです。
その「かしこい変換」を実現するための仕組みを、今回、“入力支援” にも適用したということですね。
「mじなのさしみ」が意図通りに修復される理由がなんとなくわかってきました。
そうです。
今回の<課題> の例でいうと、
今までは、
「mぐろのさしみ」は出現が多いため修復できても
「mじなのさしみ」は修復できなかった。(「むじなの刺身」に修復されていた)
新しい入力支援では、
同じ「魚」グループに属するという情報を用いて
「魚+刺身」という結びつきから、
「mじなのさしみ」の入力ミスを「めじな+さしみ」に修復します。
ほかにはどのような例がありますか?
例えば、リンゴやミカンほどポピュラーではありませんが、果物の一種である「カリン」について、
「カリンの収穫」と入力しようとして「kりんのしゅうかく」になってしまった場合、
krinnnoshuukaku
のように修復されることがありました。
同様に、
「雨よけにヤッケを着用」と入力しようとして「yっけをちゃくよう」になってしまった場合、
ykkewochakuyou
のように修復されることがありました。
このような例も、新しいATOKでは、意図通りに修復されるようになりましたよ。
魚釣りが趣味の C さん。
釣ったばかりの新鮮な魚をお刺身にし、おいしそうに盛り付けた写真とともにブログに綴るのが楽しみです。
「メジナ」のようにスーパーではあまり見かけない魚でも、入力時のミスを正しく修復してほしいもの。
ATOKなら「mじなのさしみ」のような入力ミスを「メジナの刺身」と正しく修復します。
よく使われるフレーズには対応できても、使用例が多くない事例には対応できない。
これは、統計的な情報を利用して入力の課題を解決しようとする際に、よく直面する問題です。
ATOKでは、機械学習を用いた統計的な手法を取り入れながらも、ことばの意味を考慮した辞書的な手法も
組み合わせて、最適な変換ができるように工夫しています。
ATOKが「マグロの刺身」も、「メジナの刺身」も同様に正しく変換できるのは、この、意味をグループ化して扱う仕組み
によるものです。
今回、意味をグループ化して扱う仕組みを “入力支援” に適用し、
頻度が低く、別の読みに修復されることが多かった語を意味の観点から正しく修復するようになりました。
仕組みがわかってくると、入力ミスをした場合も、最終的な変換結果を見るのが楽しくなりますね。
これは「グループ化して扱う仕組み」が適用されて、このように修復されたんだな、と
想像力をかき立てられます。
ぜひ、営業担当として、いろいろな変換例の謎を解いてみてください(笑)。
今回は、ここまでとしますね。
次回は、さらに別の観点から、入力支援について解説したいと思います。どうぞお楽しみに。
< 他の回の記事を見る >
第1回:
入力支援って何?
ATOKが入力ミスを
修復してる?
2024/01/11 公開
第2回:
「変換」のかしこさを「入力支援」にも!
それじゃない!
本当に入力したかったのは・・・
2024/01/18 公開
第3回:
同じ入力誤りでも、修復し分ける!
研修?検証?
わたしの入力傾向に合わせて
サクっと変換!
2024/02/02 公開
第4回:
ビジネスメールで、チャットで、出現多発!
意図せぬ「角煮」を送信前に修復!
え?角煮をお願い?
2024/02/09 公開
第5回:
出現頻度が低くても修復できる!
同じ意味グループに属するものを同一視して扱う仕組み
mじなのさしみ(怖)
2024/02/15 公開
第6回:
決まり切った言い回しは、
意図をくんで正しい読みに!《★最終回★》
これにて、一件落着!
2024/02/22 公開