投稿元:
レビューを見る
コンピュータの普及した今、いや今だからこそ
まだまだ変化を続ける日本語入力。
自然言語の特性として、絶対的な解法は存在しないのだが
それでもその時その時の実用の範囲で様々な技術が活用されている。
データ構造とアルゴリズムあたりの話は単純に面白かったけど、
その次の章は数式が多くて正直ついて行けなかった。
自分には数学能力が不足してるようだ。
分類や統計や評価なんてのは、チェスや将棋のAI技術もそんな感じなのだろうかと想像する。
資源を活かすためには、いかに切り捨てられる計算を切り捨てるか。
不要だから捨てるのではなく、効果が少ないからと割りきる。
誰もが利用しているシステムで、そんな不安定な試行ふぁ続けられてるのは面白い。
今後も技術的にどんどん変わっていくのだろうけど、
どんなふうに人の感覚まで近づいていくのか、はたまた人の感覚をも超える時が来るのだろうか。
個人がおいそれと足を踏み入れられる業界ではないけれど、
そのアプローチは大いに参考になる。
数式は自分では理解しきれなかったけど、サンプルの擬似コードも随所にあるので時間を置いて読み返してみたいと思う。
投稿元:
レビューを見る
* 全体的にとてもいい本だと思った。筆者の知見を伝えようという意欲が感じられた。
** それぞれ説明に入る前に必要性について言及するように気をつけているように感じた。
* 今後も何度か読みなおすことになりそう。
* 付録に学習アルゴリズムの適用順序が書いてあったりするのもよかった。
* 3章のデータ構造辺りだけ、なんだか曖昧な感じがしたのが残念。
投稿元:
レビューを見る
改めて読んでみて、この分野の技術の面白さを再認識した本。
ブログはこちら。
http://blog.livedoor.jp/oda1979/archives/4170122.html
投稿元:
レビューを見る
機械学習のアルゴリズムが実装例付きで紹介されてるし、数式の「ココロ」まで解説があり充実。作者がPFIの方ときづいて納得。
投稿元:
レビューを見る
話題になってたので買ってみました。
難点としては
・どうも説明が下手っぽい気がする。この本に関連して書かれたいくつかのブログ記事のほうがはるかにわかりやすい(ダブル配列、LOUDS)
・言葉の選び方がときどきイマイチ。情報系の人間は概してそういうのに無頓着の感があります。
とありますが、全体的には興味深く面白い本です。日本語入力って超難しくて複雑な何かかと思ってたんですけどけっこう単純な話だったんですね。
機械学習の項が比較的長くて、苦手な方だとちょっと辛いかもしれないという感じ。「SVMって何?」って感じだと辛い。読めなくはないんだろうけれど。
投稿元:
レビューを見る
[読んだ理由]==================
タイトルが目についたので。最近の日本語変換ソフトがどういう実装になってるのかの参考になればと思って読んでみた。
[読んだ後の感想]==============
巷に流通しているIMEソフトの実装がどうなってるのかの具体的な話はあまりない(そんなの各企業の秘密だから当然といえば当然か)。それよりは辞書検索やデータ構造、統計機械学習などに用いられ得るポピュラーな手法をひと通り紹介してくれている感じ。大学の学部生が研究の参考に読むのとかに良さそうな内容(巻末の「付録」もそんな感じだった)。
[読書録]======================
■第一章:日本語と日本語入力システムの歩み
連文節変換:ひらがなで分をそのまま入力し、それをそのまま変換する方法。
・単語間の繋がりやすさや、文節自体の文節っぽさをスコア化…n文節最長一致法(接続強度法の1つ)
・隣接する単語の間の繋がりやすさをスコア化…ビタビアルゴリズム(動的計画法の1つ)
parameterのチューニングが肝心。90年代を境に人出によるルール整備から、統計・機械学習ベースに移行。ATOKはATOK2008から。
■第二章:日本語入力システムの概観
日本語入力システムを実装する場合、IMEはアプリケーションとは別プロセスにするメリットが大きい。しかし日本語以外のほとんどの言語では、そこまでする必要はない。日本語だけのためにどこまでやるかは要検討。
■第三章:かな漢字変換エンジンに用いられるデータ構造
セット:ある値が登録されているかどうかを確認出来るだけのデータ構造
マップ:あるキーが登録されている場合はそのキーに対して紐付けられた値を返すことができるデータ構造
ハッシュ値衝突の処理
・オープンアドレス法:2個目のキーに対しては別の場所に格納する。線形探査法など。
・チェイン法:キーの衝突した部分はリンクリストで持つ。
・カッコウハッシュ:先に入っている要素の方をどかす
よく使われるハッシュ関数:FNVハッシュ、murmurハッシュ
トライ:ツリー(木)の一種。テーブルや、ダブル配列、LOUDS、などで実装。
■第四章:かな漢字変換システムの実装
まずグラフを構築し、次にそのグラフの最短経路問題を解く。
ノードやエッジのスコアの学習方法:構造化パーセプトロン、
■第五章:統計・機械学習のアルゴリズムとその応用
構造学習問題:出力どうしの間に依存関係があるような問題。
変換精度の評価:適合率と再現率
■第六章:日本語入力のこれから
投稿元:
レビューを見る
擬似コードがたくさん載っていてわかりやすい。
また、アルゴリズムの説明が多いので、深くまで日本語入力の仕組みをしることができる。
日本語入力を勉強する人だけでなく、自然言語処理を勉強する人は読むべき本。
投稿元:
レビューを見る
日本語入力(かな漢字変換)の基本技術の解説本。ここ数年で、最短経路問題としてビタビ+機械学習のアプローチで実用化が進んでいる様子。パーセプトロンや、(構造化)SVM、CRF等の解説もあるので、日本語入力に限らず、一般的な言語処理・機械学習の技術書としてもオススメ。
投稿元:
レビューを見る
日本語入力を行う際にどのようなアルゴリズムが使われているか擬似コード付きで解説している本。データ構造の話やプログラム実装時の注意点が説明されていて理解が進む。それでも解説が飛ぶところは理解し切れていない。
投稿元:
レビューを見る
日本語入力に関する技術に特化した書籍は現時点でこれ以外にないと言える。そういう意味で大変貴重だし概要を理解するには最適。ただ、わかりやすさを追求したためか、表現が漠然としていて逆に理解しづらい箇所がいくつかあった。
投稿元:
レビューを見る
文字の種類が英語より遥かに多く同音異義語も大量な日本語のかな漢字変換に関する本。文字列マッチングから機械学習までとにかく内容が濃い!一読しただけでは理解できない箇所も多々あった。今や人々が毎日当たり前に使っている道具に込められたエンジニアの魂に触れられる一冊。
投稿元:
レビューを見る
NLP系の本は敷居が高くて敬遠していた。
しかし、少しづつこの辺を理解できるようになってきたし、
ちょっと検索などでN-Gramや辞書などを知る機会があったりNLPerとの交流などを経験して、ついに読んでみた。
日本語入力における処理の問題や様々なグラフの考え方、ビタビアルゴリズムなど、以前に比べてだいぶすっと入ってくるようになった。
SVMや構造化SVM、CRFなどについても詳細に言及されていて良書。
まあ、執筆陣を見てもそれは伝わるか。
とりあえず、自身の成長を少しだけ感じられて良かった。
■目次
★第1章 日本語と日本語入力システムの歩み
1.1 コンピュータで日本語を扱うということ
1.2 日本語を入力するということ
1.3 日本語入力とかな漢字変換
1.4 日本語入力のはじまり
1.5 かな漢字変換のはじまり
1.6 単文節変換から連文節変換へ
1.7 2強時代の到来~統計・機械学習ベースのアルゴリズムへ
1.8 Web検索各社のかな漢字変換エンジンへの参入
1.9 携帯電話における日本語入力
1.10 まとめ
★第2章 日本語入力システムの概観
2.1 ユーザ側から見た日本語入力
2.2 システム側から見た日本語入力
2.3 ひらがなの入力方法
2.4 文字入力フレームワークのアーキテクチャ
2.5 かな漢字変換エンジンのユーザインタフェース
2.6 かな漢字変換エンジンのモジュール構成
2.7 かな漢字変換器の作り方
2.8 まとめ
★第3章 かな漢字変換エンジンに用いられるデータ構造
3.1 かな漢字変換とデータ構造
3.2 データ構造とは
3.3 かな漢字変換に用いるデータ構造
3.4 ハッシュテーブル
3.5 カッコウハッシュ
3.6 トライ
3.7 ダブル配列
3.8 LOUDS
3.9 その他データ構造のテクニック
3.10 ライブラリの入手について
3.11 まとめ
★第4章 かな漢字変換システムの実装
4.1 かな漢字変換をどうやって実現するか
4.2 グラフの作成
4.3 最短経路問題を解く
4.4 単語間の線の距離を決める
4.5 学習用のデータを作る
4.6 まとめ
★第5章 統計・機械学習のアルゴリズムとその応用
5.1 機械学習とは
5.2 二値分類
5.3 構造学習とかな漢字変換
5.4 構造化SVM
5.5 条件付き確率場(CRF)
5.6 統計的かな漢字変換とは
5.7 言語モデル
5.8 かな漢字モデル
5.9 変換精度を評価する
5.10 変換誤りへの対処
5.11 まとめ
★第6章 日本語入力のこれから
6.1 日本語入力の未来予想
6.2 予測入力
6.3 かな漢字変換器の改良に向けて
6.4 今後の学習に向けて
6.5 まとめ
★付録
A.1 数学的な基礎知識
A.2 確率の基礎知識
A.3 学習アルゴリズムの歴史
A.4 機械学習を分類する
A.5 いろいろな学習アルゴリズム
A.6 CRFの目的関数の勾配の導出
投稿元:
レビューを見る
ケータイで日本語入力をした後、PCを使うと少し物足らない感じがします。
ちょうど、自動ドアのないコンビニの入り口に 立った時のような・・・。
Google日本語入力がレベルアップしたらしいので、
これまで使っていた 日本語入力 MS IME から 変更しました。
⇒ URLはこちら http://sea.ap.teacup.com/pasobo/978.html 『Google日本語入力を再び使い始める!』 : 〜 Myブログ「パそぼとベルルのあれこれフリーク」
そんな時に この本を知ったので、これから読んでみます。
内容は、難しい専門的なもの。
がんばって 初めから 3.3まで読んで、後は読み飛ばし、「6章日本語入力のこれから」を読みました。
この本に書かれていることは、今 研究し、実践されている最先端のことも多く含まれています。
理解は・・・無理です。(^^ゞ
以前から 日本語入力ができることは すごいことだと思っていた。
反面、実際にパソコンに入力していて、IMEがなんか変だったり お馬鹿だなぁと思うことも多い。
それが、日本語入力システムの採用している技術の課題だったりすることも 少しわかった。
今後は、文字入力のときに、どんな変換をするのか、辞書の学習の成果は?
など PCの日本語入力システムの反応をみるのも 楽しみになってきました!
電脳会議 VOL148に紹介された本。
→ http://gihyo.jp/book/pickup/2012/0035 新たな技術が続々と取り込まれている日本語入力のいま
2012/6/22 予約 8/18 借りる。8/30 読み始める。9/4 読めるところまで読み終わる。
2017/3/13 再予約 3/18 再借り (前に読んだことをすっかり忘れていた)(^o^ゞ;