投稿元:
レビューを見る
経済学部の先生が書いたテキスト処理の本。
メタ検索(横断検索)とかメールを使った日誌の書き方、正規表現の基礎と具体例。
文系の人にありがちなこの人やっぱりわかってないんじゃ?的なところがなくもない。
が、「である。」「のだ。」等の文末の語句を検索して、文章を書いた人の判断が表れている分を見つけ出す等の例が載っていて面白かった。
最近は自分であれこれ悩むよりもグーグルデスクトップとか使ったほうが速いのかなぁと思った。使ったことないけど。
テキスト処理、日本語処理、自然言語処理を学ぶ取っ掛かりになりそうな本。
投稿元:
レビューを見る
本書は、テキスト・マイニングを、思考の道具を使って行う創造の作業の「材料」を効率的に集めてくるものと定義している。しかしながら私の関心は、創造の作業の側にあった。すなわち、テキストから特徴的な語を集積し抽出する方法ではなく、抽出された語から何を見出すかという展望である。語句を集積し抽出する方法について書かれた本書はしたがって、私の意図に対しては的外れといえた(それが選ぶ者の過誤であることはいうまでもない)。
投稿元:
レビューを見る
正規表現(regular expression)という技術は、C言語の専売特許ではなく、
英語の文字列検索の基本技術である。
正規表現は、grepというコマンドで提供しているOSがある。
ないOSでも、該当するOSのフリーソフトとして出ていることがある。
grepは
global regular expression print
の略で、正規表現(regular expression)で全体(global)を検索して表示(print)する便利な道具である。
grepの出力はKWIC(key word in context)といって、該当する行とともに、
検索語を表示するという検索技術の基本形式を取るものである。
sedというエディタや、awk, perlというプログラミングは、grep同様C言語で書かれており、同じ正規表現の検索が可能である。
著者らが開発した特許翻訳システム(PAT TRANSER)の原型は、
sed, awk, perlを駆使したものが基本系としてあり、
多くの特許文書をこれらの道具を使って料理してきた経験がある。
そのため、集計、解析する前に、検索コマンドを投入した時点で、
プログラマであれば統計処理もすませることができるため、
自分でプログラミング言語を少しでも触ってみると、
それまで表計算ソフトでやっていたことが、表計算ソフトを使わなくてもできることに驚くかもしれない。
大量のデータの処理は表計算ソフトではできないことがある。プログラミング言語で記述すると、複雑な制約条件を設定することが可能になる。
表計算ソフトでは十分にできなかったことがある人、
表計算ソフトでしか統計処理はできないと思っている人には、
自分でプログラムを書いてみるよい機会かもしれない。
データ処理は、複数の方法をとって、その結果が同じであるかどうかを検証することは必須である。
合計であれば、縦横の合計が同じになる方法も一つであるため、一つの検証をしたことなる。
分析作業で、しばしばソフトウェアの入力、設定、処理間違いに気がつかずに結論を出してしまうことがある。
責任ある結果を出そうとする人には、結果を2つの側面から確認するプログラムを書き始めたり、
誰かに検証してもらうための仕様を明確にする第一歩になるかもしれない。
投稿元:
レビューを見る
読まなくても良かった。でも、基本的なことは、読めて良かったと思う。
何か学ぶこと、実践したいなと思うこと、特に無い。