紙の本
SQLを使った分析方法とそのシステム構築について解説してくれる書です!
2019/02/22 14:02
1人中、1人の方がこのレビューが役に立ったと投票しています。
投稿者:ちこ - この投稿者のレビュー一覧を見る
本書は、SQLを使った分析方法とそのシステム構築について非常に分かり易く解説した専門書です。なぜ、SQLかと言えば、これこそが企業において現時点でもっとも制約が少なく実現可能な分析手法と考えられているからです。前半の10章は、SQLの分析方法について一つひとつ詳細に説明され、後半の3章はSQLのシステム構築についての話となっています。ぜひ、企業でデータ分析に携わっている方々には読んでいただきたい一冊です。
投稿元:
レビューを見る
羽生章洋『楽々ERDレッスン』で、RDBMSは情報部門のデータ貴族主義を廃し、ユーザーの手にデータを取り戻し、効果的な(効率的な、ではない)開発を実現するために生まれたとある。
この書籍はそれを実感させる。
投稿元:
レビューを見る
3年ほど前のプロジェクトが終わったあとに、読んでみようと買った本。
半分くらい読み進めて、そのままになってました(使う機会がない。。。)が、ちょうどまたちょこっと基本的なデータ抽出と計算で使う機会ができたので、また読み返そうと思います。といっても、本格的にはできないんだけど、何ができそうで、どれくらい大変かくらいは理解しておきたいので。
でもまあ、いまはPythonなのかな。もっと複雑なことできそうだし。
※18年8月追記
投稿元:
レビューを見る
青木さんってこんなことやっていたんだ。普段SQLを書かないけど、こういう説明の順番もあるのかと勉強になった。2部も面白い箇所がいろいろあったけど、盛り込み過ぎな感もあり、1部をもう少し厚くした方がよかったのではという初見。
投稿元:
レビューを見る
良書。データ分析に挑戦したい人(特に文系でプログラミングとかよく分からない人)は、Rに手を出す前にこの本を読んで、SQLから分析を始めるべし。内容もかなり実用的で使える。
投稿元:
レビューを見る
SQLを用いたデータ分析についての本。
OLTP(業務システムやウェブアプリケーションで用いる処理)と分析処理は異なるらしい。例えば、MySQLはOLTP向けで、分析向けじゃないとか。それにしても、何でMySQLはウィンドウ関数を実装しないのだろう……。
後、分析処理の場合は、インデックスはあまり効果がないらしい。大量のデータを使うからとのことだけど、そういうもんなのか。
それと、サブクエリーを使うと遅いというイメージがあるけど、それはMySQLだけなんだとか。こうやって見てみると、MySQLの利点ってほとんどないような気がする。
後、ウィンドウ関数のlagとleadという関数を初めて知った。これは確かに便利そう。覚えておきたい。
ウィンドウフレームというという仕組みも初めて知った。グループ化する時にbetweenで範囲を指定できるんだとか。
PostgreSQLだとこういった機能を使えるとのこと。PostgreSQLいいなぁ。使ってみたい。
投稿元:
レビューを見る
この本を読むと、SQLを本当に使いこなせれば、確かにあと10年は戦える感じがします。
postgreSQLは10年前からありましたし、そういう意味では、10年前にSQLをモノにできた人は、20年戦えた、ということなのかもしれません。
SQLの話しだけでなく、データベースの話し、データ分析全般の話し、最新キーワードの説明、1冊でかなり広い範囲について基本的な理解をすることができました。
遅ればせながら、やっとSQLの基本的な処理についてかかれた本を読んで、言っていることがわかりかけてきたので、ここから実地練習する動機付けになりました。
投稿元:
レビューを見る
たしかにこれまで認識していたsqlの活用範囲を超える面白い内容だった。が、タブローみたいな手頃なbiツールを使ってるならそっちの方が楽だし早いとは思う
投稿元:
レビューを見る
全体的に知っている内容だった。
ただ一部のウィンドウ関数の機能などは知らない部分あり多少は役に立った。
投稿元:
レビューを見る
基本的な内容を期待して読んだが、SQLの書き方の話が多く、素人の私には少し辛かった。この内容が理解できるようになるための本があるといいなと思った。
投稿元:
レビューを見る
以下の箇所に非常に共感。
「…何年もいろいろなエンジニアを見ていてつくづく思うのですが、だいたい初心者ほどマニュアルを見ていません。熟練したエンジニアはマニュアルをよく見ます。…
たぶん、「ちゃんと確認する」というのはエンジニアとしてのスキルの一種なのです。」
これは、エンジニアに限らない話だと思う。原理原則に遡ることは何事も重要である。たとえば、リーガル関連。法律文や運用基準などに何と書いてあるかを読み込まない人が良いアウトプットを出せるわけがない。
以下、引用。
PostgreSQLを選択した理由は次の3つがあります。
1.誰でも無料で入手できる
2.シェアの高いOracleやSQL ServerとSQLが比較的似ている
3.多機能で、データ活用のために必要な高度な機能が揃っている
select文のことをクエリ―と呼ぶこともあります。
処理対象テーブル(from節で選択)→Where節による絞り込み→group by節によるグループ化→select節による計算→集約関数による集約→having節による絞り込み→order by節によるソート→limit節による絞り込み
もともとSQLは「コンピューターを使う人が自分でプログラミングする」というコンセプトのもとに作られました。このコンセプトをエンドユーザーコンピューティング(EUC)と言います。
最近になって、RDBMSへのデータ取り込みの新しい課題が問題になりつつあります。それは、JSON形式やXML形式を使って、カラム数や個数が不定のデータが大々的に取り込まれるようになってきたことです。
DWHとは次の4つの特徴を持ったデータベースです。
1.サブジェクトごとに編成されていること
2.データが統合されていること
3.時系列データを持つこと
4.データが永続すること
データマートは1つのサブジェクトを分析するための専用データベースで、サブジェクトごとに別々のデータマートを作成します。
非常に乱暴に言ってしまうと、DWHがデータ品質を重視して「ちゃんと」作り込みましょうというアプローチであるのに対して、データマートは「とりあえず」いま使えるものをすぐに、安く作ろうというアプローチです。
Hadoopは、Googleのシステムの影響を受けて開発された、オープンソースの分散データ処理システムです。