紙の本
統計的データクリーニングの理論と実践 Rによるデータ編集/欠測補完システム
著者 Mark van der Loo (著),Edwin de Jonge (著),地道 正行 (訳),高橋 雅夫 (訳),藤野 友和 (訳),安川 武彦 (訳),和田 かず美 (訳)
様々なタイプのデータを含むファイルをクリーンにするために、公的統計の分野で長年培われてきた技術と理論を幅広くまとめ、汎用的なデータクリーニングシステムをRで構築する方法を...
統計的データクリーニングの理論と実践 Rによるデータ編集/欠測補完システム
あわせて読みたい本
前へ戻る
- 対象はありません
次に進む
このセットに含まれる商品
前へ戻る
- 対象はありません
次に進む
商品説明
様々なタイプのデータを含むファイルをクリーンにするために、公的統計の分野で長年培われてきた技術と理論を幅広くまとめ、汎用的なデータクリーニングシステムをRで構築する方法を紹介する。【「TRC MARC」の商品解説】
統計的なデータクリーニングシステムを構築するための包括的なガイド
データクリーニングとは、入手した原データを、分析に耐えうる品質にするために、エラーや矛盾する値を検出・修正し、欠測を補完する作業のことで、データ分析においてしばしば最も時間のかかるプロセスである。公的統計分野において、この分野は「データ編集」とも呼ばれ、この50年余に多くの知見が蓄積されてきたが、一般の統計のコミュニティにおける文献は多くない。
本書は、2013年に開催された世界規模のRユーザーカンファレンスであるuseR!2013において行われたデータクリーニングのチュートリアルがきっかけとなり,オランダ統計局の研究部門に所属する著者によって書かれている。近年のビックデータ時代の到来により、調査集計を行う公的統計部局は行政記録その他の幅広いデータを取り扱うようになるとともに、より広い分野においてもデータの入手が容易になったためにデータクリーニングの要請は広がり、公的統計分野での知見はより多くの分野で役立つ可能性を持っている。
著者は、本書で紹介されるデータ検証やエラーの局所化、エラー修正のための様々な方法や欠測値の補完といった様々なデータクリーニングのためのRのパッケージの多くを開発しており、実際に使用するためのコード例も豊富に掲載され、数値やテキスト、日付等のデータの取り扱いや、数値計算時の留意点など、プログラミングに関する内容も収録されている。
本書の特徴
データ分析を行う際に、しばしば最も手のかかるデータクリーニングに焦点を当て、理論とRによる実装の双方向から解説
アドホックで、データ毎に異なるカスタムメイドのクリーニングシステムではなく、汎用性を重視した構築の方法論も解説
データの矛盾を解消し、欠測を補完するための統計的手法、バッチ処理化やデータ変遷のモニタリングについても解説
〔原著〕Statistical Data Cleaning with Applications in R, Wiley, 2018.【商品解説】
目次
- 第1章 データクリーニング
- 1.1 統計的バリューチェーン
- 1.1.1 原データ
- 1.1.2 入力データ
- 1.1.3 有効データ
- 1.1.4 統計数値
- 1.1.5 出力
- 1.2 本書での表記法と規則
- 第2章 R入門
著者紹介
Mark van der Loo
- 略歴
- 〈Mark van der Loo〉オランダ統計局統計的方法論部門所属。
〈Edwin de Jonge〉オランダ統計局統計的方法論部門所属。
関連キーワード
この著者・アーティストの他の商品
前へ戻る
- 対象はありません
次に進む