「honto 本の通販ストア」サービス終了及び外部通販ストア連携開始のお知らせ
詳細はこちらをご確認ください。
紙の本
速習強化学習 基礎理論とアルゴリズム
著者 Csaba Szepesvári (著),小山田 創哲 (訳者代表・編集),前田 新一 (監訳),小山 雅典 (監訳)
強化学習を体系的に学べるテキスト。動的計画法に基づいた強化学習のアルゴリズムに主眼を置いて解説し、多岐にわたる学習問題を挙げ、それらを解くアルゴリズムやアイデア、その理論...
速習強化学習 基礎理論とアルゴリズム
このセットに含まれる商品
前へ戻る
- 対象はありません
次に進む
商品説明
強化学習を体系的に学べるテキスト。動的計画法に基づいた強化学習のアルゴリズムに主眼を置いて解説し、多岐にわたる学習問題を挙げ、それらを解くアルゴリズムやアイデア、その理論的特徴と制約について論じる。【「TRC MARC」の商品解説】
GoogleのAlphaGoによるプロ棋士打破は,人工知能がヒトを超えた学習を行った歴史的出来事として認識された。強化学習はここで重要な役割を果たしてているだけでなく,自動運転やロボット制御などの重要な分野への応用も知られ,いま世間の強い関心を集めている。その一方,日本語で強化学習を体系的に学べる教科書は多くはなく,代表的な教科書であるSutton and Barto (1998)とその訳書も出版から20年が経とうとしている。
本書はトップ会議のチュートリアルで利用されたり,2010年の出版以降わずか数年で500弱の引用がされたりという事実からも窺えるように,入門書として広く読まれている良書である。本書の内容は動的計画法などの基本的かつ重要なアルゴリズムに始まり,比較的新しい手法も体系的に網羅しつつもコンパクトに自己完結している。原著の出版から7年あまり経つが,近年の発展は本書で掲載されたアルゴリズム・アイデアをその基礎においている。特に本書では,深層学習を利用した深層強化学習を含む最近の発展に,本書で紹介されたアルゴリズムがどのように使われているかを解説した訳者補遺を追加することで,本書と最先端の研究との橋渡しをしている。【商品解説】
目次
- 第1章 マルコフ決定過程
- 1.1 本書の表記と前提とする知識
- 1.2 マルコフ決定過程
- 1.3 価値関数
- 1.4 MDPを解くための動的計画法
- 第2章 価値推定問題
- 2.1 有限な状態空間でのTD学習
- 2.1.1 テーブルTD(0)法
- 2.1.2 逐一訪問モンテカルロ法
あわせて読みたい本
前へ戻る
- 対象はありません
次に進む
この著者・アーティストの他の商品
前へ戻る
- 対象はありません
次に進む