サイト内検索

詳細検索

ヘルプ

セーフサーチについて

性的・暴力的に過激な表現が含まれる作品の表示を調整できる機能です。
ご利用当初は「セーフサーチ」が「ON」に設定されており、性的・暴力的に過激な表現が含まれる作品の表示が制限されています。
全ての作品を表示するためには「OFF」にしてご覧ください。
※セーフサーチを「OFF」にすると、アダルト認証ページで「はい」を選択した状態になります。
※セーフサーチを「OFF」から「ON」に戻すと、次ページの表示もしくはページ更新後に認証が入ります。

【HB】丸善丸の内本店×hontoブックツリー「ブックツリーで読む最近の文学賞」ポイント5倍キャンペーン(~3/27)

電子書籍化お知らせメール

商品が電子書籍化すると、メールでお知らせする機能です。
「メールを登録する」ボタンを押して登録完了です。
キャンセルをご希望の場合は、同じ場所から「メール登録を解除する」を押してください。

電子書籍化したら知らせてほしい

Pythonで学ぶ強化学習 入門から実践まで
Pythonで学ぶ強化学習 入門から実践まで Pythonで学ぶ強化学習 入門から実践まで
  • みんなの評価 5つ星のうち 未評価
  • あなたの評価 評価して"My本棚"に追加 評価ありがとうございます。×
  • カテゴリ:一般
  • 発売日:2019/01/17
  • 出版社: 講談社
  • サイズ:21cm/299p
  • 利用対象:一般
  • ISBN:978-4-06-514298-1
  • 国内送料無料
専門書

紙の本

Pythonで学ぶ強化学習 入門から実践まで (機械学習スタートアップシリーズ)新刊

著者 久保 隆宏 (著)

強化学習の技術をPythonプログラミングとともに、ゼロからていねいに解説。実用でのネックとなる強化学習の弱点と、その克服方法まで紹介する。サンプルコードのダウンロードサ...

もっと見る

Pythonで学ぶ強化学習 入門から実践まで (機械学習スタートアップシリーズ)

3,024(税込)

予約購入とは

まだ販売されていない電子書籍の予約ができます。予約すると、販売開始日に自動的に決済されて本が読めます。

  • 商品は販売開始日にダウンロード可能となります。
  • 価格と販売開始日は変更となる可能性があります。
  • ポイント・クーポンはご利用いただけません。
  • 間違えて予約購入しても、予約一覧から簡単にキャンセルができます。
  • honto会員とクレジットカードの登録が必要です。未登録でも、ボタンを押せばスムーズにご案内します。

予約購入について詳しく見る

ワンステップ購入とは

ワンステップ購入とは、ボタンを1回押すだけでカートを通らずに電子書籍を購入できる機能です。

こんな方にオススメ

  • とにかくすぐ読みたい
  • 購入までの手間を省きたい
  • ポイント・クーポンはご利用いただけません。
  • 間違えて購入しても、完了ページもしくは購入履歴詳細から簡単にキャンセルができます。
  • 初めてのご利用でボタンを押すと会員登録(無料)をご案内します。購入する場合はクレジットカード登録までご案内します。

キャンセルについて詳しく見る

新刊お知らせメール登録

この著者の新着情報

一覧を見る

あわせて読みたい本

この商品に興味のある人は、こんな商品にも興味があります。

前へ戻る

  • 対象はありません

次に進む

このセットに含まれる商品

前へ戻る

  • 対象はありません

次に進む

商品説明

強化学習の技術をPythonプログラミングとともに、ゼロからていねいに解説。実用でのネックとなる強化学習の弱点と、その克服方法まで紹介する。サンプルコードのダウンロードサービス付き。【「TRC MARC」の商品解説】

・Pythonプログラミングとともに、ゼロからていねいに解説。
・コードが公開されているから、すぐ実践できる。
・実用でのネックとなる強化学習の弱点と、その克服方法まで紹介。

【おもな内容】

Day1 強化学習の位置づけを知る

Day2 強化学習の解法(1): 環境から計画を立てる
 価値の定義と算出: Bellman Equation
 動的計画法による状態評価の学習: Value Iteration
 動的計画法による戦略の学習: Policy Iteration
 モデルベースとモデルフリーとの違い

Day3 強化学習の解法(2): 経験から計画を立てる
 経験の蓄積と活用のバランス: Epsilon-Greedy法
 計画の修正を実績から行うか、予測で行うか: Monte Carlo vs Temporal Difference
 経験を状態評価、戦略どちらの更新に利用するか

Day4 強化学習に対するニューラルネットワークの適用
 強化学習にニューラルネットワークを適用する
 状態評価を、パラメーターを持った関数で実装する: Value Function Approximation
 状態評価に深層学習を適用する: Deep Q-Network
 戦略を、パラメーターを持った関数で実装する: Policy Gradient
 戦略に深層学習を適用する: Advantage Actor Critic(A2C)
 状態評価か、戦略か

Day5 強化学習の弱点
 サンプル効率が悪い
 局所最適な行動に陥る、過学習をすることが多い
 再現性が低い
 弱点を前提とした対応策

Day6 強化学習の弱点を克服するための手法
 サンプル効率の悪さへの対応:モデルベースとの併用/表現学習
 再現性の低さへの対応:進化戦略
 局所最適な行動/過学習への対応:模倣学習/逆強化学習

Day7 強化学習の活用領域
 行動の最適化
 学習の最適化【商品解説】

目次

  • Day1 強化学習の位置づけを知る
  • Day2 強化学習の解法(1): 環境から計画を立てる
  • Day3 強化学習の解法(2): 経験から計画を立てる
  • Day4 強化学習に対するニューラルネットワークの適用
  • Day5 強化学習の弱点
  • Day6 強化学習の弱点を克服するための手法
  • Day7 強化学習の活用領域

著者紹介

久保 隆宏

略歴
〈久保隆宏〉TIS株式会社戦略技術センター所属。「人のための要約」を目指し、少ない学習データによる要約の作成・図表化に取り組む。

この著者・アーティストの他の商品

前へ戻る

  • 対象はありません

次に進む

みんなのレビュー0件

みんなの評価0.0

評価内訳

  • 星 5 (0件)
  • 星 4 (0件)
  • 星 3 (0件)
  • 星 2 (0件)
  • 星 1 (0件)

情報理論・情報科学 ランキング

情報理論・情報科学のランキングをご紹介します一覧を見る

前へ戻る

次に進む

×

hontoからおトクな情報をお届けします!

割引きクーポンや人気の特集ページ、ほしい本の値下げ情報などをプッシュ通知でいち早くお届けします。