サイト内検索

詳細
検索

ヘルプ

セーフサーチについて

性的・暴力的に過激な表現が含まれる作品の表示を調整できる機能です。
ご利用当初は「セーフサーチ」が「ON」に設定されており、性的・暴力的に過激な表現が含まれる作品の表示が制限されています。
全ての作品を表示するためには「OFF」にしてご覧ください。
※セーフサーチを「OFF」にすると、年齢認証ページで「はい」を選択した状態になります。
※セーフサーチを「OFF」から「ON」に戻すと、次ページの表示もしくはページ更新後に認証が入ります。

新規会員70%OFFクーポン

目次

    Day1 強化学習の位置づけを知る
     強化学習とさまざまなキーワードの関係
     強化学習のメリット・デメリット
     強化学習における問題設定:Markov Decision Process 

    Day2 強化学習の解法(1): 環境から計画を立てる
     価値の定義と算出: Bellman Equation
     動的計画法による状態評価の学習: Value Iteration
     動的計画法による戦略の学習: Policy Iteration
     モデルベースとモデルフリーとの違い

    Day3 強化学習の解法(2): 経験から計画を立てる
     経験の蓄積と活用のバランス: Epsilon-Greedy法
     計画の修正を実績から行うか、予測で行うか: Monte Carlo vs Temporal Difference
     経験を価値評価、戦略どちらの更新に利用するか:Valueベース vs Policyベース

    Day4 強化学習に対するニューラルネットワークの適用
     強化学習にニューラルネットワークを適用する
     価値評価を、パラメーターを持った関数で実装する:Value Function Approximation
     価値評価に深層学習を適用する:Deep Q-Network
     戦略を、パラメーターを持った関数で実装する:Policy Gradient
     戦略に深層学習を適用する:Advantage Actor Critic (A2C)
     価値評価か、戦略か

    Day5 強化学習の弱点
     サンプル効率が悪い
     局所最適な行動に陥る、過学習をすることが多い
     再現性が低い
     弱点を前提とした対応策

    Day6 強化学習の弱点を克服するための手法
     サンプル効率の悪さへの対応: モデルベースとの併用/表現学習
     再現性の低さへの対応: 進化戦略
     局所最適な行動/過学習への対応: 模倣学習/逆強化学習

    Day7 強化学習の活用領域
     行動の最適化
     学習の最適化

情報理論・情報科学 ランキング

本の通販連携サービス

このページの先頭へ

×

hontoからおトクな情報をお届けします!

割引きクーポンや人気の特集ページ、ほしい本の値下げ情報などをプッシュ通知でいち早くお届けします。