ホーム＞ Python 入門＞教材

「機械学習スタートアップシリーズ　Pythonで学ぶ強化学習　［改訂第2版］　入門から実践まで」（講談社）の評判・価格・レビュー

Python 入門を学ぶための教材の基本情報・価格・レビュー。

PR・広告を含みます

機械学習スタートアップシリーズ　Pythonで学ぶ強化学習　［改訂第2版］　入門から実践までの表紙

著者: 久保隆宏／講談社
価格: 3520円 (楽天ブックス)
発売日: 2019年09月22日頃
楽天レビュー: 4.0（1件）

楽天ブックスで見る ›Amazonで見る ›

Python 入門をスクールで学ぶなら、教育訓練給付で最大80%OFF。

対象講座なら受講料の最大80%（給付区分・上限・要件あり）が後日戻り、実質負担を抑えられます。独学の本＋スクールの併用も。
▶ あなたの講座でいくら戻るか試算（無料・30秒）

スクール教育訓練給付最大80%

SHIFT TERAS CAMPUS東証上場SHIFTが運営

旧DMM WEBCAMP・教育訓練給付最大80%対象

受講料 910,800円 → 給付後約270,800円

✓ 条件を満たせば受講料全額返金の転職保証コースあり（規定あり）
無料相談で適用条件を確認できます

無料で詳細・相談 ›評判・給付の詳しい解説 ›

スクール教育訓練給付最大80%

ディープロ(DPro)

未経験→Webエンジニア・専門実践給付80%対象

受講料 797,800円 → 給付後約344,340円

✓ 規定の就職サポート後に内定なしなら受講料全額返金（規定あり）
無料相談で適用条件を確認できます

無料で詳細・相談 ›評判・給付の詳しい解説 ›

スクールリスキリング最大70%

ポテパンキャンプ

Webエンジニア養成・経産省リスキリング最大70%

受講料 440,000円 → 給付後実質約160,000円〜

✓ 規定の就活で内定なしなら受講料全額返金（条件あり）
無料相談で適用条件を確認できます

無料で詳細・相談 ›評判・給付の詳しい解説 ›

はじめての方へ：教育訓練給付のしくみと損しない選び方　／　申請手順5ステップ

学習・開発環境

ConoHa VPS

Linux・サーバー構築を実機で学べるVPS。時間課金で必要な時だけ立てて消せる。

512MB 月額460円〜（時間課金1.3円/時・初期費用0円）

公式で詳細 ›

学んだ後に「作って公開する」ための環境例です。サーバー・ツールは教育訓練給付／補助の対象外です。

※給付率・実質額は区分（一般20%／特定一般40%／専門実践最大80%）と要件で変わり、即時値引きでなく後日支給です。最終可否はハローワーク・厚労省でご確認ください。掲載はPR（送客手数料を受領）。

この本について

「Pythonで強化学習が実装できる！」と好評を得た入門書の改訂版。読者からの要望・指摘を反映させた。主に、Policy GradientとA2Cの記述・実装を見直した。

・Pythonプログラミングとともに、ゼロからていねいに解説。・コードが公開されているから、すぐ実践できる。・実用でのネックとなる強化学習の弱点と、その克服方法まで紹介。

【おもな内容】

Day1　強化学習の位置づけを知る強化学習とさまざまなキーワードの関係強化学習のメリット・デメリット強化学習における問題設定：Markov Decision Process

Day2　強化学習の解法(1): 環境から計画を立てる価値の定義と算出: Bellman Equation 動的計画法による状態評価の学習: Value Iteration 動的計画法による戦略の学習: Policy Iteration モデルベースとモデルフリーとの違い

Day3　強化学習の解法(2): 経験から計画を立てる経験の蓄積と活用のバランス: Epsilon-Greedy法計画の修正を実績から行うか、予測で行うか: Monte Carlo vs Temporal Difference 経験を価値評価、戦略どちらの更新に利用するか：Valueベース vs Policyベース

Day4　強化学習に対するニューラルネットワークの適用強化学習にニューラルネットワークを適用する価値評価を、パラメーターを持った関数で実装する：Value Function Approximation 価値評価に深層学習を適用する：Deep Q-Network 戦略を、パラメーターを持った関数で実装する：Policy Gradient 戦略に深層学習を適用する：Advantage Actor Critic (A2C) 価値評価か、戦略か

Day5　強化学習の弱点サンプル効率が悪い局所最適な行動に陥る、過学習をすることが多い再現性が低い弱点を前提とした対応策

Day6　強化学習の弱点を克服するための手法サンプル効率の悪さへの対応: モデルベースとの併用/表現学習再現性の低さへの対応: 進化戦略局所最適な行動/過学習への対応: 模倣学習/逆強化学習

Day7　強化学習の活用領域行動の最適化学習の最適化

判型：単行本／シリーズ：KS情報科学専門書

Python 入門とは

Python入門は、コンピュータに命令を書いて動かす基本原理をPythonで学ぶ初級領域です。変数・条件分岐・繰り返し・関数といった土台を、読みやすい書き方とあわせて理解します。ここで考え方を身につけると次の応用分野に接続しやすくなります。

こんな人向け：想定読者はプログラミング未経験者や他言語の経験が浅い人です。PCの基本操作と英字入力ができ、エラーが出たときに原因を探す姿勢があれば入りやすいです。

独学ロードマップでの位置

Python入門は、アルゴリズムやデータ処理などの中核テーマへ進む前の基礎作りです。暗記中心ではなく、問題を解く手順を説明できる状態を作ることを重視すると、次の学習との接続が滑らかになります。

まず学習ゴールを決め、毎日少しでも触れ続けられる環境を整える。
変数・データ型・演算・入出力を自分の言葉で説明しながらコード化する。
条件分岐や繰り返しで処理の流れを作り、期待値と実行結果を照合する。
関数を使って処理を分割し、標準機能やファイルの基本操作へ広げる。
小規模な実例でデバッグを繰り返し、説明力と再利用性を一度に鍛える。

独学で足りる？体系的に学ぶ選択肢

独学では読む時間より、書いて確かめる時間を先に確保するのが有効です。教材を選ぶときは、基礎説明の濃さ、例題の更新性、誤りの原因を分解して示す解説の有無を基準にすると失敗が少ないです。理解度を可視化するために、章ごとに「できること/わからないこと」を短くメモする習慣を作ると、次の教材移行が判断しやすくなります。

独学が不安な人や期限がある人には、進捗管理や質問サポートが含まれる体系的な学習形態が有効です。学習単位が明確で、アウトプット課題まで含む構成だと、習得の進み具合を確認しやすく安心して続けられます。 ▶ 給付でいくら戻るか試算