About: 強化学習

強化学習（きょうかがくしゅう、英: reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習やQ学習が知られている。

Property	Value
dbo:abstract	強化学習（きょうかがくしゅう、英: reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習やQ学習が知られている。 (ja) 強化学習（きょうかがくしゅう、英: reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習やQ学習が知られている。 (ja)
dbo:thumbnail	wiki-commons:Special:FilePath/Reinforcement_learning_diagram.svg?width=300
dbo:wikiPageExternalLink	http://incompleteideas.net/RL-FAQ.html http://nao.s164.xrea.com/RL-FAQ-j.html http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html
dbo:wikiPageID	184928 (xsd:integer)
dbo:wikiPageLength	4649 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID	91944160 (xsd:integer)
dbo:wikiPageWikiLink	dbpedia-ja:Category:人工知能 dbpedia-ja:Category:信念修正 dbpedia-ja:Category:教育心理学 dbpedia-ja:Category:機械学習アルゴリズム dbpedia-ja:Q学習 dbpedia-ja:エージェント dbpedia-ja:ドーパミン dbpedia-ja:ドーパミン作動性ニューロン dbpedia-ja:マルコフ決定過程 dbpedia-ja:モンテカルロ法 dbpedia-ja:動的計画法 dbpedia-ja:大脳基底核 dbpedia-ja:有限集合 dbpedia-ja:機械学習 dbpedia-ja:神経科学 dbpedia-ja:移動平均 dbpedia-ja:自動計画 dbpedia-ja:部分観測マルコフ決定過程 dbpedia-ja:黒質 dbpedia-ja:離散 dbpedia-ja:連続 dbpedia-ja:TD学習 dbpedia-ja:ファイル:Reinforcement_learning_diagram.svg
prop-en:wikiPageUsesTemplate	template-en:En template-en:Lang-en-short template-en:Main template-en:Reflist template-en:See_also template-en:Spedia template-en:脚注ヘルプ template-en:Machine_learning_bar
dct:subject	dbpedia-ja:Category:人工知能 dbpedia-ja:Category:信念修正 dbpedia-ja:Category:教育心理学 dbpedia-ja:Category:機械学習アルゴリズム
rdfs:comment	強化学習（きょうかがくしゅう、英: reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習やQ学習が知られている。 (ja) 強化学習（きょうかがくしゅう、英: reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習やQ学習が知られている。 (ja)
rdfs:label	強化学習 (ja) 強化学習 (ja)
owl:sameAs	freebase:強化学習
prov:wasDerivedFrom	http://ja.wikipedia.org/wiki/強化学習?oldid=91944160&ns=0
foaf:depiction	wiki-commons:Special:FilePath/Reinforcement_learning_diagram.svg
foaf:isPrimaryTopicOf	http://ja.wikipedia.org/wiki/強化学習
is dbo:wikiPageRedirects of	dbpedia-ja:SARSA dbpedia-ja:TD学習
is dbo:wikiPageWikiLink of	dbpedia-ja:DQN_(コンピュータ) dbpedia-ja:DeepMind dbpedia-ja:ELF_OpenGo dbpedia-ja:E資格 dbpedia-ja:GAUSS_(企業) dbpedia-ja:JDLA_Deep_Learning_For_GENERAL dbpedia-ja:KataGo dbpedia-ja:Leela_Chess_Zero dbpedia-ja:Minigo dbpedia-ja:OpenAI dbpedia-ja:Q学習 dbpedia-ja:TensorFlow dbpedia-ja:アンドリュー・トリジェル dbpedia-ja:エンドツーエンドの強化学習 dbpedia-ja:ゲーミフィケーション dbpedia-ja:コンピュータ将棋 dbpedia-ja:ニューラルネットワーク dbpedia-ja:ボルツマンマシン dbpedia-ja:マルコフ決定過程 dbpedia-ja:マルコフ連鎖 dbpedia-ja:モンテカルロ法 dbpedia-ja:レシニフェラトキシン dbpedia-ja:上田隆一 dbpedia-ja:人工知能 dbpedia-ja:回帰型ニューラルネットワーク dbpedia-ja:多腕バンディット問題 dbpedia-ja:大澤昇平 dbpedia-ja:大脳基底核 dbpedia-ja:帰納プログラミング dbpedia-ja:心理学 dbpedia-ja:最強の囲碁 dbpedia-ja:松井謙二 dbpedia-ja:機械学習 dbpedia-ja:眼窩前頭皮質 dbpedia-ja:知的エージェント dbpedia-ja:細田耕 dbpedia-ja:自動計画 dbpedia-ja:被殻 dbpedia-ja:転移学習 dbpedia-ja:進化ロボティクス dbpedia-ja:黒質 dbpedia-ja:AlphaGo dbpedia-ja:AlphaGo対李世ドル dbpedia-ja:Neuroevolution dbpedia-ja:SARSA dbpedia-ja:TD学習
is owl:sameAs of	dbpedia-wikidata:強化学習
is foaf:primaryTopic of	http://ja.wikipedia.org/wiki/強化学習