Reinforcement learning

http://dbpedia.org/resource/Reinforcement_learning an entity of type: Thing

Zpětnovazební učení je způsob učení se pomocí zpětné vazby. Po celý svůj život dostáváme ze svého okolí nepřetržitě zpětnou vazbu. Často ji ale sami neregistrujeme a naše budoucí chování pak není ovlivněno, protože jsme mezi své zkušenosti a znalosti nepřidali informace získané zpětnou vazbou. Kritickým faktorem zpětnovazebního učení je tedy uvědomění zpětné vazby. V praxi se k tomu využívá často lektor, který nám zpětnou vazbu pomůže identifikovat,nebo nám ji podá. rdf:langString

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (ex. : robot), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps. rdf:langString

強化学習（きょうかがくしゅう、英: reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習やQ学習が知られている。 rdf:langString

Обучение с подкреплением (англ. reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Откликом среды (а не специальной системы управления подкреплением, как это происходит в обучении с учителем) на принятые решения являются сигналы подкрепления, поэтому такое обучение является частным случаем обучения с учителем, но учителем является среда или её модель. Также нужно иметь в виду, что некоторые правила подкрепления базируются на неявных учителях, например, в случае искусственной нейронной среды, на одновременной активности формальных нейронов, из-за чего их можно отнести к обучению без учителя. rdf:langString

التعليم المعزز (reinforcement learning) هو مجال من مجالات التعليم الآلي يختص بكيفية جعل الوكيل المُبرمَج يتخذ القرار (الاختيار) في بيئة من أجل تعظيم المكافأة الكلية. التعليم المعزز هو أحد فروع التعليم الآلى الثلاثة بجانب التعليم المراقب وغير المراقب. يختلف التعليم المعزز عن التعليم المراقب بأنه لا يحتاج إلى أي أزواج من المدخلات والمخرجات، ولا يحتاج إلى تصحيح القرارات (الاختيارات) غير المثالية بشكل مباشر. عوضًا عن ذلك، يتم التركيز على الأداء المباشر، الذي ينطوي على إيجاد توازن بين الاستكشاف (للفضاء غير المجهول) و الاستغلال (للمعرفة الحالية). rdf:langString

L'aprenentatge per reforç, o RL de l'anglès reinforcement learning, és una àrea de l'aprenentatge automàtic que desenvolupa agents que poden aprendre a triar les accions que han de realitzar en un entorn, simulat o real, per maximitzar una recompensa de forma autònoma. Més col·loquialment, l'aprenentatge per reforç estudia sistemes que interactuen amb el seu entorn i aprenen a triar les accions que funcionen millor automàticament. rdf:langString

Bestärkendes Lernen oder verstärkendes Lernen (englisch reinforcement learning, RL) steht für eine Reihe von Methoden des maschinellen Lernens, bei denen ein Agent selbstständig eine Strategie (englisch policy) erlernt, um erhaltene Belohnungen zu maximieren. Dabei wird dem Agenten nicht vorgezeigt, welche Aktion in welcher Situation die beste ist, sondern er erhält durch die Interaktion mit seiner Umwelt zu bestimmten Zeitpunkten eine Belohnung, die auch negativ sein kann. rdf:langString

Η ενισχυτική μάθηση (reinforcement learning) στην επιστήμη των υπολογιστών είναι ένας γενικός όρος που έχει δοθεί σε μια οικογένεια τεχνικών στις οποίες το σύστημα μάθησης προσπαθεί να μάθει μέσα από την άμεση αλληλεπίδραση με το περιβάλλον. Εφαρμόζεται στον έλεγχο κίνησης ρομπότ, στη βελτιστοποίηση εργασιών σε εργοστάσια, στη μάθηση επιτραπέζιων παιχνιδιών, κτλ. Η έννοια της ενισχυτικής μάθησης είναι εμπνευσμένη από τα αντίστοιχα ανάλογα της μάθησης με επιβράβευση και τιμωρία που συναντώνται ως μοντέλα μάθησης των έμβιων όντων. Σκοπός του συστήματος μάθησης είναι να μεγιστοποιήσει μια συνάρτηση του αριθμητικού σήματος ενίσχυσης (ανταμοιβή), για παράδειγμα την αναμενόμενη τιμή του σήματος ενίσχυσης στο επόμενο βήμα. Το σύστημα δεν καθοδηγείται από κάποιον εξωτερικό επιβλέποντα για το ποια rdf:langString

El aprendizaje por refuerzo o aprendizaje reforzado (en inglés, reinforcement learning) es un área del aprendizaje automático inspirada en la psicología conductista, cuya ocupación es determinar qué acciones debe escoger un agente de software en un entorno dado con el fin de maximizar alguna noción de "recompensa" o premio acumulado. El problema, por su generalidad, se estudia en muchas otras disciplinas, como la teoría de juegos, teoría de control, investigación de operaciones, teoría de la información, la optimización basada en la simulación, estadística y algoritmos genéticos. En otros campos de investigación, donde se estudian los métodos de aprendizaje de refuerzo, se lo conoce como programación dinámica aproximada. El problema se ha estudiado en la teoría de control óptimo, aunque la rdf:langString

Reinforcement learning (RL) is an area of machine learning concerned with how intelligent agents ought to take actions in an environment in order to maximize the notion of cumulative reward. Reinforcement learning is one of three basic machine learning paradigms, alongside supervised learning and unsupervised learning. rdf:langString

L'apprendimento per rinforzo (o reinforcement learning) è una tecnica di apprendimento automatico che punta a realizzare agenti autonomi in grado di scegliere azioni da compiere per il conseguimento di determinati obiettivi tramite interazione con l'ambiente in cui sono immersi. rdf:langString

강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 이러한 문제는 매우 포괄적이기 때문에 게임 이론, 제어이론, 운용 과학, 정보 이론, 시뮬레이션 기반 최적화, , 떼 지능, 통계학, 유전 알고리즘 등의 분야에서도 연구된다. 운용 과학과 제어 이론에서 강화 학습이 연구되는 분야는 "근사 동적 계획법"이라고 불린다. 또한 최적화 제어 이론에서도 유사한 문제를 연구하지만, 대부분의 연구가 최적해의 존재와 특성에 초점을 맞춘다는 점에서 학습과 근사의 측면에서 접근하는 강화 학습과는 다르다. 경제학과 게임 이론 분야에서 강화 학습은 어떻게 제한된 합리성 하에서 평형이 일어날 수 있는지를 설명하는 데에 사용되기도 한다. rdf:langString

Uczenie przez wzmacnianie (uczenie posiłkowane) (ang. reinforcement learning, RL) – jeden z trzech głównych nurtów uczenia maszynowego, którego zadaniem jest interakcja ze środowiskiem za pomocą polityki na podstawie zebranych przez nią informacji. W przeciwieństwie do uczenia nadzorowanego i nienadzorowanego w uczeniu przez wzmacnianie nie przygotowuje się zestawu danych uczących, tylko środowisko (ang. environment), z którego model będzie zbierał dane automatycznie; jego celem jest zmaksymalizowanie zwracanej przez nie nagrody. Większość algorytmów uczenia przez wzmacnianie polega na przygotowaniu polityki, zebraniu za jej pomocą danych o środowisku do bufora, wytrenowaniu jej na ich podstawie i powtarzania tego procesu do osiągnięcia zamierzonego skutku. Środowiskiem może być zależnie o rdf:langString

Förstärkningsinlärning (eng. reinforcement learning) är ett område inom maskininlärning som behandlar hur en mjukvaruagent bör agera för att maximera någon typ av sammanräknad belöning. Förstärkningsinlärning är en av tre grundläggande paradigmer inom maskininlärning, tillsammans med (eng. supervised learning) och (eng. unsupervised learning). rdf:langString

Навчання з підкріпленням (англ. reinforcement learning) — це галузь машинного навчання, натхнена біхевіористською психологією, що вивчає питання про те, які дії (англ. actions) повинні виконувати програмні агенти в певному середовищі (англ. environment) задля максимізації деякого уявлення про сукупну винагороду (англ. reward). Через її універсальність, дану задачу вивчають і багато інших дисциплін, таких як теорія ігор, теорія керування, дослідження операцій, теорія інформації, оптимізація на основі моделювання, поліагентні системи, колективний інтелект, статистика та генетичні алгоритми. В літературі про дослідження та керування операціями галузь, що займається навчанням з підкріпленням, називається наближеним динамічним програмуванням (англ. approximate dynamic programming). Задача навча rdf:langString

强化学习（英語：Reinforcement learning，簡稱RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是，强化学习不需要带标签的输入输出对，同时也无需对非最优解的精确地纠正。其关注点在于寻找探索（对未知领域的）和利用（对已有知识的）的平衡，强化学习中的“探索-利用”的交换，在问题和有限MDP中研究得最多。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多智能体系统、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。在最优控制理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在经济学和博弈论中，强化学习被用来解释在有限理性的条件下如何出现平衡。 rdf:langString

rdfs:label

rdf:langString Reinforcement learning

rdf:langString تعليم مدعوم

rdf:langString Aprenentatge per reforç

rdf:langString Zpětnovazební učení

rdf:langString Bestärkendes Lernen

rdf:langString Ενισχυτική μάθηση

rdf:langString Aprendizaje por refuerzo

rdf:langString Apprentissage par renforcement

rdf:langString Apprendimento per rinforzo

rdf:langString 強化学習

rdf:langString 강화 학습

rdf:langString Uczenie przez wzmacnianie

rdf:langString Förstärkningsinlärning

rdf:langString Обучение с подкреплением

rdf:langString 强化学习

rdf:langString Навчання з підкріпленням

dbpedia-owl:wikiPageID

xsd:integer 66294

dbpedia-owl:wikiPageRevisionID

xsd:integer 1124620606

dbpprop:date

xsd:date 2018-10-08

rdf:langString January 2020

dbpprop:reason

rdf:langString What are the issues that have been settled?

dbpedia-owl:abstract

rdf:langString L'aprenentatge per reforç, o RL de l'anglès reinforcement learning, és una àrea de l'aprenentatge automàtic que desenvolupa agents que poden aprendre a triar les accions que han de realitzar en un entorn, simulat o real, per maximitzar una recompensa de forma autònoma. Més col·loquialment, l'aprenentatge per reforç estudia sistemes que interactuen amb el seu entorn i aprenen a triar les accions que funcionen millor automàticament. És un dels tres paradigmes bàsics de l'aprenentatge automàtic, juntament amb l'aprenentatge supervisat i el no supervisat. A diferència d'aquestes altres dues aproximacions, però, a l'aprenentatge per reforç no se li subministra un conjunt de dades; aprèn a partir de la interacció amb l'entorn, que pot ser el món real o una simulació. Per dur a terme aquesta tasca hi ha nombrosos algorismes, que a grans trets es divideixen en algoritmes basats en model o sense model. Els primers disposen, o generen, un model matemàtic intern per decidir com actuar, l'AlphaZero n'és un exemple particularment famós. Per altra banda, els algorismes sense model relacionen directament l'estat amb la recompensa esperada, alguns dels exemples més populars són els algorismes DQN, A2C i DDPG. L'aprenentatge per reforç té els seus orígens en dos altres camps d'investigació: l'aprenentatge animal i el control òptim. El primer estudia com els animals aprenen a relacionar-se amb el seu entorn amb el mètode d'assaig i error. Per altra banda, la segona àrea analitza el disseny de controladors que optimitzin el comportament d'un sistema dinàmic. Aquests dos camps de recerca es van començar a combinar a principis de la dècada dels 60, però no seria fins als 80 que s'establirien els fonaments actuals d'aquesta àrea. Recentment, la combinació dels mètodes d'aprenentatge per reforç amb aprenentatge profund ha permès resoldre tasques complexes i se n'ha popularitzat l'ús en molts tipus d'aplicacions, com la robòtica o les finances.

rdf:langString Zpětnovazební učení je způsob učení se pomocí zpětné vazby. Po celý svůj život dostáváme ze svého okolí nepřetržitě zpětnou vazbu. Často ji ale sami neregistrujeme a naše budoucí chování pak není ovlivněno, protože jsme mezi své zkušenosti a znalosti nepřidali informace získané zpětnou vazbou. Kritickým faktorem zpětnovazebního učení je tedy uvědomění zpětné vazby. V praxi se k tomu využívá často lektor, který nám zpětnou vazbu pomůže identifikovat,nebo nám ji podá.

rdf:langString التعليم المعزز (reinforcement learning) هو مجال من مجالات التعليم الآلي يختص بكيفية جعل الوكيل المُبرمَج يتخذ القرار (الاختيار) في بيئة من أجل تعظيم المكافأة الكلية. التعليم المعزز هو أحد فروع التعليم الآلى الثلاثة بجانب التعليم المراقب وغير المراقب. يختلف التعليم المعزز عن التعليم المراقب بأنه لا يحتاج إلى أي أزواج من المدخلات والمخرجات، ولا يحتاج إلى تصحيح القرارات (الاختيارات) غير المثالية بشكل مباشر. عوضًا عن ذلك، يتم التركيز على الأداء المباشر، الذي ينطوي على إيجاد توازن بين الاستكشاف (للفضاء غير المجهول) و الاستغلال (للمعرفة الحالية). في مجال تعليم الآلة، عادة ما تصاغ البيئة كـعملية ماركوف لاتخاذ القرار (MDP) ، كما أن العديد من خوارزميات التعليم المعزز في هذا السياق تستخدم تقنيات البرمجة الديناميكية. الفرق الرئيسي بين الأساليب التقليدية للبرمجة الديناميكية وخوارزميات التعليم المعزز في هو أن الأخير لا يفترض الكثير من المعلومات عن الMDP، كما أنه يستطيع استهداف الMDP الكبيرة جدًا التي يصعب بها تطبيق الأساليب الدقيقة exact methods.

rdf:langString Η ενισχυτική μάθηση (reinforcement learning) στην επιστήμη των υπολογιστών είναι ένας γενικός όρος που έχει δοθεί σε μια οικογένεια τεχνικών στις οποίες το σύστημα μάθησης προσπαθεί να μάθει μέσα από την άμεση αλληλεπίδραση με το περιβάλλον. Εφαρμόζεται στον έλεγχο κίνησης ρομπότ, στη βελτιστοποίηση εργασιών σε εργοστάσια, στη μάθηση επιτραπέζιων παιχνιδιών, κτλ. Η έννοια της ενισχυτικής μάθησης είναι εμπνευσμένη από τα αντίστοιχα ανάλογα της μάθησης με επιβράβευση και τιμωρία που συναντώνται ως μοντέλα μάθησης των έμβιων όντων. Σκοπός του συστήματος μάθησης είναι να μεγιστοποιήσει μια συνάρτηση του αριθμητικού σήματος ενίσχυσης (ανταμοιβή), για παράδειγμα την αναμενόμενη τιμή του σήματος ενίσχυσης στο επόμενο βήμα. Το σύστημα δεν καθοδηγείται από κάποιον εξωτερικό επιβλέποντα για το ποια ενέργεια θα πρέπει να ακολουθήσει αλλά πρέπει να ανακαλύψει μόνο του ποιες ενέργειες είναι αυτές που θα του αποφέρουν το μεγαλύτερο κέρδος.

rdf:langString Bestärkendes Lernen oder verstärkendes Lernen (englisch reinforcement learning, RL) steht für eine Reihe von Methoden des maschinellen Lernens, bei denen ein Agent selbstständig eine Strategie (englisch policy) erlernt, um erhaltene Belohnungen zu maximieren. Dabei wird dem Agenten nicht vorgezeigt, welche Aktion in welcher Situation die beste ist, sondern er erhält durch die Interaktion mit seiner Umwelt zu bestimmten Zeitpunkten eine Belohnung, die auch negativ sein kann. Der Begriff ist der Psychologie entlehnt und wurde bereits seit den Anfängen der Kybernetik verwendet. So benutzte schon Marvin Minsky den Begriff in seiner Dissertation von 1954. Die Modelle des bestärkenden Lernens versuchen das Lernverhalten in der Natur nachzubilden. Es besteht eine besonders enge Beziehung des bestärkenden Lernens zur dynamischen Programmierung und optimalen Steuerung. In letzteren ist anders als bei ersterem a priori ein Umgebungsmodell gegeben, das die Interaktion mit der Umwelt überflüssig macht.

rdf:langString El aprendizaje por refuerzo o aprendizaje reforzado (en inglés, reinforcement learning) es un área del aprendizaje automático inspirada en la psicología conductista, cuya ocupación es determinar qué acciones debe escoger un agente de software en un entorno dado con el fin de maximizar alguna noción de "recompensa" o premio acumulado. El problema, por su generalidad, se estudia en muchas otras disciplinas, como la teoría de juegos, teoría de control, investigación de operaciones, teoría de la información, la optimización basada en la simulación, estadística y algoritmos genéticos. En otros campos de investigación, donde se estudian los métodos de aprendizaje de refuerzo, se lo conoce como programación dinámica aproximada. El problema se ha estudiado en la teoría de control óptimo, aunque la mayoría de los estudios se centran en la existencia de soluciones óptimas y su caracterización, no en los aspectos de aprendizaje o de aproximación. En la economía y en teoría de juegos, el aprendizaje por refuerzo se puede utilizar para explicar cómo puede surgir equilibrio en condiciones de racionalidad limitada. En aprendizaje de máquina, el medio ambiente es formulado generalmente como un proceso de decisión de Markov (MDP) y muchos algoritmos de aprendizaje por refuerzo están estrechamente relacionados con técnicas de la programación dinámica. La principal diferencia entre las técnicas clásicas y los algoritmos de aprendizaje por refuerzo es que para estos últimos no es necesario el conocimiento de los MDP y se dirigen a grandes MDP donde los métodos exactos se convierten en no viables. El aprendizaje por refuerzo difiere del estándar de aprendizaje supervisado en el que los pares de entradas / salidas correctas nunca se presentan, ni acciones subóptimas corregidas explícitamente. Además, hay un enfoque en el rendimiento en línea, que consiste en encontrar un equilibrio entre la exploración (de un territorio desconocido) y explotación (de los conocimientos actuales).

rdf:langString Reinforcement learning (RL) is an area of machine learning concerned with how intelligent agents ought to take actions in an environment in order to maximize the notion of cumulative reward. Reinforcement learning is one of three basic machine learning paradigms, alongside supervised learning and unsupervised learning. Reinforcement learning differs from supervised learning in not needing labelled input/output pairs be presented, and in not needing sub-optimal actions to be explicitly corrected. Instead the focus is on finding a balance between exploration (of uncharted territory) and exploitation (of current knowledge). The environment is typically stated in the form of a Markov decision process (MDP), because many reinforcement learning algorithms for this context use dynamic programming techniques. The main difference between the classical dynamic programming methods and reinforcement learning algorithms is that the latter do not assume knowledge of an exact mathematical model of the MDP and they target large MDPs where exact methods become infeasible.

rdf:langString En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (ex. : robot), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps.

rdf:langString 強化学習（きょうかがくしゅう、英: reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習やQ学習が知られている。

rdf:langString 강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 이러한 문제는 매우 포괄적이기 때문에 게임 이론, 제어이론, 운용 과학, 정보 이론, 시뮬레이션 기반 최적화, , 떼 지능, 통계학, 유전 알고리즘 등의 분야에서도 연구된다. 운용 과학과 제어 이론에서 강화 학습이 연구되는 분야는 "근사 동적 계획법"이라고 불린다. 또한 최적화 제어 이론에서도 유사한 문제를 연구하지만, 대부분의 연구가 최적해의 존재와 특성에 초점을 맞춘다는 점에서 학습과 근사의 측면에서 접근하는 강화 학습과는 다르다. 경제학과 게임 이론 분야에서 강화 학습은 어떻게 제한된 합리성 하에서 평형이 일어날 수 있는지를 설명하는 데에 사용되기도 한다. 강화 학습에서 다루는 '환경'은 주로 마르코프 결정 과정으로 주어진다. 마르코프 결정 과정 문제를 해결하는 기존의 방식과 강화 학습이 다른 지점은, 강화 학습은 마르코프 결정 과정에 대한 지식을 요구하지 않는다는 점과, 강화 학습은 크기가 매우 커서 결정론적 방법을 적용할 수 없는 규모의 마르코프 결정 과정 문제를 다룬다는 점이다. 강화 학습은 또한 입출력 쌍으로 이루어진 훈련 집합이 제시되지 않으며, 잘못된 행동에 대해서도 명시적으로 정정이 일어나지 않는다는 점에서 일반적인 지도 학습과 다르다. 대신, 강화학습의 초점은 학습 과정에서의(on-line) 성능이며, 이는 탐색(exploration)과 이용(exploitation)의 균형을 맞춤으로써 제고된다. 탐색과 이용의 균형 문제 강화 학습에서 가장 많이 연구된 문제로, (multi-armed bandit problem)와 유한한 마르코프 결정 과정 등에서 연구되었다.

rdf:langString L'apprendimento per rinforzo (o reinforcement learning) è una tecnica di apprendimento automatico che punta a realizzare agenti autonomi in grado di scegliere azioni da compiere per il conseguimento di determinati obiettivi tramite interazione con l'ambiente in cui sono immersi. L'apprendimento per rinforzo è uno dei tre paradigmi principali dell'apprendimento automatico, insieme all'apprendimento supervisionato e a quello non supervisionato. A differenza degli altri due, questo paradigma si occupa di problemi di decisioni sequenziali, in cui l'azione da compiere dipende dallo stato attuale del sistema e ne determina quello futuro. La qualità di un'azione è data da un valore numerico di "ricompensa", ispirata al concetto di rinforzo, che ha lo scopo di incoraggiare comportamenti corretti dell'agente. Questo tipo di apprendimento è solitamente modellizzato tramite i processi decisionali di Markov e può essere effettuato con diverse tipologie di algoritmi, classificabili in base all'utilizzo di un modello che descriva l'ambiente, alle modalità di raccolta dell'esperienza (in prima persona o da parte di terzi), al tipo di rappresentazione degli stati del sistema e delle azioni da compiere (discreti o continui).

rdf:langString Uczenie przez wzmacnianie (uczenie posiłkowane) (ang. reinforcement learning, RL) – jeden z trzech głównych nurtów uczenia maszynowego, którego zadaniem jest interakcja ze środowiskiem za pomocą polityki na podstawie zebranych przez nią informacji. W przeciwieństwie do uczenia nadzorowanego i nienadzorowanego w uczeniu przez wzmacnianie nie przygotowuje się zestawu danych uczących, tylko środowisko (ang. environment), z którego model będzie zbierał dane automatycznie; jego celem jest zmaksymalizowanie zwracanej przez nie nagrody. Większość algorytmów uczenia przez wzmacnianie polega na przygotowaniu polityki, zebraniu za jej pomocą danych o środowisku do bufora, wytrenowaniu jej na ich podstawie i powtarzania tego procesu do osiągnięcia zamierzonego skutku. Środowiskiem może być zależnie od celu nauki gra w przypadku programu uczącego się grać w gry, lub prawdziwy świat, na przykład w przypadku programu uczącego się sterować łazikiem. Uczenie przez wzmacnianie jest powszechnie stosowane do uczenia sztucznej inteligencji grania w gry oraz, coraz częściej, inwestowania na giełdzie.

rdf:langString Förstärkningsinlärning (eng. reinforcement learning) är ett område inom maskininlärning som behandlar hur en mjukvaruagent bör agera för att maximera någon typ av sammanräknad belöning. Förstärkningsinlärning är en av tre grundläggande paradigmer inom maskininlärning, tillsammans med (eng. supervised learning) och (eng. unsupervised learning). Tillvägagångssättet skiljer sig från vägledd maskininlärning genom att man inte behöver tillhandahålla märkt data, d.v.s. data som för varje indatapunkt innehåller en utdatapunkt som används för att träna algoritmen att förutse korrekt utdata då den matas med ny indata. En annan skillnad är att suboptimalt agerande inte behöver korrigeras explicit. Istället ligger fokus på att hitta en balans mellan utforskning (av outforskat territorium) och utnyttjande (av aktuell kunskap). Miljön beskrivs typiskt i form av en (eng. Markov decision process, MDP) eftersom många förstärkningsinlärningsalgoritmer utnyttjar metoder från dynamisk programmering. Den huvudsakliga skillnaden mellan klassiska metoder baserade på dynamisk programmering och förstärkningsinlärningsalgoritmer är att de senare inte antar att en exakt matematisk modell av MDP:n är känd, samt att de riktar sig mot stora MDP:er för vilka exakta metoder blir otillämpbara.

rdf:langString Навчання з підкріпленням (англ. reinforcement learning) — це галузь машинного навчання, натхнена біхевіористською психологією, що вивчає питання про те, які дії (англ. actions) повинні виконувати програмні агенти в певному середовищі (англ. environment) задля максимізації деякого уявлення про сукупну винагороду (англ. reward). Через її універсальність, дану задачу вивчають і багато інших дисциплін, таких як теорія ігор, теорія керування, дослідження операцій, теорія інформації, оптимізація на основі моделювання, поліагентні системи, колективний інтелект, статистика та генетичні алгоритми. В літературі про дослідження та керування операціями галузь, що займається навчанням з підкріпленням, називається наближеним динамічним програмуванням (англ. approximate dynamic programming). Задача навчання з підкріпленням досліджувалася у теорії оптимального керування, проте більшість досліджень стосувалися саме існування оптимальних рішень та їх характеристики, а не аспектів навчання чи наближення. В економіці та теорії ігор навчання з підкріпленням може використовуватись для пояснення того, як може виникати рівновага за обмеженої раціональності. В машинному навчанні середовище зазвичай розглядається як марковський процес вирішування (МПВ, англ. Markov decision process, MDP), оскільки багато алгоритмів навчання з підкріпленням для цього контексту використовують методики динамічного програмування. Основна відмінність між класичними методиками й алгоритмами навчання з підкріпленням полягає в тому, що останні не потребують знання про МПВ, і вони орієнтовані на великі МПВ, в яких точні методи стають нездійсненними. Навчання з підкріпленням відрізняється від стандартного навчання з учителем тим, що пари правильних входів/виходів ніколи не представляються, а недостатньо оптимальні дії явно не виправляються. Крім того, є акцент на інтерактивній продуктивності, який включає знаходження балансу між дослідженням (незвіданої території, англ. exploration) та використанням (поточного знання, англ. exploitation). Компроміс між дослідженням та використанням у навчанні з підкріпленням найретельніше вивчався через задачу багаторукого бандита та скінченні МПВ.

rdf:langString 强化学习（英語：Reinforcement learning，簡稱RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是，强化学习不需要带标签的输入输出对，同时也无需对非最优解的精确地纠正。其关注点在于寻找探索（对未知领域的）和利用（对已有知识的）的平衡，强化学习中的“探索-利用”的交换，在问题和有限MDP中研究得最多。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多智能体系统、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。在最优控制理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在经济学和博弈论中，强化学习被用来解释在有限理性的条件下如何出现平衡。在机器学习问题中，环境通常被抽象为马尔可夫决策过程（Markov decision processes，MDP），因为很多强化学习算法在这种假设下才能使用动态规划的方法。传统的动态规划方法和强化学习算法的主要区别是，后者不需要关于MDP的知识，而且针对无法找到确切方法的大规模MDP。

rdf:langString Обучение с подкреплением (англ. reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Откликом среды (а не специальной системы управления подкреплением, как это происходит в обучении с учителем) на принятые решения являются сигналы подкрепления, поэтому такое обучение является частным случаем обучения с учителем, но учителем является среда или её модель. Также нужно иметь в виду, что некоторые правила подкрепления базируются на неявных учителях, например, в случае искусственной нейронной среды, на одновременной активности формальных нейронов, из-за чего их можно отнести к обучению без учителя.

dbpedia-owl:wikiPageLength

xsd:nonNegativeInteger 48166

rdf:type

owl:Thing

dbpedia-owl:Place

yago:WikicatMarkovModels

yago:Assistant109815790

yago:CausalAgent100007347

yago:LivingThing100004258

yago:Model110324560

yago:Object100002684

yago:Organism100004475