Apprentissage par renforcement

L’apprentissage par renforcement ( RL ) est un domaine de l’apprentissage automatique qui s’intéresse à la manière dont les agents intelligents doivent agir dans un environnement afin de maximiser la notion de récompense cumulative. L’apprentissage par renforcement est l’un des trois paradigmes de base de l’apprentissage automatique, aux côtés de l’ apprentissage supervisé et de l’apprentissage non supervisé .

L’apprentissage par renforcement diffère de l’apprentissage supervisé en ce qu’il n’est pas nécessaire de présenter des paires entrée/sortie étiquetées et qu’il n’est pas nécessaire de corriger explicitement les actions sous-optimales. Au lieu de cela, l’accent est mis sur la recherche d’un équilibre entre l’exploration (de territoires inexplorés) et l’exploitation (des connaissances actuelles). ^[1] Les algorithmes RL partiellement supervisés peuvent combiner les avantages des algorithmes supervisés et RL. ^[2]

L’environnement est généralement énoncé sous la forme d’un processus de décision de Markov (MDP), car de nombreux algorithmes d’apprentissage par renforcement pour ce contexte utilisent des techniques de programmation dynamique . ^[3] La principale différence entre les méthodes de programmation dynamique classiques et les algorithmes d’apprentissage par renforcement est que ces derniers ne supposent pas la connaissance d’un modèle mathématique exact du MDP et qu’ils ciblent de grands MDP où les méthodes exactes deviennent irréalisables.

Introduction

Le cadrage typique d’un scénario d’apprentissage par renforcement (RL) : un agent effectue des actions dans un environnement, qui sont interprétées en une récompense et une représentation de l’état, qui sont renvoyées à l’agent.

En raison de sa généralité, l’apprentissage par renforcement est étudié dans de nombreuses disciplines, telles que la théorie des jeux , la théorie du contrôle , la recherche opérationnelle , la théorie de l’information , l’optimisation basée sur la simulation , les systèmes multi-agents , l’intelligence en essaim et les statistiques . Dans la littérature sur la recherche opérationnelle et le contrôle, l’apprentissage par renforcement est appelé programmation dynamique approximative ou programmation neurodynamique. Les problèmes d’intérêt en apprentissage par renforcement ont également été étudiés dans la Théorie du contrôle optimal, qui s’intéresse principalement à l’existence et à la caractérisation de solutions optimales et d’algorithmes pour leur calcul exact, et moins à l’apprentissage ou à l’approximation, en particulier en l’absence d’un modèle mathématique de l’environnement. En économie et en théorie des jeux , l’ apprentissage par renforcement peut être utilisé pour expliquer comment l’ équilibre peut survenir sous une rationalité limitée .

Le renforcement de base est modélisé comme un processus décisionnel de Markov (MDP) :

un ensemble d’états d’environnement et d’agent, S ;
un ensemble d’actions, A , de l’agent ;
P un ( s , s ′ ) = Pr ( s t + 1 = s ′ ∣ s t = s , a t = a ) {displaystyle P_{a}(s,s’)=Pr(s_{t+1}=s’mid s_{t}=s,a_{t}=a)} ${displaystyle P_{a}(s,s')=Pr(s_{t+1}=s'mid s_{t}=s,a_{t}=a)}$ ${displaystyle P_{a}(s,s')=Pr(s_{t+1}=s'mid s_{t}=s,a_{t}=a)}$ est la probabilité de transition (au temps t {displaystyle t} ) de l’état s {displaystyle s} établir s ′ {displaystyle s’} en action a {displaystyle a} .
R a ( s , s ′ ) {displaystyle R_{a}(s,s’)} est la récompense immédiate après la transition de s {displaystyle s} pour s ′ {displaystyle s’} avec action a {displaystyle a} .

Le but de l’apprentissage par renforcement est que l’agent apprenne une politique optimale, ou presque optimale, qui maximise la “fonction de récompense” ou un autre signal de renforcement fourni par l’utilisateur qui s’accumule à partir des récompenses immédiates. Ceci est similaire aux processus qui semblent se produire en psychologie animale. Par exemple, les cerveaux biologiques sont câblés pour interpréter des signaux tels que la douleur et la faim comme des renforcements négatifs, et interpréter le plaisir et la prise de nourriture comme des renforcements positifs. Dans certaines circonstances, les animaux peuvent apprendre à adopter des comportements qui optimisent ces récompenses. Cela suggère que les animaux sont capables d’apprentissage par renforcement. ^{[4] [5]}

Un agent d’apprentissage par renforcement de base AI interagit avec son environnement par pas de temps discrets. A chaque instant t , l’agent reçoit l’état courant s t {displaystyle s_{t}} $s_{t}$ $s_{t}$ et récompense r t {displaystyle r_{t}} $r_{t}$ $r_{t}$ . Il choisit alors une action a t {displaystyle a_{t}} $a_{t}$ $a_{t}$ de l’ensemble des actions disponibles, qui est ensuite envoyé à l’environnement. L’environnement passe à un nouvel état s t + 1 {displaystyle s_{t+1}} $s_{t+1}$ $s_{t+1}$ et la récompense r t + 1 {displaystyle r_{t+1}} $r_{t+1}$ $r_{t+1}$ associé à la transition ( s t , a t , s t + 1 ) {displaystyle (s_{t},a_{t},s_{t+1})} $(s_{t},a_{t},s_{t+1})$ $(s_{t},a_{t},s_{t+1})$ est déterminé. Le but d’un agent d’apprentissage par renforcement est d’apprendre une politique : π : A × S → [ 0 , 1 ] {displaystyle pi :Afois Sflèche droite [0,1]} {displaystyle pi :Atimes Srightarrow [0,1]} , π ( a , s ) = Pr ( a t = a ∣ s t = s ) {displaystyle pi (a,s)=Pr(a_{t}=amid s_{t}=s)} ${displaystyle pi (a,s)=Pr(a_{t}=amid s_{t}=s)}$ ${displaystyle pi (a,s)=Pr(a_{t}=amid s_{t}=s)}$ qui maximise la récompense cumulée attendue.

La formulation du problème sous la forme d’un MDP suppose que l’agent observe directement l’état environnemental actuel ; dans ce cas, on dit que le problème a une observabilité totale . Si l’agent n’a accès qu’à un sous-ensemble d’états, ou si les états observés sont corrompus par du bruit, on dit que l’agent a une observabilité partielle , et formellement le problème doit être formulé comme un processus de décision de Markov partiellement observable . Dans les deux cas, l’ensemble des actions disponibles pour l’agent peut être restreint. Par exemple, l’état d’un solde de compte pourrait être restreint à être positif ; si la valeur actuelle de l’état est 3 et que la transition d’état tente de réduire la valeur de 4, la transition ne sera pas autorisée.

Lorsque la performance de l’agent est comparée à celle d’un agent qui agit de manière optimale, la différence de performance donne lieu à la notion de regret . Afin d’agir de manière quasi optimale, l’agent doit raisonner sur les conséquences à long terme de ses actions (c’est-à-dire maximiser les revenus futurs), bien que la récompense immédiate associée à cela puisse être négative.

Ainsi, l’apprentissage par renforcement est particulièrement bien adapté aux problèmes qui incluent un compromis entre récompense à long terme et à court terme. Il a été appliqué avec succès à divers problèmes, notamment le contrôle des robots , ^[6] la planification des ascenseurs , les télécommunications , le backgammon , les dames ^[7] et Go ( AlphaGo ).

Deux éléments rendent l’apprentissage par renforcement puissant : l’utilisation d’échantillons pour optimiser les performances et l’utilisation de l’approximation de fonctions pour traiter de grands environnements. Grâce à ces deux composantes clés, l’apprentissage par renforcement peut être utilisé dans de grands environnements dans les situations suivantes :

Un modèle de l’environnement est connu, mais une solution analytique n’est pas disponible ;
Seul un modèle de simulation de l’environnement est donné (objet d’ une optimisation par simulation ) ; ^[8]
La seule façon de collecter des informations sur l’environnement est d’interagir avec lui.

Les deux premiers de ces problèmes pourraient être considérés comme des problèmes de planification (puisqu’une certaine forme de modèle est disponible), tandis que le dernier pourrait être considéré comme un véritable problème d’apprentissage. Cependant, l’apprentissage par renforcement convertit les deux problèmes de planification en problèmes d’ apprentissage automatique .

Exploration

Le compromis entre l’exploration et l’exploitation a été étudié de manière plus approfondie à travers le problème du bandit multi-armé et pour les MDP à espace d’état fini dans Burnetas et Katehakis (1997). ^[9]

L’apprentissage par renforcement nécessite des mécanismes d’exploration intelligents ; la sélection aléatoire d’actions, sans référence à une distribution de probabilité estimée, montre des performances médiocres. Le cas des (petits) processus de décision de Markov finis est relativement bien compris. Cependant, en raison du manque d’algorithmes qui s’adaptent bien au nombre d’états (ou s’adaptent aux problèmes avec des espaces d’états infinis), les méthodes d’exploration simples sont les plus pratiques.

Une telle méthode est ε {displaystyle varepsilon} -gourmand, où 0 < ε < 1 {displaystyle 0<varepsilon <1} est un paramètre contrôlant la quantité d’exploration par rapport à l’exploitation. Avec probabilité 1 − ε {displaystyle 1-varepsilon} , l’exploitation est choisie, et l’agent choisit l’action qui, selon lui, a le meilleur effet à long terme (les liens entre les actions sont rompus uniformément au hasard). Alternativement, avec probabilité ε {displaystyle varepsilon} , l’exploration est choisie et l’action est choisie uniformément au hasard. ε {displaystyle varepsilon} est généralement un paramètre fixe mais peut être ajusté soit selon un calendrier (ce qui oblige l’agent à explorer progressivement moins), soit de manière adaptative en fonction d’heuristiques. ^[dix]

Algorithmes pour l’apprentissage du contrôle

Même si la question de l’exploration est ignorée et même si l’état était observable (supposé ci-après), le problème reste d’utiliser l’expérience passée pour savoir quelles actions conduisent à des récompenses cumulées plus élevées.

Critère d’optimalité

Politique

La sélection d’actions de l’agent est modélisée sous la forme d’une carte appelée policy :

π : A × S → [ 0 , 1 ] {displaystyle pi :Afois Sflèche droite [0,1]} {displaystyle pi :Atimes Srightarrow [0,1]} π ( a , s ) = Pr ( a t = a ∣ s t = s ) {displaystyle pi (a,s)=Pr(a_{t}=amid s_{t}=s)} ${displaystyle pi (a,s)=Pr(a_{t}=amid s_{t}=s)}$ ${displaystyle pi (a,s)=Pr(a_{t}=amid s_{t}=s)}$

La carte des politiques donne la probabilité d’agir a {displaystyle a} lorsqu’il est en état s {displaystyle s} . ^{[11] : 61} Il existe aussi des politiques déterministes.

Fonction état-valeur

La fonction valeur V π ( s ) {displaystyle V_{pi }(s)} ${displaystyle V_{pi }(s)}$ ${displaystyle V_{pi }(s)}$ est défini comme le rendement attendu commençant par l’état s {displaystyle s} , c’est à dire s 0 = s {displaystyle s_{0}=s} ${displaystyle s_{0}=s}$ ${displaystyle s_{0}=s}$ , et suivant successivement la politique π {style d’affichage pi} . Par conséquent, en gros, la fonction de valeur estime “à quel point” il est bon d’être dans un état donné. ^{[11] : 60}

V π ( s ) = E ⁡ [ R ∣ s 0 = s ] = E ⁡ [ ∑ t = 0 ∞ γ t r t ∣ s 0 = s ] , {displaystyle V_{pi}(s)=operatorname {E} [Rmid s_{0}=s]=operatorname {E} left[sum _{t=0}^{infty } gamma ^{t}r_{t}mid s_{0}=sright],} ${displaystyle V_{pi }(s)=operatorname {E} [Rmid s_{0}=s]=operatorname {E} left[sum _{t=0}^{infty }gamma ^{t}r_{t}mid s_{0}=sright],}$ ${displaystyle V_{pi }(s)=operatorname {E} [Rmid s_{0}=s]=operatorname {E} left[sum _{t=0}^{infty }gamma ^{t}r_{t}mid s_{0}=sright],}$

où la variable aléatoire R {displaystyle R} désigne le rendement et est défini comme la somme des futures récompenses actualisées :

R = ∑ t = 0 ∞ γ t r t , {displaystyle R=sum _{t=0}^{infty}gamma ^{t}r_{t},} ${displaystyle R=sum _{t=0}^{infty }gamma ^{t}r_{t},}$ ${displaystyle R=sum _{t=0}^{infty }gamma ^{t}r_{t},}$

où r t {displaystyle r_{t}} $r_{t}$ $r_{t}$ est la récompense à l’étape t {displaystyle t} , γ ∈ [ 0 , 1 ) {displaystyle gamma in [0,1)} est le taux d’actualisation . Gamma est inférieur à 1, donc les événements dans un futur lointain sont moins pondérés que les événements dans un futur immédiat.

L’algorithme doit trouver une politique avec un rendement maximal attendu. De la théorie des MDPs on sait que, sans perte de généralité, la recherche peut être restreinte à l’ensemble des politiques dites stationnaires . Une politique est stationnaire si la distribution d’action qu’elle renvoie ne dépend que du dernier état visité (issu de l’historique de l’agent d’observation). La recherche peut encore être restreinte aux politiques stationnaires déterministes . Une politique stationnaire déterministe sélectionne de manière déterministe des actions en fonction de l’état actuel. Étant donné qu’une telle politique peut être identifiée avec une mise en correspondance de l’ensemble d’états avec l’ensemble d’actions, ces politiques peuvent être identifiées avec de telles mises en correspondance sans perte de généralité.

Force brute

L’ approche par force brute comporte deux étapes :

Pour chaque politique possible, des exemples de retours en la suivant
Choisissez la police avec le rendement attendu le plus élevé

Un problème avec cela est que le nombre de politiques peut être important, voire infini. Une autre est que la variance des rendements peut être importante, ce qui nécessite de nombreux échantillons pour estimer avec précision le rendement de chaque politique.

Ces problèmes peuvent être atténués si nous supposons une certaine structure et permettons aux échantillons générés à partir d’une politique d’influencer les estimations faites pour les autres. Les deux principales approches pour y parvenir sont l’estimation de la fonction de valeur et la recherche directe de politique .

Fonction valeur

Les approches de la fonction de valeur tentent de trouver une politique qui maximise le rendement en maintenant un ensemble d’estimations des rendements attendus pour une politique (généralement soit la politique « actuelle » [sur la politique] ou la politique optimale [hors politique]).

Ces méthodes reposent sur la théorie des processus de décision de Markov, où l’optimalité est définie dans un sens plus fort que celui ci-dessus : une politique est dite optimale si elle atteint le meilleur rendement attendu à partir de n’importe quel état initial (c’est-à-dire que les distributions initiales ne jouent aucun rôle rôle dans cette définition). Encore une fois, une politique optimale peut toujours être trouvée parmi les politiques stationnaires.

Pour définir l’optimalité de manière formelle, définir la valeur d’une politique π {style d’affichage pi} par

V π ( s ) = E [ R ∣ s , π ] , {displaystyle V^{pi }(s)=E[Rmid s,pi ],} ${displaystyle V^{pi }(s)=E[Rmid s,pi ],}$ ${displaystyle V^{pi }(s)=E[Rmid s,pi ],}$

où R {displaystyle R} représente le retour associé à la suite π {style d’affichage pi} de l’état initial s {displaystyle s} . Définir V ∗ ( s ) {displaystyle V^{*}(s)} $V^{*}(s)$ $V^{*}(s)$ comme la valeur maximale possible de V π ( s ) {displaystyle V^{pi }(s)} $V^{pi }(s)$ $V^{pi }(s)$ , où π {style d’affichage pi} est autorisé à changer,

V ∗ ( s ) = max π V π ( s ) . {displaystyle V^{*}(s)=max _{pi }V^{pi }(s).} ${displaystyle V^{*}(s)=max _{pi }V^{pi }(s).}$ ${displaystyle V^{*}(s)=max _{pi }V^{pi }(s).}$

Une politique qui atteint ces valeurs optimales dans chaque état est appelée optimale . Il est clair qu’une politique qui est optimale dans ce sens fort est également optimale dans le sens où elle maximise le rendement attendu ρ π {displaystyle rho ^{pi }} $rho ^{pi }$ $rho ^{pi }$ , puisque ρ π = E [ V π ( S ) ] {displaystyle rho ^{pi }=E[V^{pi }(S)]} $rho ^{pi }=E[V^{pi }(S)]$ $rho ^{pi }=E[V^{pi }(S)]$ , où S {displaystyle S} est un état échantillonné aléatoirement à partir de la distribution μ {displaystylemu} d’états initiaux (donc μ ( s ) = Pr ( s 0 = s ) {displaystyle mu(s)=Pr(s_{0}=s)} ${displaystyle mu (s)=Pr(s_{0}=s)}$ ${displaystyle mu (s)=Pr(s_{0}=s)}$ ).

Bien que les valeurs d’état suffisent à définir l’optimalité, il est utile de définir les valeurs d’action. Étant donné un état s {displaystyle s} , une action a {displaystyle a} et une politique π {style d’affichage pi} , la valeur d’action de la paire ( s , a ) {displaystyle (s,a)} (s,a) en dessous de π {style d’affichage pi} est défini par

Q π ( s , a ) = E ⁡ [ R ∣ s , a , π ] , {displaystyle Q^{pi }(s,a)=operatorname {E} [Rmid s,a,pi ],,} ${displaystyle Q^{pi }(s,a)=operatorname {E} [Rmid s,a,pi ],,}$ ${displaystyle Q^{pi }(s,a)=operatorname {E} [Rmid s,a,pi ],,}$

où R {displaystyle R} représente maintenant le retour aléatoire associé à la première action a {displaystyle a} en état s {displaystyle s} et suivant π {style d’affichage pi} , après.

La théorie des MDP stipule que si π ∗ {displaystyle pi ^{*}} pi^* est une politique optimale, nous agissons de manière optimale (prendre l’action optimale) en choisissant l’action parmi Q π ∗ ( s , ⋅ ) {displaystyle Q^{pi ^{*}}(s,cdot )} ${displaystyle Q^{pi ^{*}}(s,cdot )}$ ${displaystyle Q^{pi ^{*}}(s,cdot )}$ avec la valeur la plus élevée à chaque état, s {displaystyle s} . La fonction action-valeur d’une telle politique optimale ( Q π ∗ {displaystyle Q^{pi ^{*}}} ${displaystyle Q^{pi ^{*}}}$ ${displaystyle Q^{pi ^{*}}}$ ) est appelée la fonction de valeur d’action optimale et est généralement notée par Q ∗ {displaystyle Q^{*}} $Q^{*}$ $Q^{*}$ . En résumé, la connaissance de la fonction action-valeur optimale suffit à elle seule pour savoir comment agir de manière optimale.

En supposant une connaissance complète du MDP, les deux approches de base pour calculer la fonction action-valeur optimale sont l’ Itération de valeur et l’itération de politique . Les deux algorithmes calculent une séquence de fonctions Q k {displaystyle Q_{k}} $Q_{k}$ $Q_{k}$ ( k = 0 , 1 , 2 , … {displaystyle k=0,1,2,ldots} ){displaystyle k=0,1,2,ldots} qui convergent vers Q ∗ {displaystyle Q^{*}} $Q^{*}$ . Le calcul de ces fonctions implique le calcul des attentes sur l’ensemble de l’espace d’états, ce qui n’est pas pratique pour tous les MDP (finis) sauf les plus petits. Dans les méthodes d’apprentissage par renforcement, les attentes sont approximées en faisant la moyenne sur des échantillons et en utilisant des techniques d’approximation de fonctions pour faire face à la nécessité de représenter des fonctions de valeur sur de grands espaces d’état-action.

Méthodes de Monte Carlo

Les méthodes de Monte Carlo peuvent être utilisées dans un algorithme qui imite l’itération de politique. L’Itération de la politique consiste en deux étapes : l’évaluation de la politique et l’amélioration de la politique .

Monte Carlo est utilisé dans l’étape d’évaluation de la politique. Dans cette étape, étant donné une politique stationnaire et déterministe π {style d’affichage pi} , le but est de calculer les valeurs de la fonction Q π ( s , a ) {displaystyle Q^{pi}(s,a)} $Q^{pi }(s,a)$ $Q^{pi }(s,a)$ (ou une bonne approximation) pour toutes les paires état-action ( s , a ) {displaystyle (s,a)} (s,a) . En supposant (pour simplifier) que le MDP est fini, que suffisamment de mémoire est disponible pour accueillir les valeurs d’action et que le problème est épisodique et après chaque épisode, un nouveau commence à partir d’un état initial aléatoire. Ensuite, l’estimation de la valeur d’un couple état-action donné ( s , a ) {displaystyle (s,a)} (s,a) peut être calculé en faisant la moyenne des rendements échantillonnés provenant de ( s , a ) {displaystyle (s,a)} (s,a) heures supplémentaires. Avec un temps suffisant, cette procédure peut ainsi construire une estimation précise Q {displaystyle Q} de la fonction action-valeur Q π {displaystyle Q^{pi }} $Q^{pi }$ $Q^{pi }$ . Ceci termine la description de l’étape d’évaluation de la politique.

Learn more.

Isomorphisme

Jul 14, 2022

Premier article sur la théorie des ensembles de Cantor

Jul 12, 2022

Énergie gravitationnelle

Jul 9, 2022

Sphère de Riemann

Jul 8, 2022

Dans l’étape d’amélioration de la politique, la politique suivante est obtenue en calculant une politique gloutonne par rapport à Q {displaystyle Q} : Étant donné un état s {displaystyle s} , cette nouvelle politique renvoie une action qui maximise Q ( s , ⋅ ) {displaystyle Q(s,cdot )} . En pratique , l’ évaluation paresseuse peut différer le calcul des actions de maximisation au moment où elles sont nécessaires.

Les problèmes avec cette procédure incluent :

1. La procédure peut passer trop de temps à évaluer une politique sous-optimale.

2. Il utilise des échantillons de manière inefficace en ce sens qu’une longue trajectoire n’améliore l’estimation que de la seule paire état-action qui a démarré la trajectoire.

3. Lorsque les rendements le long des trajectoires ont une variance élevée , la convergence est lente.

4. Cela ne fonctionne que dans les problèmes épisodiques .

5. Cela ne fonctionne que dans les petits MDP finis.

Méthodes de Différence temporelle

Le premier problème est corrigé en permettant à la procédure de modifier la politique (à certains ou à tous les états) avant que les valeurs ne se stabilisent. Cela aussi peut être problématique car cela pourrait empêcher la convergence. La plupart des algorithmes actuels le font, donnant naissance à la classe des algorithmes d’itération de politique généralisés . De nombreuses méthodes critiques d’acteurs appartiennent à cette catégorie.

Le deuxième problème peut être corrigé en permettant aux trajectoires de contribuer à n’importe quelle paire état-action qu’elles contiennent. Cela peut également aider dans une certaine mesure avec le troisième problème, bien qu’une meilleure solution lorsque les rendements ont une variance élevée sont les méthodes de Différence temporelle (TD) de Sutton qui sont basées sur l’ équation récursive de Bellman . ^{[12] [13]} Le calcul dans les méthodes TD peut être incrémental (quand après chaque transition la mémoire est changée et la transition est jetée), ou batch (quand les transitions sont batch et les estimations sont calculées une fois sur la base du batch) . Méthodes par lots, telles que la méthode des différences temporelles des moindres carrés, ^[14]peuvent mieux utiliser les informations contenues dans les échantillons, tandis que les méthodes incrémentales sont le seul choix lorsque les méthodes par lots sont irréalisables en raison de leur grande complexité de calcul ou de mémoire. Certaines méthodes tentent de combiner les deux approches. Les méthodes basées sur les différences temporelles surmontent également le quatrième problème.

Afin de résoudre le cinquième problème, des méthodes d’approximation de fonctions sont utilisées. L’approximation de la fonction linéaire commence par une cartographie φ {displaystylephi } phi qui attribue un vecteur de dimension finie à chaque couple état-action. Ensuite, les valeurs d’action d’une paire état-action ( s , a ) {displaystyle (s,a)} (s,a) sont obtenus en combinant linéairement les composantes de φ ( s , a ) {displaystyle phi (s,a)} avec quelques poids θ {displaystyle thêta} theta :

Q ( s , a ) = ∑ i = 1 d θ i φ i ( s , a ) . {displaystyle Q(s,a)=sum _{i=1}^{d}theta _{i}phi _{i}(s,a).} ${displaystyle Q(s,a)=sum _{i=1}^{d}theta _{i}phi _{i}(s,a).}$ ${displaystyle Q(s,a)=sum _{i=1}^{d}theta _{i}phi _{i}(s,a).}$

Les algorithmes ajustent ensuite les pondérations, au lieu d’ajuster les valeurs associées aux paires état-action individuelles. Des méthodes basées sur des idées issues de statistiques non paramétriques (dont on peut voir qu’elles construisent leurs propres caractéristiques) ont été explorées.

L’Itération de valeur peut également être utilisée comme point de départ, donnant naissance à l’ algorithme Q-learning et à ses nombreuses variantes. ^[15]

Le problème avec l’utilisation des valeurs d’action est qu’elles peuvent avoir besoin d’estimations très précises des valeurs d’action concurrentes qui peuvent être difficiles à obtenir lorsque les retours sont bruyants, bien que ce problème soit atténué dans une certaine mesure par les méthodes de Différence temporelle. L’utilisation de la méthode d’approximation de la fonction dite compatible compromet la généralité et l’efficacité. Un autre problème spécifique à TD vient de leur dépendance à l’équation récursive de Bellman. La plupart des méthodes TD ont un soi-disant λ {displaystylelambda} lambda paramètre ( 0 ≤ λ ≤ 1 ) {displaystyle (0leq lambda leq 1)} qui peut interpoler en continu entre les méthodes de Monte Carlo qui ne reposent pas sur les équations de Bellman et les méthodes TD de base qui reposent entièrement sur les équations de Bellman. Cela peut être efficace pour pallier ce problème.

Recherche directe de politique

Une méthode alternative consiste à rechercher directement dans (un sous-ensemble de) l’espace politique, auquel cas le problème devient un cas d’ optimisation stochastique . Les deux approches disponibles sont les méthodes basées sur le gradient et les méthodes sans gradient.

Les méthodes basées sur le gradient ( méthodes du gradient de politique ) commencent par une cartographie d’un espace de dimension finie (paramètre) à l’espace des politiques : étant donné le vecteur de paramètres θ {displaystyle thêta} theta , laisser π θ {displaystyle pi _{thêta}} $pi _{theta }$ $pi _{theta }$ dénotent la politique associée à θ {displaystyle thêta} theta . Définition de la fonction de performance par

ρ ( θ ) = ρ π θ , {displaystyle rho (theta )=rho ^{pi _{theta }},} ${displaystyle rho (theta )=rho ^{pi _{theta }},}$ ${displaystyle rho (theta )=rho ^{pi _{theta }},}$

dans des conditions douces cette fonction sera différentiable en fonction du vecteur paramètre θ {displaystyle thêta} theta . Si le gradient de ρ {style d’affichage rho} rho était connue, on pouvait utiliser la montée en pente . Puisqu’une expression analytique du gradient n’est pas disponible, seule une estimation bruitée est disponible. Une telle estimation peut être construite de plusieurs façons, donnant lieu à des algorithmes tels que la méthode REINFORCE de Williams ^[16] (connue sous le nom de méthode du rapport de vraisemblance dans la littérature sur l’ optimisation basée sur la simulation ). ^[17] Des méthodes de recherche de politiques ont été utilisées dans le contexte de la robotique . ^[18] De nombreuses méthodes de recherche de politiques peuvent rester bloquées dans les optima locaux (car elles sont basées sur la recherche locale ).

Une grande classe de méthodes évite de s’appuyer sur les informations de gradient. Celles-ci incluent le recuit simulé , la recherche d’entropie croisée ou les méthodes de calcul évolutif . De nombreuses méthodes sans gradient peuvent atteindre (en théorie et à la limite) un optimum global.

Les méthodes de recherche de politique peuvent converger lentement compte tenu des données bruitées. Par exemple, cela se produit dans les problèmes épisodiques lorsque les trajectoires sont longues et la variance des retours est grande. Les méthodes basées sur la fonction de valeur qui s’appuient sur les différences temporelles pourraient aider dans ce cas. Ces dernières années, des méthodes acteur-critique ont été proposées et ont donné de bons résultats sur divers problèmes. ^[19]

Algorithmes basés sur des modèles

Enfin, toutes les méthodes ci-dessus peuvent être combinées avec des algorithmes qui apprennent d’abord un modèle. Par exemple, l’algorithme Dyna ^[20] apprend un modèle à partir de l’expérience et l’utilise pour fournir davantage de transitions modélisées pour une fonction de valeur, en plus des transitions réelles. De telles méthodes peuvent parfois être étendues à l’utilisation de modèles non paramétriques, comme lorsque les transitions sont simplement stockées et “rejouées” ^[21] à l’algorithme d’apprentissage.

Il existe d’autres façons d’utiliser des modèles que de mettre à jour une fonction de valeur. ^[22] Par exemple, dans le modèle de contrôle prédictif, le modèle est utilisé pour mettre à jour directement le comportement.

La théorie

Les comportements asymptotiques et à échantillon fini de la plupart des algorithmes sont bien compris. Des algorithmes dont les performances en ligne sont prouvées (abordant le problème de l’exploration) sont connus.

Une exploration efficace des MDP est donnée dans Burnetas et Katehakis (1997). ^[9] Des limites de performance en temps fini sont également apparues pour de nombreux algorithmes, mais ces limites devraient être plutôt lâches et donc plus de travail est nécessaire pour mieux comprendre les avantages et les limites relatifs.

Pour les algorithmes incrémentaux, les problèmes de convergence asymptotique ont été réglés ^{[ clarification nécessaire ]} . Les algorithmes basés sur la Différence temporelle convergent dans un ensemble de conditions plus large qu’il n’était possible auparavant (par exemple, lorsqu’ils sont utilisés avec une approximation de fonction arbitraire et lisse).

Rechercher

Les sujets de recherche comprennent

méthodes adaptatives qui fonctionnent avec moins (ou pas) de paramètres dans un grand nombre de conditions
résoudre le problème de l’exploration dans les grands MDP
combinaisons avec des cadres basés sur la logique ^[23]
évaluations empiriques à grande échelle
apprendre et agir avec des informations partielles (par exemple, en utilisant la représentation prédictive de l’état )
apprentissage par renforcement modulaire et hiérarchique ^[24]
améliorer les méthodes existantes de recherche de fonction de valeur et de politique
algorithmes qui fonctionnent bien avec de grands espaces d’action (ou continus)
apprentissage par transfert ^[25]
apprentissage tout au long de la vie
planification efficace basée sur des échantillons (par exemple, basée sur la recherche arborescente de Monte Carlo ).
détection de bugs dans les projets logiciels ^[26]
Motivation intrinsèque qui différencie les comportements de recherche d’informations et de type curiosité des comportements axés sur un objectif dépendant d’une tâche (généralement) en introduisant une fonction de récompense basée sur la maximisation de nouvelles informations ^{[27] [28] [29]}
L’apprentissage par renforcement multiagent ou distribué est un sujet d’intérêt. Les applications se multiplient. ^[30]
Apprentissage par renforcement acteur-critique
Des algorithmes d’apprentissage par renforcement tels que l’apprentissage TD sont à l’étude en tant que modèle d’ apprentissage basé sur la dopamine dans le cerveau. Dans ce modèle, les projections dopaminergiques de la substantia nigra aux ganglions de la base fonctionnent comme l’erreur de prédiction.
L’apprentissage par renforcement a été utilisé dans le cadre du modèle d’apprentissage des compétences humaines, en particulier en ce qui concerne l’interaction entre l’apprentissage implicite et explicite dans l’acquisition des compétences (la première publication sur cette application remonte à 1995-1996).
Contrôle centré sur l’occupant
Trading algorithmique et exécution optimale ^[31]
Optimisation des ressources informatiques ^{[32] [33] [34]}
Réduction des déchets dans la chaîne d’approvisionnement alimentaire ^{[35] [36]}

Comparaison des algorithmes d’apprentissage par renforcement

Algorithme	La description	Politique	Espace Action	Territoire de l’État	Opérateur
monte Carlo	Chaque visite à Monte Carlo	Soit	Discret	Discret	Échantillon-moyens
Q-apprentissage	État–action–récompense–état	Hors politique	Discret	Discret	valeur Q
SRAS	État–action–récompense–état–action	Politique	Discret	Discret	valeur Q
Q-learning – Lambda	État-action-récompense-état avec traces d’éligibilité	Hors politique	Discret	Discret	valeur Q
Sarsa – Lambda	État–action–récompense–état–action avec traces d’éligibilité	Politique	Discret	Discret	valeur Q
DQN	Réseau Q profond	Hors politique	Discret	Continu	valeur Q
DDPG	Gradient politique déterministe profond	Hors politique	Continu	Continu	valeur Q
A3C	Algorithme Asynchronous Advantage Actor-Critic	Politique	Continu	Continu	Avantage
NAF	Q-Learning avec fonctions d’avantage normalisées	Hors politique	Continu	Continu	Avantage
TRPO	Optimisation de la politique de région de confiance	Politique	Continu	Continu	Avantage
OPP	Optimisation de la politique proximale	Politique	Continu	Continu	Avantage
TD3	Gradient de politique déterministe profond à double retard	Hors politique	Continu	Continu	valeur Q
SAC	Acteur-Critique Doux	Hors politique	Continu	Continu	Avantage

Apprentissage par renforcement associatif

Les tâches d’apprentissage par renforcement associatif combinent des facettes de tâches d’automates d’apprentissage stochastique et des tâches de classification de modèles d’apprentissage supervisé. Dans les tâches d’apprentissage par renforcement associatif, le système d’apprentissage interagit en boucle fermée avec son environnement. ^[37]

Apprentissage par renforcement profond

Cette approche étend l’apprentissage par renforcement en utilisant un réseau neuronal profond et sans concevoir explicitement l’espace d’état. ^[38] Les travaux sur l’apprentissage des jeux ATARI par Google DeepMind ont attiré l’attention sur l’apprentissage par renforcement profond ou l’Apprentissage par renforcement de bout en bout . ^[39]

Apprentissage par renforcement profond contradictoire

L’apprentissage par renforcement profond contradictoire est un domaine de recherche actif dans l’apprentissage par renforcement axé sur les vulnérabilités des politiques apprises. Dans ce domaine de recherche, certaines études ont initialement montré que les politiques d’apprentissage par renforcement sont susceptibles d’imperceptibles manipulations contradictoires. ^{[40] [41]} Alors que certaines méthodes ont été proposées pour surmonter ces susceptibilités, dans les études les plus récentes, il a été montré que ces solutions proposées sont loin de fournir une représentation précise des vulnérabilités actuelles des politiques d’apprentissage par renforcement profond. ^[42]

Apprentissage par renforcement inverse

Dans l’apprentissage par renforcement inverse (IRL), aucune fonction de récompense n’est donnée. Au lieu de cela, la fonction de récompense est déduite d’un comportement observé par un expert. L’idée est d’imiter le comportement observé, qui est souvent optimal ou proche de l’optimal. ^[43]

Apprentissage par renforcement sécurisé

L’apprentissage par renforcement sûr (SRL) peut être défini comme le processus d’apprentissage des politiques qui maximisent l’attente de retour dans les problèmes dans lesquels il est important d’assurer des performances raisonnables du système et/ou de respecter les contraintes de sécurité pendant les processus d’apprentissage et/ou de déploiement. ^[44]

Apprentissage par renforcement partiellement supervisé (PSRL)

Dans les algorithmes PSRL, les avantages des approches supervisées et basées sur RL sont combinés de manière synergique. Par exemple, la politique de contrôle apprise par une approche basée sur ANN inverse pour contrôler un système non linéaire peut être affinée à l’aide de RL, évitant ainsi le coût de calcul encouru en partant d’une politique aléatoire dans RL traditionnel. Les approches partiellement supervisées peuvent atténuer le besoin de données de formation étendues dans l’apprentissage supervisé tout en réduisant le besoin d’une exploration aléatoire exhaustive coûteuse en RL pur. ^[2]

Voir également

Apprentissage par Différence temporelle
Q-apprentissage
État-action-récompense-état-action (SARSA)
Jeu fictif
Système de classification d’apprentissage
Contrôle optimal
Régimes de traitement dynamiques
Apprentissage basé sur les erreurs
Système multi-agents
Intelligence artificielle distribuée
Motivation intrinsèque
Algorithmes génétiques
Apprentissage

Références

^ Kaelbling, Leslie P. ; Littman, Michael L. ; En ligneMoore, Andrew W. (1996). “Apprentissage par renforcement : une enquête” . Journal de recherche sur l’intelligence artificielle . 4 : 237–285. arXiv : cs/9605103 . doi : 10.1613/jair.301 . S2CID 1708582 . Archivé de l’original le 2001-11-20.
^ ^un ^b Pandian, B. Jaganatha; Noël, Mathew Mithra (2018-09-01). “Contrôle d’un bioréacteur à l’aide d’un nouvel algorithme d’apprentissage par renforcement partiellement supervisé” . Journal de contrôle des processus . 69 : 16–29. doi : 10.1016/j.jprocont.2018.07.013 . ISSN 0959-1524 . S2CID 126074778 .
^ van Otterlo, M.; Wiering, M. (2012). Apprentissage par renforcement et processus décisionnels de Markov . Apprentissage par renforcement . Adaptation, Apprentissage et Optimisation. Vol. 12. p. 3–42. doi : 10.1007/978-3-642-27645-3_1 . ISBN 978-3-642-27644-6.
^ Russell, Stuart J.; Norvig, Peter (2010). L’intelligence artificielle : une approche moderne (troisième éd.). Upper Saddle River, New Jersey. pages 830, 831. ISBN 978-0-13-604259-4.
^ Lee, Daeyeol; Seo, Hyojung ; Jung, Min Whan (21 juillet 2012). “Base neurale de l’apprentissage par renforcement et de la prise de décision” . Revue annuelle des neurosciences . 35 (1): 287–308. doi : 10.1146/annurev-neuro-062111-150512 . PMC 3490621 . PMID 22462543 .
^ Xie, Zhaoming, et al. ” ALLSTEPS : Apprentissage axé sur le programme d’études des compétences de tremplin .” Forum d’infographie. Vol. 39. N° 8. 2020.
^ Sutton & Barto 1998 , chapitre 11. sfn error: no target: CITEREFSuttonBarto1998 (help)
^ Gosavi, Abhijit (2003). Optimisation basée sur la simulation : techniques d’optimisation paramétrique et renforcement . Série Interfaces Recherche Opérationnelle/Informatique. Springer. ISBN 978-1-4020-7454-7.
^ ^un ^b Burnetas, Apostolos N.; Katehakis, Michael N. (1997), “Politiques adaptatives optimales pour les processus de décision de Markov”, Mathematics of Operations Research , 22 : 222–255, doi : 10.1287/moor.22.1.222
^ Tokic, Michel; Palm, Günther (2011), « Exploration basée sur la différence de valeur : contrôle adaptatif entre Epsilon-Greedy et Softmax » (PDF) , KI 2011 : Advances in Artificial Intelligence , Lecture Notes in Computer Science, vol. 7006, Springer, p. 335–346, ISBN 978-3-642-24455-1
^ ^un ^b “L’apprentissage de renfort : Une introduction” (PDF) .
^ Sutton, Richard S. (1984). Attribution de crédits temporels en apprentissage par renforcement (thèse de doctorat). Université du Massachusetts, Amherst, MA.
^ Sutton & Barto 1998 , §6. Apprentissage par Différence temporelle . sfn error: no target: CITEREFSuttonBarto1998 (help)
^ Bradtke, Steven J. ; Barto, Andrew G. (1996). “Apprendre à prédire par la méthode des différences temporelles”. Apprentissage automatique . 22 : 33–57. CiteSeerX 10.1.1.143.857 . doi : 10.1023/A:1018056104778 . S2CID 20327856 .
^ Watkins, Christopher JCH (1989). Apprendre des récompenses différées (PDF) (thèse de doctorat). King’s College, Cambridge, Royaume-Uni.
^ Williams, Ronald J. (1987). “Une classe d’algorithmes d’estimation de gradient pour l’apprentissage par renforcement dans les réseaux de neurones”. Actes de la première conférence internationale de l’IEEE sur les réseaux de neurones . CiteSeerX 10.1.1.129.8871 .
^ Peters, janvier ; Vijayakumar, Sethu ; Schaal, Stefan (2003). “Apprentissage par renforcement pour la robotique humanoïde” (PDF) . Conférence internationale IEEE-RAS sur les robots humanoïdes .
^ Deisenroth, Marc Peter ; Neumann, Gerhard ; Peters, Jan (2013). Une enquête sur la recherche de politiques pour la robotique (PDF) . Fondements et tendances en robotique. Vol. 2. Éditeurs MAINTENANT. p. 1–142. doi : 10.1561/2300000021 . hdl : 10044/1/12051 .
^ Juliani, Arthur (2016-12-17). “Apprentissage par renforcement simple avec Tensorflow Partie 8 : Agents acteurs-critiques asynchrones (A3C)” . Moyen . Récupéré le 22/02/2018 .
^ Sutton, Richard (1990). “Architectures intégrées pour l’apprentissage, la planification et la réaction basées sur la programmation dynamique”. Apprentissage automatique : Actes du septième atelier international .
^ Lin, Long-Ji (1992). “Agents réactifs auto-améliorants basés sur l’apprentissage, la planification et l’enseignement par renforcement”. Tome 8 sur l’apprentissage automatique .
^ van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). “Quand utiliser des modèles paramétriques dans l’apprentissage par renforcement ?”. Progrès dans les systèmes de traitement neuronal de l’information 32 .
↑ Riveret , Régis ; Gao, Yang (2019). “Un cadre d’argumentation probabiliste pour les agents d’apprentissage par renforcement”. Agents autonomes et systèmes multi-agents . 33 (1-2) : 216-274. doi : 10.1007/s10458-019-09404-2 . S2CID 71147890 .
^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan ; Tenenbaum, Joshua B. (2016). “Apprentissage par renforcement profond hiérarchique : intégration de l’abstraction temporelle et de la motivation intrinsèque” . Actes de la 30e Conférence internationale sur les systèmes de traitement de l’information neuronale . NIPS’16. États-Unis : Curran Associates Inc. : 3682–3690. arXiv : 1604.06057 . Bib code : 2016arXiv160406057K . ISBN 978-1-5108-3881-9.
^ George Karimpanal, Thommen; Bouffanais, Roland (2019). “Cartes auto-organisatrices pour le stockage et le transfert de connaissances dans l’apprentissage par renforcement”. Comportement adaptatif . 27 (2): 111-126. arXiv : 1811.08318 . doi : 10.1177/1059712318818568 . ISSN 1059-7123 . S2CID 53774629 .
^ “Sur l’utilisation de l’apprentissage par renforcement pour tester les mécanismes de jeu : ACM – Ordinateurs dans le divertissement” . cie.acm.org . Récupéré le 27/11/2018 .
^ Kaplan, F.; En ligneOudeyer, P. (2004). “Maximiser les progrès d’apprentissage: un système de récompense interne pour le développement”. Dans Iida, F.; Pfeifer, R.; Steels, L.; Kuniyoshi, Y. (éd.). Intelligence Artificielle Incarnée . Notes de cours en informatique. Vol. 3139.Berlin; Heidelberg : Springer. p. 259–270. doi : 10.1007/978-3-540-27833-7_19 . ISBN 978-3-540-22484-6.
^ Klyubin, A.; Polani, D.; En ligneNehaniv, C. (2008). “Gardez vos options ouvertes : un principe de conduite basé sur l’information pour les systèmes sensorimoteurs” . PLOS ONE . 3 (12) : e4018. Bibcode : 2008PLoSO…3.4018K . doi : 10.1371/journal.pone.0004018 . PMC 2607028 . PMID 19107219 .
^ Barto, AG (2013). “Motivation intrinsèque et apprentissage par renforcement”. Apprentissage intrinsèquement motivé dans les systèmes naturels et artificiels . Berlin; Heidelberg : Springer. p. 17–47.
^ “Apprentissage par renforcement / Succès de l’apprentissage par renforcement” . umichrl.pbworks.com . Récupéré le 06/08/2017 .
^ Daberius, Kevin; Granat, Elvin; Karlsson, Patrick (2020). “Exécution approfondie – Apprentissage par renforcement basé sur la valeur et la politique pour le trading et battre les références du marché” . Le Journal de l’apprentissage automatique en finance . 1 .
^ Dey, Somdip ; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (mars 2020). “Apprentissage par renforcement sensible à l’interaction utilisateur pour la puissance et l’efficacité thermique des MPSoC mobiles CPU-GPU” . 2020 Design, Automation Test in Europe Conference Exhibition (DATE) : 1728–1733. doi : 10.23919/DATE48585.2020.9116294 . ISBN 978-3-9819263-4-7. S2CID 219858480 .
^ Interrogé, Tony. “Les smartphones deviennent plus intelligents avec l’innovation d’Essex | Business Weekly | Technology News | Business news | Cambridge et l’Est de l’Angleterre” . www.businessweekly.co.uk . Récupéré le 17/06/2021 . {{cite web}}: CS1 maint: url-status (link)
^ Williams, Rhiannon (2020-07-21). “Les futurs smartphones ‘prolongeront leur propre autonomie en surveillant le comportement des propriétaires’ ” . je . Récupéré le 17/06/2021 .{{cite web}}: CS1 maint: url-status (link)
^ Dey, Somdip ; Saha, Suman ; Singh, Amit Kumar; McDonald-Maier, Klaus (2022-02-12). “SmartNoshWaste : Utilisation de la chaîne de blocs, de l’apprentissage automatique, du cloud computing et du code QR pour réduire le gaspillage alimentaire dans les villes intelligentes décentralisées activées par le Web 3.0” . Villes intelligentes . 5 (1): 162–176. doi : 10.3390/smartcities5010011 . ISSN 2624-6511 .
^ Stanley, John. “Ce fondateur a lancé une entreprise technologique pour réduire le gaspillage alimentaire et améliorer la durabilité pour un avenir meilleur” . Entrepreneur . Récupéré le 07/03/2022 .
^ Soucek, Branko (6 mai 1992). Programmation dynamique, génétique et chaotique : la série sur la technologie informatique de sixième génération . John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X.
^ François-Lavet, Vincent; et coll. (2018). “Une introduction à l’apprentissage par renforcement profond”. Fondements et tendances de l’apprentissage automatique . 11 (3–4): 219–354. arXiv : 1811.12560 . Bibcode : 2018arXiv181112560F . doi : 10.1561/2200000071 . S2CID 54434537 .
^ Mnih, Volodymyr; et coll. (2015). “Contrôle au niveau humain grâce à l’apprentissage par renforcement profond” . Nature . 518 (7540): 529–533. Bibcode : 2015Natur.518..529M . doi : 10.1038/nature14236 . PMID 25719670 . S2CID 205242740 .
^ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). “Expliquer et exploiter des exemples contradictoires”. Conférence internationale sur les représentations de l’apprentissage . arXiv : 1412.6572 .
^ Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). Attaques contradictoires sur les politiques de réseau neuronal . OCLC 1106256905 .
^ Korkmaz, Ezgui (2022). “Les politiques d’apprentissage par renforcement en profondeur apprennent les fonctionnalités contradictoires partagées entre les MDP”. Trente-sixième conférence AAAI sur l’intelligence artificielle (AAAI-22) . arXiv : 2112.09025 .
^ Ng, AY; Russel, SJ (2000). “Algorithmes pour l’apprentissage par renforcement inverse” (PDF) . Actes ICML ’00 Actes de la dix-septième conférence internationale sur l’apprentissage automatique . pages 663–670. ISBN 1-55860-707-2.
^ García, Javier; Fernandez, Fernando (1er janvier 2015). “Une enquête complète sur l’apprentissage par renforcement sûr” (PDF) . Le Journal de la recherche sur l’apprentissage automatique . 16 (1): 1437-1480.

Lectures complémentaires

Auer, Peter ; Jaksch, Thomas; Ortner, Ronald (2010). “Des limites de regret quasi-optimales pour l’apprentissage par renforcement” . Journal de recherche sur l’apprentissage automatique . 11 : 1563–1600.
Busoniu, Lucian; Babuska, Robert; De Schutter, Bart ; Ernst, Damien (2010). Apprentissage par renforcement et programmation dynamique à l’aide d’approximations de fonctions . Taylor & Francis Presse CRC. ISBN 978-1-4398-2108-4.
François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joëlle (2018). “Une introduction à l’apprentissage par renforcement profond”. Fondements et tendances de l’apprentissage automatique . 11 (3–4): 219–354. arXiv : 1811.12560 . Bibcode : 2018arXiv181112560F . doi : 10.1561/2200000071 . S2CID 54434537 .
Powell, Warren (2007). Programmation dynamique approximative : résoudre les malédictions de la dimensionnalité . Wiley-Interscience. ISBN 978-0-470-17155-4.
Sutton, Richard S. ; Barto, Andrew G. (2018). Apprentissage par renforcement : une introduction (2e éd.). Presse du MIT. ISBN 978-0-262-03924-6.
En ligneSutton, Richard S. (1988). “Apprendre à prédire par la méthode des différences temporelles” . Apprentissage automatique . 3 : 9–44. doi : 10.1007/BF00115009 .
Szita, Istvan ; Szepesvari, Csaba (2010). “Apprentissage par renforcement basé sur un modèle avec des limites de complexité d’exploration presque serrées” (PDF) . ICML 2010 . Omnipress. pages 1031–1038. Archivé de l’original (PDF) le 14/07/2010.

Liens externes

Référentiel d’apprentissage par renforcement
Apprentissage par renforcement et intelligence artificielle (RLAI, laboratoire de Rich Sutton à l’ Université de l’Alberta )
Autonomous Learning Laboratory (ALL, laboratoire d’Andrew Barto à l’ Université du Massachusetts à Amherst )
Expériences d’apprentissage par renforcement dans le monde réel à l’Université de technologie de Delft
Conférence Andrew Ng de l’Université de Stanford sur l’apprentissage par renforcement
Dissecting Reinforcement Learning Série d’articles de blog sur RL avec du code Python