Réseau neuronal artificiel

0

Les réseaux de Neurones artificiels ( RNA ), généralement simplement appelés réseaux de neurones ( NN ), sont des systèmes informatiques inspirés des réseaux de neurones biologiques qui constituent le cerveau des animaux .

Un réseau de Neurones artificiels est un groupe de nœuds interconnectés, inspiré d’une simplification des neurones d’un cerveau . Ici, chaque nœud circulaire représente un neurone artificiel et une flèche représente une connexion de la sortie d’un neurone artificiel à l’entrée d’un autre.

Un RNA est basé sur une collection d’unités ou de nœuds connectés appelés Neurones artificiels , qui modélisent de manière lâche les neurones d’un cerveau biologique. Chaque connexion, comme les synapses d’un cerveau biologique, peut transmettre un signal à d’autres neurones. Un neurone artificiel reçoit un signal puis le traite et peut signaler les neurones qui lui sont connectés. Le “signal” à une connexion est un nombre réel et la sortie de chaque neurone est calculée par une fonction non linéaire de la somme de ses entrées. Les connexions sont appelées arêtes . Les neurones et les bords ont généralement un poidsqui s’ajuste au fur et à mesure de l’apprentissage. Le poids augmente ou diminue la force du signal à une connexion. Les neurones peuvent avoir un seuil tel qu’un signal n’est envoyé que si le signal agrégé franchit ce seuil. En règle générale, les neurones sont agrégés en couches. Différentes couches peuvent effectuer différentes transformations sur leurs entrées. Les signaux voyagent de la première couche (la couche d’entrée) à la dernière couche (la couche de sortie), éventuellement après avoir traversé les couches plusieurs fois.

Formation

Les réseaux de neurones apprennent (ou sont formés) en traitant des exemples, dont chacun contient une “entrée” et un “résultat” connus, formant des associations pondérées par les probabilités entre les deux, qui sont stockées dans la structure de données du réseau lui-même. La formation d’un réseau de neurones à partir d’un exemple donné est généralement effectuée en déterminant la différence entre la sortie traitée du réseau (souvent une prédiction) et une sortie cible. Cette différence est l’erreur. Le réseau ajuste alors ses associations pondérées selon une règle d’apprentissage et en utilisant cette valeur d’erreur. Des ajustements successifs amèneront le réseau neuronal à produire une sortie qui est de plus en plus similaire à la sortie cible. Après un nombre suffisant de ces ajustements, la formation peut être interrompue en fonction de certains critères..

De tels systèmes “apprennent” à effectuer des tâches en considérant des exemples, généralement sans être programmés avec des règles spécifiques à la tâche. Par exemple, en Reconnaissance d’images , ils peuvent apprendre à identifier des images contenant des chats en analysant des exemples d’images qui ont été étiquetées manuellement comme “chat” ou “pas de chat” et en utilisant les résultats pour identifier les chats dans d’autres images. Ils le font sans aucune connaissance préalable des chats, par exemple, qu’ils ont de la fourrure, des queues, des moustaches et des visages de chat. Au lieu de cela, ils génèrent automatiquement des caractéristiques d’identification à partir des exemples qu’ils traitent.

Histoire

Warren McCulloch et Walter Pitts [1] (1943) ont ouvert le sujet en créant un modèle informatique pour les réseaux de neurones. [2] À la fin des années 1940, DO Hebb [3] a créé une hypothèse d’apprentissage basée sur le mécanisme de la plasticité neurale connue sous le nom d’Apprentissage hebbien . Farley et Wesley A. Clark [4] (1954) ont d’abord utilisé des machines de calcul, appelées alors « calculatrices », pour simuler un réseau hebbien. En 1958, le psychologue Frank Rosenblatt a inventé le perceptron , le premier réseau neuronal artificiel, [5] [6] [7] [8]financé par l’ Office of Naval Research des États-Unis . [9] Les premiers réseaux fonctionnels à plusieurs couches ont été publiés par Ivakhnenko et Lapa en 1965, sous le nom de Group Method of Data Handling . [10] [11] [12] Les bases de la rétropropagation continue [10] [13] [14] [15] ont été dérivées dans le contexte de la théorie du contrôle par Kelley [16] en 1960 et par Bryson en 1961, [17] en utilisant les principes de la programmation dynamique . Par la suite, la recherche a stagné après Minsky etPapert (1969), [18] qui a découvert que les perceptrons de base étaient incapables de traiter le circuit OU exclusif et que les ordinateurs manquaient de puissance suffisante pour traiter les réseaux de neurones utiles.

En 1970, Seppo Linnainmaa a publié la méthode générale de différenciation automatique (DA) des réseaux connectés discrets de fonctions différenciables imbriquées . [19] [20] En 1973, Dreyfus a utilisé la rétropropagation pour adapter les paramètres des contrôleurs proportionnellement aux gradients d’erreur. [21] L’algorithme de rétropropagation de Werbos (1975) a permis une formation pratique des réseaux multicouches. En 1982, il a appliqué la méthode AD de Linnainmaa aux réseaux de neurones d’une manière qui est devenue largement utilisée. [13] [22]

Le développement de l’intégration à très grande échelle (VLSI) métal-oxyde-semi-conducteur (MOS) , sous la forme de la technologie MOS complémentaire (CMOS), a permis d’augmenter le nombre de transistors MOS dans l’électronique numérique . Cela a fourni plus de puissance de traitement pour le développement de réseaux de Neurones artificiels pratiques dans les années 1980. [23]

En 1986 , Rumelhart , Hinton et Williams ont montré que la rétropropagation apprenait des représentations internes intéressantes des mots en tant que vecteurs de caractéristiques lorsqu’elles étaient entraînées à prédire le mot suivant dans une séquence. [24]

À partir de 1988, [25] [26] l’utilisation des réseaux de neurones a transformé le domaine de la prédiction de la structure des protéines, en particulier lorsque les premiers réseaux en cascade ont été entraînés sur des profils (matrices) produits par des alignements de séquences multiples. [27]

En 1992, la mise en commun maximale a été introduite pour aider à l’invariance de moindre décalage et à la tolérance à la déformation pour faciliter la reconnaissance d’objets 3D . [28] [29] [30] Schmidhuber a adopté une hiérarchie multi-niveaux de réseaux (1992) pré-formés un niveau à la fois par apprentissage non supervisé et affiné par rétropropagation . [31]

Les premiers succès des réseaux de neurones comprenaient la prédiction du marché boursier et en 1995 une voiture (principalement) autonome. [a] [32]

Geoffrey Hinton et al. (2006) ont proposé d’apprendre une représentation de haut niveau en utilisant des couches successives de variables latentes binaires ou réelles avec une machine de Boltzmann restreinte [33] pour modéliser chaque couche. En 2012, Ng et Dean ont créé un réseau qui a appris à reconnaître des concepts de niveau supérieur, tels que les chats, uniquement en regardant des images sans étiquette. [34] Une pré-formation non supervisée et une puissance de calcul accrue des GPU et de l’informatique distribuée ont permis l’utilisation de réseaux plus vastes, en particulier dans les problèmes de reconnaissance d’image et visuelle, connus sous le nom de ” apprentissage en profondeur “. [35]

Ciresan et ses collègues (2010) [36] ont montré que malgré le problème du gradient de fuite , les GPU rendent la rétropropagation possible pour les réseaux de neurones à anticipation à plusieurs couches. [37] Entre 2009 et 2012, les ANN ont commencé à gagner des prix dans des concours de Reconnaissance d’images, approchant la performance au niveau humain sur diverses tâches, initialement dans la reconnaissance des formes et la reconnaissance de l’ écriture manuscrite . [38] [39] Par exemple, la mémoire à court terme bidirectionnelle et multidimensionnelle (LSTM) [40] [41] [42] [43] de Graveset coll. a remporté trois concours de reconnaissance d’écriture connectée en 2009 sans aucune connaissance préalable des trois langues à apprendre. [42] [41]

Ciresan et ses collègues ont construit les premiers reconnaisseurs de formes pour atteindre des performances humaines-compétitives/surhumaines [44] sur des références telles que la reconnaissance des panneaux de signalisation (IJCNN 2012).

Des modèles

Apprendre encore plus Cette section peut prêter à confusion ou ne pas être claire pour les lecteurs . ( avril 2017 )Veuillez aider à clarifier la section . Il pourrait y avoir une discussion à ce sujet sur la page de discussion . (Découvrez comment et quand supprimer ce modèle de message)

Neurone et axone myélinisé, avec flux de signaux des entrées aux dendrites vers les sorties aux bornes des axones

Les ANN ont commencé comme une tentative d’exploiter l’architecture du cerveau humain pour effectuer des tâches avec lesquelles les algorithmes conventionnels avaient peu de succès. Ils se sont rapidement réorientés vers l’amélioration des résultats empiriques, abandonnant pour la plupart les tentatives de rester fidèles à leurs précurseurs biologiques. Les neurones sont connectés les uns aux autres selon divers schémas, pour permettre à la sortie de certains neurones de devenir l’entrée d’autres. Le réseau forme un graphe orienté et pondéré . [45]

Un réseau de Neurones artificiels est constitué d’un ensemble de neurones simulés. Chaque neurone est un nœud qui est relié à d’autres nœuds par des liens qui correspondent à des connexions biologiques axone-synapse-dendrite. Chaque lien a un poids, qui détermine la force de l’influence d’un nœud sur un autre. [46]

Neurones artificiels

Les RNA sont composés de Neurones artificiels qui sont conceptuellement dérivés de neurones biologiques . Chaque neurone artificiel a des entrées et produit une sortie unique qui peut être envoyée à plusieurs autres neurones. [47] Les entrées peuvent être les valeurs de caractéristiques d’un échantillon de données externes, telles que des images ou des documents, ou elles peuvent être les sorties d’autres neurones. Les sorties des neurones de sortie finaux du réseau neuronal accomplissent la tâche, telle que la reconnaissance d’un objet dans une image.

Pour trouver la sortie du neurone, nous devons d’abord prendre la somme pondérée de toutes les entrées, pondérée par les poids des connexions des entrées au neurone. Nous ajoutons un terme de biais à cette somme. [48] ​​Cette somme pondérée est parfois appelée l’ activation . Cette somme pondérée est ensuite transmise à une fonction d’activation (généralement non linéaire) pour produire la sortie. Les entrées initiales sont des données externes, telles que des images et des documents. Les résultats ultimes accomplissent la tâche, comme la reconnaissance d’un objet dans une image. [49]

Organisme

Les neurones sont généralement organisés en plusieurs couches, en particulier dans l’apprentissage en profondeur . Les neurones d’une couche se connectent uniquement aux neurones des couches immédiatement précédentes et immédiatement suivantes. La couche qui reçoit les données externes est la couche d’entrée . La couche qui produit le résultat final est la couche de sortie . Entre eux se trouvent zéro ou plusieurs couches cachées . Des réseaux à couche unique et sans couche sont également utilisés. Entre deux couches, plusieurs modèles de connexion sont possibles. Ils peuvent être “entièrement connectés”, chaque neurone d’une couche se connectant à chaque neurone de la couche suivante. Ils peuvent se regrouper, où un groupe de neurones dans une couche se connecte à un seul neurone dans la couche suivante, réduisant ainsi le nombre de neurones dans cette couche. [50] Les neurones avec uniquement de telles connexions forment un graphe acyclique dirigé et sont connus sous le nom de réseaux à anticipation . [51] Alternativement, les réseaux qui permettent des connexions entre les neurones dans les mêmes couches ou dans les couches précédentes sont appelés réseaux récurrents . [52]

Hyperparamètre

Un hyperparamètre est un paramètre constant dont la valeur est définie avant le début du processus d’apprentissage. Les valeurs des paramètres sont dérivées par apprentissage. Des exemples d’hyperparamètres incluent le taux d’apprentissage , le nombre de couches cachées et la taille du lot. [53] Les valeurs de certains hyperparamètres peuvent dépendre de celles d’autres hyperparamètres. Par exemple, la taille de certaines couches peut dépendre du nombre total de couches.

Apprentissage

Apprendre encore plus Cette section comprend une liste de références , de lectures connexes ou de liens externes , mais ses sources restent floues car elle manque de citations en ligne . ( août 2019 )Merci d’aider à améliorer cette section en introduisant des citations plus précises. (Découvrez comment et quand supprimer ce modèle de message)

L’apprentissage est l’adaptation du réseau pour mieux gérer une tâche en considérant des observations d’échantillons. L’apprentissage consiste à ajuster les poids (et les seuils facultatifs) du réseau pour améliorer la précision du résultat. Cela se fait en minimisant les erreurs observées. L’apprentissage est complet lorsque l’examen d’observations supplémentaires ne réduit pas utilement le taux d’erreur. Même après l’apprentissage, le taux d’erreur n’atteint généralement pas 0. Si après l’apprentissage, le taux d’erreur est trop élevé, le réseau doit généralement être repensé. Pratiquement, cela se fait en définissant une fonction de coût qui est évaluée périodiquement au cours de l’apprentissage. Tant que sa production continue de baisser, l’apprentissage continue. Le coût est souvent défini comme une statistiquedont la valeur ne peut être qu’approximative. Les sorties sont en fait des nombres, donc lorsque l’erreur est faible, la différence entre la sortie (presque certainement un chat) et la bonne réponse (chat) est faible. L’apprentissage tente de réduire le total des différences entre les observations. La plupart des modèles d’apprentissage peuvent être considérés comme une simple application de la théorie de l’ optimisation et de l’Estimation statistique . [54] [45]

Taux d’apprentissage

Le taux d’apprentissage définit la taille des étapes correctives que le modèle prend pour corriger les erreurs dans chaque observation. [55] Un taux d’apprentissage élevé raccourcit le temps de formation, mais avec une précision ultime inférieure, tandis qu’un taux d’apprentissage inférieur prend plus de temps, mais avec le potentiel d’une plus grande précision. Les optimisations telles que Quickprop visent principalement à accélérer la minimisation des erreurs, tandis que d’autres améliorations tentent principalement d’augmenter la fiabilité. Afin d’éviter les oscillations à l’intérieur du réseau telles que les poids de connexion alternés, et d’améliorer le taux de convergence, les raffinements utilisent un Taux d’apprentissage adaptatif qui augmente ou diminue selon le cas. [56]Le concept de momentum permet de pondérer l’équilibre entre le gradient et le changement précédent de sorte que l’ajustement du poids dépende dans une certaine mesure du changement précédent. Une dynamique proche de 0 accentue le gradient, tandis qu’une valeur proche de 1 accentue le dernier changement.

Fonction de coût

Bien qu’il soit possible de définir une fonction de coût ad hoc , le choix est souvent déterminé par les propriétés souhaitables de la fonction (telles que la convexité ) ou parce qu’elle découle du modèle (par exemple, dans un modèle probabiliste, la probabilité a posteriori du modèle peut être utilisée comme inverse Coût).

Rétropropagation

La rétropropagation est une méthode utilisée pour ajuster les poids de connexion afin de compenser chaque erreur trouvée lors de l’apprentissage. Le montant de l’erreur est effectivement divisé entre les connexions. Techniquement, backprop calcule le gradient (la dérivée) de la fonction de coût associée à un état donné par rapport aux poids. Les mises à jour de poids peuvent être effectuées via une descente de gradient stochastique ou d’autres méthodes, telles que Extreme Learning Machines , [57] réseaux “sans prop”, [58] entraînement sans retour en arrière, [59] réseaux “en apesanteur”, [60] [61 ] et les réseaux de neurones non connexionnistes .

Paradigmes d’apprentissage

Apprendre encore plus Cette section comprend une liste de références , de lectures connexes ou de liens externes , mais ses sources restent floues car elle manque de citations en ligne . ( août 2019 )Merci d’aider à améliorer cette section en introduisant des citations plus précises. (Découvrez comment et quand supprimer ce modèle de message)

Les trois principaux paradigmes d’apprentissage sont l’ apprentissage supervisé , l’apprentissage non supervisé et l’apprentissage par renforcement . Ils correspondent chacun à une tâche d’apprentissage particulière

Enseignement supervisé

L’apprentissage supervisé utilise un ensemble d’entrées appariées et de sorties souhaitées. La tâche d’apprentissage consiste à produire la sortie souhaitée pour chaque entrée. Dans ce cas, la fonction de coût est liée à l’élimination des déductions incorrectes. [62] Un coût couramment utilisé est l’ Erreur quadratique moyenne , qui tente de minimiser l’Erreur quadratique moyenne entre la sortie du réseau et la sortie souhaitée. Les tâches adaptées à l’apprentissage supervisé sont la reconnaissance de formes (également connue sous le nom de classification) et la régression (également connue sous le nom d’approximation de fonctions). L’apprentissage supervisé est également applicable aux données séquentielles (par exemple, pour l’écriture manuscrite, la reconnaissance de la parole et des gestes). Cela peut être considéré comme un apprentissage avec un “enseignant”, sous la forme d’une fonction qui fournit un retour d’information continu sur la qualité des solutions obtenues jusqu’à présent.

Apprentissage non supervisé

Dans l’apprentissage non supervisé , les données d’entrée sont données avec la fonction de coût, une fonction des données X {displaystyletextstyle x} textstyle x textstyle xet la sortie du réseau. La fonction de coût dépend de la tâche (le domaine du modèle) et de toute hypothèse a priori (les propriétés implicites du modèle, ses paramètres et les variables observées). A titre d’exemple trivial, considérons le modèle F ( X ) = a {displaystyle textstyle f(x)=a} textstyle f(x)=a textstyle f(x)=aoù a {displaystyle textstyle a} textstyle a textstyle aest une constante et le coût C = E [ ( x − f ( x ) ) 2 ] {displaystyle textstyle C=E[(xf(x))^{2}]} textstyle C=E[(x-f(x))^{2}] textstyle C=E[(x-f(x))^{2}]. La minimisation de ce coût produit une valeur de a {displaystyle textstyle a} textstyle a textstyle aqui est égal à la moyenne des données. La fonction de coût peut être beaucoup plus compliquée. Sa forme dépend de l’application : par exemple, en compression , il pourrait être lié à l’ information mutuelle entre x {displaystyletextstyle x} textstyle x textstyle xet f ( x ) {displaystyle textstyle f(x)} textstyle f(x) textstyle f(x), alors que dans la modélisation statistique, cela pourrait être lié à la probabilité a posteriori du modèle compte tenu des données (notez que dans ces deux exemples, ces quantités seraient maximisées plutôt que minimisées). Les tâches qui relèvent du paradigme de l’apprentissage non supervisé sont en général des problèmes d’ estimation ; les applications incluent le regroupement , l’ estimation de Distributions statistiques , la compression et le filtrage .

Apprentissage par renforcement

Dans des applications telles que les jeux vidéo, un acteur prend une série d’actions, recevant une réponse généralement imprévisible de l’environnement après chacune d’elles. L’objectif est de gagner la partie, c’est-à-dire de générer les réponses les plus positives (coût le moins élevé). Dans l’apprentissage par renforcement , l’objectif est de pondérer le réseau (concevoir une politique) pour effectuer des actions qui minimisent les coûts à long terme (cumulatifs attendus). A chaque instant, l’agent effectue une action et l’environnement génère une observation et un coût instantané, selon certaines règles (généralement inconnues). Les règles et le coût à long terme ne peuvent généralement être estimés. À tout moment, l’agent décide d’explorer de nouvelles actions pour découvrir leurs coûts ou d’exploiter l’apprentissage antérieur pour procéder plus rapidement.

Formellement, l’environnement est modélisé comme un processus de décision de Markov (MDP) avec des états s 1 , . . . , s n ∈ S {displaystyle textstyle {s_{1},…,s_{n}}in S} textstyle {s_{1},...,s_{n}}in S textstyle {s_{1},...,s_{n}}in Set gestes a 1 , . . . , a m ∈ A {displaystyle textstyle {a_{1},…,a_{m}}in A} textstyle {a_{1},...,a_{m}}in A textstyle {a_{1},...,a_{m}}in A. Comme les transitions d’état ne sont pas connues, des distributions de probabilité sont utilisées à la place : la distribution de coût instantanée P ( c t | s t ) {displaystyle textstyle P(c_{t}|s_{t})} textstyle P(c_{t}|s_{t}) textstyle P(c_{t}|s_{t}), la distribution des observations P ( x t | s t ) {displaystyle textstyle P(x_{t}|s_{t})} textstyle P(x_{t}|s_{t}) textstyle P(x_{t}|s_{t})et la distribution de transition P ( s t + 1 | s t , a t ) {displaystyle textstyle P(s_{t+1}|s_{t},a_{t})} textstyle P(s_{t+1}|s_{t},a_{t}) textstyle P(s_{t+1}|s_{t},a_{t}), tandis qu’une politique est définie comme la distribution conditionnelle sur les actions compte tenu des observations. Pris ensemble, les deux définissent une chaîne de Markov (MC). L’objectif est de découvrir le MC le moins cher.

Les ANN servent de composant d’apprentissage dans de telles applications. [63] [64] La programmation dynamique couplée aux ANN (donnant la programmation neurodynamique) [65] a été appliquée à des problèmes tels que ceux impliqués dans le routage des véhicules , [66] les jeux vidéo, la gestion des ressources naturelles [67] [68] et la médecine [ 69] en raison de la capacité des ANN à atténuer les pertes de précision même en réduisant la densité de la grille de discrétisation pour approcher numériquement la solution des problèmes de contrôle. Les tâches qui relèvent du paradigme de l’apprentissage par renforcement sont les problèmes de contrôle, les jeux et d’autres tâches de prise de décision séquentielle.

Auto-apprentissage

L’auto-apprentissage dans les réseaux de neurones a été introduit en 1982 avec un réseau de neurones capable d’auto-apprentissage nommé Crossbar Adaptive Array (CAA). [70] C’est un système avec une seule entrée, situation s, et une seule sortie, action (ou comportement) a. Il n’a ni apport de conseil externe ni apport de renforcement externe de l’environnement. Le CAA calcule, de manière transversale, à la fois les décisions concernant les actions et les émotions (sentiments) concernant les situations rencontrées. Le système est piloté par l’interaction entre la cognition et l’émotion. [71] Étant donné la matrice mémoire, W =||w(a,s)||, l’algorithme d’auto-apprentissage crossbar à chaque itération effectue le calcul suivant :

Dans la situation s, effectuez l’action a ; Recevoir la situation de conséquence s’; Calculer l’émotion d’être dans la situation de conséquence v(s’); Mettre à jour la mémoire crossbar w'(a,s) = w(a,s) + v(s’).

La valeur rétropropagée (renforcement secondaire) est l’émotion envers la situation de conséquence. Le CAA existe dans deux environnements, l’un est l’environnement comportemental où il se comporte, et l’autre est l’environnement génétique, d’où il reçoit initialement et une seule fois les émotions initiales sur le point d’être rencontrées dans l’environnement comportemental. Ayant reçu le vecteur du génome (vecteur d’espèce) de l’environnement génétique, le CAA apprendra un comportement de recherche d’objectif, dans l’environnement comportemental qui contient à la fois des situations souhaitables et indésirables. [72]

Neuroévolution

La neuroévolution peut créer des topologies et des pondérations de réseaux neuronaux en utilisant le calcul évolutionnaire . Il est compétitif avec les approches sophistiquées de descente de gradient [ citation nécessaire ] . L’un des avantages de la neuroévolution est qu’elle peut être moins encline à se faire prendre dans des “impasses”. [73]

Réseau neuronal stochastique

Les réseaux de neurones stochastiques issus des modèles de Sherrington – Kirkpatrick sont un type de réseau de Neurones artificiels construit en introduisant des variations aléatoires dans le réseau, soit en donnant aux Neurones artificiels du réseau des fonctions de transfert stochastiques , soit en leur donnant des poids stochastiques. Cela en fait des outils utiles pour les problèmes d’ optimisation , puisque les fluctuations aléatoires aident le réseau à échapper aux minima locaux . [74]

Autre

Dans un cadre bayésien , une distribution sur l’ensemble des modèles autorisés est choisie pour minimiser le coût. Les méthodes évolutionnaires , [75] la programmation de l’expression génique , [76] le recuit simulé , [77] la maximisation des attentes , les méthodes non paramétriques et l’optimisation par essaim de particules [78] sont d’autres algorithmes d’apprentissage. La récursivité convergente est un algorithme d’apprentissage pour les réseaux de neurones du contrôleur d’articulation du modèle cérébelleux (CMAC). [79] [80]

Modes

Apprendre encore plus Cette section comprend une liste de références , de lectures connexes ou de liens externes , mais ses sources restent floues car elle manque de citations en ligne . ( août 2019 ) Please help to improve this section by introducing more precise citations. (Learn how and when to remove this template message)

Deux modes d’apprentissage sont disponibles : stochastique et batch. Dans l’apprentissage stochastique, chaque entrée crée un ajustement de poids. Dans l’apprentissage par lots, les poids sont ajustés en fonction d’un lot d’entrées, accumulant les erreurs sur le lot. L’apprentissage stochastique introduit du “bruit” dans le processus, en utilisant le gradient local calculé à partir d’un point de données ; cela réduit le risque que le réseau reste bloqué dans les minima locaux. Cependant, l’apprentissage par lots donne généralement une descente plus rapide et plus stable vers un minimum local, puisque chaque mise à jour est effectuée dans le sens de l’erreur moyenne du lot. Un compromis courant consiste à utiliser des “mini-lots”, de petits lots avec des échantillons dans chaque lot sélectionnés de manière stochastique à partir de l’ensemble de données.

Les types

Les RNA ont évolué en une large famille de techniques qui ont fait progresser l’état de l’art dans de multiples domaines. Les types les plus simples ont un ou plusieurs composants statiques, notamment le nombre d’unités, le nombre de couches, les poids unitaires et la topologie . Les types dynamiques permettent à un ou plusieurs d’entre eux d’évoluer via l’apprentissage. Ces derniers sont beaucoup plus compliqués, mais peuvent raccourcir les périodes d’apprentissage et produire de meilleurs résultats. Certains types permettent/exigent que l’apprentissage soit “supervisé” par l’opérateur, tandis que d’autres fonctionnent de manière indépendante. Certains types fonctionnent uniquement sur le matériel, tandis que d’autres sont purement logiciels et fonctionnent sur des ordinateurs à usage général.

Learn more.

Certaines des principales percées comprennent : les réseaux de neurones convolutifs qui se sont révélés particulièrement efficaces dans le traitement des données visuelles et autres données bidimensionnelles ; [81] [82] une longue mémoire à court terme évite le problème du gradient de fuite [83] et peut gérer des signaux qui ont un mélange de composants de basse et haute fréquence facilitant la reconnaissance vocale à grand vocabulaire, [84] [85] text-to- synthèse vocale, [86] [13] [87] et têtes parlantes photo-réelles ; [88] réseaux concurrentiels tels que les réseaux antagonistes génératifsdans lequel plusieurs réseaux (de structure variable) s’affrontent, sur des tâches telles que gagner un jeu [89] ou tromper l’adversaire sur l’authenticité d’une entrée. [90]

Conception de réseau

La recherche d’architecture neuronale (NAS) utilise l’apprentissage automatique pour automatiser la conception ANN. Diverses approches du NAS ont conçu des réseaux qui se comparent bien aux systèmes conçus à la main. L’algorithme de recherche de base consiste à proposer un modèle candidat, à l’évaluer par rapport à un ensemble de données et à utiliser les résultats comme rétroaction pour enseigner le réseau NAS. [91] Les systèmes disponibles incluent AutoML et AutoKeras. [92]

Les problèmes de conception incluent le choix du nombre, du type et de la connectivité des couches réseau, ainsi que la taille de chacune et le type de connexion (complète, mise en commun, …).

Les hyperparamètres doivent également être définis dans le cadre de la conception (ils ne sont pas appris), régissant des questions telles que le nombre de neurones dans chaque couche, le taux d’apprentissage, le pas, la foulée, la profondeur, le champ réceptif et le rembourrage (pour les CNN), etc. 93]

Utiliser

Apprendre encore plus Cette section ne cite aucune source . ( novembre 2020 ) Please help improve this section by adding citations to reliable sources. Unsourced material may be challenged and removed. (Learn how and when to remove this template message)

L’utilisation des réseaux de Neurones artificiels nécessite une compréhension de leurs caractéristiques.

  • Choix du modèle : Cela dépend de la représentation des données et de l’application. Les modèles trop complexes sont un apprentissage lent.
  • Algorithme d’apprentissage : de nombreux compromis existent entre les algorithmes d’apprentissage. Presque n’importe quel algorithme fonctionnera bien avec les hyperparamètres corrects pour la formation sur un ensemble de données particulier. Cependant, la sélection et le réglage d’un algorithme pour la formation sur des données invisibles nécessitent une expérimentation importante.
  • Robustesse : si le modèle, la fonction de coût et l’algorithme d’apprentissage sont sélectionnés de manière appropriée, l’ANN résultant peut devenir robuste.

Les capacités ANN entrent dans les grandes catégories suivantes : [ citation nécessaire ]

  • Approximation de la fonction ou analyse de régression , y compris la prédiction de séries chronologiques , l’ approximation de la condition physique et la modélisation.
  • Classification , y compris la reconnaissance de formes et de séquences, la détection de nouveauté et la prise de décision séquentielle. [94]
  • Traitement des données , y compris le filtrage, le regroupement, la séparation aveugle des sources et la compression.
  • Robotique , y compris la direction des manipulateurs et des prothèses .

Applications

En raison de leur capacité à reproduire et à modéliser des processus non linéaires, les réseaux de Neurones artificiels ont trouvé des applications dans de nombreuses disciplines. Les domaines d’application comprennent l’ identification et le contrôle des systèmes (contrôle des véhicules, prédiction de trajectoire, [95] contrôle des processus , gestion des ressources naturelles ), la chimie quantique , [96] le jeu général , [97] la reconnaissance des formes (systèmes radar, identification des visages , classification des signaux, [98] reconstruction 3D , [99] reconnaissance d’objets et plus), analyse de données de capteurs, [100]reconnaissance de séquences (geste, parole, reconnaissance de texte manuscrit et imprimé [101] ), diagnostic médical , finance [102] (par exemple , systèmes de trading automatisés ), exploration de données , visualisation, traduction automatique , filtrage des réseaux sociaux [103] et spam de courrier électronique filtration. Les ANN ont été utilisés pour diagnostiquer plusieurs types de cancers [104] [105] et pour distinguer les lignées cellulaires cancéreuses hautement invasives des lignées moins invasives en utilisant uniquement les informations sur la forme des cellules. [106] [107]

Les ANN ont été utilisés pour accélérer l’analyse de la fiabilité des infrastructures soumises à des catastrophes naturelles [108] [109] et pour prédire les tassements des fondations. [110] Les ANN ont également été utilisés pour construire des modèles de boîte noire en géoscience : hydrologie , [111] [112] modélisation océanique et ingénierie côtière , [113] [114] et géomorphologie . [115] Les ANN ont été employés dans la cybersécurité , dans le but de faire la distinction entre les activités légitimes et malveillantes. Par exemple, l’apprentissage automatique a été utilisé pour classer les logiciels malveillants Android, [116]pour identifier les domaines appartenant aux acteurs de la menace et pour détecter les URL présentant un risque de sécurité. [117] Des recherches sont en cours sur les systèmes ANN conçus pour les tests de pénétration, pour détecter les botnets, [118] les fraudes aux cartes de crédit [119] et les intrusions sur le réseau.

Les ANN ont été proposés comme outil pour résoudre des équations aux dérivées partielles en physique [120] [121] [122] et simuler les propriétés des systèmes quantiques ouverts à plusieurs corps . [123] [124] [125] [126] Dans la recherche sur le cerveau, les RNA ont étudié le comportement à court terme de neurones individuels , [127] la dynamique des circuits neuronaux découle des interactions entre les neurones individuels et comment le comportement peut découler de modules neuronaux abstraits qui représentent des sous-systèmes complets. Les études ont examiné la plasticité à long et à court terme des systèmes neuronaux et leur relation avec l’apprentissage et la mémoire du neurone individuel au niveau du système.

Propriétés théoriques

Puissance de calcul

Le perceptron multicouche est un approximateur de fonction universel , comme le prouve le théorème d’approximation universel . Cependant, la preuve n’est pas constructive en ce qui concerne le nombre de neurones nécessaires, la topologie du réseau, les poids et les paramètres d’apprentissage.

Une architecture récurrente spécifique avec des poids à valeurs rationnelles (par opposition aux poids à valeurs réelles en pleine précision ) a la puissance d’une machine de Turing universelle [ 128] utilisant un nombre fini de neurones et des connexions linéaires standard. De plus, l’utilisation de valeurs irrationnelles pour les poids donne une machine avec une puissance de super-Turing . [129]

Capacité

La propriété « capacité » d’un modèle correspond à sa capacité à modéliser une fonction donnée. Elle est liée à la quantité d’informations pouvant être stockées dans le réseau et à la notion de complexité. Deux notions de capacité sont connues de la communauté. La capacité d’information et la dimension VC. La capacité d’information d’un perceptron est intensément discutée dans le livre de Sir David MacKay [130] qui résume les travaux de Thomas Cover. [131] La capacité d’un réseau de neurones standard (non convolutionnels) peut être dérivée de quatre règles [132] qui dérivent de la compréhension d’un neurone en tant qu’élément électrique . La capacité d’information capture les fonctions modélisables par le réseau compte tenu de toute donnée en entrée. La deuxième notion, c’est laDimension CV . VC Dimension utilise les principes de la théorie de la mesure et trouve la capacité maximale dans les meilleures circonstances possibles. C’est-à-dire, étant donné les données d’entrée sous une forme spécifique. Comme indiqué dans [130] , la dimension VC pour les entrées arbitraires correspond à la moitié de la capacité d’information d’un Perceptron. La dimension VC pour des points arbitraires est parfois appelée capacité de mémoire. [133]

Convergence

Les modèles peuvent ne pas converger de manière cohérente vers une solution unique, d’abord parce que des minima locaux peuvent exister, selon la fonction de coût et le modèle. Deuxièmement, la méthode d’optimisation utilisée peut ne pas garantir de converger lorsqu’elle commence loin de tout minimum local. Troisièmement, pour des données ou des paramètres suffisamment volumineux, certaines méthodes deviennent impraticables.

Un autre problème digne de mention est que la formation peut traverser un point de selle qui peut conduire la convergence dans la mauvaise direction.

Le comportement de convergence de certains types d’architectures ANN est mieux compris que d’autres. Lorsque la largeur du réseau tend vers l’infini, le RNA est bien décrit par son développement de Taylor du premier ordre tout au long de l’apprentissage, et hérite ainsi du comportement de convergence des modèles affines . [134] [135] Un autre exemple est que lorsque les paramètres sont petits, on observe que les ANN correspondent souvent aux fonctions cibles des basses aux hautes fréquences. Ce comportement est appelé biais spectral, ou principe de fréquence, des réseaux de neurones. [136] [137] [138] [139] Ce phénomène est à l’opposé du comportement de certains schémas numériques itératifs bien étudiés tels que la méthode de Jacobi. On a observé que les réseaux de neurones plus profonds étaient plus biaisés vers les fonctions à basse fréquence. [140]

Généralisation et statistiques

Apprendre encore plus Cette section comprend une liste de références , de lectures connexes ou de liens externes , mais ses sources restent floues car elle manque de citations en ligne . ( août 2019 ) Please help to improve this section by introducing more precise citations. (Learn how and when to remove this template message)

Les applications dont le but est de créer un système qui se généralise bien à des exemples inédits sont confrontées à la possibilité d’un surentraînement. Cela se produit dans les systèmes alambiqués ou surspécifiés lorsque la capacité du réseau dépasse de manière significative les paramètres libres nécessaires. Deux approches abordent la surformation. La première consiste à utiliser la validation croisée et des techniques similaires pour vérifier la présence de surentraînement et sélectionner des hyperparamètres pour minimiser l’erreur de généralisation.

La seconde est d’utiliser une certaine forme de régularisation . Ce concept émerge dans un cadre probabiliste (bayésien), où la régularisation peut être effectuée en sélectionnant une probabilité a priori plus grande sur des modèles plus simples ; mais aussi dans la théorie de l’apprentissage statistique, où le but est de minimiser plus de deux quantités : le « risque empirique » et le « risque structurel », qui correspond à peu près à l’erreur sur l’ensemble d’apprentissage et à l’erreur prédite dans les données invisibles due au surajustement.

Analyse de confiance d’un réseau de neurones

Les réseaux de neurones supervisés qui utilisent une fonction de coût d’Erreur quadratique moyenne (MSE) peuvent utiliser des méthodes statistiques formelles pour déterminer la confiance du modèle formé. L’EQM sur un ensemble de validation peut être utilisée comme estimation de la variance. Cette valeur peut ensuite être utilisée pour calculer l’ intervalle de confiance de la sortie du réseau, en supposant une distribution normale . Une analyse de confiance faite de cette manière est statistiquement valide tant que la distribution de probabilité de sortie reste la même et que le réseau n’est pas modifié.

En attribuant une fonction d’activation softmax , une généralisation de la fonction logistique , sur la couche de sortie du réseau neuronal (ou un composant softmax dans un réseau à base de composants) pour les variables cibles catégorielles, les sorties peuvent être interprétées comme des probabilités a posteriori. Ceci est utile dans la classification car il donne une mesure de certitude sur les classifications.

La fonction d’activation softmax est :

y i = e x i ∑ j = 1 c e x j {displaystyle y_{i}={frac {e^{x_{i}}}{sum _{j=1}^{c}e^{x_{j}}}}} y_{i}={frac {e^{x_{i}}}{sum _{j=1}^{c}e^{x_{j}}}} y_{i}={frac {e^{x_{i}}}{sum _{j=1}^{c}e^{x_{j}}}}

Critique

Formation

Une critique courante des réseaux de neurones, en particulier en robotique, est qu’ils nécessitent trop de formation pour un fonctionnement dans le monde réel. [ citation nécessaire ] Les solutions potentielles incluent le mélange aléatoire d’exemples d’entraînement, en utilisant un algorithme d’optimisation numérique qui ne prend pas trop de mesures lors de la modification des connexions réseau à la suite d’un exemple, en regroupant des exemples dans ce qu’on appelle des mini-lots et/ou en introduisant un minimum récursif. algorithme des carrés pour CMAC . [79]

La théorie

Une objection fondamentale est que les ANN ne reflètent pas suffisamment la fonction neuronale. La rétropropagation est une étape critique, bien qu’aucun mécanisme de ce type n’existe dans les réseaux de neurones biologiques. [141] Comment l’information est codée par de vrais neurones n’est pas connue. Les neurones capteurs déclenchent des potentiels d’action plus fréquemment avec l’activation du capteur et les cellules musculaires tirent plus fortement lorsque leurs motoneurones associés reçoivent des potentiels d’action plus fréquemment. [142] Hormis le cas de la transmission d’informations d’un neurone capteur à un neurone moteur, presque rien des principes de traitement de l’information par les réseaux de neurones biologiques n’est connu.

Une affirmation centrale des RNA est qu’ils incarnent des principes généraux nouveaux et puissants pour le traitement de l’information. Ces principes sont mal définis. On prétend souvent qu’ils sont issus du réseau lui-même. Cela permet de décrire une association statistique simple (la fonction de base des réseaux de Neurones artificiels) comme un apprentissage ou une reconnaissance. En 1997, Alexander Dewdney a fait remarquer que, par conséquent, les réseaux de Neurones artificiels ont une “qualité de quelque chose pour rien, une qualité qui confère une aura particulière de paresse et un manque distinct de curiosité quant à la qualité de ces systèmes informatiques. Aucun humain la main (ou l’esprit) intervient ; les solutions sont trouvées comme par magie ; et personne, semble-t-il, n’a rien appris ». [143]Une réponse à Dewdney est que les réseaux de neurones gèrent de nombreuses tâches complexes et diverses, allant du vol autonome d’avions [144] à la détection de fraude par carte de crédit en passant par la maîtrise du jeu de Go .

L’écrivain technologique Roger Bridgman a commenté:

Les réseaux de neurones, par exemple, sont sur le banc des accusés non seulement parce qu’ils ont fait l’objet d’un battage médiatique (qu’est-ce qui ne l’a pas été ?), mais aussi parce que vous pourriez créer un réseau réussi sans comprendre comment cela fonctionnait : le groupe de chiffres qui capture son comportement serait selon toute probabilité “un tableau opaque, illisible… sans valeur en tant que ressource scientifique”.

Malgré sa déclaration catégorique selon laquelle la science n’est pas la technologie, Dewdney semble ici mettre au pilori les réseaux de neurones comme de la mauvaise science alors que la plupart de ceux qui les conçoivent essaient simplement d’être de bons ingénieurs. Un tableau illisible qu’une machine utile pourrait lire mériterait toujours d’avoir. [145]

Les cerveaux biologiques utilisent à la fois des circuits peu profonds et profonds, comme le rapporte l’anatomie du cerveau, [146] affichant une grande variété d’invariance. Weng [147] a fait valoir que le cerveau s’auto-connecte en grande partie en fonction des statistiques du signal et que, par conséquent, une cascade en série ne peut pas capter toutes les dépendances statistiques majeures.

Matériel

Des réseaux de neurones vastes et efficaces nécessitent des ressources informatiques considérables. [148] Alors que le cerveau dispose d’un matériel adapté à la tâche de traitement des signaux via un graphique de neurones, la simulation même d’un neurone simplifié sur l’architecture de von Neumann peut consommer de grandes quantités de mémoire et de stockage. De plus, le concepteur doit souvent transmettre des signaux via bon nombre de ces connexions et leurs neurones associés, ce qui nécessite une puissance CPU et un temps considérables.

Schmidhuber a noté que la résurgence des réseaux de neurones au XXIe siècle est largement attribuable aux progrès du matériel : de 1991 à 2015, la puissance de calcul, en particulier celle fournie par les GPGPU (sur les GPU ), a augmenté d’environ un million de fois, ce qui rend le algorithme de rétropropagation standard réalisable pour les réseaux de formation qui sont plusieurs couches plus profondes qu’auparavant. [10] L’utilisation d’accélérateurs tels que les FPGA et les GPU peut réduire les temps de formation de plusieurs mois à plusieurs jours. [148]

L’ingénierie neuromorphique ou un réseau neuronal physique résout directement la difficulté matérielle, en construisant des puces non von-Neumann pour implémenter directement des réseaux neuronaux dans les circuits. Un autre type de puce optimisé pour le traitement des réseaux neuronaux est appelé Tensor Processing Unit , ou TPU. [149]

Contre-exemples pratiques

Analyser ce qui a été appris par un RNA est beaucoup plus facile que d’analyser ce qui a été appris par un Réseau neuronal biologique. De plus, les chercheurs impliqués dans l’exploration des algorithmes d’apprentissage pour les réseaux de neurones découvrent progressivement les principes généraux qui permettent à une machine d’apprentissage de réussir. Par exemple, apprentissage local ou non local et architecture superficielle ou profonde. [150]

Approches hybrides

Les partisans des modèles hybrides (combinant réseaux de neurones et approches symboliques), affirment qu’un tel mélange permet de mieux saisir les mécanismes de l’esprit humain. [151] [152]

Galerie

  • Un réseau de Neurones artificiels à une seule couche. Flèches provenant de x 2 {displaystyle scriptstyle x_{2}} scriptstyle x_{2} scriptstyle x_{2}sont omis pour plus de clarté. Il y a p entrées sur ce réseau et q sorties. Dans ce système, la valeur de la qème sortie, y q {displaystyle scriptstyle y_{q}} scriptstyle y_{q} scriptstyle y_{q}serait calculé comme y q = K ∗ ( ∑ ( x i ∗ w i q ) − b q ) {displaystyle scriptstyle y_{q}=K*(sum (x_{i}*w_{iq})-b_{q})} {displaystyle scriptstyle y_{q}=K*(sum (x_{i}*w_{iq})-b_{q})} {displaystyle scriptstyle y_{q}=K*(sum (x_{i}*w_{iq})-b_{q})}

  • Un réseau de Neurones artificiels prédictifs à deux couches.

  • Un réseau de Neurones artificiels.

  • Un graphique de dépendance ANN.

  • Un réseau de Neurones artificiels à une seule couche avec 4 entrées, 6 cachées et 2 sorties. L’état de position et la direction donnés génèrent des valeurs de contrôle basées sur la roue.

  • Un réseau de Neurones artificiels à double couche avec 8 entrées, 2×8 cachées et 2 sorties. L’état de position, la direction et d’autres valeurs d’environnement donnés génèrent des valeurs de contrôle basées sur le propulseur.

  • Structure de pipeline parallèle du réseau neuronal CMAC. Cet algorithme d’apprentissage peut converger en une seule étape.

Voir également

  • ADALINE
  • Auto-encodeur
  • Informatique d’inspiration biologique
  • Projet Cerveau bleu
  • Interférence catastrophique
  • Architecture cognitive
  • Système expert connexionniste
  • Connectomique
  • Limites de grande largeur des réseaux de neurones
  • Concepts d’apprentissage automatique
  • Gaz neural
  • Logiciel de réseau neuronal
  • Réseau neuronal optique
  • Traitement distribué parallèle
  • Réseaux de neurones récurrents
  • Réseau de neurones de pointe
  • Réseau de produits Tensor

Remarques

  1. ^ Le pilotage du ” No Hands Across America ” ​​de 1995 ne nécessitait “que quelques aides humaines”.

Références

  1. ^ McCulloch, Warren; Walter Pitts (1943). “Un Calcul Logique des Idées Immanentes dans l’Activité Nerveuse”. Bulletin de biophysique mathématique . 5 (4): 115–133. doi : 10.1007/BF02478259 .
  2. ^ Kleene, SC (1956). “Représentation des événements dans les réseaux nerveux et les automates finis” . Annales d’études mathématiques . N° 34. Princeton University Press. p. 3–41 . Récupéré le 17 juin 2017 .
  3. ^ Hebb, Donald (1949). L’organisation du comportement . New York : Wiley. ISBN 978-1-135-63190-1.
  4. ^ Farley, BG; WA Clark (1954). “Simulation de systèmes auto-organisateurs par ordinateur numérique”. Transactions IRE sur la théorie de l’information . 4 (4) : 76–84. doi : 10.1109/TIT.1954.1057468 .
  5. ^ Haykin (2008) Réseaux de neurones et machines d’apprentissage, 3e édition
  6. ^ Rosenblatt, F. (1958). “Le Perceptron : un modèle probabiliste pour le stockage et l’organisation de l’information dans le cerveau”. Revue psychologique . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . doi : 10.1037/h0042519 . PMID 13602029 .
  7. ^ Werbos, PJ (1975). Au-delà de la régression : nouveaux outils de prédiction et d’analyse dans les sciences du comportement .
  8. ^ Rosenblatt, Frank (1957). “Le Perceptron – un automate percevant et reconnaissant”. Rapport 85-460-1 . Laboratoire aéronautique de Cornell.
  9. ^ Olazaran, Mikel (1996). “Une étude sociologique de l’histoire officielle de la controverse des perceptrons”. Études sociales des sciences . 26 (3): 611–659. doi : 10.1177/030631296026003005 . JSTOR 285702 . S2CID 16786738 .
  10. ^ un bc Schmidhuber , J. (2015). “Apprentissage en profondeur dans les réseaux de neurones : un aperçu”. Réseaux de neurones . 61 : 85–117. arXiv : 1404.7828 . doi : 10.1016/j.neunet.2014.09.003 . PMID 25462637 . S2CID 11715509 .
  11. ^ Ivakhnenko, AG (1973). Dispositifs de prédiction cybernétique . Société d’information CCM.
  12. ^ Ivakhnenko, AG; Grigor’evich Lapa, Valentin (1967). Cybernétique et techniques de prévision . Pub américain Elsevier. Co.
  13. ^ un bc Schmidhuber , Jürgen (2015). “Apprentissage en profondeur” . Scholarpédia . 10 (11): 85–117. Bibcode : 2015SchpJ..1032832S . doi : 10.4249/scholarpedia.32832 .
  14. ^ Dreyfus, Stuart E. (1er septembre 1990). “Réseaux de Neurones artificiels, rétropropagation et procédure de gradient de Kelley-Bryson”. Journal d’orientation, de contrôle et de dynamique . 13 (5): 926–928. Bibcode : 1990JGCD…13..926D . doi : 10.2514/3.25422 . ISSN 0731-5090 .
  15. ^ Mizutani, E.; Dreyfus, SE ; En ligneNishio, K. (2000). “Sur la dérivation de la rétropropagation MLP de la formule de gradient de contrôle optimal de Kelley-Bryson et son application”. Actes de la conférence conjointe internationale IEEE-INNS-ENNS sur les réseaux de neurones. IJCNN 2000. Neural Computing : nouveaux défis et perspectives pour le nouveau millénaire . IEEE : 167–172 vol.2. doi : 10.1109/ijcnn.2000.857892 . ISBN 0-7695-0619-4. S2CID 351146 .
  16. ^ Kelley, Henry J. (1960). “Théorie du gradient des trajectoires de vol optimales”. Revue ARS . 30 (10): 947–954. doi : 10.2514/8.5282 .
  17. ^ “Une méthode de gradient pour optimiser les processus d’allocation en plusieurs étapes” . Actes de l’Université de Harvard. Symposium sur les ordinateurs numériques et leurs applications . Avril 1961.
  18. ^ Minsky, Marvin; Papert, Seymour (1969). Perceptrons : une introduction à la géométrie computationnelle . Presse du MIT. ISBN 978-0-262-63022-1.
  19. ^ Linnainmaa, Seppo (1970). La représentation de l’erreur d’arrondi cumulée d’un algorithme sous la forme d’un développement de Taylor des erreurs d’arrondi locales (Masters) (en finnois). Université d’Helsinki. p. 6–7.
  20. ^ Linnainmaa, Seppo (1976). “L’expansion de Taylor de l’erreur d’arrondi accumulée”. BIT Mathématiques Numériques . 16 (2): 146–160. doi : 10.1007/bf01931367 . S2CID 122357351 .
  21. ^ Dreyfus, Stuart (1973). “La solution informatique des problèmes de contrôle optimal avec décalage dans le temps”. Transactions IEEE sur le contrôle automatique . 18 (4): 383–385. doi : 10.1109/tac.1973.1100330 .
  22. ^ Werbos, Paul (1982). “Applications des progrès de l’analyse de sensibilité non linéaire” (PDF) . Modélisation et optimisation du système . Springer. pp. 762–770.
  23. ^ Hydromel, Carver A. ; Ismail, Mohammed (8 mai 1989). Implémentation VLSI analogique des systèmes neuronaux (PDF) . La série internationale Kluwer en ingénierie et informatique. Vol. 80. Norwell, MA : Éditeurs universitaires Kluwer . doi : 10.1007/978-1-4613-1639-8 . ISBN 978-1-4613-1639-8.
  24. ^ David E. Rumelhart, Geoffrey E. Hinton & Ronald J. Williams, ” Apprentissage des représentations par rétro-propagation des erreurs ,” Nature’, 323, pages 533–536 1986.
  25. ^ Qian, Ning et Terrence J. Sejnowski. “Prédire la structure secondaire des protéines globulaires à l’aide de modèles de réseaux de neurones.” Journal de biologie moléculaire 202, no. 4 (1988): 865-884.
  26. ^ Bohr, Henrik, Jakob Bohr, Søren Brunak, Rodney MJ Cotterill, Benny Lautrup, Leif Nørskov, Ole H. Olsen et Steffen B. Petersen. “Structure secondaire des protéines et homologie par les réseaux de neurones Les hélices α dans la rhodopsine.” Lettres FEBS 241, (1988): 223-228
  27. ^ Rost, Burkhard et Chris Sander. “Prédiction de la structure secondaire des protéines avec une précision supérieure à 70 %.” Journal de biologie moléculaire 232, no. 2 (1993): 584-599.
  28. ^ J. Weng, N. Ahuja et TS Huang, ” Cresceptron: un réseau neuronal auto-organisé qui se développe de manière adaptative “, Proc. International Joint Conference on Neural Networks , Baltimore, Maryland, vol I, pp. 576–581, juin 1992.
  29. ^ J. Weng, N. Ahuja et TS Huang, ” Apprentissage de la reconnaissance et de la segmentation d’objets 3D à partir d’images 2D “, Proc. 4ème Conférence Internationale. Computer Vision , Berlin, Allemagne, pp. 121–128, mai 1993.
  30. ^ J. Weng, N. Ahuja et TS Huang, ” Apprentissage de la reconnaissance et de la segmentation à l’aide du Cresceptron “, International Journal of Computer Vision , vol. 25, non. 2, p. 105–139, novembre 1997.
  31. ^ J. Schmidhuber., ” Apprentissage de séquences complexes et étendues en utilisant le principe de la compression d’histoire “, Neural Computation , 4, pp. 234–242, 1992.
  32. ^ Domingos, Pedro (22 septembre 2015). L’algorithme maître : comment la quête de la machine d’apprentissage ultime refaçonnera notre monde . chapitre 4 : Ouvrages de base . ISBN 978-0465065707.{{cite book}}: CS1 maint: location (link)
  33. ^ Smolensky, P. (1986). “Traitement de l’information dans les systèmes dynamiques : fondements de la théorie de l’harmonie.” . Dans DE Rumelhart; JL McClelland; Groupe de recherche PDP (éd.). Traitement distribué parallèle : Explorations dans la microstructure de la cognition . Vol. 1. pp. 194–281 . ISBN 978-0-262-68053-0.
  34. ^ Ng, Andrew; Doyen, Jeff (2012). “Création de fonctionnalités de haut niveau à l’aide d’un apprentissage non supervisé à grande échelle”. arXiv : 1112.6209 [ cs.LG ].
  35. ^ Ian Goodfellow et Yoshua Bengio et Aaron Courville (2016). Apprentissage en profondeur . Presse du MIT.
  36. ^ Ciresan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 septembre 2010). “Réseaux neuronaux profonds, grands et simples pour la reconnaissance manuscrite des chiffres”. Calcul neuronal . 22 (12): 3207–3220. arXiv : 1003.0358 . doi : 10.1162/neco_a_00052 . ISSN 0899-7667 . PMID 20858131 . S2CID 1918673 .
  37. ^ Dominik Scherer, Andreas C. Müller et Sven Behnke: ” Évaluation des opérations de mise en commun dans les architectures convolutives pour la reconnaissance d’objets “, dans la 20e Conférence internationale sur les réseaux de Neurones artificiels (ICANN) , pp. 92-101, 2010. doi : 10.1007/978 -3-642-15825-4_10 .
  38. ^ 2012 Kurzweil AI Interview Archivé le 31 août 2018 à la Wayback Machine avec Jürgen Schmidhuber sur les huit compétitions remportées par son équipe Deep Learning 2009-2012
  39. ^ “Comment l’apprentissage en profondeur bio-inspiré continue de gagner des compétitions | KurzweilAI” . www.kurzweilai.net . Archivé de l’original le 31 août 2018 . Récupéré le 16 juin 2017 .
  40. ^ Graves, Alex; et Schmidhuber, Jürgen; Reconnaissance de l’écriture manuscrite hors ligne avec des réseaux de neurones récurrents multidimensionnels , à Bengio, Yoshua ; Schuurmans, Dale; Lafferty, John; Williams, Chris KI; et Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS’22), 7–10 décembre 2009, Vancouver, Colombie-Britannique , Neural Information Processing Systems (NIPS) Foundation, 2009, p. 545–552.
  41. ^ un b Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; En ligneSchmidhuber, J. (2009). “Un nouveau système connexionniste pour une meilleure reconnaissance de l’écriture manuscrite sans contrainte” (PDF) . Transactions IEEE sur l’analyse de modèles et l’intelligence artificielle . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi : 10.1109/tpami.2008.137 . PMID 19299860 . S2CID 14635907 .
  42. ^ un b Graves, Alex; Schmidhuber, Jürgen (2009). Bengio, Yoshua ; Schuurmans, Dale; Lafferty, John; Williams, Chris éditeur-KI ; Culotta, Aron (éd.). “Reconnaissance de l’écriture manuscrite hors ligne avec des réseaux de neurones récurrents multidimensionnels” . Fondation des systèmes de traitement de l’information neuronale (NIPS) . Curran Associates, Inc. 21 : 545–552. {{cite journal}}: |editor-first4=a un nom générique ( aide )
  43. ^ Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (mai 2009). “Un nouveau système connexionniste pour la reconnaissance d’écriture manuscrite sans contrainte”. Transactions IEEE sur l’analyse de modèles et l’intelligence artificielle . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi : 10.1109/tpami.2008.137 . ISSN 0162-8828 . PMID 19299860 . S2CID 14635907 .
  44. ^ Ciresan, Dan; Meier, U.; Schmidhuber, J. (juin 2012). Réseaux de neurones profonds multi-colonnes pour la classification d’images . Conférence IEEE 2012 sur la vision par ordinateur et la reconnaissance de formes . pages 3642–3649. arXiv : 1202.2745 . Bibcode : 2012arXiv1202.2745C . CiteSeerX 10.1.1.300.3283 . doi : 10.1109/cvpr.2012.6248110 . ISBN 978-1-4673-1228-8. S2CID 2161592 .
  45. ^ un b Zell, Andreas (2003). “chapitre 5.2”. Simulation neuronaler Netze [ Simulation de réseaux de neurones ] (en allemand) (1ère éd.). Addison-Wesley. ISBN 978-3-89319-554-1. OCLC 249017987 .
  46. ^ Intelligence artificielle (3e éd.). Pub Addison-Wesley. Co. 1992. ISBN 0-201-53377-4.
  47. ^ Abbod, Maysam F (2007). “Application de l’intelligence artificielle à la gestion du cancer urologique”. Le Journal d’urologie . 178 (4): 1150–1156. doi : 10.1016/j.juro.2007.05.122 . PMID 17698099 .
  48. ^ DAWSON, CHRISTIAN W (1998). “Une approche de réseau de Neurones artificiels pour la modélisation pluie-débit”. Journal des sciences hydrologiques . 43 (1): 47–66. doi : 10.1080/02626669809492102 .
  49. ^ “Le dictionnaire d’apprentissage automatique” . www.cse.unsw.edu.au . Archivé de l’original le 26 août 2018 . Récupéré le 4 novembre 2009 .
  50. ^ Ciresan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella ; Jürgen Schmidhuber (2011). “Réseaux de neurones convolutifs flexibles et hautes performances pour la classification d’images” (PDF) . Actes de la vingt-deuxième Conférence conjointe internationale sur l’intelligence artificielle – Volume Deux . 2 : 1237–1242 . Récupéré le 17 novembre 2013 .
  51. ^ Zell, Andreas (1994). Simulation Neuronaler Netze [ Simulation de réseaux de neurones ] (en allemand) (1ère éd.). Addison-Wesley. p. 73. ISBN 3-89319-554-8.
  52. ^ Miljanovic, Milos (février-mars 2012). “Analyse comparative des réseaux de neurones à réponse impulsionnelle récurrente et finie dans la prédiction des séries chronologiques” (PDF) . Journal indien d’informatique et d’ingénierie . 3 (1).
  53. ^ Lau, Suki (10 juillet 2017). “Une procédure pas à pas du réseau de neurones convolutifs – Réglage des hyperparamètres” . Moyen . Récupéré le 23 août 2019 .
  54. ^ Kelleher, John D. (2020). “7-8”. Fondamentaux de l’apprentissage automatique pour l’analyse prédictive des données : algorithmes, exemples concrets et études de cas . Brian Mac Namee, Aoife D’Arcy (2 éd.). Cambridge, Massachusetts. ISBN 978-0-262-36110-1. OCLC 1162184998 .
  55. ^ Wei, Jiakai (26 avril 2019). “Oubliez le taux d’apprentissage, la perte de décomposition”. arXiv : 1905.00094 [ cs.LG ].
  56. ^ Li, Y. ; Fu, Y.; Li, H.; Zhang, SW (1er juin 2009). L’algorithme de formation amélioré du réseau de neurones à rétropropagation avec taux d’apprentissage auto-adaptatif . Conférence internationale 2009 sur l’intelligence computationnelle et l’informatique naturelle . Vol. 1. p. 73–76. doi : 10.1109/CINC.2009.111 . ISBN 978-0-7695-3645-3. S2CID 10557754 .
  57. ^ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). « Machine d’apprentissage extrême : théorie et applications ». Neuroinformatique . 70 (1): 489–501. CiteSeerX 10.1.1.217.3692 . doi : 10.1016/j.neucom.2005.12.126 .
  58. ^ Veuve, Bernard; et coll. (2013). “L’algorithme sans prop: un nouvel algorithme d’apprentissage pour les réseaux de neurones multicouches”. Réseaux de neurones . 37 : 182–188. doi : 10.1016/j.neunet.2012.09.020 . PMID 23140797 .
  59. Ollivier, Yann ; Charpiat, Guillaume (2015). « Former des réseaux récurrents sans retour en arrière ». arXiv : 1507.07680 [ cs.NE ].
  60. ^ ESANN. 2009
  61. ^ Hinton, GE (2010). “Un guide pratique pour la formation des machines Boltzmann restreintes” . Technologie. Rep. UTML TR 2010-003 .
  62. ^ Ojha, Varun Kumar; Abraham, Ajith ; Snášel, Václav (1er avril 2017). “Conception métaheuristique des réseaux de neurones à anticipation: un examen de deux décennies de recherche”. Applications d’ingénierie de l’intelligence artificielle . 60 : 97–116. arXiv : 1705.05584 . Bib code : 2017arXiv170505584O . doi : 10.1016/j.engappai.2017.01.013 . S2CID 27910748 .
  63. ^ Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (juillet 1991). “Apprentissage par renforcement génétique pour les réseaux de neurones” . IJCNN-91-Seattle International Joint Conference on Neural Networks . IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, Washington, États-Unis : IEEE. doi : 10.1109/IJCNN.1991.155315 . ISBN 0-7803-0164-1.
  64. ^ Hoskins, JC; Himmelblau, DM (1992). “Contrôle de processus via des réseaux de Neurones artificiels et apprentissage par renforcement”. Informatique et génie chimique . 16 (4): 241–251. doi : 10.1016/0098-1354(92)80045-B .
  65. ^ Bertsekas, DP; Tsitsiklis, JN (1996). Programmation neuro-dynamique . Athéna Scientifique. p. 512.ISBN _ 978-1-886529-10-6.
  66. ^ Secomandi, Nicola (2000). “Comparer les algorithmes de programmation neuro-dynamiques pour le problème de routage de véhicules avec les demandes stochastiques”. Informatique et recherche opérationnelle . 27 (11–12) : 1201–1225. CiteSeerX 10.1.1.392.4034 . doi : 10.1016/S0305-0548(99)00146-X .
  67. ^ de Rigo, D.; Rizzoli, AE ; Soncini-Sessa, R.; Weber, E.; En ligneZenesi, P. (2001). “Programmation neuro-dynamique pour la gestion efficace des réseaux de réservoirs”. Actes de MODSIM 2001, Congrès international sur la modélisation et la simulation . MODSIM 2001, Congrès International de Modélisation et Simulation . Canberra, Australie : Société de modélisation et de simulation d’Australie et de Nouvelle-Zélande. doi : 10.5281/zenodo.7481 . ISBN 0-86740-525-2.
  68. ^ Damas, M.; Salmeron, M.; Diaz, A.; Ortega, J.; Prieto, A.; En ligneOlivares, G. (2000). « Algorithmes génétiques et programmation neuro-dynamique : application aux réseaux d’adduction d’eau ». Actes du Congrès 2000 sur le calcul évolutionnaire . Congrès 2000 sur le calcul évolutionnaire. La Jolla, Californie, États-Unis : IEEE. doi : 10.1109/CEC.2000.870269 . ISBN 0-7803-6375-2.
  69. ^ Deng, Geng; Ferris, MC (2008). Programmation neuro-dynamique pour la planification de la radiothérapie fractionnée . Optimisation de Springer et ses applications. Vol. 12. p. 47–70. CiteSeerX 10.1.1.137.8288 . doi : 10.1007/978-0-387-73299-2_3 . ISBN 978-0-387-73298-5.
  70. ^ Bozinovski, S. (1982). “Un système d’auto-apprentissage utilisant le renforcement secondaire”. Dans R. Trappl (éd.) Cybernétique et recherche sur les systèmes : Actes de la sixième réunion européenne sur la cybernétique et la recherche sur les systèmes. Hollande du Nord. p. 397–402. ISBN 978-0-444-86488-8 .
  71. ^ Bozinovski, S. (2014) ” Mécanismes de modélisation de l’interaction cognition-émotion dans les réseaux de Neurones artificiels, depuis 1981. ” Procedia Informatique p. 255-263
  72. ^ Bozinovski, Stevo; Bozinovska, Liljana (2001). “Agents d’auto-apprentissage: Une théorie connexionniste de l’émotion basée sur le jugement de valeur crossbar”. Cybernétique et Systèmes . 32 (6): 637–667. doi : 10.1080/01969720118145 . S2CID 8944741 .
  73. ^ “L’intelligence artificielle peut ‘évoluer’ pour résoudre des problèmes” . Sciences | AAAA . 10 janvier 2018 . Récupéré le 7 février 2018 .
  74. ^ Turchetti, Claudio (2004), Modèles stochastiques de réseaux de neurones , Frontières de l’intelligence artificielle et applications : Systèmes d’ingénierie intelligents basés sur la connaissance, vol. 102, IOS Press, ISBN 9781586033880
  75. ^ de Rigo, D.; Castelletti, A.; Rizzoli, AE ; Soncini-Sessa, R.; Weber, E. (janvier 2005). “Une technique d’amélioration sélective pour fixer la programmation neuro-dynamique dans la gestion des réseaux de ressources en eau” . Dans Pavel Zítek (éd.). Actes du 16e Congrès mondial de l’IFAC – IFAC-PapersOnLine . 16e Congrès mondial de l’IFAC . Vol. 16. Prague, République tchèque : IFAC. doi : 10.3182/20050703-6-CZ-1902.02172 . manche : 11311/255236 . ISBN 978-3-902661-75-3. Récupéré le 30 décembre 2011 .
  76. ^ Ferreira, C. (2006). “Concevoir des réseaux de neurones à l’aide de la programmation d’expression génique”. Dans A. Abraham; B. de Baets; M. Koppen ; B. Nickolay (éd.). Technologies informatiques douces appliquées : le défi de la complexité (PDF) . Springer Verlag. pages 517–536.
  77. ^ Da, Y.; Xiurun, G. (juillet 2005). “Un ANN amélioré à base de PSO avec une technique de recuit simulé” . Dans T. Villmann (éd.). Nouveaux aspects en neuroinformatique : 11e Symposium européen sur les réseaux de Neurones artificiels . Elsevier. doi : 10.1016/j.neucom.2004.07.002 . Archivé de l’original le 25 avril 2012 . Récupéré le 30 décembre 2011 .
  78. ^ Wu, J.; Chen, E. (mai 2009). “Un nouvel ensemble de régression non paramétrique pour la prévision des précipitations à l’aide d’une technique d’optimisation d’essaim de particules couplée à un réseau de Neurones artificiels” . Dans Wang, H.; Shen, Y.; Huang, T.; Zeng, Z. (éd.). 6e Symposium international sur les réseaux de neurones, ISNN 2009 . Springer. doi : 10.1007/978-3-642-01513-7_6 . ISBN 978-3-642-01215-0. Archivé de l’original le 31 décembre 2014 . Récupéré le 1er janvier 2012 .
  79. ^ un b Ting Qin, et autres. ” Un algorithme d’apprentissage de CMAC basé sur RLS .” Lettres de traitement neuronal 19.1 (2004): 49–61.
  80. ^ Ting Qin, et al. ” Continu CMAC-QRLS et son réseau systolique .” Lettres de traitement neuronal 22.1 (2005): 1–16.
  81. ^ LeCun et al. , “Rétropropagation appliquée à la reconnaissance manuscrite du code postal,” Neural Computation , 1, pp. 541–551, 1989.
  82. ^ Yann LeCun (2016). Diapositives sur l’apprentissage en profondeur en ligne
  83. ^ Hochreiter, Sepp ; Schmidhuber, Jürgen (1er novembre 1997). “Longue mémoire à court terme”. Calcul neuronal . 9 (8): 1735–1780. doi : 10.1162/neco.1997.9.8.1735 . ISSN 0899-7667 . PMID 9377276 . S2CID 1915014 .
  84. ^ Sak, Hasim; Sénior, André ; Beaufays, Françoise (2014). “Architectures de réseaux de neurones récurrents à longue mémoire à court terme pour la modélisation acoustique à grande échelle” (PDF) . Archivé de l’original (PDF) le 24 avril 2018.
  85. ^ Li, Xiangang; Wu, Xihong (15 octobre 2014). “Construire des réseaux de neurones récurrents profonds basés sur la mémoire à court terme pour la reconnaissance vocale à grand vocabulaire”. arXiv : 1410.4281 [ cs.CL ].
  86. ^ Ventilateur, Y. ; Qian, Y.; Xie, F.; Soong, FK (2014). “Synthèse TTS avec des réseaux de neurones récurrents bidirectionnels basés sur LSTM” . Actes de la conférence annuelle de l’International Speech Communication Association, Interspeech : 1964–1968 . Récupéré le 13 juin 2017 .
  87. ^ Zen, Heiga; Sak, Hasim (2015). “Réseau de neurones récurrent à mémoire longue et à court terme unidirectionnelle avec couche de sortie récurrente pour la synthèse vocale à faible latence” (PDF) . Google.com . ICASSP. pages 4470–4474.
  88. ^ Fan, Bo; Wang, Lijuan ; Soong, Frank K.; Xie, Lei (2015). “Tête parlante photo-réelle avec LSTM bidirectionnel profond” (PDF) . Actes de l’ICASSP .
  89. ^ Argent, David ; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis ; Laï, Matthieu ; Guez, Arthur; Lancot, Marc; Sifre, Laurent; Kumaran, Darshan ; Graepel, Thore; Lilicrap, Timothy ; Simonyan, Karen; Hassabis, Demis (5 décembre 2017). “Maîtriser les échecs et le shogi par l’auto-jeu avec un algorithme d’apprentissage de renforcement général”. arXiv : 1712.01815 [ cs.AI ].
  90. ^ Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing ; Warde Farley, David; Ozaïr, Sherjil ; Courville, Aaron; Bengio, Yoshua (2014). Réseaux antagonistes génératifs (PDF) . Actes de la Conférence internationale sur les systèmes de traitement de l’information neuronale (NIPS 2014). pages 2672–2680.
  91. ^ Zoph, Barret; Le, Quoc V. (4 novembre 2016). “Recherche d’architecture neuronale avec apprentissage par renforcement”. arXiv : 1611.01578 [ cs.LG ].
  92. ^ “AutoKeras” . autokeras.com . Récupéré le 21 août 2019 .
  93. ^ “Claesen, Marc et Bart De Moor. “Recherche d’hyperparamètres dans l’apprentissage automatique.” arXiv preprint arXiv: 1502.02127 (2015)” . arXiv : 1502.02127 . Bib code : 2015arXiv150202127C .
  94. ^ Turek, Fred D. (mars 2007). « Introduction à la vision machine par réseau neuronal » . Conception de systèmes de vision . 12 (3) . Récupéré le 5 mars 2013 .
  95. ^ Zissis, Dimitrios (octobre 2015). “Une architecture basée sur le cloud capable de percevoir et de prédire le comportement de plusieurs navires” . Informatique douce appliquée . 35 : 652–661. doi : 10.1016/j.asoc.2015.07.002 .
  96. ^ Roman M. Balabin ; Ekaterina I. Lomakina (2009). “Approche de réseau neuronal aux données de chimie quantique: prédiction précise des énergies de la théorie fonctionnelle de la densité”. J. Chem. Phys. 131 (7) : 074104. Bibcode : 2009JChPh.131g4104B . doi : 10.1063/1.3206326 . PMID 19708729 .
  97. ^ Argent, David; et coll. (2016). “Maîtriser le jeu de Go avec les réseaux de neurones profonds et la recherche arborescente” (PDF) . Nature . 529 (7587): 484–9. Bibcode : 2016Natur.529..484S . doi : 10.1038/nature16961 . PMID 26819042 . S2CID 515925 .
  98. ^ Sengupta, Nandini; Sahidullah, MD; Saha, Goutam (août 2016). “Classification des sons pulmonaires utilisant des caractéristiques statistiques basées sur cepstral”. Informatique en Biologie et Médecine . 75 (1): 118-129. doi : 10.1016/j.compbiomed.2016.05.013 . PMID 27286184 .
  99. ^ Choy, Christopher B., et al. ” 3d-r2n2 : une approche unifiée pour la reconstruction d’objets 3d à vue unique et multi-vues .” Conférence européenne sur la vision par ordinateur. Springer, Cham, 2016.
  100. ^ Gessler, Josef (août 2021). “Capteur pour l’analyse alimentaire appliquant la spectroscopie d’impédance et les réseaux de Neurones artificiels” . RiuNet UPV (1) : 8–12.
  101. ^ Maitra, DS; Bhattacharya, U. ; Parui, Sask. (août 2015). “Approche commune basée sur CNN pour la reconnaissance de caractères manuscrits de plusieurs scripts” . 2015 13e Conférence internationale sur l’analyse et la reconnaissance de documents (ICDAR) : 1021–1025. doi : 10.1109/ICDAR.2015.7333916 . ISBN 978-1-4799-1805-8. S2CID 25739012 .
  102. ^ Français, Jordanie (2016). “Le CAPM du voyageur temporel”. Journal des analystes d’investissement . 46 (2): 81–96. doi : 10.1080/10293523.2016.1255469 . S2CID 157962452 .
  103. ^ Schechner, Sam (15 juin 2017). “Facebook booste l’IA pour bloquer la propagande terroriste” . Wall StreetJournal . ISSN 0099-9660 . Récupéré le 16 juin 2017 .
  104. ^ Ganesan, N (2010). “Application des réseaux de neurones dans le diagnostic des maladies cancéreuses à l’aide de données démographiques” . Journal international des applications informatiques . 1 (26): 81–97. Bibcode : 2010IJCA….1z..81G . doi : 10.5120/476-783 .
  105. ^ Bottaci, Leonardo (1997). “Réseaux de Neurones artificiels appliqués à la prédiction des résultats pour les patients atteints d’un cancer colorectal dans des établissements séparés” (PDF) . Lancette . Le Lancet. 350 (9076): 469–72. doi : 10.1016/S0140-6736(96)11196-X . PMID 9274582 . S2CID 18182063 . Archivé de l’original (PDF) le 23 novembre 2018 . Récupéré le 2 mai 2012 .
  106. ^ Alizadeh, Elaheh; Lyons, Samanthe M; Château, Jordan M; Prasad, Ashok (2016). “Mesure des changements systématiques dans la forme des cellules cancéreuses invasives à l’aide des moments de Zernike” . Biologie Intégrative . 8 (11): 1183–1193. doi : 10.1039/C6IB00100A . PMID 27735002 .
  107. ^ Lyon, Samanthe (2016). “Les changements dans la forme des cellules sont corrélés avec le potentiel métastatique chez le murin” . Biologie Ouvert . 5 (3): 289–299. doi : 10.1242/bio.013409 . PMC 4810736 . PMID 26873952 .
  108. ^ Nabian, Mohammad Amin; Meidani, Hadi (28 août 2017). “Apprentissage en profondeur pour l’analyse accélérée de la fiabilité des réseaux d’infrastructure”. Ingénierie Civile et des Infrastructures Assistée par Ordinateur . 33 (6): 443–458. arXiv : 1708.08551 . Bibcode : 2017arXiv170808551N . doi : 10.1111/souris.12359 . S2CID 36661983 .
  109. ^ Nabian, Mohammad Amin; Meidani, Hadi (2018). “Accélérer l’évaluation stochastique de la connectivité du réseau de transport après le tremblement de terre via des substituts basés sur l’apprentissage automatique” . Conseil de recherche sur les transports 97e réunion annuelle .
  110. ^ Diaz, E.; Brotons, V.; Tomás, R. (septembre 2018). “Utilisation de réseaux de Neurones artificiels pour prédire le tassement élastique 3D des fondations sur des sols à substrat rocheux incliné” . Sols et fondations . 58 (6): 1414-1422. doi : 10.1016/j.sandf.2018.08.001 . manche : 10045/81208 . ISSN 0038-0806 .
  111. ^ Govindaraju, Rao S. (1er avril 2000). “Réseaux de Neurones artificiels en hydrologie. I : Concepts préliminaires”. Journal de génie hydrologique . 5 (2): 115–123. doi : 10.1061/(ASCE)1084-0699(2000)5:2(115) .
  112. ^ Govindaraju, Rao S. (1er avril 2000). “Réseaux de Neurones artificiels en hydrologie. II : Applications hydrologiques”. Journal de génie hydrologique . 5 (2): 124–137. doi : 10.1061/(ASCE)1084-0699(2000)5:2(124) .
  113. ^ Peres, DJ; Iuppa, C.; Cavallaro, L.; Cancellière, A.; Foti, E. (1er octobre 2015). “Extension significative du record de hauteur des vagues par les réseaux de neurones et les données de vent de réanalyse”. Modélisation de l’océan . 94 : 128–140. Bibcode : 2015OcMod..94..128P . doi : 10.1016/j.ocemod.2015.08.002 .
  114. ^ Dwarakish, GS; Rakshith, Shetty ; Natesan, Usha (2013). “Revue sur les applications du réseau de neurones en génie côtier” . Systèmes intelligents artificiels et apprentissage automatique . 5 (7): 324–331.
  115. ^ Ermini, Léonard; Catani, Filippo; Casagli, Nicola (1er mars 2005). “Réseaux de Neurones artificiels appliqués à l’évaluation de la sensibilité aux glissements de terrain”. Géomorphologie . Aléa géomorphologique et impact humain en milieu montagnard. 66 (1): 327–343. Bibcode : 2005Geomo..66..327E . doi : 10.1016/j.geomorph.2004.09.025 .
  116. ^ Nix, R.; Zhang, J. (mai 2017). “Classification des applications Android et des logiciels malveillants utilisant des réseaux de neurones profonds”. 2017 International Joint Conference on Neural Networks (IJCNN) : 1871–1878. doi : 10.1109/IJCNN.2017.7966078 . ISBN 978-1-5090-6182-2. S2CID 8838479 .
  117. ^ “Détecter les URL malveillantes” . Le groupe systèmes et réseaux de l’UCSD . Archivé de l’original le 14 juillet 2019 . Récupéré le 15 février 2019 .
  118. ^ Homayoun, Sajad; Ahmadzadeh, Marzieh; Hachemi, Sattar ; Dehghantanha, Ali; Khayami, Raouf (2018), Dehghantanha, Ali ; Conti, Mauro; Dargahi, Tooska (eds.), “BoTShark : une approche d’apprentissage en profondeur pour la détection du trafic de botnet”, Cyber ​​Threat Intelligence , Advances in Information Security, Springer International Publishing, pp. 137–153, doi : 10.1007/978-3-319- 73951-9_7 , ISBN 978-3-319-73951-9
  119. ^ et (janvier 1994). “Détection de fraude par carte de crédit avec un réseau de neurones”. 1994 Actes de la vingt-septième Conférence internationale d’Hawaï sur les sciences du système . 3 : 621–630. doi : 10.1109/HICSS.1994.323314 . ISBN 978-0-8186-5090-1. S2CID 13260377 .
  120. ^ Ananthaswamy, Anil (19 avril 2021). “Les derniers réseaux de neurones résolvent les équations les plus difficiles du monde plus rapidement que jamais auparavant” . Revue Quanta . Récupéré le 12 mai 2021 .
  121. ^ “L’IA a résolu un puzzle mathématique clé pour comprendre notre monde” . Examen de la technologie MIT . Récupéré le 19 novembre 2020 .
  122. ^ “Caltech Open-Sources AI pour résoudre les équations différentielles partielles” . InfoQ . Récupéré le 20 janvier 2021 .
  123. ^ Nagy, Alexandra (28 juin 2019). “Méthode de Monte Carlo quantique variationnelle avec un réseau de neurones Ansatz pour les systèmes quantiques ouverts”. Lettres d’examen physique . 122 (25) : 250501. arXiv : 1902.09483 . Bibcode : 2019PhRvL.122y0501N . doi : 10.1103/PhysRevLett.122.250501 . PMID 31347886 . S2CID 119074378 .
  124. Yoshioka, Nobuyuki ; Hamazaki, Ryusuke (28 juin 2019). “Construire des états stationnaires neuronaux pour des systèmes quantiques ouverts à plusieurs corps”. Examen physique B . 99 (21) : 214306. arXiv : 1902.07006 . Bibcode : 2019arXiv190207006Y . doi : 10.1103/PhysRevB.99.214306 . S2CID 119470636 .
  125. ^ Hartmann, Michael J.; Carléo, Giuseppe (28 juin 2019). “Approche de réseau de neurones à la dynamique à plusieurs corps quantique dissipative”. Lettres d’examen physique . 122 (25) : 250502. arXiv : 1902.05131 . Bib code : 2019arXiv190205131H . doi : 10.1103/PhysRevLett.122.250502 . PMID 31347862 . S2CID 119357494 .
  126. ^ Vicentini, Filippo; Biella, Alberto; Regnault, Nicolas; Ciuti, Cristiano (28 juin 2019). “Ansatz de réseau de neurones variationnel pour les états stables dans les systèmes quantiques ouverts”. Lettres d’examen physique . 122 (25) : 250503. arXiv : 1902.10104 . Bib code : 2019arXiv190210104V . doi : 10.1103/PhysRevLett.122.250503 . PMID 31347877 . S2CID 119504484 .
  127. ^ Forrest MD (avril 2015). “Simulation de l’action de l’alcool sur un modèle de neurone de Purkinje détaillé et un modèle de substitution plus simple qui s’exécute> 400 fois plus vite” . BMC Neurosciences . 16 (27): 27. doi : 10.1186/s12868-015-0162-6 . PMC 4417229 . PMID 25928094 .
  128. ^ Siegelmann, HT; Sontag, ED (1991). « Calculabilité de Turing avec des réseaux de neurones » (PDF) . Appl. Math. Lett . 4 (6) : 77–80. doi : 10.1016/0893-9659(91)90080-F .
  129. ^ Balcázar, José (juillet 1997). “Puissance de calcul des réseaux de neurones : une caractérisation de la complexité de Kolmogorov”. Transactions IEEE sur la théorie de l’information . 43 (4): 1175-1183. CiteSeerX 10.1.1.411.7782 . doi : 10.1109/18.605580 .
  130. ^ un MacKay b , David, JC (2003). Théorie de l’information, inférence et algorithmes d’apprentissage (PDF) . Presse universitaire de Cambridge . ISBN 978-0-521-64298-9.
  131. ^ Couverture, Thomas (1965). “Propriétés géométriques et statistiques des systèmes d’inégalités linéaires avec des applications dans la reconnaissance de formes” (PDF) . Transactions IEEE sur les ordinateurs électroniques . IEEE . EC-14 (3): 326–334. doi : 10.1109/PGEC.1965.264137 .
  132. ^ Gérald, Friedland (2019). “Reproductibilité et conception expérimentale pour l’apprentissage automatique sur les données audio et multimédia”. MM ’19: Actes de la 27e Conférence internationale ACM sur le multimédia . ACM : 2709–2710. doi : 10.1145/3343031.3350545 . ISBN 978-1-4503-6889-6. S2CID 204837170 .
  133. ^ “Le Tensorflow Meter” .
  134. ^ Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S.; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (2020). “De larges réseaux de neurones de toute profondeur évoluent comme des modèles linéaires sous descente de gradient”. Journal of Statistical Mechanics: Théorie et expérience . 2020 (12) : 124002. arXiv : 1902.06720 . Bib code : 2020JSMTE2020l4002L . doi : 10.1088/1742-5468/abc62b . S2CID 62841516 .
  135. ^ [1] , Neural Tangent Kernel: Convergence and Generalization in Neural Networks.
  136. ^ [2] , Comportement d’entraînement du réseau neuronal profond dans le domaine fréquentiel.
  137. ^ [3] , Sur le biais spectral des réseaux de neurones.
  138. ^ [4] , Principe de fréquence : l’analyse de Fourier met en lumière les réseaux de neurones profonds.
  139. ^ [5] , Théorie du principe de fréquence pour les réseaux de neurones profonds généraux.
  140. ^ Xu, Zhiqin John; Zhou, Hanxu (18 mai 2021). “Principe de fréquence profonde pour comprendre pourquoi un apprentissage plus profond est plus rapide” . Actes de la conférence AAAI sur l’intelligence artificielle . 35 (12): 10541–10550. arXiv : 2007.14313 . ISSN 2374-3468 .
  141. ^ Crick, Francis (1989). “L’engouement récent pour les réseaux de neurones”. Nature . 337 (6203): 129–132. Bibcode : 1989Natur.337..129C . doi : 10.1038/337129a0 . PMID 2911347 . S2CID 5892527 .
  142. ^ Adrien, Edward D. (1926). “Les impulsions produites par les terminaisons nerveuses sensorielles” . Le Journal de Physiologie . 61 (1): 49–72. doi : 10.1113/jphysiol.1926.sp002273 . PMC 1514809 . PMID 16993776 .
  143. ^ Dewdney, AK (1er avril 1997). Oui, nous n’avons pas de neutrons : une visite révélatrice des méandres de la mauvaise science . Wiley. p. 82. ISBN 978-0-471-10806-1.
  144. ^ NASA – Dryden Flight Research Center – Salle de presse: Communiqués de presse: LE PROJET DE RÉSEAU NEURAL DE LA NASA PASSE UNE ÉTAPE IMPORTANTE . NASA.gov. Consulté le 20 novembre 2013.
  145. ^ “La défense de Roger Bridgman des réseaux neuronaux” . Archivé de l’original le 19 mars 2012 . Récupéré le 12 juillet 2010 .
  146. ^ DJ Felleman et DC Van Essen, ” Traitement hiérarchique distribué dans le cortex cérébral des primates ,” Cerebral Cortex , 1, pp. 1–47, 1991.
  147. ^ J. Weng, ” Intelligence naturelle et artificielle : introduction au cerveau-esprit computationnel “, BMI Press, ISBN 978-0-9858757-2-5 , 2012.
  148. ^ un b Edwards, Chris (25 juin 2015). « Douleurs croissantes pour l’apprentissage en profondeur ». Communications de l’ACM . 58 (7) : 14-16. doi : 10.1145/2771283 . S2CID 11026540 .
  149. ^ Cade Metz (18 mai 2016). “Google a construit ses propres puces pour alimenter ses robots IA” . Câblé .
  150. ^ “Mise à l’échelle des algorithmes d’apprentissage vers {AI} – LISA – Publications – Aigaion 2.0” . www.iro.umontreal.ca .
  151. ^ Soleil et Bookman (1990)
  152. ^ Tahmasebi; Hezarkani (2012). “Un algorithme hybride de réseaux de neurones-logique floue-génétique pour l’estimation des notes” . Informatique & Géosciences . 42 : 18–27. Bibcode : 2012CG…..42…18T . doi : 10.1016/j.cageo.2012.02.004 . PMC 4268588 . PMID 25540468 .

Bibliographie

  • Bhadeshia HKDH (1999). “Réseaux de neurones en science des matériaux” (PDF) . ISJ International . 39 (10): 966–979. doi : 10.2355/isijinternational.39.966 .
  • Bishop, Christopher M. (1995). Réseaux de neurones pour la reconnaissance de formes . Presse Clarendon. ISBN 978-0-19-853849-3. OCLC 33101074 .
  • Borgelt, Christian (2003). Neuro-Fuzzy-Systeme : von den Grundlagen künstlicher Neuronaler Netze zur Kopplung mit Fuzzy-Systemen . Voireg. ISBN 978-3-528-25265-6. OCLC 76538146 .
  • Cybenko, GV (2006). “Approximation par superpositions d’une fonction sigmoïdale” . Dans van Schuppen, Jan H. (éd.). Mathématiques du contrôle, des signaux et des systèmes . Springer International. pages 303–314. PDF
  • Dewdney, AK (1997). Oui, nous n’avons pas de neutrons : une visite révélatrice des méandres de la mauvaise science . New York : Wiley. ISBN 978-0-471-10806-1. OCLC 35558945 .
  • Duda, Richard O.; Hart, Peter Elliot; En ligneCigogne, David G. (2001). Classification des modèles (2 éd.). Wiley. ISBN 978-0-471-05669-0. OCLC 41347061 .
  • Egmont-Petersen, M.; de Ridder, D.; En ligneHandels, H. (2002). “Traitement d’images avec des réseaux de neurones – une revue”. Reconnaissance de formes . 35 (10): 2279–2301. CiteSeerX 10.1.1.21.5444 . doi : 10.1016/S0031-3203(01)00178-9 .
  • Fahlman, S.; Lebière, C (1991). “L’architecture d’apprentissage en cascade-corrélation” (PDF) .
    • créé pour la National Science Foundation , numéro de contrat EET-8716324, et Defense Advanced Research Projects Agency (DOD), ARPA Order No. 4976 sous le contrat F33615-87-C-1499.
  • Gurney, Kevin (1997). Une introduction aux réseaux de neurones . Presse UCL. ISBN 978-1-85728-673-1. OCLC 37875698 .
  • Haykin, Simon S. (1999). Réseaux de neurones : une base complète . Prentice Hall. ISBN 978-0-13-273350-2. OCLC 38908586 .
  • Hertz, J.; Palmer, Richard G.; En ligneKrogh, Anders S. (1991). Introduction à la théorie du calcul neuronal . Addison-Wesley. ISBN 978-0-201-51560-2. OCLC 21522159 .
  • Théorie de l’information, inférence et algorithmes d’apprentissage . La presse de l’Universite de Cambridge. 25 septembre 2003. Bibcode : 2003itil.book…..M . ISBN 978-0-521-64298-9. OCLC 52377690 .
  • Kruse, Rudolf ; Borgelt, chrétien; Klawonn, F.; Moewes, chrétien; Steinbrecher, Matthias; Held, Pascal (2013). Intelligence computationnelle : une introduction méthodologique . Springer. ISBN 978-1-4471-5012-1. OCLC 837524179 .
  • Laurent, Jeannette (1994). Introduction aux réseaux de neurones : conception, théorie et applications . Logiciel scientifique californien. ISBN 978-1-883157-00-5. OCLC 32179420 .
  • MacKay, David, JC (2003). Théorie de l’information, inférence et algorithmes d’apprentissage (PDF) . Presse universitaire de Cambridge . ISBN 978-0-521-64298-9.
  • Maîtres, Timothy (1994). Traitement du signal et de l’image avec les réseaux neuronaux : un livre source C++ . J. Wiley. ISBN 978-0-471-04963-0. OCLC 29877717 .
  • Ripley, Brian D. (2007). Reconnaissance de formes et réseaux de neurones . La presse de l’Universite de Cambridge. ISBN 978-0-521-71770-0.
  • Siegelmann, HT; Sontag, Eduardo D. (1994). “Calcul analogique via les réseaux de neurones”. Informatique théorique . 131 (2): 331–360. doi : 10.1016/0304-3975(94)90178-3 . S2CID 2456483 .
  • Smith, Murray (1993). Réseaux de neurones pour la modélisation statistique . Van Nostrand Reinhold. ISBN 978-0-442-01310-3. OCLC 27145760 .
  • En ligneWasserman, Philip D. (1993). Méthodes avancées en informatique neuronale . Van Nostrand Reinhold. ISBN 978-0-442-00461-3. OCLC 27429729 .
  • Wilson, Halsey (2018). Intelligence artificielle . Éditions de la Maison Grise. ISBN 978-1-68217-867-6.

Liens externes

  • Le zoo du réseau de neurones – une compilation de types de réseaux de neurones
  • The Stilwell Brain – un épisode de Mind Field présentant une expérience dans laquelle les humains agissent comme des neurones individuels dans un réseau de neurones qui classe les chiffres manuscrits
You might also like
Leave A Reply

Your email address will not be published.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More