Assemblage d’images

L’ assemblage d’images ou l’assemblage de photos est le processus de combinaison de plusieurs images photographiques avec des champs de vision qui se chevauchent pour produire un panorama segmenté ou une image haute résolution. Couramment réalisées grâce à l’utilisation de logiciels informatiques , la plupart des approches d’assemblage d’images nécessitent des chevauchements presque exacts entre les images et des expositions identiques pour produire des résultats homogènes, [1] [2] bien que certains algorithmes d’assemblage bénéficient en fait d’images exposées différemment en faisant une haute dynamique- imagerie de distance dans les régions de chevauchement. [3] [4] Certains appareils photo numériques peuvent assembler leurs photos en interne.

Deux images assemblées. La photo de droite est légèrement déformée pour correspondre à l’autre.

Applications

L’assemblage d’images est largement utilisé dans les applications modernes, telles que les suivantes :

  • Mosaïque de documents [5]
  • Fonction de stabilisation d’image dans les caméscopes qui utilisent l’alignement d’image à la fréquence d’images
  • Photomosaïques haute résolution dans les cartes numériques et les images satellites
  • L’imagerie médicale
  • Imagerie super-résolution à images multiples
  • Assemblage vidéo [6]
  • Insertion d’objet

L’île d’Alcatraz , représentée dans un panorama créé par assemblage d’images

Processus

Le processus d’ assemblage d’ images peut être divisé en trois composants principaux : enregistrement d’image , calibrage et fusion .

Algorithmes d’assemblage d’images

Cet exemple d’image montre l’enregistrement géométrique et les lignes d’assemblage lors de la création d’un panorama.

Afin d’estimer l’alignement d’image, des algorithmes sont nécessaires pour déterminer le modèle mathématique approprié reliant les coordonnées de pixel dans une image aux coordonnées de pixel dans une autre. Des algorithmes qui combinent des comparaisons directes pixel à pixel avec une descente de gradient (et d’autres techniques d’optimisation) peuvent être utilisés pour estimer ces paramètres.

Des caractéristiques distinctives peuvent être trouvées dans chaque image et ensuite efficacement appariées pour établir rapidement des correspondances entre des paires d’images. Lorsque plusieurs images existent dans un panorama, des techniques ont été développées pour calculer un ensemble globalement cohérent d’alignements et pour découvrir efficacement quelles images se chevauchent.

Une surface de composition finale sur laquelle déformer ou transformer de manière projective et placer toutes les images alignées est nécessaire, de même que des algorithmes pour mélanger de manière transparente les images qui se chevauchent, même en présence de parallaxe, de distorsion de l’objectif, de mouvement de scène et de différences d’exposition.

Problèmes d’assemblage d’images

Étant donné que l’éclairage de deux vues ne peut pas être garanti identique, l’assemblage de deux images pourrait créer une couture visible. D’autres raisons de coutures pourraient être le changement d’arrière-plan entre deux images pour le même premier plan continu. Les autres problèmes majeurs à traiter sont la présence de parallaxe , la distorsion de l’objectif , le mouvement de la scène et les différences d’ exposition . Dans un cas réel non idéal, l’intensité varie sur toute la scène, tout comme le contraste et l’intensité d’une image à l’autre. De plus, le rapport d’aspect d’une image panoramique doit être pris en compte pour créer un composite visuellement agréable .

Pour l’assemblage panoramique , l’ensemble idéal d’images aura une quantité raisonnable de chevauchement (au moins 15 à 30 %) pour surmonter la distorsion de l’objectif et avoir suffisamment de caractéristiques détectables. L’ensemble d’images aura une exposition constante entre les images afin de minimiser la probabilité d’apparition de coutures.

Détection des points clés

La détection de caractéristiques est nécessaire pour trouver automatiquement des correspondances entre les images. Des correspondances robustes sont nécessaires pour estimer la transformation nécessaire pour aligner une image avec l’image sur laquelle elle est composée. Les coins, les gouttes, les coins de Harris et les différences de gaussiennes des coins de Harris sont de bonnes caractéristiques car elles sont répétables et distinctes.

L’un des premiers opérateurs de détection de points d’intérêt a été développé par Hans P. Moravec en 1977 pour ses recherches sur la navigation automatique d’un robot dans un environnement groupé. Moravec a également défini le concept de “points d’intérêt” dans une image et a conclu que ces points d’intérêt pourraient être utilisés pour trouver des régions correspondantes dans différentes images. L’opérateur de Moravec est considéré comme un détecteur de coin car il définit les points d’intérêt comme des points où il existe de grandes variations d’intensité dans toutes les directions. C’est souvent le cas dans les coins. Cependant, Moravec n’était pas spécifiquement intéressé à trouver des coins, juste des régions distinctes dans une image qui pourraient être utilisées pour enregistrer des images consécutives.

Harris et Stephens ont amélioré le détecteur de coin de Moravec en considérant directement le différentiel du score de coin par rapport à la direction. Ils en avaient besoin comme étape de traitement pour construire des interprétations de l’environnement d’un robot basées sur des séquences d’images. Comme Moravec, ils avaient besoin d’une méthode pour faire correspondre les points correspondants dans des images consécutives, mais étaient intéressés par le suivi des coins et des bords entre les images.

SIFT et SURF sont des algorithmes récents de détection de points clés ou de points d’intérêt, mais il convient de noter qu’ils sont brevetés et que leur utilisation commerciale est restreinte. Une fois qu’une fonctionnalité a été détectée, une méthode de descripteur telle que le descripteur SIFT peut être appliquée pour les faire correspondre ultérieurement.

Inscription

L’enregistrement d’image implique la mise en correspondance de caractéristiques [7] dans un ensemble d’images ou l’utilisation de méthodes d’alignement direct pour rechercher des alignements d’image qui minimisent la somme des différences absolues entre les pixels qui se chevauchent. [8] Lorsque vous utilisez des méthodes d’alignement direct, vous pouvez d’abord calibrer vos images pour obtenir de meilleurs résultats. De plus, les utilisateurs peuvent entrer un modèle approximatif du panorama pour faciliter l’étape de correspondance des caractéristiques, de sorte que, par exemple, seules les images voisines soient recherchées pour les caractéristiques correspondantes. Puisqu’il existe un plus petit groupe d’entités pour la mise en correspondance, le résultat de la recherche est plus précis et l’exécution de la comparaison est plus rapide.

Pour estimer un modèle robuste à partir des données, une méthode couramment utilisée est connue sous le nom de RANSAC . Le nom RANSAC est une abréviation pour « RAN dom SA mple C onsensus ». Il s’agit d’une méthode itérative d’estimation robuste des paramètres pour ajuster des modèles mathématiques à partir d’ensembles de points de données observés pouvant contenir des valeurs aberrantes. L’algorithme est non déterministe en ce sens qu’il ne produit un résultat raisonnable qu’avec une certaine probabilité, cette probabilité augmentant au fur et à mesure que d’autres itérations sont effectuées. Le fait qu’il s’agisse d’une méthode probabiliste signifie que des résultats différents seront obtenus à chaque fois que l’algorithme est exécuté.

L’algorithme RANSAC a trouvé de nombreuses applications en vision par ordinateur, notamment la résolution simultanée du problème de correspondance et l’estimation de la matrice fondamentale liée à une paire de caméras stéréo. L’hypothèse de base de la méthode est que les données sont constituées de « inliers », c’est-à-dire de données dont la distribution peut être expliquée par un modèle mathématique, et de « outliers » qui sont des données qui ne correspondent pas au modèle. Les valeurs aberrantes sont considérées comme des points qui proviennent de bruit, de mesures erronées ou simplement de données incorrectes.

Pour le problème d’ estimation de l’ homographie , RANSAC fonctionne en essayant d’ajuster plusieurs modèles en utilisant certaines des paires de points, puis en vérifiant si les modèles étaient capables de relier la plupart des points. Le meilleur modèle – l’homographie, qui produit le plus grand nombre de correspondances correctes – est alors choisi comme réponse au problème ; ainsi, si le rapport entre le nombre de valeurs aberrantes et les points de données est très faible, le RANSAC produit un modèle décent adapté aux données.

Étalonnage

L’étalonnage d’image vise à minimiser les différences entre un modèle d’objectif idéal et la combinaison appareil photo-objectif qui a été utilisée, les défauts optiques tels que les distorsions , les différences d’ exposition entre les images, le vignettage , [9] la réponse de l’appareil photo et les aberrations chromatiques . Si des méthodes de détection de caractéristiques ont été utilisées pour enregistrer des images et que les positions absolues des caractéristiques ont été enregistrées et sauvegardées, le Logiciel d’assemblage peut utiliser les données pour l’optimisation géométrique des images en plus de placer les images sur la panosphère. Panotools et ses divers programmes dérivés utilisent cette méthode.

Alignement

L’alignement peut être nécessaire pour transformer une image afin qu’elle corresponde au point de vue de l’image avec laquelle elle est composée. L’alignement, en termes simples, est un changement dans le système de coordonnées afin qu’il adopte un nouveau système de coordonnées qui produit une image correspondant au point de vue requis. Les types de transformations qu’une image peut subir sont la traduction pure, la rotation pure, une transformation de similarité qui inclut la translation, la rotation et la mise à l’échelle de l’image qui doit être transformée, la transformation affine ou projective.

La transformation projective est la plus éloignée qu’une image puisse transformer (dans l’ensemble des transformations planaires bidimensionnelles), où seules les caractéristiques visibles qui sont conservées dans l’image transformée sont des lignes droites tandis que le parallélisme est maintenu dans une transformation affine.

La transformation projective peut être mathématiquement décrite comme

x’ = H ⋅ {displaystyle cdot } X ,

où x est des points dans l’ancien système de coordonnées, x’ est les points correspondants dans l’image transformée et H est la matrice d’ homographie .

En exprimant les points x et x’ en utilisant les intrinsèques de la caméra (K et K’) et sa rotation et translation [R t] aux coordonnées du monde réel X et X’, nous obtenons

x = K ⋅ {displaystyle cdot } [R t] ⋅ {displaystyle cdot } X et x’ = K’ ⋅ {displaystyle cdot } [R’t’] ⋅ {displaystyle cdot } X’ .

En utilisant les deux équations ci-dessus et la relation d’homographie entre x ‘et x, nous pouvons dériver

H = K’ ⋅ {displaystyle cdot } R’ ⋅ {displaystyle cdot } R -1 ⋅ {displaystyle cdot } K- 1

La matrice d’homographie H comporte 8 paramètres ou degrés de liberté. L’homographie peut être calculée à l’aide de la transformation linéaire directe et de la décomposition en valeurs singulières avec

UN ⋅ {displaystyle cdot } h = 0 ,

où A est la matrice construite à partir des coordonnées des correspondances et h est le vecteur unidimensionnel des 9 éléments de la matrice d’homographie reformée. Pour arriver à h, nous pouvons simplement appliquer SVD : A = U ⋅ {displaystyle cdot } S ⋅ {displaystyle cdot } V T Et h = V (colonne correspondant au plus petit vecteur singulier). Ceci est vrai puisque h se trouve dans l’espace nul de A. Puisque nous avons 8 degrés de liberté, l’algorithme nécessite au moins quatre correspondances ponctuelles. Dans le cas où RANSAC est utilisé pour estimer l’homographie et que des correspondances multiples sont disponibles, la matrice d’homographie correcte est celle avec le nombre maximum d’inliers.

Composition

La composition est le processus par lequel les images rectifiées sont alignées de telle manière qu’elles apparaissent comme un seul plan d’une scène. La composition peut être effectuée automatiquement puisque l’algorithme sait maintenant quelles correspondances se chevauchent.

Mélange

Le mélange d’images implique l’exécution des ajustements déterminés lors de l’étape d’étalonnage, combinés au remappage des images sur une projection de sortie. Les couleurs sont ajustées entre les images pour compenser les différences d’exposition. Le cas échéant, la fusion de plage dynamique élevée est effectuée avec la compensation de mouvement et la suppression des images fantômes. Les images sont mélangées et le réglage des lignes de couture est effectué pour minimiser la visibilité des coutures entre les images.

La couture peut être réduite par un simple réglage de gain. Cette compensation minimise essentiellement la différence d’intensité des pixels qui se chevauchent. L’algorithme de fusion d’images attribue plus de poids aux pixels proches du centre de l’image. Les images à compensation de gain et à mélange multi-bandes sont les meilleures. IJCV 2007. Le redressement est une autre méthode pour rectifier l’image. Matthew Brown et David G. Lowe dans leur article ‘Automatic Panoramic Image Stitching using Invariant Features’ décrivent des méthodes de redressement qui appliquent une rotation globale telle que le vecteur u est vertical (dans le cadre de rendu), ce qui supprime efficacement l’effet ondulé des panoramas de sortie

Même après compensation de gain, certains bords de l’image sont toujours visibles en raison d’un certain nombre d’effets non modélisés, tels que le vignettage (l’intensité diminue vers le bord de l’image), les effets de parallaxe dus au mouvement indésirable du centre optique, les erreurs de repérage dues à mauvaise modélisation de la caméra, distorsion radiale, etc. Pour ces raisons, ils proposent une stratégie de mélange appelée mélange multi-bandes.

Dispositions projectives

Comparaison des distorsions près des pôles de la panosphère par différents formats cylindriques.

Pour les segments d’image qui ont été pris à partir du même point dans l’espace, les images assemblées peuvent être organisées à l’aide de l’une des diverses projections cartographiques .

Rectiligne

Projection rectiligne , où l’image assemblée est visualisée sur un plan bidimensionnel coupant la panosphère en un seul point. Les lignes droites dans la réalité sont affichées comme droites, quelle que soit leur direction sur l’image. Les vues larges – environ 120° environ – commencent à présenter une distorsion sévère près des bords de l’image. Un cas de Projection rectiligne est l’utilisation de faces de cube avec une cartographie cubique pour la visualisation panoramique. Le panorama est mappé sur six carrés, chaque face de cube montrant une zone de 90 par 90 degrés du panorama.

Cylindrique

Projection cylindrique , où l’image assemblée montre un champ de vision horizontal à 360° et un champ de vision vertical limité. Les panoramas de cette projection sont censés être vus comme si l’image était enveloppée dans un cylindre et vue de l’intérieur. Lorsqu’elles sont visualisées sur un plan 2D, les lignes horizontales apparaissent courbes tandis que les lignes verticales restent droites. [10] La distorsion verticale augmente rapidement à l’approche du sommet de la panosphère. Il existe divers autres formats cylindriques, tels que Mercator et Miller cylindrique qui ont moins de distorsion près des pôles de la panosphère.

Sphérique

Projection sphérique ou projection équirectangulaire – qui est à proprement parler une autre projection cylindrique – où l’image assemblée montre un champ de vision horizontal de 360° par 180° vertical, c’est-à-dire toute la sphère. Les panoramas de cette projection sont censés être vus comme si l’image était enveloppée dans une sphère et vue de l’intérieur. Lorsqu’elles sont visualisées sur un plan 2D, les lignes horizontales apparaissent courbes comme dans une projection cylindrique, tandis que les lignes verticales restent verticales. [dix]

Panini

Puisqu’un panorama est essentiellement une carte d’une sphère, diverses autres projections cartographiques de cartographes peuvent également être utilisées si vous le souhaitez. De plus, il existe des projections spécialisées qui peuvent avoir des avantages plus esthétiques que les projections de cartographie normales telles que la projection Panini de Hugin [11] – du nom du peintre vedutismo italien Giovanni Paolo Panini [12] – ou la projection Vedutismo de Ptgui. [13] Différentes projections peuvent être combinées dans la même image pour affiner l’aspect final de l’image de sortie. [14]

Stéréographique

La projection stéréographique ou la projection fisheye peuvent être utilisées pour former un petit panorama planétaire en pointant la caméra virtuelle vers le bas et en définissant le champ de vision suffisamment grand pour montrer tout le sol et certaines des zones au-dessus ; pointer la caméra virtuelle vers le haut crée un effet tunnel. La Conformité de la projection stéréographique peut produire un résultat plus agréable visuellement qu’une projection fisheye à surface égale, comme indiqué dans l’article sur la projection stéréographique.

Artefacts

Artefacts dus à une erreur de parallaxe Artefacts dus au mouvement du sujet

L’utilisation d’images non prises au même endroit (sur un pivot autour de la pupille d’entrée de la caméra) [15] peut entraîner des erreurs de parallaxe dans le produit final. Lorsque la scène capturée présente un mouvement rapide ou un mouvement dynamique, des artefacts peuvent se produire en raison des différences de temps entre les segments d’image. “L’assemblage aveugle” via des méthodes d’alignement basées sur les fonctionnalités (voir autostitch ), par opposition à la sélection et à l’assemblage manuels, peut entraîner des imperfections dans l’assemblage du panorama.

Logiciel

Les programmes dédiés incluent Autostitch , Hugin , Ptgui , Panorama Tools , Microsoft Research Image Composite Editor et CleVR Stitcher . De nombreux autres programmes peuvent également assembler plusieurs images ; un exemple populaire est Adobe Systems ‘ Photoshop , qui comprend un outil connu sous le nom de Photomerge et, dans les dernières versions, le nouveau Auto-Blend . D’autres programmes tels que VideoStitch permettent d’assembler des vidéos, et Vahana VRpermet l’assemblage vidéo en temps réel. Le module d’assemblage d’images pour le Logiciel de microscope QuickPHOTO permet d’assembler de manière interactive plusieurs champs de vision du microscope à l’aide de la vue en direct de la caméra. Il peut également être utilisé pour l’assemblage manuel d’échantillons entiers de microscopie.

Voir également

Références

  1. ^ Mann, Steve; Picard, RW (13-16 novembre 1994). “Soufflets virtuels : construction d’images fixes de haute qualité à partir d’une vidéo” (PDF) . Actes de la première conférence internationale de l’IEEE sur le traitement d’images . Conférence internationale de l’IEEE. Austin, Texas : IEEE . doi : 10.1109/ICIP.1994.413336 . S2CID 16153752 .
  2. ^ Salle, Greg (2006). “Cacher les coutures dans les panoramas à plage dynamique élevée”. Actes du 3e Symposium sur la perception appliquée en graphisme et visualisation . Conférence internationale de l’ACM. Vol. 153. MCA . doi : 10.1145/1140491.1140527 . ISBN 1-59593-429-4.
  3. ^ Steve Mann . “Compositing Multiple Pictures of the Same Scene”, Actes de la 46e Conférence annuelle sur la science et la technologie de l’imagerie, 9-14 mai, Cambridge, Massachusetts, 1993
  4. ^ S. Mann, C. Manders et J. Fung, ” L’équation de contrainte de changement d’espace lumineux (LCCE) avec une application pratique à l’estimation de la transformation projectivité + gain entre plusieurs images du même sujet ” Conférence internationale IEEE sur l’acoustique, Discours , et Signal Processing, 6–10 avril 2003, pp III – 481-4 vol.3
  5. ^ Hannuksela, Jari; Sangi, Pekka ; Heikkila, Janne; Liu, Xu ; Doermann, David (2007). “Mosaïque d’images de documents avec des téléphones portables”. 14e Conférence internationale sur l’analyse et le traitement d’images (ICIAP 2007) . p. 575–582. doi : 10.1109/ICIAP.2007.4362839 . ISBN 978-0-7695-2877-9.
  6. ^ Breszcz, M.; Breckon, TP (août 2015). “Construction et visualisation en temps réel de mosaïques vidéo sans dérive à partir d’un mouvement de caméra sans contrainte” (PDF) . Le Journal d’ingénierie . 2015 (16) : 229-240. doi : 10.1049/joe.2015.0016 . breszcz15mosaïque.
  7. ^ Szeliski, Richard (2005). “Alignement et assemblage d’images” (PDF) . Récupéré le 01/06/2008 . {{cite journal}}: Cite journal requires |journal= (help)
  8. ^ S. Suen; E. Lam; K. Wong (2007). “Assemblage photographique avec correspondance optimisée d’objets et de couleurs basée sur des dérivés d’images” . Optique Express . 15 (12): 7689–7696. Bibcode : 2007OExpr..15.7689S . doi : 10.1364/OE.15.007689 . PMID 19547097 .
  9. ^ d’Angelo, Pablo (2007). “Calibration d’alignement radiométrique et de vignettage” (PDF) .
  10. ^ un puits b , Sarah; et coll. (2007). “Guide des meilleures pratiques IATH pour la photographie panoramique numérique” . Récupéré le 01/06/2008 . {{cite journal}}: Cite journal requires |journal= (help)
  11. ^ Hugin.sourceforge.net , manuel hugin : Panini
  12. ^ Groups.google.com , liste de diffusion hugin-ptx, 29 décembre 2008
  13. ^ Ptgui : projections
  14. ^ Tawbaware.com , Projections PTAssembler : Hybride
  15. ^ Littlefield, Rik (2006-02-06). “Théorie du point” sans parallaxe “dans la photographie panoramique” (PDF) . ver. 1.0 . Récupéré le 01/06/2008 . {{cite journal}}: Cite journal requires |journal= (help)

Liens externes

  • Médias liés à la couture sur Wikimedia Commons
d'imagesimageimagesPointsprojection
Comments (0)
Add Comment