CiteSeer X

0

CiteSeer X (anciennement appelé CiteSeer ) est un moteur de recherche public et une bibliothèque numérique d’articles scientifiques et universitaires, principalement dans les domaines de l’informatique et des sciences de l’information . CiteSeer est considéré comme un prédécesseur des outils de recherche académique tels que Google Scholar et Microsoft Academic Search . [ citation nécessaire ] Les moteurs et les archives de type CiteSeer ne récoltent généralement que des documents à partir de sites Web accessibles au public et n’explorent pas les sites Web des éditeurs. Pour cette raison, les auteurs dont les documents sont librement accessibles sont plus susceptibles d’être représentés dans l’index.

CitéSeer X

Type de site Base de données bibliographique
Propriétaire Collège des sciences et technologies de l’information de l’Université d’État de Pennsylvanie
URL citeseerx .ist .psu .edu Modifier ceci sur Wikidata
Inscription Optionnel
Lancé 2008 ; il y a 14 ans / 1997 ; il y a 25 ans ( 2008 ) ( 1997 )
Statut actuel Actif
Licence de contenu Licence Creative Commons BY-NC-SA [1]

L’objectif de CiteSeer est d’améliorer la diffusion et l’accès à la littérature académique et scientifique. En tant que service à but non lucratif librement utilisable par tous, il a été considéré comme faisant partie du mouvement du libre accès qui tente de changer l’édition académique et scientifique pour permettre un meilleur accès à la littérature scientifique. CiteSeer a librement fourni les métadonnées de l’Open Archives Initiative de tous les documents indexés et a lié les documents indexés lorsque cela était possible à d’autres sources de métadonnées telles que DBLP et le Portail ACM . Pour promouvoir l’open data , CiteSeer X partage ses données à des fins non commerciales sous une licence Creative Commons. [1]

CiteSeer a changé son nom en ResearchIndex à un moment donné, puis l’a changé à nouveau. [ citation nécessaire ]

Histoire

CiteSeer et CiteSeer.IST

CiteSeer a été créé par les chercheurs Lee Giles , Kurt Bollacker et Steve Lawrence en 1997 alors qu’ils étaient au NEC Research Institute (maintenant NEC Labs ), Princeton, New Jersey , USA. L’objectif de CiteSeer était d’explorer et de récolter activement des documents académiques et scientifiques sur le Web et d’utiliser l’ indexation autonome des citations pour permettre l’interrogation par citation ou par document, en les classant par impact de citation . À un moment donné, il s’appelait ResearchIndex.

CiteSeer est devenu public en 1998 et avait de nombreuses nouvelles fonctionnalités indisponibles dans les moteurs de recherche universitaires à cette époque. Ceux-ci comprenaient :

  • Autonomous Citation Indexing crée automatiquement un index de citations qui peut être utilisé pour la recherche et l’évaluation de la littérature.
  • Les statistiques de citations et les documents connexes ont été calculés pour tous les articles cités dans la base de données, et pas seulement pour les articles indexés.
  • Liaison de référence permettant de parcourir la base de données à l’aide de liens de citation.
  • Le contexte de citation a montré le contexte des citations d’un article donné, permettant à un chercheur de voir rapidement et facilement ce que les autres chercheurs ont à dire sur un article d’intérêt.
  • Les documents connexes ont été affichés à l’aide de mesures basées sur les citations et les mots et une bibliographie active et continuellement mise à jour est affichée pour chaque document.

CiteSeer a obtenu un brevet américain n ° 6289342, intitulé « Indexation autonome des citations et navigation dans la littérature à l’aide du contexte de citation », le 11 septembre 2001. Le brevet a été déposé le 20 mai 1998 et est prioritaire jusqu’au 5 janvier 1998. Une suite Le brevet (US Patent # 6738780) a été déposé le 16 mai 2001 et délivré le 18 mai 2004.

Après NEC, en 2004, il a été hébergé sous le nom de CiteSeer.IST sur le World Wide Web au College of Information Sciences and Technology, The Pennsylvania State University , et comptait plus de 700 000 documents. Pour améliorer l’accès, les performances et la recherche, des versions similaires de CiteSeer ont été prises en charge dans des universités telles que le Massachusetts Institute of Technology , l’Université de Zürich et l’ Université nationale de Singapour . Cependant, ces versions de CiteSeer se sont avérées difficiles à maintenir et ne sont plus disponibles. Étant donné que CiteSeer n’indexe que les articles librement disponibles sur le Web et n’a pas accès aux métadonnées de l’éditeur, il renvoie moins de nombres de citations que des sites tels que Google Scholar, qui contiennent des métadonnées d’éditeur.

CiteSeer n’avait pas été complètement mis à jour depuis 2005 en raison de limitations dans la conception de son architecture. Il comportait un échantillon représentatif de documents de recherche en informatique et en sciences de l’information, mais sa couverture était limitée car il se limitait aux articles accessibles au public, généralement sur la page d’accueil d’un auteur, ou à ceux soumis par un auteur. Pour surmonter certaines de ces limitations, une architecture modulaire et open source pour CiteSeer a été conçue – CiteSeer X .

CiteSeer X

CiteSeer X a remplacé CiteSeer et toutes les requêtes vers CiteSeer ont été redirigées. CiteSeer X [2] est un moteur de recherche public , une bibliothèque numérique et un référentiel d’articles scientifiques et universitaires principalement axés sur l’informatique et les sciences de l’information . [2] Cependant, récemment, CiteSeer X s’est étendu à d’autres domaines scientifiques tels que l’économie, la physique et autres. Sorti en 2008, il était vaguement basé sur l’ancien moteur de recherche et bibliothèque numérique CiteSeer et est construit avec une nouvelle source ouverteinfrastructure, SeerSuite, et de nouveaux algorithmes et leurs implémentations. Il a été développé par les chercheurs Dr. Isaac Councill et Dr. C. Lee Giles du College of Information Sciences and Technology , Pennsylvania State University .. Il continue de soutenir les objectifs définis par CiteSeer d’explorer et de récolter activement des documents académiques et scientifiques sur le Web public et d’utiliser une enquête de citations par citations et un classement des documents en fonction de l’impact des citations. Actuellement, Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen et Shuyi Zheng sont ou ont été activement impliqués dans son développement. Récemment, une fonction de recherche de table a été introduite. [3] Il a été financé par la National Science Foundation , la NASA et Microsoft Research .

CiteSeer X continue d’être classé parmi les meilleurs référentiels au monde et a été classé numéro 1 en juillet 2010. [4] Il compte actuellement plus de 6 millions de documents avec près de 6 millions d’auteurs uniques et 120 millions de citations.

CiteSeer X partage également ses logiciels, données, bases de données et métadonnées avec d’autres chercheurs, actuellement par Amazon S3 et par rsync . [5] Sa nouvelle architecture et son logiciel open source modulaires (disponibles auparavant sur SourceForge mais maintenant sur GitHub ) sont construits sur Apache Solr et d’autres outils Apache et open source, ce qui lui permet d’être un banc d’essai pour de nouveaux algorithmes de collecte, de classement et d’indexation de documents. , et l’extraction d’informations.

CiteSeer X met en cache certains fichiers PDF qu’il a scannés. En tant que tel, chaque page comprend un lien DMCA qui peut être utilisé pour signaler des violations de droits d’auteur. [6]

Fonctionnalités actuelles

Extraction automatisée des informations

CiteSeer X utilise des outils d’extraction d’informations automatisés , généralement basés sur des méthodes d’apprentissage automatique telles que ParsCit, pour extraire des métadonnées de documents scientifiques telles que le titre, les auteurs, le résumé, les citations, etc. En tant que tel, il y a parfois des erreurs dans les auteurs et les titres. D’autres Moteurs de recherche académiques ont des erreurs similaires.

Crawling ciblé

CiteSeer X explore les documents scientifiques accessibles au public principalement à partir des pages Web des auteurs et d’autres ressources ouvertes, et n’a pas accès aux métadonnées des éditeurs. En tant que tel, le nombre de citations dans CiteSeer X est généralement inférieur à celui de Google Scholar et de Microsoft Academic Search qui ont accès aux métadonnées de l’éditeur.

Usage

CiteSeer X compte près d’un million d’utilisateurs dans le monde sur la base d’adresses IP uniques et compte des millions de visites par jour. Les téléchargements annuels de documents PDF étaient de près de 200 millions pour 2015.

Données

Les données CiteSeer X sont régulièrement partagées sous une licence Creative Commons BY-NC-SA avec des chercheurs du monde entier et ont été et sont utilisées dans de nombreuses expériences et compétitions.

Grâce à son point de terminaison OAI-PMH , [7] CiteSeerX est une archive ouverte et son contenu est indexé comme un référentiel institutionnel dans les Moteurs de recherche académiques , par exemple les consommateurs BASE et Unpaywall .

Autres moteurs de recherche basés sur SeerSuite

Le modèle CiteSeer avait été étendu pour couvrir les documents académiques en entreprise avec SmealSearch et en e-business avec eBizSearch . Cependant, ceux-ci n’étaient pas entretenus par leurs sponsors. Une ancienne version de ces deux éléments pouvait être trouvée sur BizSeer.IST mais n’est plus en service.

D’autres systèmes de recherche et de dépôt de type Seer ont été construits pour la chimie, Chem X Seer et pour l’archéologie, ArchSeer. Un autre avait été construit pour la recherche de fichiers robots.txt, BotSeer . Tous ces éléments sont construits sur l’outil open source SeerSuite , qui utilise l’indexeur open source Lucene .

Voir également

  • Arnetminer
  • arXiv
  • Collection de bibliographies en informatique
  • DBLP (Projet de bibliographie numérique et bibliothèque)
  • Référentiel disciplinaire
  • Google Scholar
  • Liste des bases de données académiques et des moteurs de recherche
  • Microsoft Académique
  • Documents de recherche en économie (RePEc)
  • Érudit sémantique

Références

  1. ^ un b “la Politique de Données de CiteSeerX” . Archivé de l’original le 05/01/2012 . Récupéré le 10/11/2015 .
  2. ^ un b “À propos de CiteSeerX” . Archivé de l’original le 2010-07-22 . Récupéré le 07/05/2010 .
  3. ^ “L’équipe CiteSeerX” . Université d’État de Pennsylvanie. Archivé de l’original le 2018-07-26 . Récupéré le 01/05/2018 .
  4. ^ “Classement Web des référentiels mondiaux: les 800 meilleurs référentiels” . Laboratoire de cybermétrie. Juillet 2010. Archivé de l’original le 2010-07-24 . Récupéré le 24/07/2010 .
  5. ^ “À propos des données CiteSeerX” . Université d’État de Pennsylvanie. Archivé de l’original le 05/01/2012 . Récupéré le 25/01/2012 .
  6. ^ Par exemple, “CiteSeerx – Avis DMCA“. CiteSeerX 10.1.1.604.4916 . Le document avec l’identifiant “10.1.1.604.4916” a été supprimé en raison d’un avis de retrait DMCA. Si vous pensez que la suppression a été effectuée par erreur, veuillez nous contacter via la page de commentaires, avec l’identifiant mentionné sur cette page. {{cite journal}}:Citer le journal nécessite |journal=( aide )
  7. ^ Hirst, Tony (2011-12-08). “Utilisation d’OAI-PMH comme interface de requête au niveau de l’enregistrement unique pour Citeseer” . Archivé de l’original le 2020-11-24 . Récupéré le 25/04/2020 .

Lectures complémentaires

  • Giles, C. Lee; Bollacker, Kurt D.; Laurent, Steve (1998). “CiteSeer : un système d’indexation automatique des citations”. Actes de la troisième conférence ACM sur les bibliothèques numériques . p. 89–98. CiteSeerX 10.1.1.30.6847 . doi : 10.1145/276675.276685 . ISBN 978-0-89791-965-4. S2CID 514080 .

Liens externes

Wikidata a la propriété :

  • ID d’article CiteSeerX (P3784) (voir utilisations )
  • Site officiel de CiteSeer X Edit this at Wikidata Edit this at Wikidata
You might also like
Leave A Reply

Your email address will not be published.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More