SERV'IST
Système d'Exploration, de Recherche et de Visualisation de l'Information Scientifique et Technique
Voilà quelques mois que je conduis un projet (le côté technique, surtout), et que je n'avais rien (ou peu de choses) à montrer car l'accès aux sites utilisant ce logiciel était restreint.
À l'occasion du FIG'2006, un SERVIST a été rendu public: Amerigeo (cliquer sur le titre pour aller dans l'application web elle-même). SERV'IST est un système d'exploration de documents structurés (en XML).
Le service veille de l'INIST-CNRS a les compétences pour reformater des fichiers structurés en XML. Une fois les données en XML, on peut indexer n'importe quel champ de chaque document (grâce à DILIB). Une fois les index créés, on peut se servir de SERVIST pour rechercher n'importe quel descripteur qui pourrait s'y trouver, et même combiner (via l'historique de recherche) d'autres recherches déjà effectuées.
En général, le service de veille monte des SERVIST avec des données bibliographiques: les documents d'un corpus sont des notices bibliographiques (qu'elles soient extraites de Pascal, Francis, ou d'autres bases bibliographiques produites par d'autres organismes que l'INIST-CNRS).
Une notice bibliographique est en fait un ensemble de métadonnées sur un article scientifique (d'où le "Information Scientifique et Technique"):
Ensuite, lâchez-vous, cliquez sur une image, et promenez-vous dans le corpus...
← 2 -
Re: À l'occasion du FIG'2006, un SERVIST a été rendu public: Amerigeo (cliquer sur le titre pour aller dans l'application web elle-même). SERV'IST est un système d'exploration de documents structurés (en XML).
Le service veille de l'INIST-CNRS a les compétences pour reformater des fichiers structurés en XML. Une fois les données en XML, on peut indexer n'importe quel champ de chaque document (grâce à DILIB). Une fois les index créés, on peut se servir de SERVIST pour rechercher n'importe quel descripteur qui pourrait s'y trouver, et même combiner (via l'historique de recherche) d'autres recherches déjà effectuées.
En général, le service de veille monte des SERVIST avec des données bibliographiques: les documents d'un corpus sont des notices bibliographiques (qu'elles soient extraites de Pascal, Francis, ou d'autres bases bibliographiques produites par d'autres organismes que l'INIST-CNRS).
Une notice bibliographique est en fait un ensemble de métadonnées sur un article scientifique (d'où le "Information Scientifique et Technique"):
- titre
- auteurs
- affiliations des auteurs
- périodique (ou conférence)
- date de publication
- résumé (ou abstract)
- mots-clés (fournis par des experts de chaque domaine à l'INIST-CNRS, par des ingénieurs documentalistes, représentant le contenu de l'article)
- ...
Exemple
Partez de la racine de l'application, et cliquez sur TAGLIONI F: vous verrez la liste des documents dont l'auteur est TAGLIONI F. Il y a des images (au début de la liste) et des notices bibligraphiques (à la fin de la liste).Ensuite, lâchez-vous, cliquez sur une image, et promenez-vous dans le corpus...
Ressources
- FIG'2006: http://fig-st-die.education.fr/
- Amerigeo: http://amerigeo.veille.inist.fr/
- service veille de l'INIST-CNRS: http://veille.inist.fr/
- DILIB: http://dilib.inist.fr/
Par H_I | | 27/10/2006 22:10 | Boulot | 5 commentaires |
par hachis, le Dimanche 28 Janvier 2007, 02:36
L'intéressant c'est qu'on peut utiliser n'importe quel type de métadonnées, du moment qu'on peut les avoir sous forme de XML bien formé (le moteur ne s'occupe pas du tout de la DTD).Répondre à ce commentaire
Il nous suffit d'avoir les XPaths des données à indexer.
D'ailleurs, la documentation de DILIB utilise des fichiers en RDF (enfin, la syntaxe n'est pas forcément très cachère, comme dirait le concepteur de DILIB). Cette documentation utilise en fait l'application qui a inspiré le développement de SERVIST (c'était écrit en CGI, dans les années 90): le serveur d'investigation.
Exemple: on peut rechercher rdf dans l'index des descripteurs français (extrait de documents RDF) de la documentation de DILIB.
http://dilib.inist.fr/bin/dilib/v04Public/selectRegExp.cgi?PARAM_FILE=%2Fdps%2Fpublic%2Fdilib%2Fv0.4%2FTargets%2FPublic%2FWWW%2FIndexSite%2FServer%2FFR.resource.FD.wsh&QUERY=rdf
Le RDF en question ressemble à ça (je sais, la gestion des espaces de nommage n'est pas terrible):<rdf:Description about="$DILIB_TARGET_URL/Documentation/ShortTutorial/ServerMulti/index.html">
<dc:Type>document</dc:Type>
<dilib:type>multilingual html</dilib:type>
<dc:Title xml:lang="eng">Dilib Web Site - Multibase Information Retrieval Servers</dc:Title>
<dc:Title xml:lang="fre">Site Web DILIB - Serveurs d'investigation multibase</dc:Title>
<dc:Subject>
<Bag>
<li>RDF, norme</li>
<li>Dublin Core</li>
<li>Serveurs d'investigation, génération</li>
</Bag>
</dc:Subject>
<inist:about>http://dilib.inist.fr/dilib/v04Public/Documentation/ShortTutorial/ServerMulti/index.fre.html</inist:about>
</rdf:Description>
Commentaires
1 -par biou, le Samedi 27 Janvier 2007, 18:44 Répondre à ce commentaire