This blog is available in English too. The English version is a bit less complete than the French one. Go to the English version of this blog.

9 juin 2008

Parser automatique

Ce widget est un peu plus compliqué à utiliser que mes autres widgets, mais ses utilisations possibles sont nombreuses. Il permet d’extraire de n’importe quelle page web les informations qui vous intéressent, de les reformater pour les adapter au widget (redimensionnement, pagination), puis de les afficher.

Téléchargement

Ce widget est disponible en français et en anglais.

Pour utiliser ce widget sur les différentes plateformes disponibles (Netvibes, IGoogle, Vista sidebar, Apple dashboard, Opera), allez sur sa page sur l’écosystem Netvibes.

Installation

L’installation est démontrée en vidéo dans le widget ci-dessus. Cliquez sur le lien pour voir la démonstration dans le widget.

Voici les étapes d’installation :

  1. Entrez l’URL de la page web où se trouvent les infos qui vous intéressent.
  2. Passez votre souris sur les différents éléments de la page : ils se colorent. Cliquez pour sélectionner les informations qui vous intéressent : soit un bloc qui sera récupéré à chaque fois dans la page, soit plusieurs blocs du même type. Dans ce dernier cas, tous les blocs de ce type seront sélectionnés par le système. Vous n’êtes pas obligé de sélectionner tous les éléments qui vous intéressent. Un échantillon représentatif suffit.
  3. Cliquez sur « Récupérer les informations ». Le widget sélectionne tous les blocs qu’il pense que vous voulez. S’il n’en sélectionne pas assez, sélectionnez quelques éléments manquants, puis recommencez l’étape 3. S’il en sélectionne trop, c’est qu’il n’arrive pas à trouver de caractéristiques communes aux éléments qui vous intéressent. Essayez de modifier votre sélection en sélectionnant moins d’éléments, ou en les sélectionnant différemment.
  4. Cliquez sur « Valider », les informations sélectionnées s’affichent. Vous pouvez ajuster les options du widget pour améliorer l’affichage.
  5. Au début de votre utilisation, il se peut que quand le site source est mis à jour, certaines informations qui vous intéressent manquent dans le widget, ou que rien ne soit affiché. Dans ce cas cliquez sur « Configurer » et recommencez à partir de l’étape 3 sans cliquer sur « Réinitialiser la sélection ». Le widget apprendra de ses erreurs, qui devraient arriver au maximum trois/quatre fois si vous n’avez pas de chance.

Principe de fonctionnement

Pour déterminer quelles informations vous intéressent dans la page, ce widget génère un chemin vers les éléments que vous sélectionnez en se basant sur la structure du document HTML : type, classes et identifiant des noeuds qui constituent la page.

Si vous sélectionnez un seul élément, le chemin vers cet élément est enregistré. Si vous en sélectionnez plusieurs, les différents chemins sont fusionnés de manière à perdre le moins d’informations possible, et le chemin résultant est enregistré.

Tous les éléments qui correspondent au chemin enregistré sont alors affichés dans le widget (et adaptés pour s’afficher correctement dans la place réduite du widget).

Si le chemin était trop restrictif, il se peut qu’après une mise à jour du site, des éléments que vous vouliez sélectionner ne s’affichent pas. Vous pouvez alors reconfigurer le widget, en sélectionnant des nouveaux éléments dont les chemins seront fusionnés avec le chemin existant.

Ils en parlent

3 réponses à “Parser automatique”

  1. Grant Overstake le 22 septembre 2008 #

    Greetings from Hillsboro, Kansas, USA,

    I’ve been using your parser with great success at http://www.tabor.edu/about-tabor/events up until last week, when it went on the fritz.

    It won’t load. I tried to create a new parsed widget with similar results.

    I’m capturing the calendar of events information on the left-hand column of this page.

    It worked fine before.

    Thanks for your help!

    Grant Overstake, Director
    Tabor College Communications
    Hillsboro, Kansas

  2. Tristan Groléat le 22 septembre 2008 #

    Hello,
    thanks for reporting this bug. It should be fixed now.
    I don’t know why it appeared only last week, let’s hope no other bugs will appear…

  3. Michael Dylan le 15 août 2009 #

    Widget doesn’t work right now. When i made a selection and click to « parse information », selected elements down 1 to 0 and i can’t validate of course.
    I hope you still have time for this project.

URI de trackback | RSS des commentaires

Répondre

XHTML : vous pouvez utiliser ces balises : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>