wiki:Cosmetic/TraitementsQuotidiensVosDroits

Traitements quotidiens effectués par Cosmetic pour le comarquage de Service-public.fr

Cet article décrit l'ensemble des traitements nocturnes effectués par Comarquage.fr pour récupérer les fichiers XML "vos droits" version 2 et les convertir en HTML.

Tous les soirs vers 23h, le script load_vos_droits effectue les opérations suivantes :

Récupération des fichiers XML fournis par Service-public.fr

  • Téĺéchargement un par un de l'ensemble des fichiers XML vos droits v2 (environ 4000 fichiers pour les particuliers, 1000 pour les professionnels et 100 pour les associations).
  • Stockage de ces fichiers XML dans un dépôt afin d'en conserver l'historique et de visualiser les différences au jour le jour.

Récupération des autres informations

  • Extraction à partir de la page principale de Service-public.fr. des informations permettant de construire la page principale (dite N0) des particuliers. Le fichier XML Themes.xml n'étant pas suffisant pour construire cette page, car il lui manque la liste des démarches les plus fréquentes de chaque thème.
  • Récupération de la liste des mots-clés les plus fréquents depuis une page HTML du site Service-public.fr. Cette liste de mots-clés étant calculée par le moteur de recherche de Service-public.fr, elle est susceptible de changer.
  • Récupération sur le même principe du bloc Focus sur....
  • Récupération sur le même principe des "Comment faire si..." les plus fréquents.
  • Récupération sur le même principe du bloc des services en ligne et formulaires les plus demandés.
  • Recensement de tous les fils d'actualités devant figurer sur les différentes pages HTML et déclaration de ces fils au 'bot' chargé de les actualiser tous les 1/4 d'heure.

Gestion des redirections

  • Lancement d'un bot chargé de recenser les nœuds du site Service-public.fr qui ont été supprimés et qui font l'objet d'une redirection vers un autre nœud. La liste obtenue contient quelques dizaines de redirections.
  • Fusion de cette liste de redirections avec celles déduites par le logiciel Cosmetic pour obtenir une liste plus complète de quelques centaines de redirections. Cette liste ainsi obtenue est utilisée pour renvoyer l'utilisateur vers la page appropriée plutôt que de lui afficher un message d'erreur lorsqu'il clique sur un lien périmé.

Conversion des fichiers XML en pages HTML statiques

  • Conversion des fichiers XML en fichiers HTML valides et sémantiques, mais bruts (sans CSS ni JavaScript, ni actualités, ni informations locales). Cette conversion comprend notamment :
    • Correction des erreurs d'encodage de caractères Windows dans les fichiers XML.
    • Génération des pages spécifiques (page principale particuliers, page principale professionnels, page principale "Comment faire si...")
  • Stockage de ces fichiers HTML dans un dépôt afin d'en conserver l'historique et de visualiser les différences au jour le jour.
  • Génération de la page listant tous les dossiers en recensant ceux présents dans le dépôt.
  • Génération de la page listant les mots-clés à partir de la page du site Service-public.fr.

Importation des pages HTML dans l'application web d'affichage

  • Indexation des pages HTML afin de permettre une recherche textuelle depuis l'interface web.

Les traitements quotidiens se terminent là. Les autres opérations s'effectuent lors de l'affichage des pages.

Last modified 8 years ago Last modified on Nov 20, 2009, 12:19:50 PM