wiki:Cosmetic/TraitementsQuotidiensVosDroits

Version 2 (modified by http://emmanuel.raviart.myopenid.com/, 9 years ago) (diff)

Amélioration de la mise en page

Traitements quotidiens effectués par Cosmetic pour le comarquage de Service-public.fr

Cet article décrit l'ensemble des traitements nocturnes effectués par Comarquage.fr pour récupérer les fichiers XML "vos droits" version 2 et les convertir en HTML.

Tous les soirs vers 23h, le script load_vos_droits effectue les opérations suivantes :

  • Téĺéchargement un par un de l'ensemble des fichiers XML vos droits v2 (environ 4000 fichiers pour les particuliers, 1000 pour les professionnels et 100 pour les associations).
  • Stockage de ces fichiers XML dans un dépôt afin d'en conserver l'historique et de visualiser les différences au jour le jour.
  • Extraction à partir de la page principale de Service-public.fr. des informations permettant de construire la page principale (dite N0) des particuliers. Le fichier XML Themes.xml n'étant pas suffisant pour construire cette page, car il lui manque la liste des démarches les plus fréquentes de chaque thème.
  • Récupération de la liste des mots-clés les plus fréquents depuis une page HTML du site Service-public.fr. Cette liste de mots-clés étant calculée par le moteur de recherche de Service-public.fr, elle est susceptible de changer.
  • Récupération sur le même principe des "Comment faire si..." les plus fréquents.
  • Lancement d'un bot chargé de recenser les nœuds du site Service-public.fr qui ont été supprimés et qui font l'objet d'une redirection vers un autre nœud. La liste obtenue contient quelques dizaines de redirections.
  • Fusion de cette liste de redirections avec celles déduites par le logiciel Cosmetic pour obtenir une liste plus complète de quelques centaines de redirections. Cette liste ainsi obtenue est utilisée pour renvoyer l'utilisateur vers la page appropriée plutôt que de lui afficher un message d'erreur lorsqu'il clique sur un lien périmé.
  • Conversion des fichiers XML en fichiers HTML valides et sémantiques, mais bruts (sans CSS ni JavaScript?, ni actualités, ni informations locales).
  • Stockage de ces fichiers HTML dans un dépôt afin d'en conserver l'historique et de visualiser les différences au jour le jour.
  • Génération de la page listant tous les dossiers en recensant ceux présents dans le dépôt.
  • Génération de la page listant les mots-clés à partir de la page du site Service-public.fr.
  • Recensement de tous les fils d'actualités devant figurer sur les différentes pages HTML et déclaration de ces fils au 'bot' chargé de les actualiser tous les 1/4 d'heure.

Les traitements nocturnes se terminent là. Le reste est traité lors de l'affichage des pages.