Documentation du projet de webscraping des événements en sciences cognitives au RISC


Un des services du RISC est de proposer des listes d'événements du domaine, les sciences cognitives, par ex. des séminaires, colloques, conférences, etc. aux membres de la communauté. L'alimentation de la base de données dédiée était jusque là réalisée entièrement à la main par les agents de l'unité, en consultant tout au long de la semaine plusieurs centaines de sites web.

Nous avons donc cherché à savoir s'il était possible d'automatiser ce processus, pour tout ou partie, en nous orientant vers la technique de web scraping (extraction automatique de contenus web semi-structurés), via le framework Scrapy.

Ci-dessous un export PDF de la documentation dans son état au 16 mai 2018:

PDF:

[en] Events-webscraping-RISC.pdf