L’idée avec ce tuto, c’est de démontrer une mise en place d’utilisation des customs feeds sur Bluesky basé sur un News Bot qui va générer le contenu, ce qui va nous permettre de segmenter l’activité du newsbot en différents customs feeds auxquels les utilisateurs vont pouvoir s’abonner.
Il y a donc 12 processus de veille RSS qui tournent, un par catégorie maitresse sur le site LeMonde
J’avais besoin d’une ancre stable sur lequel me baser pour chaque catégorie et je ne pouvais pas prévoir tous les mots utilisés dans un titre ou la description pour segmenter les articles en différent flux thématique, du coup, en éditant mon fichier config.json, je peux segmenter avant même la publication, et ce, de manière stable :
{
"string": "Actu: $title",
"publishEmbed": true,
"languages": ["fr"],
"truncate": true,
"runInterval": 60,
"dateField": ""
}
{
"string": "Culture: $title",
"publishEmbed": true,
"languages": ["fr"],
"truncate": true,
"runInterval": 60,
"dateField": ""
}
Etc.. etc..ce qui me permet de prendre le dossier/catégorie culture, actu, sports, france etc… et d’avoir une segmentation simple sans devoir passer par des tas de requête regex qui ne donneraient pas une segmentation aussi simple et efficace.
Vue de la mise en place d’un custom feed avec skyfeed.app
Pour régler les problèmes de doublons, c’est-à-dire, un article qui apparaît dans 2 ou 3 flux, j’ai déjà viré les flux à la Une, vu qu’ils reprennent le contenu des catégories, ensuite grâce à Inoreader, je vire les doublons d’une même catégorie en faisant un tri sur les articles qui ont le même titre, mais qui sont publiées à plusieurs endroits et enfin, on utilise le flux de sortir du dossier (culture, actu, sports etc..) comme input d’entrée du bot qui veille à l’arrivée de nouvelles publications et qui s’en charge de les publier.
Vu qu’il y avait encore des doublons, tout a été reconstruit, c’est à dire que l’agrégation de l’ensemble des flux cités ci plus haut sont rassemblé dans un seul dossier, sur lequel le check de duplicatas se fait, ainsi ça vire les doublons d’une manière transversale, sur l’ensemble de la veille.
Ensuite pour faire la segmentation, au lieu de la faire sur des préfix qui annonce de quel catégorie vient l’article, on se base sur la structure des articles chez LeMonde pour segmenter l’information en plusieurs custom feeds : dont /internatonal/ ou /economie/ ou /culture/ dans l’URL deviennent les repères sur lesquels se fait la segmentation, résultat, plus de doublons et des customs feeds par catégories;
Tout de même certain choix ont dû être fait, par exemple la catégorie Idées du journal ont été mise dans le segment Actualités.