Passer au contenu

Etape 2 : Téléchargez les données de Wikipédia

Wikipédia sauvegarde ses bases de données au format XML et crée un fichier pour chaque langue dans laquelle est développée l’encyclopédie et un fichier pour toutes…

Wikipédia sauvegarde ses bases de données au format XML et crée un fichier pour chaque langue dans laquelle est développée l’encyclopédie et un fichier pour toutes les sous-parties (dictionnaires, citations, média, etc.).
Toutes les sauvegardes de Wikipédia sont stockées sur
Wikimedia Downloads.

Pour vous y retrouver facilement, les bases en français sont accessibles sur
dumps.wikimedia.org Sur ce site, téléchargez la base de données la plus récente en cliquant sur le lien latest. Sélectionnez le fichier dont le nom ressemble à
pages-articles.xml.bz2. Dans notre cas, il s’agit du fichier
Frwiki-latest-pages-meta-current.xml.bz2 qui fait 1,1 Go compressé. Il contient tous les articles, les modèles de page, les tableaux,
mais ni les éléments multimédias ni les photos (il faut télécharger des sauvegardes multimédias pour accéder à ces contenus, mais la taille de sauvegarde devient alors considérable). Dans ce cas, le téléchargement peut prendre plusieurs heures car,
même si votre connexion est rapide, le serveur de Wikimédia ne l’est guère.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Alexandre Salque