
J'ai créé le 28/5/2023 le dump d'un extrait de Wikidata composé des triplets concernant des œuvres référencées dans la base Joconde.
Nous avons introduit le concept de 'graphe de contexte' (Context Graph, CG) dans 'Knowledge Base Completion With Analogical Inference on Context Graphs'. Un graphe de contexte est un extrait d'un grand graphe de connaissances qui constitue un ensemble de connaissances spécifiques à un 'sujet' donné. Le 'sujet' peut être défini de différentes façons, notamment par la sélection d'un ensemble d'entités qui partagent une ou plusieurs propriétés.
La base Joconde est une base de données, maintenue par le Ministère de la Culture et de la Communication (MCC) français. Il contient la description d'environ 600000 œuvres du patrimoine culturel français. Les descriptions des œuvres sont essentiellement créées par les institutions qui conservent ces œuvres. En cela, cette base constitue une bonne référence de métadonnées sur ces œuvres.
Une partie des œuvres de la base Joconde ont été répertoriées dans Wikidata. Elles sont identifiables par l'association de l'entité Wikidata avec un ID dans la base Joconde, association portée par la propriété P347. Par exemple:
<https://www.wikidata.org/entity/Q328523> wdt:P347 "000PE001569"
18099 oeuvres de Joconde étaient présentes dans Wikidata à la date du dump.
Pour produire le dump, j'ai utilisé l'outil WDumper. Il est open source et disponible sur github: https://github.com/bennofs/wdumper/
Il est aussi possible de lancer la création d'un dump en ligne:
Il est alors stocké et rendu librement accessible sur Zenodo. C'est la solution que j'ai utilisée.
Les paramètres utilisés sont visibles dans le fichier wdumper-spec.json disponible sur Zenodo. Notamment:
- les littéraux ne sont gardés que s'ils sont en français ou en anglais,
- les qualificateurs de triplets ne sont pas retenus,
- les alias et les liens externes sont retenus,
- les entités ne sont retenues que s'ils elles ont une valeur pour la propriété P347
Ce jeu de données va servir à un ensemble d'expérimentations avec des données d'œuvres d'art.