Ce billet décrit un graphe de connaissances extrait de Wikidata qui doit constituer un jeu de données de référence pour des recherches sur ce type de graphe et notamment des études sur le ‘plongement de graphe’ (graph embeddings).
La base Joconde est une base de données administrée par le Ministère de la Culture français. Cette base contient une description d’environ 600000 créations du patrimoine français.
Nous travaillons sur une représentation de ces créations basée sur CIDOC-CRM. Ce n’est pas le sujet de ce billet.
Une partie de ces créations dispose aussi d’une représentation dans Wikidata. Nous avons utilisé l’outil WDumper (https://wdumps.toolforge.org/dump/3269) pour créer un extrait de Wikidata contenant les triplets concernant les créations de la base Joconde.
Les principales propriétés utilisées pour ces créations sont:
http://www.wikidata.org/prop/direct/P195 collection
http://www.wikidata.org/prop/direct/P170 creator
http://www.wikidata.org/prop/direct/P136 genre
http://www.wikidata.org/prop/direct/P18 image
http://www.wikidata.org/prop/direct/P276 location
http://www.wikidata.org/prop/direct/P571 inception
http://www.wikidata.org/prop/direct/P31 instance of
http://www.wikidata.org/prop/direct/P180 depicts
http://www.wikidata.org/prop/direct/P186 made from material
http://www.wikidata.org/prop/direct/P921 main subject
http://www.wikidata.org/prop/direct/P131 located in the administrative territorial entity
http://www.wikidata.org/prop/direct/P373 Commons category
http://www.wikidata.org/prop/direct/P17 country
http://www.wikidata.org/prop/direct/P625 coordinate location
http://www.wikidata.org/prop/direct/P361 part of
http://www.wikidata.org/prop/direct/P2048 height
http://www.wikidata.org/prop/direct/P2049 width
http://www.wikidata.org/prop/direct/P1476 title
http://www.wikidata.org/prop/direct/P217 inventory number
http://www.wikidata.org/prop/direct/P6216 copyright status
http://www.wikidata.org/prop/direct/P1257 depicts Iconclass notation
Ces propriétés ne sont pas toujours renseignées. Certaines peuvent prendre plusieurs valeurs. Certaines ont pour valeur une entité -par exemple, P17, country-, d’autres un littéral -par exemple, P2048, height.
Nous sommes particulièrement intéressés à compléter les valeurs de propriétés comme P921 (main subject), P180 (depicts) dont les valeurs sont des entités, mais aussi P18 (image) qui prend pour valeur une chaîne de caractères qui doit être l’URL d’une image de la création.
Le dump est librement disponible dans Zenodo:
https://zenodo.org/record/7941537#.ZGOUiXZBw-U
Sur Zenodo, le fichier info.json donne des informations générales sur le dataset; preview.nt est un extrait de 130000 triplets environ sur les presque 500000 que contient le dataset; wdump-3269.nt.gz est le dataset lui-même; wdumper-spec.json contient les paramètres utilisés par WDumper pour créer le dump.
On voit dans ce dernier fichier que le dataset est défini par les entités qui possèdent une propriété P347=Joconde work ID. On y voit aussi que les chaînes de caractères avec un attribut de langage ne sont extraits que pour le français et l’anglais.
Notons qu’un lien existe entre des articles de Wikipedia et des entités décrites dans ce dataset. Lorsque ce lien existe, il est porté par la propriété <http://schema.org/about>, par exemple:
<https://fr.wikipedia.org/wiki/Mademoiselle_Rivi%C3%A8re> <http://schema.org/about> <http://www.wikidata.org/entity/Q24011> .
Faites-en bon usage!
Pingback : Le jeu de données Joconde et le LOD | Data&Musée