Data&Musée

Explorer les données de l'héritage culturel français

Extrait de Wikidata, œuvres de la base Joconde

Ce billet décrit un graphe de connaissances extrait de Wikidata qui doit constituer un jeu de données de référence pour des recherches sur ce type de graphe et notamment des études sur le ‘plongement de graphe’ (graph embeddings).

La base Joconde est une base de données administrée par le Ministère de la Culture français. Cette base contient une description d’environ 600000 créations du patrimoine français.

Nous travaillons sur une représentation de ces créations basée sur CIDOC-CRM. Ce n’est pas le sujet de ce billet.

Une partie de ces créations dispose aussi d’une représentation dans Wikidata. Nous avons utilisé l’outil WDumper (https://wdumps.toolforge.org/dump/3269) pour créer un extrait de Wikidata contenant les triplets concernant les créations de la base Joconde.

Les principales propriétés utilisées pour ces créations sont:

http://www.wikidata.org/prop/direct/P195 collection

http://www.wikidata.org/prop/direct/P170 creator

http://www.wikidata.org/prop/direct/P136 genre

http://www.wikidata.org/prop/direct/P18 image

http://www.wikidata.org/prop/direct/P276 location

http://www.wikidata.org/prop/direct/P571 inception

http://www.wikidata.org/prop/direct/P31 instance of

http://www.wikidata.org/prop/direct/P180 depicts

http://www.wikidata.org/prop/direct/P186 made from material

http://www.wikidata.org/prop/direct/P921 main subject

http://www.wikidata.org/prop/direct/P131 located in the administrative territorial entity

http://www.wikidata.org/prop/direct/P373 Commons category

http://www.wikidata.org/prop/direct/P17 country

http://www.wikidata.org/prop/direct/P625 coordinate location

http://www.wikidata.org/prop/direct/P361 part of

http://www.wikidata.org/prop/direct/P2048 height

http://www.wikidata.org/prop/direct/P2049 width

http://www.wikidata.org/prop/direct/P1476 title

http://www.wikidata.org/prop/direct/P217 inventory number

http://www.wikidata.org/prop/direct/P6216 copyright status

http://www.wikidata.org/prop/direct/P1257 depicts Iconclass notation

Ces propriétés ne sont pas toujours renseignées. Certaines peuvent prendre plusieurs valeurs. Certaines ont pour valeur une entité -par exemple, P17, country-, d’autres un littéral -par exemple, P2048, height.

Nous sommes particulièrement intéressés à compléter les valeurs de propriétés comme P921 (main subject), P180 (depicts) dont les valeurs sont des entités, mais aussi P18 (image) qui prend pour valeur une chaîne de caractères qui doit être l’URL d’une image de la création.

Le dump est librement disponible dans Zenodo:

https://zenodo.org/record/7941537#.ZGOUiXZBw-U

Sur Zenodo, le fichier info.json donne des informations générales sur le dataset; preview.nt est un extrait de 130000 triplets environ sur les presque 500000 que contient le dataset; wdump-3269.nt.gz est le dataset lui-même; wdumper-spec.json contient les paramètres utilisés par WDumper pour créer le dump.

On voit dans ce dernier fichier que le dataset est défini par les entités qui possèdent une propriété P347=Joconde work ID. On y voit aussi que les chaînes de caractères avec un attribut de langage ne sont extraits que pour le français et l’anglais.

Notons qu’un lien existe entre des articles de Wikipedia et des entités décrites dans ce dataset. Lorsque ce lien existe, il est porté par la propriété <http://schema.org/about>, par exemple:

<https://fr.wikipedia.org/wiki/Mademoiselle_Rivi%C3%A8re> <http://schema.org/about> <http://www.wikidata.org/entity/Q24011> .

Faites-en bon usage!