Data&Musée

Un nouveau blog

Wikidata et le CMN

Dans ce billet, j’explore Wikidata en vue d’y introduire un ensemble de monuments français. Dans le cadre du projet Data&Musée, j’ai déjà observé que le plupart des monuments du Centre des Monuments Nationaux sont représentés dans Wikidata. Je vais observer comment ces monuments sont représentés pour amorcer la construction d’un modèle de représentation pour les autres monuments que j’introduiras par la suite.

L’entité représentant le CMN a l’identifiant wd:Q2945551.

Les 554 entités de Wikidata qui ont un lien avec le CMN sont obtenues avec:

SELECT ?item ?itemLabel 
WHERE 
{
  ?item ?p wd:Q2945551.
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}

et les 26 propriétés utilisées pour relier ces entités au CMN:

SELECT distinct ?p ?pLabel
WHERE 
{
  ?item ?p wd:Q2945551.
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}

mais cela ne donne pas des labels très satisfaisants. La requête

SELECT ?p ?wdLabel (count(?item) as ?c)
{
?item ?pc wd:Q2945551 .
?item ?p ?statement .
?statement ?ps ?ps_ .
?wd wikibase:claim ?p.
?wd wikibase:statementProperty ?ps.
SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}
group by ?p ?wdLabel
order by desc(?c)

donne 183 propriétés avec leur label, classées par nombre d’occurrences. Ce sont les propriétés qui décrivent les entités reliées au CMN.

Parmi ces propriétés, un grand nombre servent à associer l’entité avec les IDs d’une entité équivalente dans d’autres jeux de données. Je les identifie en considérant que le label contient la chaîne ID. Il y en a 63 d’après la requête:

select (count(?wdLabel) as ?c) 
{
  {
    SELECT distinct ?wdLabel
{
?item ?pc wd:Q2945551 .
?item ?p ?statement .
?statement ?ps ?ps_ .
?wd wikibase:claim ?p.
?wd wikibase:statementProperty ?ps.
SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}
    }
  filter(contains(?wdLabel, "ID"))
  }

Il reste donc 120 propriétés dont nous pouvons observer l’utilité pour décrire d’autres monuments.

Propriété Instance Of

La propriété qui revient le plus souvent -247 fois- est p:P31 (instance of). Nous trouvons les 40 types des entités reliées au CMN avec:


SELECT distinct ?type ?typeLabel (count(?item) as ?c)
{
  ?item ?pc wd:Q2945551 .
  ?item p:P31 ?statement .
  ?statement ?ps ?type .
  filter(contains(str(?type), "www.wikidata.org/entity"))
  SERVICE wikibase:label { bd:serviceParam wikibase:language "fr" }
} 
group by ?type ?typeLabel
order by desc(?c)

On trouve 104 entités de type ‘peinture’, 31 ‘château fort’, 24 ‘château’, 10 ‘estampe’, 7 ‘tapisserie’, 6 ‘pièce murale’, 4 ‘église’, 3 ‘musée’, 3 ‘villa’, 3 ‘musée archéologique’, 3 ‘série de tapisseries’, 3 ‘cloître’, 2 ‘prison’, 2 ‘abbaye’… Le reste a deux instances ou une seule.

On voit que sont reliés au CMN d’une part des types de lieux, d’autres part des types d’œuvres. Cette liste peut donc être décomposée en deux listes de vocabulaires qui pourront nous servir à identifier le type des nouveaux monuments que nous introduirons dans Wikidata.

Il va probablement être utile par la suite de distinguer les propriétés qui concernent des entités ‘lieux’ et celles concernant des entités ‘œuvre’. Comment les distinguer? En généralisant quelques exemples observés, je suppose que les types correspondants à des monuments sont souvent des sous-classes (P279) de la classe ‘structure’ (Q6671777) ou de la classe ‘structure construite’ (Q811430). J’obtiens alors les entités d’une classe dérivée de ces classes avec la requête suivante:

SELECT distinct ?item ?itemLabel 
WHERE 
{
  values ?class {wd:Q6671777 wd:Q811430}
  ?item ?p wd:Q2945551.
  ?item wdt:P31/wdt:P279* ?class .
  SERVICE wikibase:label { bd:serviceParam wikibase:language "fr" }
}

Cela me donne 40 monuments (alors que le CMN en regroupe environ 80), mais cela va me permettre une première analyse des propriétés de ces monuments.

Propriété ‘collection’

La deuxième propriété la plus fréquence -247 occurrences- est p:P1951 (collection). Nous trouvons les 20 valeurs de cette propriété pour des entités reliées au CMN avec:

SELECT distinct ?type ?typeLabel (count(?item) as ?c)
{
  ?item ?pc wd:Q2945551 .
  ?item p:P195 ?statement .
  ?statement ?ps ?type .
  filter(contains(str(?type), "www.wikidata.org/entity"))
  SERVICE wikibase:label { bd:serviceParam wikibase:language "fr" }
} 
group by ?type ?typeLabel
order by desc(?c)

Ces 20 valeurs sont soit des références au CMN (130 fois), soit des références à un des monuments du CMN. Il est probable que cette propriété concerne des entités de type œuvre, telles que trouvées à l’étape précédente. Elles permettent d’indiquer dans la collection de quel monument se trouve l’oeuvre. Je n’ai pas cherché à vérifier ce point.

Dans l’immédiat, comme je ne prévois pas d’introduire les œuvres qui sont dans les monuments, mais seulement les monuments, cette propriété ne me sera pas utile. Elle sera utile lorsqu’on introduira des œuvres, par exemple décrites par la base Joconde.

Si j’utilise le filtrage vu à la section précédente pour ne m’intéresser qu’aux monuments, j’utilise la requête:

 SELECT distinct ?type ?typeLabel (count(?item) as ?c)
{
 values ?class {wd:Q6671777 wd:Q811430}
  ?item ?pc wd:Q2945551 .
  ?item wdt:P31/wdt:P279* ?class .
  ?item p:P195 ?statement .
  ?statement ?ps ?type .
  filter(contains(str(?type), "www.wikidata.org/entity"))
  SERVICE wikibase:label { bd:serviceParam wikibase:language "fr" }
} 
group by ?type ?typeLabel
order by desc(?c)

je ne trouve aucune valeur; ce qui confirme que cette propriété ne concerne pas les monuments.

Propriété ‘image’

La troisième propriété la plus fréquence -208 occurrences- est p:P18 (image). Nous trouvons les 20 valeurs de cette propriété pour des entités reliées au CMN avec:

SELECT distinct ?image (count(?item) as ?c)
{
  ?item ?pc wd:Q2945551 .
  ?item p:P18 ?statement .
  ?statement ?ps ?image .
} 
group by ?image 
order by desc(?c)

Les valeurs de la variable ?image sont essentiellement des référence à des images dans Wikimedia Commons. Par exemple:

https://commons.wikimedia.org/wiki/File:Ch%C3%A2teau%20de%20Champs-sur-Marne%2001.jpg

Propriétés suivantes

Les propriétés suivantes les plus utilisées sont:

p:P186made from material176
p:P1435heritage designation149
p:P170creator145
p:P276location129
p:P217inventory number125
p:P571inception108
p:P973described at URL107
p:P180depicts101
p:P131located in the administrative territorial entity100
p:P2048height98
p:P2049width92
p:P17country91
p:P380Mérimée ID90
p:P625coordinate location83
p:P373Commons category79
p:P137operator79
p:P1416affiliation71
p:P136genre66
p:P646Freebase ID65
p:P214VIAF ID59
p:P127owned by56

Nous allons sauter ici celles qui contiennent des IDs, déjà évoquées plus haut.

Je vais balayer ici rapidement les conclusion que j’ai pu tirer en utilisant des requêtes analogues à celles utiliser pour les propriétés des sections précédentes.

Pour P186, à part ‘gros oeuvre’, ‘béton, ‘liste de matériaux de couverture disponibles commercialement’ et ‘béton armé’, il s’agit probablement de propriété utilisée pour décrire les matériaux utilisés pour une œuvre: soie, peinture, toile,… Il y a 12 valeurs utilisées pour cette propriété. Je ne vais pas utiliser cette propriété pour les prochains monuments (11 valeurs utiles). Cela est confirmé avec le filtre sur les monuments: la requête ne donne plus que les quatre valeurs ‘béton’…

Avec P1435, on trouve 10 résultats:

wd:Q10387684 monument historique classé (103 fois); wd:Q10387575 monument historique inscrit (24 fois); wd:Q61058403 objet classé monument historique (10 fois); wd:Q54556283 monument sélectionné par la mission d’identification du patrimoine immobilier en péril (2018) (5 fois); wd:Q1459900 liste indicative du patrimoine mondial (2 fois); wd:Q3214312 label « Patrimoine du XXe siècle » (2  fois); wd:Q43113623 partie d’un site du patrimoine mondial UNESCO (2 fois); wd:Q55619850 Œuvre architecturale de Le Corbusier (2 fois) wd:Q16739336 bien recensé dans l’inventaire général du patrimoine culturel (1 fois).

On pourra chercher à utiliser cette propriété avec une de ces valeurs si on parvient à trouver la valeur adéquate pour les prochains monuments.

La propriété P170 (creator) concerne surement des œuvres, bien que pour certains monuments on pourrait référencer l’architecte avec elle. Aucun des monuments récupéré avec notre filtre n’utilise cette propriété.

La propriété P276 est utilisée pour indiquer qu’un monument est dans un lieu indiqué par son entité. Par exemple, pour un monument à Paris, on aura la propriété P276 avec la valeur wd:Q90 (Paris). La propriété P131 est utilisée de façon similaire: pointe vers un quartier de Paris, la commune où est le monument, ou tout autre entité de nature géographique qui contient le monument. La propriété P17 (country) est toujours associée à la valeur wd:Q142 (France), pour les monuments dont je m’occupe.

Les propriétés P217, P973, P180, P2048, P2049, P136 concernent des œuvres et ne sont associés à aucun monument.

La propriété P137 (operator) est associée aux valeurs suivantes:

typetypeLabelc
 wd:Q2945551Centre des monuments nationaux178
 wd:Q643290Régie autonome des transports parisiens4
 wd:Q3480397Service des Musées de France4

C’est une propriété qu’il pourra être utile de renseigner pour les prochains monuments. On retrouve les 2 mêmes premières valeur pour la propriété P1416 (affiliation). On pourra aussi chercher à renseigner cette propriété.

La propriété P127 (owned by) est renseignée avec 16 valeurs différentes. Elle pointe vers des personnes ou des orgaisations. Il pourra être utile de a renseigner.

En regardant les propriétés suivantes, moins utilisées dans notre référence, les propriétés suivantes pourraient être utilement renseignées pour les prochains monuments:

P856 (official website), P149 (architectural style), P6375 (street address), P84 (architect), P669 (located on street), P361 (part of), P527 (has part), P463 (member of), P140 (religion), P708 (diocese), P793 (significant event), P5816 (state of conservation avec les valeurs ‘en ruine’ ou ‘préservé’), P611 (religious order), P281 (postal code), P912 (has facility).

En conclusion

Nous avons trouvé une série de propriétés que nous pourrons chercher à renseigner pour les prochains monuments que nous allons introduire dans Wikidata. Aux propriété évoquées à la fin de la précédente section s’ajoutent:

P31 (instance of), P18 (image), P186 (made from material), P1435 (heritage designation), P131 (located in the administrative territorial entity), P17 (country), P276 (location), P1416 (affiliation), P127 (owned by), P137 (operator)

Nous voilà prêt pour chercher des monuments à introduire et les données associées.

Commentaires Clos.