Data&Musée

Explorer les données de l'héritage culturel français

Appliquer des règles simples pour améliorer Wikidata

Nous allons ici utiliser WDQS pour vérifier si quelques règles simples pourraient utilement permettre de compléter Wikidata.

Prenons l’exemple de la règle suivante « une des occupations d’un créateur qui a créé une peinture mentionnée dans Wikidata est ‘peintre' ». Nous pouvons poser cela comme postulat, même si pour certains il s’agit d’une occupation marginale; mais cette occupation a été suffisamment importante pour produire une peinture référencée, notamment dans Wikidata.

Sur WDQS, au 17/10/2023, la requête SPARQL

select (count(?s) as ?c) where { ?s wdt:P31 wd:Q3305213 }

nous donne 906323 peintures.

(P31 est la propriété ‘instance of’; Q3305213 est la valeur ‘painting’)

La requête

select (count(?s) as ?c)
 where
 {
 ?s wdt:P31 wd:Q3305213; wdt:P170 ?creator .
}

nous donne 773080 peintures ayant un créateur connu de Wikidata.

Enfin, la requête:

select (count(?s) as ?c) where {   
?s wdt:P31 wd:Q3305213;  wdt:P170 ?creator .   
?creator wdt:P106 wd:Q1028181 
}

nous donne 648947 peintures ayant un créateur connu de Wikidata et dont une des occupations est peintre.

(P106 est la propriété ‘occupation’; Q1028181 est la valeur ‘painter’)

Avec le postulat initial, nous voyons que les créateur de 773080-648947=124133 peintres pourraient voir leur description complétée par le fait qu’une de leurs occupations a été d’être peintre. On aurait pu trouver cette valeur aussi avec la requête:

select (count(?s) as ?c)
where
{
  ?s wdt:P31 wd:Q3305213;  wdt:P170 ?creator .
  filter not exists {?creator wdt:P106 wd:Q1028181 }
}

Combien sont ces créateurs? La requête

select (count(distinct ?creator) as ?c)
where
{
  ?s wdt:P31 wd:Q3305213;  wdt:P170 ?creator .
  filter not exists {?creator wdt:P106 wd:Q1028181 }
}

nous renseigne. Ils sont 113103.

Et si on veut leur liste:

select distinct ?creator
where
{
  ?s wdt:P31 wd:Q3305213;  wdt:P170 ?creator .
  filter not exists {?creator wdt:P106 wd:Q1028181 }
}
(note: cette requête prend trop de temps pour le serveur; il faudrait jouer avec les mots-clés LIMIT et OFFSET pour obtenir cette liste progressivement)

Voilà, il n'y a plus qu'à renseigner l'occupation de ces 113103 créateurs ci-dessus. Mais cela est autre histoire: l'amélioration de Wikidata par des robots. Et on peut imaginer d'autres règles. Par exemple avec les paires (sculpture/sculpteur), (estampe/graveur)...

Commentaires Clos.