Data&Musée

Explorer les données de l'héritage culturel français

Trouver des pages de Wikipedia liées à des entités de Wikidata

Nous allons montrer ici comment trouver des pages de Wikipedia en français ou en anglais correspondant à des entités de Wikidata.

Pour l'exemple, nous allons chercher des pages reliées à des créations de la base Joconde décrites dans Wikidata. Dans l'interface sparql de Wikidata (WDQS, https://query.wikidata.org/), nous allons produire des requêtes pour trouver ces pages.

select ?entityjoconde ?wikipediapage where
{
?entityjoconde wdt:P347 [] .
?wikipediapage schema:about ?entityjoconde; schema:inLanguage "en"
}

La ligne

?entityjoconde wdt:P347 [] .
permet de sélectionner les entités de wikidata qui ont une valeur renseignée pour la propriété P347 (Joconde work ID). On pourrait utiliser d'autres critères de sélection.

La ligne

?wikipediapage schema:about ?entityjoconde; schema:inLanguage "en"

indique qu'on veut des liens vers des pages qui concernent les entités sélectionnées.

On pourrait remplacer "en" par "fr" pour avoir les pages en français.

Au 31/5/2023, on trouve 4246 liens vers des pages en anglais et 1017 liens vers des pages en français.

Un coup d'oeil à la liste des résultats nous montre qu'un partie significative des résultats ressemble à cet exemple:

https://commons.wikimedia.org/wiki/Category:Les_Bretonnes_aux_ombrelles

Il s'agit en fait d'une page qui référence des images de l'œuvre concernée.

En ajoutant la ligne suivante:

filter(contains(str(?wikipediapage), "commons"))

à la requête précédente, on trouve 3633 liens vers ces pages d'images. Il reste donc 613 autres liens.

Si on remplace le filtre précédent par:

filter(contains(str(?wikipediapage), "wikipedia"))

on trouve 612 liens qui contiennent wikipedia et qui sont probablement des liens vers des pages de wikipedia, où nous allons trouver du texte concernant les œuvres correspondantes.

Cela va constituer un premier jeu de données textuelles pour travailler sur ces oeuvres.

Commentaires Clos.