Data&Musée

Explorer les données de l'héritage culturel français

Pénurie de données (ou pas)

De nombreux outils de traitements de données s'avèrent d'autant plus pertinents qu'ils ont un très grand nombre de données à traiter. La question qui se pose pour Data&Musée est une possible insuffisance de quantité, au moins pour certains types de données. Va-t-on avoir de nombreux visiteurs qui visitent plusieurs musées dans l'année? Se déplacent-ils aussi dans les Monuments de France? et bien d'autres questions analogues.

Faire face à la pénurie?

Une hypothèse plus ou moins explicite du projet Data&Musée est que l’exploitation et le traitement de grands ensembles de données de natures diverses va nous permettre de mettre au jour des indicateurs permettant d’améliorer l’analyse des actions culturelles, d’enrichir les possibilités, de proposer des recommandations.

Le constat actuel (au 1/11/2018) est la disponibilité de relativement peu de données, peu interconnectées ne permettant pas aux ‘data analysts’ d’utiliser efficacement les méthodes dont ils disposent. De plus, nous cherchons de nouveaux partenaires et la démarche concernant la collecte de données est toujours longue, avec des freins d'ordre psychologique, juridique, structurels...

Comment remédier à cette situation?

Deux voies sont suivies:

  • s'appliquer à récolter plus de données en provenance des partenaires du projet, actuels - CMN et Paris Musées- ou futurs, en établissant des partenariats avec d'autres musées et monuments,
  • récolter des données d'autres sources qui, croisées avec les données des partenaires du projet, peuvent enrichir les interprétations: données géographiques, événements, ...

Une pénurie, vraiment?

Par rapport, à des exemples d'ensembles de données utilisés dans des travaux phares du traitement de données -travaux sur DBPedia, apprentissage sur des grandes bases d'images...-, nos données sont modestes, mais pas ridicules.

A titre d'exemple, nous devrions avoir au moins:

  • plus 20000 réponses par an dans des livres d'or électronique (ce nombre est en progression d'année en année),
  • des milliers de données de billetterie électronique collectées chaque semaine,
  • des données d'actualité de chaque site partenaire

Nous allons établir en avril 2019 un état des lieux des volumes de données prévisibles.

Commentaires Clos.