mercredi 18 septembre 2013

Questions terminologiques

Sur « données », « corpus » et « base de données » 

 Tout d’abord revenons sur une question de terminologie à propos de « corpus » « données » et « base de données ». Une des définitions employée au niveau de l’Union Européenne indique qu’une base de données (BD) est :

“a collection of independent works, data or other materials arranged in a systematic or methodical way and individually accessible by electronic or other means.”

Cette définition distingue donc très peu une base de données d’un corpus, terme largement utilisé en sciences du langage. Généralement dans une base de données on distinguera plusieurs niveaux d’informations, soit, en termes plus généraux, une structure opérant sur ces données (incluse dans les données, ou distincte de ces données, tout leur en étant reliée). Le concept de corpus utilisé dans ce document implique également un niveau de structures sur les données (la TEI – Text-Encoding Initiative - est en un, par exemple, avec données et structures incluses dans un même document XML). 

Par ailleurs, le terme « base de données » est largement, voire utilisé uniquement par les milieux de l’économie ou du droit. Ceux-ci se sont évertués à poser quantité de régulations, de protections, visant à restreindre les accès aux données, à encourager les usages commerciaux. Chaque pays ou communautés de pays a, pour ce faire, décliné sa propre variante de définition de BD et ajouté des régulations spécifiques. Notre objectif étant ici de favoriser l’accès aux données de la recherche, quels que soient leurs formats, nous éviterons donc d’utiliser le terme « base de données ». 

 Dans le domaine des SHS, une autre raison pousse à éviter l’usage de ce terme. Beaucoup de disciplines, qui auparavant travaillaient exclusivement sur des approches qualitatives, ont progressivement découvert le travail quantitatif sur les données, et cede façons très spécifiques, à travers quelques logiciels particuliers et des modèles singuliers, en général en rapport avec le modèle « relationnel ». Les bases de données y sont donc uniquement relationnelles. Cette concentration a voilé aux yeux des chercheurs l’existence même du modèle, le fait que le travail dépendait d’un mode unique de représentation et de traitements des données. Or aujourd’hui, d’une part, les modèles (et les outils associés) permettant de structurer et d’annoter les données sont plus variés et riches (c’est l’un des grands enjeux d’apprendre à les connaître pour faire une recherche différente). D’autre part, avec le développement du travail sur les grandes masses de données (Big Data), la structuration des données n’est plus un pré-requis, voire doit même être oubliée avant de procéder aux traitements (la rupture méthodologique est alors complète).

 Nous n’utiliserons donc pas dans ce document le terme « base de données », mais celui de « données » ou de « corpus » (si cela concerne les données traitées, par exemple, en science du langage).

Aucun commentaire: