Loi République numérique : les chercheurs pourront-ils fouiller automatiquement n'importe quel texte ?

Martin Clavey Publié le
Loi République numérique : les chercheurs pourront-ils fouiller automatiquement n'importe quel texte ?
En juillet 2015, Axelle Lemaire, secrétaire d'État au Numérique, avait introduit l'autorisation du text & data mining dans son avant-projet de loi. // ©  Denis Allard / R.E.A
Technique d'analyse de texte automatisée de plus en plus utilisée par les chercheurs, le "text & data mining" se heurte aux droits des auteurs et des éditeurs. Peut-on analyser des milliers de textes et de pages sur internet sans en avertir les éditeurs ? Les législateurs français hésitent à donner l'autorisation aux chercheurs.

Depuis le début de l'écriture de la loi République numérique, le text & data mining disparaît et réapparaît dans le texte au fil de son passage entre les mains des divers législateurs.

Ce mercredi 6 avril, une fois encore, la commission des lois du Sénat a supprimé l'autorisation explicite du text & data mining pour les chercheurs, la remplaçant par une interdiction de la monnayer dans les contrats entre éditeurs et organismes de recherche, allant dans le sens du gouvernement.

Le text & data mining est une technique d'intelligence artificielle permettant aux chercheurs de fouiller d'importants corpus de textes puis d'en extraire de façon informatisée un grand nombre d'informations qu'il aurait été très laborieux d'obtenir sans l'outil informatique.

Le projet de bio-informatique Text2genome a, par exemple, réussi à réunir les connaissances d'environs 3 millions d'articles scientifiques sur le génome, créant une base de données très utile pour les chercheurs. 

L'outil est utilisable dans de nombreuses disciplines et les chercheurs en sciences humaines et sociales en sont aussi de plus en plus friands. L'analyse linguistique trouve ici, par exemple, un nouvel et vaste terrain de travail.

The right to read is the right to mine.

Bataille entre chercheurs et ÉDIteurs

Mais les chercheurs utilisant cette technique se retrouvent souvent face à un problème de droit d'auteur : ont-ils le droit de lancer leur outil sur n'importe quel texte ? Les auteurs de Text2genome ont eux-mêmes été ralentis par les éditeurs des textes qu'ils voulaient fouiller.

Pour les chercheurs du projet, après s'être acquitté des droits d'accès à un texte, il leur paraît logique d'avoir celui de le fouiller, y compris à l'aide d'outils informatiques. Dans la communauté des chercheurs, certains affirment : "The right to read is the right to mine" ("si j'ai le droit de lire, j'ai le droit d'extraire").

Légalement, c'est plus compliqué. Comme l'explique le juriste Lionel Maurel, certains pays, comme le Japon ou le Royaume-Uni, autorisent explicitement la technique lorsqu'elle est utilisée à des fins de recherche non commerciale. D'autres, comme les États-Unis, sont plus flous. Et certains, comme la France, l'interdisent depuis la création du droit d'auteur. Ce qui freine fortement la recherche française.

bataille d'amendements au parlement 

En juillet 2015, Axelle Lemaire avait introduit l'autorisation du text & data mining dans son avant-projet de loi, mais elle a disparu du projet de loi lors de la soumission du texte aux internautes en fin d'année. 

Depuis, la secrétaire d'État explique que le gouvernement a préféré attendre une harmonisation européenne des différentes législations des droits d'auteur des pays membres. Une réforme qui devrait avoir lieu dans les prochaines années. 

Comme le ministère de la Culture, qui soutient les éditeurs, a obtenu gain de cause lors des arbitrages ministériels, les militants du text & data mining ne pensaient pas retrouver l'opportunité de la réintroduire dans le texte.

C'était sans compter une alliance peu commune de députés de droite et de gauche, qui a réussi à faire passer in extremis un amendement autorisant cette technique pour les chercheurs, à condition que son utilisation ne soit pas commerciale, en première lecture du texte à l'Assemblée nationale.

Mais il a fallu attendre le passage du texte au Sénat, puis la deuxième lecture, pour savoir si les chercheurs français auraient les mêmes droits que leurs collègues britanniques. Lors de la commission du Sénat, le gouvernement n'a même pas eu à faire passer son amendement qui supprimait cette nouvelle autorisation.

En effet, il a profité d'un amendement de réécriture de la commission de la culture du Sénat pour éviter l'autorisation explicite de la technique dans le texte. Le texte réécrit ne fait plus qu'interdire, dans les contrats entre éditeurs et organismes de recherche, la monétisation de l'utilisation de la technique, mais ne l'autorise plus explicitement.

Bataille au gouvernement ?

Au sein même du gouvernement, les désaccords sont visibles. Lors d'une conférence sur le sujet à laquelle participait aussi Axelle Lemaire, le secrétaire d'État à l'Enseignement supérieur et à la Recherche, Thierry Mandon, tout en soutenant la position officielle du gouvernement, a déclaré, mercredi 6 avril, que "la réforme européenne du droit d'auteur prendra au moins trois ou quatre ans. Si nous l'attendons, et que nous ne mettons pas en place une forme d'exception, on est morts."

Nul doute maintenant que la bataille continuera jusqu'au vote définitif de la loi... Et peut être même au-delà.

Martin Clavey | Publié le