mardi 16 mai 2023

Data Act : Faciliter l'accès à de plus grands volumes de données et droit auteur - TDM.


Le Data Act est un texte européen élaboré dans le cadre de la mise en place de la stratégie européenne pour les données. Cette stratégie européenne qui a été définie en 2020, a pour objectif de créer un véritable marché unique des données (personnelles ou non personnelles) ouvert aux données dans lequel les données peuvent circuler et permettre aux entreprises de créer de la valeur à partir de ces données. Dans cette vidéo, Nathalie Fouet (Technical Officer Legal/Data chez Cellenza) et Maud Lambert (Avocat spécialisé en Droit des technologies chez Smalt Avocats) décryptent ce texte et ses conséquences. Au programme : - 00:16 Qu'est-ce que le Data Act ? - 01:16 Où en est-on du Data Act ? - 01:34 A qui s'applique ce texte ? - 01:55 Quels sont les points à retenir ? - 07:31 Les conseils de Cellenza pour préparer l'application du texte 👉 Découvrez les autres vidéos de cette série : - IA/Data : des textes européens qui changent la donne :    • IA et Data : des ...   - Data Governance Act :    • Data Governance A...   - Artificial Intelligence Act (partie 1) :    • Artificial Intell...   - Artificial Intelligence Act (partie 2) :    • Artificial Intell...   --------- Vous souhaitez en savoir plus et être accompagnés par des experts ? Contactez-nous : https://cellenza.com/ https://smaltavocats.com/

Le Data Act est une réglementation européenne élaborée par la Commission européenne pour créer un marché unique pour les données personnelles et non personnelles afin de permettre aux entreprises de créer de la valeur à partir des données. 

Le Data Act est encore en discussion et devrait être adoptée début 2023 et mise en œuvre en 2024. La réglementation s'applique à tous les acteurs qui fabriquent des produits ou des services connectés, aux utilisateurs de ces produits et à ceux qui détiennent des données générées par ces produits. 

Le Data Act propose trois mesures pour faciliter l'utilisation et l'échange de données : un mécanisme pour réduire les effets du verrouillage, le partage de données entre les entreprises et les organismes publics dans des cas exceptionnels et des garanties d'interopérabilité des données. 

Le mécanisme pour réduire les effets du verrouillage oblige les fabricants de produits et services connectés à fournir un accès direct aux données générées par ces produits ou services à l'utilisateur ou à les rendre disponibles dans les plus brefs délais.

---------------------------------------------------------

La conséquence :


Depuis l'adoption de la Directive européenne sur le droit d'auteur et les droits voisins dans le marché unique numérique en avril 2019, les éditeurs de l'UE ont une base légale solide pour empêcher l'accès libre à leurs contenus par les robots de data mining, y compris les crawlers utilisés pour alimenter en données les intelligences artificielles génératives telles que ChatGPT. 

Cependant, la situation n'est pas aussi simple.


Pour être protégé par la loi, un éditeur doit être en mesure de signaler techniquement, dans un langage compréhensible par les machines, que son contenu n'est pas libre d'accès. Le simple fait d'indiquer dans les conditions générales d'utilisation (CGU) du site que le contenu n'est pas accessible ne suffit pas. La législation exige une mention spécifique, lisible par les machines, car les robots ne sont pas techniquement capables de lire les CGU. Laurent Le Meur, directeur et CTO du Laboratoire européen de la lecture numérique (EDRLab), explique : "La nuance est importante car la directive autorise par défaut l'accès de tous les crawlers de data et texte mining, tout en reconnaissant que les titulaires de droits peuvent s'opposer aux utilisations commerciales de leurs contenus."

Cette distinction explique pourquoi les éditeurs membres du Geste, un organisme qui regroupe près de 100 éditeurs en ligne (éditeurs de presse, pure players, médias audiovisuels, services mobiles, plateformes de streaming, etc.), réfléchissent actuellement à des moyens techniques pour contrôler l'accès des robots à leurs contenus. Cela leur permettrait ensuite d'engager des discussions en vue de négocier des licences avec les entreprises cherchant à exploiter leurs données.

La question est de savoir comment le faire de manière efficace tout en permettant l'accès libre aux robots des instituts de recherche, une obligation imposée par la directive, ainsi qu'aux crawlers "utiles" tels que ceux utilisés pour la recommandation de contenus.

Les éditeurs disposent de plusieurs solutions pour contrôler l'accès des crawlers à leurs contenus sur le web.


La première solution, le reverse proxy, consiste à cacher le site web et empêcher les robots non autorisés d'y accéder. Cependant, cette méthode est coûteuse et nécessite une gestion complexe, en plus d'être contournable par des acteurs malveillants.

La deuxième option est d'indiquer dans les métadonnées que le contenu ne doit pas être aspiré. Cependant, chaque format de fichier a sa propre manière d'intégrer des métadonnées, rendant la tâche complexe pour les robots. De plus, cela n'empêche pas l'accès au contenu.

La troisième solution, appelée TDMR est un protocole gratuit et open source développé par un groupe de travail du W3C. Il permet d'ajouter des informations supplémentaires dans le protocole d'accès HTTP, ce qui permet au robot de savoir s'il a le droit de récupérer le contenu avant de le faire. Cette solution est simple à mettre en place et offre plus d'informations aux robots que le protocole robots.txt.

Cependant, TDMRep présente deux limites : il ne bloque pas physiquement l'accès au contenu si le robot insiste et nécessite que le robot soit informé de la présence d'informations supplémentaires dans le protocole d'accès.

En résumé, les solutions existantes pour maîtriser l'accès des crawlers présentent des avantages et des limites, mais TDMRep offre une approche prometteuse en fournissant des informations supplémentaires aux robots tout en restant simple à intégrer.

Cette spécification définit un protocole Web simple et pratique, capable d'exprimer la réservation des droits relatifs au text & data mining (TDM) appliqué à un contenu Web légalement accessible, et de faciliter la découverte des politiques de licence TDM associées à ce contenu. Cette initiative est une réponse technique aux contraintes fixées par l'article 4 de la nouvelle directive européenne sur le droit d'auteur et les droits voisins dans le marché unique numérique.



{
      "@context": [
        "http://www.w3.org/ns/odrl.jsonld",
        {"tdm": "http://www.w3.org/ns/tdmrep#"}
    ],

    "@type": "Offer",
    "profile": "http://www.w3.org/ns/tdmrep",
    "uid": "https://provider.com/policies/policy-a",
    "assigner": {
      "uid": "https://provider.com",
      "vcard:fn": "Provider",
      "vcard:nickname": "PRV",
      "vcard:hasEmail": "mailto:contact@provider.com",
      "vcard:hasAddress": {
        "vcard:street-address": "111 Street Address",
        "vcard:postal-code": "5555",
        "vcard:locality": "Espérance",
        "vcard:country-name": "France"
      },
      "vcard:hasTelephone": "tel:+61755555555",
      "vcard:hasURL": "https://provider.com/tdm/licensing.html" 
    },
    "permission": [{
      "target": "https://provider.com/research-papers",
      "action": "tdm:mine",
      "duty": [{
        "action": "obtainConsent"
        }
      ]
    }
  ]
}

In this example, the rightsholder expresses that non-research Actors from any country can mine its content if they agree to pay a fee.

Si son usage se développe, TDMRep pourra à terme devenir un standard du W3C.

Comment imposer aux IA génératives un droit d'accès à vos contenus :


----
P. Erol GIRAUDY


Aucun commentaire:

Enregistrer un commentaire

OpenAI Spring Update

We’ll be streaming live at 10AM PT Monday, May 13 to demo some ChatGPT and GPT-4 updates.