Chaînes de données IA

À mesure que l’intelligence artificielle (IA) se développe, elle a besoin de plus en plus de données générées par les utilisateurs pour l’entraînement des modèles, ce qui soulève des préoccupations concernant la confidentialité et le contrôle des données. Ce rapport explore le concept de la chaîne de données IA, en prenant Vana et CARV Protocol comme études de cas.

Rni Chaînes de données IA B

Avertissement de recherche

Avertissement de Crypto.com Research and Insights pour les rapports de recherche

Résumé exécutif

  • Les données sont l’élément vital du développement de l’intelligence artificielle (IA). Cependant, il y a des problèmes liés aux données, notamment la qualité incohérente des données, le manque de transparence dans les sources de données, des problèmes de sécurité et confidentialité des données, ainsi qu’une distribution inéquitable des récompenses envers les contributeurs de données. Le Web3 apporte des solutions en utilisant le registre numérique immuable de la blockchain pour garantir la transparence. De plus, la décentralisation dans le Web3 renforce la sécurité dans des domaines tels que la gouvernance et le stockage des données.
  • À mesure que l’IA continue de croître, elle nécessitera des volumes de données plus importants et plus diversifiés, générés par les utilisateurs pour l’entraînement des modèles. Cela soulève des préoccupations quant à la confidentialité et au contrôle des données des utilisateurs.
  • Il existe plusieurs projets émergents, y compris Vana et CARV Protocol, qui permettent aux utilisateurs d’être les propriétaires de leurs propres données et d’obtenir des rendements via la « tokenisation des données ».
    • Vana est une blockchain de couche 1 compatible avec la Machine Virtuelle Ethereum (EVM) pour les données détenues par les utilisateurs. Son objectif est de créer un réseau distribué où les utilisateurs peuvent posséder, gouverner et tirer des bénéfices des modèles d’IA auxquels ils contribuent.
    • CARV, quant à lui, vise à construire la plus grande couche modulaire d’identité et de données (IDL) permettant d’agréger des données et de faciliter leur accès aux studios de jeux et aux entreprises d’IA. Depuis 2022, CARV a enregistré environ 9,5 millions de joueurs inscrits, attiré 30 % des jeux Web3 et développé des partenariats stratégiques croissants dans le secteur de l’IA.
  • Les projets émergents dans la chaîne de données IA marquent un changement significatif vers la décentralisation dans la gestion des données et le développement de l’IA, mettant l’accent sur l’autonomisation des utilisateurs et la protection de la vie privée à l’ère du numérique.

1. Introduction

Les données sont l’élément vital de l’intelligence artificielle (IA), constituant une base essentielle pour permettre aux algorithmes d’apprendre, de générer des résultats et de prendre des décisions. Cependant, avec l’essor du secteur de l’IA, plusieurs problèmes ont été mis en lumière dans les processus de collecte et de gestion des données :

  • Qualité des données : Les données utilisées pour l’entraînement des modèles d’IA peuvent être incomplètes, mal organisées ou inexactes, ce qui peut conduire à des décisions erronées. De plus, la fragmentation des données entraîne également des problèmes de qualité, car les informations sont dispersées sur diverses plateformes et systèmes, créant ainsi des silos de données et des incohérences.
  • Manque de transparence des sources de données : Pour renforcer la confiance des utilisateurs dans les modèles d’IA, il est crucial de pouvoir retracer l’origine des données d’entraînement. Cette transparence permet d’expliquer les algorithmes et d’améliorer la fiabilité des résultats produits par l’IA.
  • Confidentialité et sécurité des données : Les utilisateurs manquent souvent de confidentialité et de contrôle sur l’utilisation et le stockage des données, celles-ci étant collectées, utilisées ou potentiellement modifiées par des plateformes sans leur consentement.
  • Répartition inéquitable des récompenses : Les utilisateurs génèrent des données à partir de leurs activités quotidiennes et de leur navigation sur le web. Cependant, ce sont généralement les plateformes qui monétisent ces données ou concluent des accords de licence pour les « vendre » à des fins d’entraînement des modèles d’Ia.

Ces problématiques ne sont pas nouvelles. Plusieurs projets ont vu le jour pour y remédier en intégrant la technologie blockchain dans l’entraînement des modèles d’IA. Par exemple, Ocean Protocol est conçu pour libérer l’accès aux données pour l’IA en proposant un marché décentralisé où les propriétaires de données peuvent partager et monétiser leurs ensembles de données tout en conservant le contrôle de ceux-ci.

De plus, plusieurs projets émergents permettent désormais aux utilisateurs d’être propriétaires de leurs propres données et d’en tirer des revenus grâce à la « tokenisation des données ». Vana et CARV Protocol en sont deux exemples que nous analysons ci-dessous. Par ailleurs, nous observons une croissance de la capitalisation boursière dans plusieurs secteurs, notamment le stockage décentralisé et les mégadonnées en IA.

ProblèmesCaractéristiques du Web3Applications
Qualité des donnéesPermet aux données de rester infalsifiables et validées Vérifier l’authenticité des données et s’assurer que les données répondent à certains critères avant d’être acceptées et utilisées dans la formation (par exemple, la preuve de contribution de Vana)
Manque de transparence sur la source des données L’enregistrement numérique immuable de la blockchain garantit la transparence et la traçabilité des données Les modèles d’IA on-chain (ex. : Vana et Ora) ont collaboré pour soutenir le lancement du premier modèle d’IA on-chain détenu par les utilisateurs, utilisant les ensembles de données Reddit pour développer un prototype de grand modèle de langage (LLM)
Confidentialité & sécurité des donnéesDécentralisation du stockage des données et des audits Gouvernance décentralisée des donnéesUtilisation de technologies comme les preuves à divulgation nulle de connaissance (ZK proofs) et les environnements d’exécution de confiance (TEEs) pour vérifier et valider les données sans exposer d’informations sensibles Gouvernance des données via des DAOs, permettant aux utilisateurs de voter sur l’utilisation des données
Répartition inéquitable des récompenses Facilite la monétisation en permettant l’utilisation des données personnelles pour entraîner l’IALes utilisateurs peuvent monétiser leurs données en fonction de leur contribution

2. Vana

Vana, qui a débuté comme un projet de recherche en 2018, est une blockchain compatible avec la Machine Virtuelle Ethereum (EVM) de couche 1 pour la donnée possédée par les utilisateurs, visant à créer un réseau distribué où les utilisateurs peuvent posséder, gagner et gouverner les modèles d’IA auxquels ils contribuent. Cette initiative repose sur le principe que les utilisateurs devraient avoir le contrôle de leurs données, qui sont souvent détenues par des plateformes centralisées malgré leur propriété légale.

2.1 Mécanisme

Vous trouverez ci-dessous quelques caractéristiques clés de Vana :

  • Couche de liquidité des données: Permet de valider, tokeniser et échanger les données comme un actif liquide. Elle héberge les pools de liquidité des données (DLPs), qui regroupent des données thématiques similaires (ex. : finance, fitness, Reddit) dans des pools de liquidité décentralisés accessibles aux consommateurs de données.
  • Preuve de contribution: Un mécanisme qui valide les données tout en préservant la confidentialité et assure que les données ajoutées aux DLPs sont authentiques et de haute qualité. Elle utilise les preuves à divulgation nulle de connaissance (Zero-Knowledge proofs) pour prouver que les données soumises respectent certains critères sans révéler leur contenu.
  • Couche de portabilité des données: Une couche applicative qui permet le partage de jeux de données à travers plusieurs applications décentralisées (dApps) et plateformes. Elle assure l’interopérabilité tout en permettant aux utilisateurs de conserver le contrôle sur leurs données et de gouverner leur utilisation et leur partage.

Le flux de travail général est décrit ci-dessous:

  • Les contributeurs de données contribuent aux DLPs. Les données sont ensuite chiffrées et stockées hors chaîne, à un emplacement défini par le DLP, puis représentées par une URL.
  • Les données sont validées par le biais de la preuve de contribution. Une fois validées, les contributeurs reçoivent des récompenses en tokens VANA.
  • Les données sont tokenisées, et les consommateurs de données peuvent acheter l’accès aux données via la couche de probabilité des données, notamment pour des applications comme l’entraînement de modèles d’IA.

2.2 DataDAO et exemples

Une fonctionnalité clé de Vana est l’introduction des DataDAOs qui permettent la décentralisation de la gouvernance. Chaque DLP dispose d’un DAO géré par les détenteurs de tokens du DLP, qui peuvent voter sur l’utilisation des données et la distribution des récompenses. Actuellement, plus de 300 DataDAOs fonctionnent sur le testnet de Vana. Le lancement imminent du mainnet permettra aux DataDAOs de collecter activement des données auprès de la communauté et d’améliorer la gouvernance des utilisateurs.

Exemples de DataDAOThèmeCaractéristiques
r/datadaoDonnées RedditPermet aux utilisateurs de connecter leur compte Reddit, contribuer des données pour gagner des points et créer un ensemble de données communautaire. Le token natif $RNAT est utilisé pour voter sur l’utilisation des données. A lancé le premier modèle d’IA on-chain détenu par les utilisateurs avec Vana et Ora, basé sur des ensembles de données Reddit pour développer un prototype de LLM.
DatapigStratégies d’investissementCollecte les préférences de trading des utilisateurs et des données issues des plateformes DeFi pour les analyser. L’analyse des données assistée par IA fournit des insights de trading. Les résultats sont présentés sous forme de mèmes, GIFs et vidéos courtes pour une expérience plus engageante.
Kleo NetworkHistorique de navigationExtension de navigateur qui s’intègre aux actions quotidiennes sur le web pour capturer le contenu des pages et les interactions. Les utilisateurs gagnent des Kleo XP points en fonction de l’intelligence et de la complexité de leur activité de navigation, tout en gardant le contrôle sur leurs données.
FinquariumPrévisions financièresLes analystes partagent leurs prédictions sur divers actifs financiers. La qualité des prévisions est vérifiée via un suivi des performances. Les utilisateurs peuvent acheter l’accès aux insights avec des tokens $FINQ, tandis que les contributeurs sont récompensés.
Données au 17 novembre 2024 Sources : Vana, sites DataDAO, Crypto.com Research

En fin de compte, en permettant aux utilisateurs de gagner des récompenses basées sur les données contribuant ainsi qu’en redonnant la propriété des données aux contributeurs, Vana améliore la transparence, l’intégrité et l’équité des données. Cela contribue également à résoudre plusieurs des problèmes liés à l’entraînement des modèles d’IA évoqués précédemment.

3. CARV Protocol

CARV Protocol est une couche modulaire d’identité et de données (IDL) qui facilite l’échange de données et la distribution de valeur dans les secteurs du jeu vidéo et de l’intelligence artificielle (IA). Il couvre l’ensemble du processus de gestion des données, y compris la vérification des données, l’authentification de l’identité, le stockage et le traitement des données, l’entraînement des modèles IA et la distribution des revenus.

CARV Protocol vise à résoudre le problème de la fragmentation des données dans le monde numérique, où les informations sont dispersées entre Web2, Web3 et plusieurs blockchains, limitant ainsi l’interopérabilité. De plus, il répond aux préoccupations concernant le manque de souveraineté et de protection des données personnelles.

CARV Protocol permet aux consommateurs de données (studios de jeux, entreprises d’IA) d’accéder à des données pour l’entraînement et l’analyse, tout en garantissant la confidentialité et le contrôle des contributeurs individuels (ex. : joueurs).

3.1 Fonctionnalités clés

La couche d’identité et de données (IDL), est une infrastructure décentralisée de gestion des identités et des données dans l’écosystème Web3. Elle permet aux utilisateurs de contrôler et monétiser leurs identités numériques et leurs données. Cette infrastructure repose sur cinq couches :

CouchesDescription
Couche d’identitéCARV ID, le cœur du protocole, est un système d’identité décentralisé permettant aux utilisateurs de créer et gérer leurs identités numériques de manière autonome. C’est un standard de token EIP-7231 qui lie les identités Web2 et Web3 des individus aux tokens non fongibles (NFT) et tokens Soulbound (SBT).
Couche de stockage des donnéesUne solution de stockage flexible et évolutive avec diverses options pour des besoins d’efficacité des coûts et de persistance.
Couche de calcul & d’entrainementPermet le traitement et l’analyse des données pour l’entraînement des modèles IA. Il utilise des Trusted Execution Environments (TEE) et des Zero-Knowledge Proofs (ZK Proofs) pour assurer la confidentialité et la vérification des données. Cette couche permet aux entreprises d’IA d’accéder aux données dans un TEE, ce qui améliore la confidentialité.
Couche d’exécutionFonctionne dans un environnement multi-blockchain pour faciliter l’échange de données et de valeur. Cela inclut l’enregistrement des attestations, la supervision du consensus parmi les vérificateurs, puis la distribution des récompenses aux fournisseurs de données tout en facturant les consommateurs de données.
Couche de vérificationInclut des nœuds validateurs assurant la décentralisation du protocole. Ces nœuds valident les attestations générées par le TEE avant de les enregistrer sur la blockchain.

3.2 Cas d’utilisation

CARV Play est le produit phare de CARV Protocol. Il permet aux joueurs de découvrir des jeux via la plateforme et d’agréger leurs identifiants et accomplissements dans différents jeux sous forme de tokens Soulbound (SBT), des NFTs non transférables. D’un autre côté, les développeurs et studios de jeux peuvent exploiter les données du protocole pour mieux comprendre leur audience et optimiser la fidélisation des joueurs (ex. : analyse des performances post-événement, ciblage des profils de joueurs).

Captures d’écran de CARV Play (Source : Protocole CARV)

Le protocole permet aux utilisateurs de posséder, contrôler et monétiser leurs données. Grâce à CARV Play, les utilisateurs peuvent bénéficier de leurs contributions au développement de jeux et à la génération de données, à la fois passivement et activement. Ils peuvent choisir de partager leurs données historiques avec des marques et des jeux pour gagner des revenus passifs et, en même temps, obtenir des récompenses par une participation active à des campagnes et activités de jeu (par exemple, des enquêtes et des événements sur CARV Play).

De plus, en exploitant les CARV ID et en encourageant les utilisateurs à lier leurs comptes, CARV Protocol permet aux utilisateurs d’interagir à travers les plateformes Web2 et Web3 avec une identité numérique unifiée, améliorant l’interopérabilité. Par exemple, les utilisateurs peuvent lier leurs identifiants de jeu (Steam, CARV Play), leurs données issues des réseaux sociaux (X, Discord) et leurs activités Web3 (MetaMask) dans un cadre unifié et choisir de partager leur empreinte numérique. Ces données peuvent ensuite être utilisées par les entreprises d’IA pour entraîner des modèles visant à proposer des services personnalisés ou par les annonceurs pour créer des publicités ciblées.

En trois ans depuis son lancement, CARV Protocol a accumulé environ 9,5 millions de joueurs inscrits, avec plus de trois millions de CARV IDs émis. Son adoption dans l’industrie du jeu vidéo ne cesse de croître, attirant plus de 30 % des jeux Web3. De plus, le protocole a établi des partenariats stratégiques avec le secteur de l’intelligence artificielle. À l’avenir, la feuille de route de CARV comprend l’amélioration de son infrastructure, y compris des séquenceurs décentralisés et le stockage de données (CARV DB).

La couche modulaire de CARV et ses mesures visant à préserver la confidentialité des données attirent naturellement les utilisateurs souhaitant générer un revenu passif grâce à leurs données. D’un autre côté, les entreprises d’IA et les plateformes ont un besoin croissant de données pour se développer, ce qui positionne CARV Protocol comme un acteur clé pour accompagner la croissance des secteurs du jeu Web3 et de l’IA.

4. Conclusion

Avec l’essor de l’intelligence artificielle, le besoin de volumes de données toujours plus diversifiés et importants ne cesse d’augmenter, rendant les données des utilisateurs de plus en plus précieuses. Contrairement aux solutions Web2 traditionnelles, qui reposent sur un modèle centralisé, les data chains Web3 encouragent la transparence et une répartition équitable de la valeur des données.

Vana et CARV Protocol sont tous deux des exemples de protocoles Web3 qui permettent aux utilisateurs de posséder et de monétiser leurs données. Les Pools de Liquidité de Données et les DataDAOs de Vana ont révolutionné la gouvernance des données, tandis que la couche d’identité et de données modulaires de CARV Protocol agrège les données et les rend accessibles aux studios de jeux et aux entreprises d’IA. Ces deux projets incarnent un changement majeur vers la décentralisation dans la gestion des données et le développement de l’IA, mettant en avant l’autonomisation des utilisateurs et la protection de la vie privée à l’ère numérique.

Consultez le rapport complet : Chaînes de données AI

Vous souhaitez en savoir plus ? Accédez à des rapports exclusifs en vous inscrivant comme membre privé, en rejoignant notre programme VIP Crypto.com Exchange, ou en collectionnant un NFT Loaded Lions.

Auteurs

Équipe Crypto.com Research and Insights


Recevez les actualités les plus récentes du marché, DeFi & NFT directement dans votre boîte mail :

Soyez le premier à découvrir nos nouvelles analyses :

Partager avec des amis

Prêt à commencer votre aventure crypto ?

Obtenez votre guide étape par étape pour ouvrirun compte sur Crypto.com

En cliquant sur le bouton Soumettre, vous reconnaissez avoir lu l'Avis de confidentialité de Crypto.com où nous expliquons comment nous utilisons et protégeons vos données personnelles.