Cadenas de datos de IA
A medida que la IA continúa creciendo, cada vez necesita más datos generados por los usuarios para entrenar sus modelos, lo cual plantea dudas sobre la protección y el control de los datos. Este artículo analiza el concepto de la cadena de datos de IA y presenta los estudios de caso de Vana y CARV Protocol.

Descargo de responsabilidad de la investigación
Descargo de responsabilidad de Crypto.com Research and Insights sobre informes técnicos
Resumen Ejecutivo
- Los datos son el eje principal del desarrollo de la inteligencia artificial (IA). Sin embargo, en torno a los datos pueden surgir problemas, incluidos calidad irregular, falta de transparencia en las fuentes de datos, problemas de protección y seguridad, así como una distribución injusta de recompensas entre los proveedores de datos. Web3 ofrece soluciones al usar el registro digital inmutable de la cadena de bloques para brindar transparencia. Además, la descentralización de Web3 refuerza la seguridad en aspectos como la gobernanza y el almacenamiento.
- A medida que la IA crezca, cada vez necesitará volúmenes más grandes y diversos de datos generados por los usuarios para entrenar sus modelos. Esta realidad ha planteado dudas sobre la protección y el control de los datos de los usuarios.
- Hay varios proyectos emergentes, incluidos Vana y CARV Protocol, que permiten a los usuarios conservar sus propios datos y obtener retornos mediante la “tokenización de los datos“.
- Vana es una cadena de bloques de capa 1 compatible con la máquina virtual de Ethereum (EVM) donde los usuarios conservan la titularidad de sus datos. Su objetivo es crear una red distribuida donde los usuarios puedan poseer y controlar los modelos de IA a los que contribuyen y obtener un beneficio de ello.
- CARV aspira a crear la capa modular de identidad y datos (IDL) más grande que agregue datos y facilite su acceso a estudios de juegos y empresas de IA. Desde 2022, CARV ha acumulado ~9,5 millones de jugadores registrados, ha captado el 30 % de los juegos de Web3 y ha fomentado crecientes asociaciones estratégicas en el sector de la IA.
- Los proyectos emergentes en la cadena de datos de IA representan un cambio considerable hacia la descentralización de la gestión de los datos y el desarrollo de la IA, centrados en dotar de mayor control y privacidad al usuario en la era digital.
1. Introducción
Los datos son el eje principal de la inteligencia artificial (IA) y constituyen una base indispensable para que los algoritmos aprendan, generen resultados y tomen decisiones. No obstante, a medida que el sector de la IA se ha ido extendiendo, han surgido algunos problemas en los procesos de recopilación y procesamiento de datos:
- Calidad de los datos: los datos utilizados en el entrenamiento de la IA pueden estar incompletos, mal organizados o ser inexactos, lo que puede llevar al modelo de IA a tomar decisiones equivocadas. Por otro lado, la fragmentación de los datos también genera problemas de calidad, ya que los datos están dispersos en distintos sistemas y plataformas, que dan lugar a repositorios de datos aislados e incongruencias.
- Falta de transparencia en las fuentes de datos: para que los usuarios confíen en los modelos de IA, es importante poder localizar la fuente de los datos de entrenamiento para explicar el algoritmo y mejorar la fiabilidad de los resultados de la IA.
- Protección y seguridad de los datos: muchas veces, los usuarios carecen de protección y control sobre el uso y almacenamiento de los datos, ya que las plataformas recopilan, utilizan o incluso modifican los datos sin el consentimiento de los usuarios.
- Distribución injusta de recompensas: los usuarios generan datos a través de sus actividades diarias y tráfico web, pero a menudo son las plataformas las que monetizan los datos o suscriben acuerdos de licencias para “vender” los datos destinados al entrenamiento.
Los problemas anteriores relativos a los datos no son nuevos; varios proyectos han planteado soluciones a los problemas que rodean al entrenamiento de la IA utilizando la tecnología de cadena de bloques. Por ejemplo, Ocean Protocol está diseñado para desbloquear datos para IA a través de un marketplace descentralizado en el que los propietarios de datos pueden compartir y monetizar sus conjuntos de datos sin perder el control sobre ellos.
Además, varios proyectos emergentes permiten a los usuarios conservar la propiedad de los datos y obtener retornos a través de la “tokenización de datos”. Vana y Protocolo CARV son dos ejemplos, que analizamos a continuación. También hemos observado un aumento en la capitalización de mercado de sectores como el almacenamiento descentralizado y los macrodatos de IA.
Problemas | Características de Web3 | Aplicaciones |
---|---|---|
Calidad de datos | Permitir que los datos permanezcan inalterados y validados | Verificar la autenticidad de los datos y asegurar que los datos cumplen con determinados criterios antes de ser aceptados y usados en el entrenamiento (p. ej., prueba de contribución de Vana) |
Falta de transparencia en la fuente de datos | El registro digital inmutable de la cadena de bloques proporciona transparencia y trazabilidad de los datos. | Los modelos de IA en cadena (p. ej., Vana y Ora) se unen a Reddit Data DAO para lanzar el primer modelo de IA en cadena propiedad de los usuarios, que utiliza conjuntos de datos de Reddit aportados por los usuarios para desarrollar un primer prototipo de gran modelo de lenguaje (LLM). |
Protección y seguridad de los datos | Descentralización del almacenamiento de los datos y pista de auditoría de la gobernanza descentralizada de los datos | Uso de tecnologías como pruebas ZK y entornos de ejecución de confianza (TEEs) para verificar y validar datos sin revelar información sensible. Gobernanza de datos a través de DAOs, donde los usuarios pueden votar sobre el uso de los datos. |
Distribución injusta de recompensas | Facilitar la monetización al permitir el uso de datos personales para entrenar IA. | Los usuarios pueden monetizar en función de su aportación. |
2. Vana
Vana, que nació como proyecto de investigación en 2018, es una cadena de bloques de capa 1 compatible con la máquina virtual de Ethereum (EVM) para datos propiedad de usuarios que tiene como objetivo crear una red distribuida donde los usuarios puedan poseer y controlar los modelos de IA a los que contribuyen y obtener un beneficio de ello. Esta iniciativa parte de la premisa de que los usuarios deben tener el control sobre sus datos, pues les pertenecen legalmente, a pesar de que muchas veces se almacenen en plataformas centralizadas.
2.1 Mecanismo
A continuación se muestran algunas características clave de Vana:
- Capa de liquidez de datos: permite validar, tokenizar, comprar y vender datos como activos líquidos. Aloja fondos de liquidez de datos (DLPs), que agregan datos con temáticas similares (por ejemplo, finanzas, fitness, Reddit) a fondos de liquidez descentralizados para que los consumidores puedan acceder a ellos.
- Prueba de contribución: mecanismo que valida los datos mientras preserva la privacidad y asegura que los datos añadidos a los DLPs sean auténticos y de alta calidad. Utiliza pruebas de conocimiento cero (ZK) para demostrar que los datos aportados cumplen con una serie de criterios sin revelar su contenido.
- Capa de portabilidad de datos: una capa de aplicación que permite compartir conjuntos de datos a través de múltiples aplicaciones descentralizadas (DApps) y plataformas. Garantiza la interoperabilidad y, a su vez, permite a los usuarios conservar el control de los datos y decidir cómo se usan y revelan.
Flujo de trabajo general:
- Los proveedores de datos aportan datos a los DLPs. Posteriormente, los datos se cifran y se almacenan fuera de la cadena en una ubicación elegida por el DLP y representada por una URL.
- Los datos se validan a través de la prueba de contribución. Una vez validados, los proveedores de datos reciben recompensas en tokens VANA.
- Los datos se tokenizan, y los consumidores pueden pagar por acceder a los datos con distintos fines (por ejemplo, entrenamiento de modelos de IA) a través de la capa de portabilidad de datos.
2.2 DataDAO y ejemplos
Una característica clave de Vana son los DataDAOs, que posibilitan la descentralización de la gobernanza. Cada DLP posee una DAO controlada por los propietarios de tokens del DLP, quienes pueden votar para decidir cómo se usan los datos y cómo se distribuyen las recompensas. La testnet de Vana comprende más de 300 DataDAOs. Vana tiene previsto presentar su mainnet en breve, lo que permitirá a los DataDAOs recopilar activamente datos de la comunidad y mejorar la gobernanza del usuario.
Ejemplos de DataDAO | Tema | Características | |
---|---|---|---|
r/datadao | Datos de Reddit | Permite a los usuarios conectar su cuenta de Reddit, aportar datos para obtener puntos y simultáneamente crear un conjunto de datos propiedad la comunidad. El token nativo $RNAT se utiliza en la comunidad para votar sobre el uso de los datos. Creó el primer modelo de IA en cadena propiedad de los usuarios junto con Vana y Ora, utilizando conjuntos de datos de Reddit aportados por los usuarios para desarrollar un primer prototipo de LLM. | |
Datapig | Estrategias de inversión | Recaba las preferencias de trading de los usuarios y datos de plataformas DeFi para crear análisis. El análisis de datos basado en la IA proporciona ideas a los traders. Los resultados del análisis se presentan en memes, GIFs y videos cortos para que sean más entretenidos. | |
Kleo Network | Historial del navegador | Extensión de navegador que se integra en las actividades web diarias para registrar contenidos e interacciones. Los usuarios pueden ganar puntos Kleo XP basados en la inteligencia y complejidad de las actividades del navegador sin perder el control de los datos. | |
Finquarium | Previsiones financieras | Los analistas comparten predicciones sobre cualquier activo financiero, que se verifican a través del seguimiento de su rentabilidad para garantizar su calidad y fiabilidad. Los usuarios pueden pagar por acceder a las previsiones utilizando tokens $FINQ, mientras que los proveedores de datos obtienen recompensas. |
En resumen, al permitir que los usuarios obtengan recompensas en función de los datos aportados y devolver la propiedad de los datos a sus proveedores, Vana ha mejorado la transparencia, integridad y equidad de los datos, lo que también ha resuelto algunos de los puntos problemáticos del entrenamiento de modelos de IA mencionados anteriormente.
3. CARV Protocol
CARV Protocol, una capa modular de identidad y datos (IDL), facilita el intercambio de datos y la distribución de valor en los sectores de los juegos y la IA. Engloba procesos de flujo de datos de extremo a extremo, incluidos verificación de datos, autenticación de identidad, almacenamiento, tratamiento, entrenamiento de modelos y distribución de valor.
CARV Protocol quiere resolver el problema de la fragmentación de los datos en el mundo digital actual, donde los datos están dispersos en Web2 y Web3, así como en múltiples cadenas de bloques, lo que dificulta la interoperabilidad. A esto se suma la falta de soberanía y protección de la privacidad de los datos de los usuarios.
CARV Protocol proporciona a los consumidores (por ejemplo, estudios de juegos y empresas de IA) datos con fines de entrenamiento y análisis, mientras preserva la privacidad y el control de los proveedores individuales de datos (por ejemplo, los jugadores).
3.1 Principales características
La capa de identidad y datos (IDL), un marco para la gestión descentralizada de identidades y datos en el ecosistema Web3, es la infraestructura principal de CARV, que permite a los usuarios controlar y monetizar sus identidades digitales y datos. Su marco de cinco capas incluye:
Capas | Descripción |
---|---|
Capa de identidad | CARV ID, el eje principal del protocolo, es un sistema de identidad descentralizado que permite a los usuarios establecer y gestionar autónomamente sus identidades digitales. Se trata de un estándar de token EIP-7231 que vincula las identidades Web2 y Web3 de los individuos a tokens no fungibles (NFTs) y tokens Soulbound (SBTs). |
Capa de almacenamiento de datos | Una solución de almacenamiento flexible y escalable con varias opciones para optimizar costes y cubrir necesidades de persistencia. |
Capa de computación y entrenamiento | Trata y analiza datos para su uso en el entrenamiento de modelos de IA. Utiliza el entorno de ejecución de confianza (TEE) para ofrecer atestaciones y pruebas ZK de verificación. Esta capa permite a las empresas de IA acceder a los datos dentro de un TEE, lo que refuerza la privacidad. |
Capa de ejecución | Opera dentro de un marco multicadena y facilita el intercambio de datos y valor. Incluye registrar atestaciones, supervisar el consenso entre los verificadores y distribuir posteriormente recompensas a los proveedores de datos mientras se cobra a los consumidores. |
Capa de verificación | Consiste en nodos verificadores que garantizan que CARV Protocol permanezca descentralizado. Los nodos validan las atestaciones generadas por el TEE antes de registrarlas en la cadena. |
3.2 Casos de uso
CARV Play es el principal producto de CARV Protocol, en el que los jugadores no solo descubren juegos a través de la plataforma, sino que también agregan sus credenciales y logros en diversos juegos, que se representan en NFTs intransferibles, conocidos como tokens Soulbound. Por otro lado, los desarrolladores y estudios de juegos pueden obtener ideas para captar y retener usuarios (por ejemplo, datos posteriores a eventos o perfiles de jugadores objetivos).
El protocolo permite a los usuarios poseer, controlar y monetizar sus datos. A través de CARV Play, los usuarios pueden beneficiarse de sus contribuciones al desarrollo de juegos y datos generados, tanto pasiva como activamente. Pueden elegir compartir sus datos históricos con marcas y juegos para obtener ingresos pasivos y, al mismo tiempo, recibir recompensas por la participación activa en campañas y actividades del juego (p. ej., encuestas y eventos de CARV Play).
Además, al utilizar IDs de CARV e incentivar a los usuarios a vincular sus cuentas, CARV Protocol ofrece a los usuarios la posibilidad de interactuar en plataformas Web2 y Web3 con una identidad digital unificada, lo que mejora la interoperabilidad. Por ejemplo, los usuarios pueden vincular sus credenciales de juego (Steam, CARV Play), datos de redes sociales (X, Discord) y actividades Web3 (MetaMask) en un marco unificado y compartir su huella digital. Estos datos pueden ser utilizados posteriormente por empresas de IA para entrenar modelos con el fin de desarrollar servicios personalizados para los usuarios o, por anunciantes para crear publicidad dirigida.
En los tres años desde su lanzamiento, CARV Protocol ha acumulado alrededor de 9,5 millones de jugadores registrados y más de tres millones de IDs de CARV acuñados. Ha crecido en adopción en el sector de los juegos al atraer más del 30 % de los juegos Web3, así como en el sector de la IA con crecientes asociaciones estratégicas. De cara al futuro, la hoja de ruta de CARV incluye mejoras en su infraestructura, incluidos secuenciadores descentralizados y almacenamiento de datos (CARV DB).
El IDL modular de CARV y las medidas aplicadas para preservar la privacidad de los datos atraen evidentemente a los usuarios que desean obtener ingresos pasivos de sus datos. Por otro lado, los datos son cada vez más importantes para que las empresas y plataformas de IA crezcan, lo que confiere a CARV Protocol el potencial de seguir capturando el crecimiento de los juegos Web3 y la IA.
4. Conclusión
A medida que siga creciendo la importancia de la IA, cada vez necesitará volúmenes más diversos y grandes de datos para entrenar sus modelos, lo que a su vez eleva el atractivo de los datos de los usuarios. En contraste con las soluciones de datos tradicionales de Web2, que tienden a ser centralizadas, las cadenas de datos Web3 promueven la transparencia y la distribución justa del valor de los datos.
Tanto Vana como CARV Protocol son ejemplos de protocolos Web3 que permiten a los usuarios poseer y monetizar sus datos. Los fondos de liquidez de datos y los DataDAOs de Vana han revolucionado la gestión de datos, mientras que la capa modular de identidad y datos de CARV Protocol agrega los datos y facilita su acceso a los estudios de juegos y empresas de IA. Ambos representan un cambio sustancial hacia la descentralización de la gestión de los datos y el desarrollo de la IA, que enfatiza el empoderamiento del usuario y la privacidad en la era digital.
Informe completo: Cadenas de datos de IA
¿Te interesa saber más? Accede a informes exclusivos registrándote como miembro privado, uniéndote a nuestro Programa VIP del Exchange de Crypto.com, o coleccionando un NFT Loaded Lions.
Autores
Equipo de Investigación y Perspectivas de Crypto.com
Recibe las últimas actualizaciones del mercado, DeFi & NFT directamente en tu bandeja de entrada:
Conoce antes que nadie las nuevas perspectivas:
Compartir con amigos
Artículos relacionados
Research Roundup Newsletter [March 2025]
Perspectivas de compras con tarjeta de criptomonedas de los consumidores 2024
Alpha Navigator: Quest for Alpha [March 2025]
¿Todo listo para comenzar tu viaje por el mundo de las criptomonedas?
Obtén tu guía paso a paso para abriruna cuenta con Crypto.com
Al hacer clic en el botón Enviar, reconoces haber leído el aviso de privacidad de Crypto.com donde explicamos cómo usamos y protegemos tus datos personales.