Data Chains de IA

À medida que a IA continua a crescer, necessita de mais dados gerados pelos utilizadores para o treino de modelos, o que levanta preocupações sobre a privacidade e o controlo dos dados. Este relatório analisa o conceito de Data Chain de IA, com a Vana e o Protocolo CARV como estudos de caso.

Data Chains de IA B

Isenção de responsabilidade de pesquisa

Isenção de responsabilidade de pesquisa e Insights da Crypto.com para relatórios de pesquisa

Resumo Executivo

  • Dados são a força vital do desenvolvimento da inteligência artificial (IA). No entanto, existem questões em torno dos dados, que incluiem qualidade de dados inconsistente, falta de transparência nas fontes de dados, problemas de privacidade e segurança dos dados, bem como distribuição injusta das recompensas para os contribuidores de dados. A Web3 proporciona soluções graças ao registo digital imutável da blockchain para fornecer transparência. Além disso, a descentralização na web3 melhora a segurança em áreas como governação e armazenamento.
  • À medida que a IA continua a crescer, precisará de volumes maiores e mais diversos de dados gerados pelos utilizadores no treino de modelos. Isso levantou preocupações sobre a privacidade e o controlo dos dados dos utilizadores.
  • Existem vários projetos emergentes, como a Vana e o Protocolo CARV, que permitem que os utilizadores sejam os proprietários dos seus próprios dados e obtenham retornos através da ‘tokenização de dados‘.
    • Vana é uma blockchain de camada-1 compatível com a Máquina Virtual Ethereum (EVM) para dados geridos pelos utilizadores. O seu objetivo é criar uma rede distribuída onde os utilizadores possam possuir, governar e ganhar com os modelos de IA aos quais contribuem.
    • CARV pretende construir a maior camada de identidade e dados modulares (IDL) que agrega dados e facilita o acesso a estúdios de jogos e empresas de IA. Desde 2022, o CARV acumulou ~9,5 milhões de jogadores registados, atraiu 30% dos jogos Web3 e promoveu crescentes parcerias estratégicas no setor da IA.
  • Projetos emergentes na corrente de dados de IA representam uma mudança significativa em direção à descentralização na gestão de dados e desenvolvimento de IA, com especial relevo na capacitação e a privacidade do utilizador na era digital.

1. Introdução

Os dados são a força vital da inteligência artificial (IA), pois estabelecem uma base crucial para que os algoritmos possam aprender, gerar resultados e tomar decisões. No entanto, à medida que o setor de IA ficou mais popular, surgiram alguns problemas nos processos de adquirição e manipulação de dados:

  • Qualidade dos Dados: Os dados usados no treino de IA podem estar incompletos, mal organizados ou imprecisos, o que pode resultar em decisões erradas do modelo de IA. Por outro lado, a fragmentação dos dados também leva a problemas de qualidade, devido aos dados estarem espalhados por vários sistemas e plataformas, o que leva a repositórios de dados isolados e inconsistências.
  • Falta de Transparência nas Fontes de Dados: Para que os utilizadores confiem nos modelos de IA, a capacidade de rastrear a fonte dos dados de treino é importante para explicar o algoritmo e aumentar a confiança nos resultados da IA.
  • Privacidade e Segurança dos Dados: Os utilizadores muitas vezes não têm privacidade e controle sobre o uso e armazenamento dos dados, onde são armazenados, usados ou potencialmente modificados por plataformas sem o consentimento dos utilizadores.
  • Distribuição Injusta das Recompensas: Os utilizadores geram dados a partir de suas atividades diárias e tráfego na web, mas as plataformas são frequentemente as que monetizam os dados ou entram em acordos de licenciamento para ‘vender’ os dados para treino.

Os problemas de dados mencionados acima não são novos; vários projetos surgiram para resolver os problemas no treino de IA e utilizam a tecnologia blockchain. Por exemplo, o Ocean Protocol foi projetado para desbloquear dados para IA, oferece um marketplace descentralizado onde os proprietários de dados podem partilhar e monetizar os seus conjuntos de dados enquanto mantêm o controle sobre eles.

Além disso, vários projetos emergentes permitem que os utilizadores sejam os proprietários dos seus dados e obtenham retornos por via da ‘tokenização de dados’. Vana e CARV Protocol são dois exemplos, que discutiremos abaixo. Também observamos um aumento na capitalização de mercado de setores, incluindo armazenamento descentralizado e “big data” de IA.

ProblemasCaraterísticas do Web3Aplicações
Qualidade dos DadosPermite que os dados permaneçam à prova de adulteração e validados Verifica a autenticidade dos dados e garante que os dados atendam a certos critérios antes de serem aceites e usados em treinos (por exemplo, o “Proof of Contribution” do Vana)
Falta de Transparência na Fonte dos Dados O registo digital imutável da blockchain proporciona transparência e a possibilidade de rastreio dos dados Modelos de IA on-chain (por exemplo, Vana e Ora) trabalharam juntos para apoiar o lançamento do Reddit DataDAO do primeiro modelo de IA on-chain do utilizador com conjuntos de dados contribuídos pelos utilizadores do Reddit para desenvolver um protótipo inicial de um modelo de linguagem conhecido por “large language model”(LLM)
Privacidade de Dados & SegurançaDescentralização no armazenamento de dados e rastreio de auditoria de governação de dados descentralizadaUso de tecnologias como provas ZK e ambientes de execução de confiança (TEEs) para verificar e validar dados sem revelar informações sensíveis. A governação de dados através de DAOs, permite aos utilizadores votar no uso dos dados
Distribuição Injusta de Recompensas Facilita o ganho de capital ao permitir o uso de dados pessoais para treinar IAOs utilizadores podem ganhar capital com base no que contribuem

2. Vana

Vana, que se originou como um projeto de pesquisa em 2018, é uma blockchain de Camada-1 compatível com a Máquina Virtual Ethereum (EVM) para dados de utilizadores que visa criar uma rede distribuída onde os utilizadores podem possuir, ganhar e governar os modelos de IA aos quais contribuem. Esta iniciativa é baseada no princípio de que os utilizadores devem ter controle sobre os seus dados, sendo geralmente mantidos por plataformas centralizadas, apesar de serem legalmente dos utilizadores.

2.1 Mecanismo

Abaixo estão alguns recursos principais da Vana:

  • Camada de Liquidez de Dados: Permite que os dados sejam validados, tokenizados e negociados como um ativo líquido. Hospeda Pools de Liquidez de Dados (DLPs), que agregam dados de temas semelhantes (por exemplo, finanças, fitness, Reddit) em pools de liquidez descentralizados para que os consumidores de dados possam usufruir deles.
  • Prova de Contribuição: Um mecanismo que valida dados enquanto preserva a privacidade e garante que os dados adicionados aos DLPs sejam autênticos e de alta qualidade. Usa provas de Zero-Knowledge (ZK) para provar que os dados contribuídos atendem a certos critérios sem revelar o próprio conteúdo.
  • Camada de Portabilidade de Dados: Uma camada de aplicação que permite que conjuntos de dados sejam compartilhados em várias apps descentralizadas (dapps) e plataformas. Ela garante a interoperabilidade enquanto permite que os utilizadores mantenham o controle sobre os dados e governa como os dados são usados e compartilhados.

O fluxo de trabalho geral é descrito abaixo:

  • Contribuidores de dados contribuem com dados para os DLPs. Subsequentemente, os dados são encriptados e armazenados off-chain num local escolhido pelo DLP e representado por um URL.
  • Os dados são validados através da Prova de Contribuição. Uma vez validados, os contribuintes são recompensados em tokens VANA.
  • Os dados são tokenizado, e os consumidores de dados podem comprar acesso aos dados para várias apps (por exemplo, treino de modelos de IA) através da Camada de Portabilidade de Dados.

2.2 DataDAO e Exemplos

Um recurso chave no Vana é DataDAOs, que ativa a descentralização na governação. Cada DLP tem uma DAO governada por holders de tokens DLP, que podem votar para decidir como os dados são usados e como as recompensas são distribuídas. Há mais de 300 DataDAOs a desenvolver no testnet do Vana. Espera-se que o Vana lance a sua mainnet em breve, o que permitirá que os DataDAOs coletem ativamente dados da comunidade e melhorem a governação do utilizador.

Exemplos de DataDAOTemaRecursos
r/datadaoDados do RedditPermite aos utilizadores vincular a sua conta do Reddit, contribuir com dados para ganhar pontos, e simultaneamente construir um conjunto de dados pertencente a comunidade. O $RNAT (token nativo) é utilizado pela comunidade para votar no uso dos dados. Lançado primeiro o modelo de IA on-chain de pertencente ao utilizador junto com Vana e Ora — graças a um conjuntos de dados de Reddit contribuidos por utilizadores para desenvolver um protótipo inicial de LLM
DatapigEstratégias de investimentoAgrega preferências de negociação de utilizadores e dados de plataformas DeFi para análise. A análise criada por IA fornece insights de negociação aos traders. Os resultados da análise são apresentados em memes, GIFs e vídeos curtos para tornar a experiência divertida.
Rede KleoHistórico do navegadorExtensão do navegador que se integra nas ações diárias na web para capturar conteúdos das páginas e interações. Os utilizadores podem ganhar pontos Kleo XP com base na inteligência e complexidade das atividades de navegação enquanto mantém o controlo dos dados.
FinquariumPrevisão financeiraAnalistas partilham previsões sobre qualquer ativo financeiro, que são verificadas através de acompanhamento de desempenho para garantir qualidade e fiabilidade. Os utilizadores podem comprar acesso aos insights usando tokens $FINQ, enquanto os contribuintes ganham recompensas
A partir de 17 de Nov. 2024 Fontes: Vana, websites DataDAO, Crypto.com Research

Em suma, ao permitir que os utilizadores ganhem recompensas com base nos dados contribuídos e devolver os direitos dos dados aos contribuintes, o Vana aumentou a transparência, integridade e justiça, o que também resolveu alguns dos pontos problemáticos no treino de modelos de IA mencionados acima.

3. Protocolo CARV

Uma camada de identidade e dados modular -IDL (identity data layer), o protocolo CARV facilita a troca de dados e a distribuição de valor entre os setores de jogos e IA. Engloba processos de fluxo de dados de ponta a ponta, incluindo verificação de dados, autenticação de identidade, armazenamento, processamento, treino de modelos e distribuição de valor.

O protocolo CARV quer resolver o problema da fragmentação de dados no mundo digital atual, onde os dados estão espalhados entre Web2 e Web3, bem como diversas blockchains, o que dificulta a interoperabilidade. Além disso, há uma falta de soberania de dados e proteção da privacidade sobre os dados dos utilizadores.

O protocolo CARV fornece aos consumidores de dados (por exemplo, estúdios de jogos e empresas de IA) dados para treino e análise e preserva em simultâneo a privacidade e o controlo dos contribuintes individuais de dados (por exemplo, jogadores).

3.1 Principais Caraterísticas

A camada de identidade e dados (IDL), uma estrutura para gestão descentralizada de identidade e dados no ecossistema Web3, serve como a infraestrutura principal do CARV e permite aos utilizadores controlarem e ganhar capital a partir das suas identidades digitais e dados. A sua estrutura de cinco camadas inclui:

CamadasDescrição
Camada de IdentidadeCARV ID, o núcleo do protocolo, é um sistema de identidade descentralizada que permite aos utilizadores estabelecer e gerir autonomamente as suas identidades digitais. É um padrão de token EIP-7231 que vincula identidades Web2 e Web3 de indivíduos a tokens não fungíveis (NFTs) e tokens Soulbound (SBTs).
Camada de Armazenamento de DadosUma solução de armazenamento flexível e escalável com várias opções para necessidades de eficiência de custos e persistência.
Camada de Computação & TreinoProcessa e analisa dados para serem usados no treino de modelos de IA. Usa o ambiente de execução confiável (TEE) para oferecer atestações e provas ZK para verificação. Esta camada permite que empresas de IA acessem dados num TEE, o que aumenta a privacidade.
Camada de ExecuçãoOpera dentro de uma estrutura multichain e facilita a troca de dados e valores. Isso inclui registar atestações, supervisionar consenso entre verificadores e, subsequentemente, distribuir recompensas para provedores de dados enquanto cobra consumidores de dados.
Camada de VerificaçãoConsiste em nós verificadores para garantir que o Protocolo CARV permaneça descentralizado. Os nós validam as atestações geradas pelo TEE antes de registá-las on-chain.

3.2 Casos de Uso

CARV Play é o produto principal do Protocolo CARV, onde os jogadores não apenas descobrem jogos através da plataforma, mas também agregam as suas credenciais e conquistas de jogos, que são representadas por NFTs não transferíveis, conhecidos como Soulbound Tokens. Por outro lado, programadores e estúdios de jogos podem aceder a insights de dados para adquirir e reter utilizadores (por exemplo, dados pós-evento ou perfis de jogadores segmentados).

Capturas de ecrã do CARV Play (Fonte: Protocolo CARV)

O protocolo permite que os utilizadores possuam, controlem e lucrem com os seus dados. Através do CARV Play, os utilizadores podem beneficiar das suas contribuições para o desenvolvimento de jogos e geração de dados, tanto passivamente quanto ativamente. Eles podem escolher partilhar os seus dados históricos com marcas e jogos para ganhar renda passiva e ganhar recompensas por participação ativa em campanhas e atividades de jogos (por exemplo, pesquisas e eventos no CARV Play).

Além disso, aproveita os IDs CARV e incentiva os utilizadores a vincular as suas contas, o Protocolo CARV permite que os utilizadores interajam em plataformas Web2 e Web3 com uma identidade digital unificada, aumentando a interoperabilidade. Por exemplo, os utilizadores podem vincular as suas credenciais de jogos (Steam, CARV Play), dados de média social (X, Discord) e atividades Web3 (MetaMask) numa estrutura unificada e decidir-se por partilhar a sua pegada digital. Esses dados podem então ser acedidos por empresas de IA para treino para desenvolver serviços personalizados para utilizadores ou por anunciantes para criar publicidade direcionada.

Nos três anos desde seu lançamento, o Protocolo CARV acumulou cerca de 9,5 milhões de jogadores registados, com mais de três milhões de IDs CARV cunhadas. Demonstrou maior adoção no setor de jogos, atraindo mais de 30% dos jogos Web3, bem como no setor de IA, com parcerias estratégicas crescentes. No futuro, o roadmap do CARV inclui aprimorar a sua infraestrutura, incluindo sequenciadores descentralizados e armazenamento de dados (CARV DB).

IDL modular do CARV e medidas aplicadas na preservação da privacidade dos dados atraem naturalmente os utilizadores que desejam ganhar renda passiva com os dados. Por outro lado, os dados são cada vez mais importantes para empresas e plataformas de IA crescerem, o que dá ao Protocolo CARV o potencial de continuar a estar dentro do crescimento nos jogos Web3 e na IA.

4. Conclusão

À medida que a importância da IA continua a crescer, será necessário volumes maiores e mais diversificados de dados no treino, o que aumenta o apelo dos dados dos utilizadores. Em contraste com as soluções de dados tradicionais da Web2, que tendem a ser centralizadas, as chains de dados da Web3 promovem a transparência e a distribuição justa do valor dos dados.

Tanto o Vana quanto o Protocolo CARV são exemplos de protocolos Web3 que permitem aos utilizadores possuir e lucrar com os seus dados. As Pools de Liquidez de Dados do Vana e os DataDAOs revolucionaram a governação de dados, enquanto a camada de identidade modular e dados do Protocolo CARV agrega dados e facilita o acesso para estúdios de jogos e empresas de IA. Ambos representam uma mudança significativa em direção à descentralização na gestão de dados e no desenvolvimento de IA e priorizam os direitos e a privacidade do utilizador na era digital.

Leia o relatório completo: AI Data Chains

Interessado em saber mais? Acesse relatórios exclusivos registrando-se como um membro privado, juntando-se ao nosso Programa VIP da Exchange da Crypto.com, ou colecione umNFT Loaded Lions.

Autores

Equipa de Pesquisa e Insights da Crypto.com


Receba as últimas novidades sobre o mercado, DeFi & NFT diretamente na sua caixa de entrada:

Seja o primeiro a saber sobre novos insights:

Partilha com amigos

Pronto para iniciar a sua jornada com a crypto?

Obtenha o seu guia passo a passo para configuraruma conta com Crypto.com

Ao clicar no botão Enviar, o utilizador reconhece ter lido o Aviso de Privacidade da Crypto.com onde explicamos como utilizamos e protegemos os seus dados pessoais.