InícioSenza categoriaEntrevistasReddit data DAO e tudo o que você precisa saber sobre o...

Reddit data DAO e tudo o que você precisa saber sobre o treinamento de modelos de IA Gen

O Cryptonomist entrevistou Anna Kazlauskas, CEO e Co-fundadora da Vana’s, que Reddit Data DAO, que na primeira semana viu 140k usuários se inscreverem com contas verificadas do Reddit. Anna agora está trabalhando com desenvolvedores para construir Data DAOs para outras plataformas, como LinkedIn e ChatGPT. 

Além das DAOs, eles têm outros meios para os usuários agruparem seus dados em conjuntos de dados que podem então ser usados para o treinamento de modelos GenAI, como criar retratos ou avatares.

Além do que Vana está fazendo, com Anna conversamos sobre o crescimento do espaço de IA descentralizada, à medida que as plataformas ajudam as pessoas a usar e monetizar seus dados para novas aplicações. 

Summary

Você pode fornecer uma visão geral da Vana e sua missão no espaço de IA descentralizada?

Vana é uma plataforma de IA de propriedade do usuário alimentada por dados de propriedade do usuário. Nossa missão é que os usuários possuam seus dados e o valor que eles criam por meio de modelos de IA. Há uma necessidade crescente de mais dados de treinamento para melhorar o desempenho dos modelos de IA, pois, em última análise, os modelos de IA são tão bons quanto seus dados. 

Por exemplo, LLaMA 3 é treinado em cerca de 15 trilhões de palavras, o que é aproximadamente a quantidade de dados disponíveis na internet pública. As empresas estão agora tentando adquirir mais dados, às vezes pagando centenas de milhões de dólares por isso. As principais plataformas de tecnologia estão acumulando dados valiosos de usuários e construindo novas tecnologias sem considerar as permissões dos usuários, o que está impedindo a inovação. 

Na Vana, estamos libertando dados desses jardins murados, colocando-os sob o controle do usuário. Permitimos que os usuários contribuam diretamente para modelos de IA, escolham como seus dados são usados e como a IA é utilizada. Acreditamos que podemos realmente superar os modelos líderes se conseguirmos acessar os melhores dados – superando o desempenho de modelos como o GPT-6 ao acessar dados disponíveis apenas diretamente dos usuários. A Vana é arquitetada como uma blockchain de camada 1, projetada desde o início para dados privados e de propriedade do usuário. 

O Reddit Data DAO viu 140k usuários se inscreverem na primeira semana. O que você acha que impulsionou essa rápida adoção e quais lições você aprendeu com este lançamento?

O Reddit Data DAO foi um sucesso incrível do ponto de vista da adoção, com mais de 140k usuários se inscrevendo na primeira semana. Este nível de adoção é incomum para DAOs–é agora o maior data DAO da história. 

Uma das coisas que impulsionou a adoção rápida é que grande parte da história já havia sido estabelecida, à medida que os usuários estão se tornando cada vez mais conscientes do valor de seus dados através da cobertura da imprensa sobre vendas de dados. Perceber que o Reddit está vendendo seus dados por $200M ou que a Apple está comprando dados por $50M faz com que você fique muito mais consciente do seu valor. 

Há também um forte apetite por produtos de propriedade do usuário construídos em web3 que vão além dos produtos DeFi familiares para uma nova fronteira de propriedade. Estamos vendo essa tendência em projetos como Farcaster, redes DePIN e DAOs de dados construídos em Vana, que representam uma nova onda de produtos de propriedade do usuário.

Uma lição importante foi a necessidade de prova dos requisitos de contribuição. Mais de um milhão de pessoas tentaram se juntar ao Reddit Data DAO, mas muitas não atendiam aos critérios de ter uma conta no Reddit que existisse há um certo tempo e tivesse uma quantidade mínima de dados. Isso destaca a importância de ter mecanismos para garantir contribuições de qualidade.

Você mencionou planos para criar Data DAOs para plataformas como LinkedIn e Chat GPT. Quais desafios e oportunidades únicos você vê na expansão para essas plataformas?

Vana é uma rede peer to peer para dados de propriedade do usuário, e os construtores criaram vários DAOs de dados como o Reddit Data DAO, LinkedIn Data DAO, e ChatGPT Data DAO. 

Essas diferentes fontes de dados são incrivelmente valiosas para treinar modelos de AI, mas estão atualmente trancadas em jardins murados. Cada uma dessas plataformas pode ser complicada para extrair dados, mas é sempre possível por causa da regulamentação de dados.

Como a Vana capacita os usuários a monetizar seus dados, e quais são alguns exemplos de como os usuários se beneficiaram disso?

Nosso objetivo é ajudar os usuários a monetizar e proteger seus dados simultaneamente. Por exemplo, com o Reddit Data DAO, eles estão agora treinando um modelo de propriedade do usuário (principalmente focado em shitposting nesta fase, mas é um começo). Os usuários são pagos toda vez que o modelo é usado, criando um incentivo econômico para a propriedade conjunta do modelo. 

E os dados do usuário permanecem totalmente privados – em vez de vender os dados, os dados são apenas “alugados” onde os dados subjacentes nunca saem do ambiente seguro. 

Com a crescente preocupação com a privacidade dos dados, como a Vana garante que os dados dos usuários estão seguros e são usados de forma ética dentro dos Data DAOs?

A privacidade dos dados passou de ser apenas uma questão ideológica ou de preferência para uma questão econômica. Se alguém tem os seus dados, eles podem potencialmente criar uma versão de IA de você que é economicamente valiosa, gerando receita e potencialmente competindo com você. É por isso que a privacidade é tão importante e central para a Vana. 

Nós inventamos um conceito chamado “dados não-custodiais”, que é semelhante a uma carteira não-custodial, mas para os seus dados pessoais. Ele mantém seus dados sob seu controle total, autorizados pela sua chave privada. Isso permite que seus dados sejam portáteis entre aplicativos e adiciona uma camada financeira nativa por cima, possibilitando a construção de coisas como DAOs de dados.

Como os conjuntos de dados criados através dos Data DAOs da Vana melhoram o treinamento de modelos de IA generativa, e quais vantagens eles oferecem em relação aos conjuntos de dados tradicionais?

Tipicamente, os modelos de IA são treinados com dados extraídos da internet pública – dados que estão disponíveis sem necessidade de login. Mas se você pensar nisso da perspectiva de ensinar uma criança sobre o mundo, você não gostaria que ela simplesmente vagasse pela internet pública aleatoriamente. Você gostaria de fornecer informações de alta qualidade que podem não estar publicamente disponíveis – coisas como escrita de alta qualidade, processos de pensamento ou mensagens. A IA é principalmente treinada com dados públicos, mas realmente precisa de dados privados para avançar as fronteiras. Isso é o que os DAOs de dados permitem: usuários contribuindo com seus dados privados para criar IA de propriedade dos usuários. 

Acreditamos que a IA deve ser criada mais como software de código aberto, por uma comunidade. Nosso objetivo é dar aos pesquisadores acesso aos melhores conjuntos de dados que atualmente estão presos dentro de jardins murados para expandir as fronteiras do desempenho da IA.

Quais tendências você prevê no espaço de IA descentralizada nos próximos 5-10 anos, e como a Vana está se posicionando para liderar neste cenário em evolução?

O espaço de IA descentralizada realmente acelerou no último ano. Por exemplo, na EthCC deste ano, houve um evento de IA descentralizada quase todos os dias, em comparação com nenhum no ano passado. As pessoas estão descobrindo como aplicar tecnologias soberanas que funcionaram bem para finanças ao espaço de IA. Na Vana, acreditamos que a base central de tudo isso é os dados. Para construir IA de propriedade do usuário e IA soberana, você precisa de dados de propriedade do usuário, então nosso foco está nessa parte dos dados.

Nos próximos 5-10 anos, estou entusiasmado com alguns marcos: 1) Um modelo de fundação de propriedade dos usuários, coletivamente possuído por 100 milhões de pessoas. 2) Mais agentes de IA autônomos que possam ganhar por conta própria, e garantir que esses agentes sejam realmente de propriedade dos usuários que contribuíram para treiná-los. 

À medida que a IA desempenha um papel econômico cada vez mais importante, é essencial garantir que o poder seja amplamente distribuído tanto de uma perspectiva técnica quanto social. 

Pode compartilhar mais sobre sua colaboração com desenvolvedores para construir Data DAOs? Quais são alguns dos projetos inovadores atualmente em andamento?

Vana é uma rede sem permissão, então qualquer pessoa pode construir um data DAO. É uma blockchain de camada um projetada desde o início para dados privados e de propriedade do usuário. Existem mais de 100 data DAOs implantados na testnet Satori hoje. Muitos dos construtores são participantes iniciais do ecossistema Bittensor que entendem profundamente a interseção de cripto e IA. Alguns projetos notáveis incluem o Twitter Data DAO, LinkedIn Data DAO e GitHub Data DAO. Também estamos fazendo parcerias com projetos no espaço ZK e no espaço de ferramentas DAO para tornar os data DAOs ainda mais fáceis de criar e gerenciar.

Quais considerações éticas são mais urgentes no desenvolvimento de IA descentralizada, e como a Vana aborda essas questões?

Acho que uma das maiores questões em IA hoje é sobre quem deve possuir os modelos e decidir quais dados entram neles. À medida que começamos a depender cada vez mais da IA para obter informações, elas se tornam nossa fonte de verdade. Quem decide o que entra na IA está essencialmente decidindo a verdade. É assustador ter uma única entidade controlando isso. Nossa visão na Vana é que a comunidade, não uma única empresa, deve tomar essas decisões.

Uma outra pergunta que surge na IA descentralizada é: se a IA for totalmente descentralizada, o que acontece se a IA se tornar desonesta e não houver um botão de desligar? A maneira como abordamos isso na Vana é que os modelos de IA são, em última análise, de propriedade dos usuários que contribuíram para eles, então eles sempre permanecem em total controle. 

Que conselho você daria a aspirantes a empreendedores que desejam entrar no espaço de IA descentralizada, com base em suas experiências com Vana e Data DAOs?

É um ótimo momento para começar a construir no espaço de IA descentralizada. Há muitas oportunidades para aplicar alguns dos primitivos econômicos de cripto que funcionaram bem para DeFi na nova categoria emergente de dados descentralizados e IA. Eu também recomendaria passar algum tempo mergulhando no espaço de IA de código aberto, não cripto, para aprender sobre algumas das abordagens que as pessoas estão adotando fora de um contexto cripto. Eu mergulharia de cabeça em alguns dos projetos existentes para ver que tipo de primitivos estão disponíveis para construir, incluindo tentar iniciar um data DAO no Vana. 

RELATED ARTICLES

MOST POPULARS