Clique e receba as novidades quentinhas no Telegram

O aprendizado de máquinas é capaz de fazer todo tipo de coisa, desde que você tenha os dados para ensiná-lo. Isso nem sempre é fácil, e os pesquisadores estão sempre procurando uma maneira de adicionar um pouco de “bom senso” à IA para que você não precise mostrar 500 fotos de um gato antes que ele apareça. A pesquisa mais recente do Facebook dá um grande passo para reduzir o gargalo de dados.

A atualização do Google Pay adiciona ofertas, expansões de transporte público e informações sobre gastos!

A formidável divisão de pesquisa de IA da empresa tem trabalhado em como avançar e escalar coisas como algoritmos de visão computacional avançados há anos e tem feito um progresso constante, geralmente compartilhado com o resto da comunidade de pesquisa. Um desenvolvimento interessante que o Facebook buscou em particular é o que é chamado de “aprendizagem semi-supervisionada”.

Geralmente, quando você pensa em treinar uma IA, você pensa em algo como as mencionadas 500 imagens de gatos – imagens que foram selecionadas e rotuladas (o que pode significar delinear o gato, colocar uma caixa ao redor do gato ou apenas dizer que há um gato em algum lugar) para que o sistema de aprendizado da máquina possa montar um algoritmo para automatizar o processo de reconhecimento de gatos. Naturalmente, se você quer fazer cachorros ou cavalos, precisa de 500 fotos de cachorros, 500 fotos de cavalos, etc. – é uma escala linear, que é uma palavra que você nunca quer ver em tecnologia.

O aprendizado semi-supervisionado, relacionado ao aprendizado “não supervisionado”, envolve descobrir partes importantes de um conjunto de dados sem nenhum dado rotulado. Não é apenas selvagem, ainda há estrutura; por exemplo, imagine que você deu ao sistema mil sentenças para estudar e, em seguida, mostrou a ele mais dez com várias palavras faltando. O sistema provavelmente poderia fazer um trabalho decente preenchendo os espaços em branco apenas com base no que viu nos milésimos anteriores. Mas isso não é tão fácil de fazer com imagens e vídeo – eles não são tão diretos ou previsíveis.

Mas os pesquisadores do Facebook mostraram que, embora não seja fácil, é possível e, na verdade, muito eficaz. O sistema DINO (que significa de forma pouco convincente “Destruição do conhecimento sem rótulos”) é capaz de aprender a encontrar objetos de interesse em vídeos de pessoas, animais e objetos, sem quaisquer dados rotulados.

A visão das máquinas avança para o "bom senso" com as últimas pesquisas do Facebook.

Isso é feito considerando o vídeo não como uma sequência de imagens a serem analisadas uma a uma em ordem, mas como um conjunto complexo e inter-relacionado, como a diferença entre “uma série de palavras” e “uma frase”. Ao prestar atenção no meio e no final do vídeo, bem como no início, o agente pode ter uma noção de coisas como “um objeto com esta forma geral vai da esquerda para a direita”. Essa informação alimenta outro conhecimento, como quando um objeto à direita se sobrepõe ao primeiro, o sistema sabe que eles não são a mesma coisa, apenas se baseando nesses quadros. E esse conhecimento, por sua vez, pode ser aplicado a outras situações. Em outras palavras, ele desenvolve um senso básico de significado visual e o faz com muito pouco treinamento em novos objetos.

Isso resulta em um sistema de visão por computador que não é apenas eficaz – tem um bom desempenho em comparação com sistemas tradicionalmente treinados – mas é mais identificável e explicável. Por exemplo, embora uma IA que foi treinada com 500 fotos de cães e 500 fotos de gatos reconheça ambos, não terá realmente nenhuma ideia de que eles são semelhantes de alguma forma. Mas o DINO – embora não pudesse ser específico – entende que eles são visualmente semelhantes uns aos outros, mais ainda do que aos carros, e que os metadados e o contexto são visíveis em sua memória. Cachorros e gatos estão “mais próximos” em seu tipo de espaço cognitivo digital do que cachorros e montanhas. Você pode ver esses conceitos como pequenas bolhas aqui – veja como aqueles de um tipo se unem:

A visão das máquinas avança para o "bom senso" com as últimas pesquisas do Facebook.

Isso tem seus próprios benefícios, de um tipo técnico que não abordaremos aqui. Se você estiver curioso, há mais detalhes nos artigos vinculados na postagem do blog do Facebook.

Há também um projeto de pesquisa adjacente, um método de treinamento chamado PAWS, que reduz ainda mais a necessidade de dados rotulados. O PAWS combina algumas das ideias de aprendizagem semi-supervisionada com o método supervisionado mais tradicional, essencialmente dando um impulso ao treinamento, permitindo que ele aprenda com os dados rotulados e não rotulados.

O Facebook, é claro, precisa de uma análise de imagem boa e rápida para seus muitos produtos relacionados a imagens voltados para o usuário (e secretos), mas esses avanços gerais para o mundo da visão computacional, sem dúvida, serão bem-vindos pela comunidade de desenvolvedores para outros fins.

Fonte: techcrunch

O que você achou sobre o aprendizado de máquinas? Deixe seu comentário. Além disso, não se esqueça de entrar no nosso grupo do Telegram. Clique em “Canal do Telegram” que está localizado no canto superior direito da página!