Visão computacional: a máquina reconhece, mas não entende o que está vendo…
Temos uma tendência a antropomorfizar muitas tecnologias e a IA, pelo próprio nome é emblemático. Mas, um algoritmo de Machine Learning (ML) não pensa como nós, e colocarmos a palavra “inteligência” no processo de processamento de diversas fórmulas matemáticas me parece meio descabido.
Vamos pegar um exemplo simples, mas de uso bastante comum em ML. Reconhecimento de imagens. Quando nós vemos uma foto, conseguimos captar seu contexto e até imaginar uma história em torno dela. Podemos supor o que aconteceu antes da foto e até prever o que provavelmente acontecerá depois. Na prática, a foto é um conjunto de pixels, mas que nossos olhos e cérebro consegue contextualizar em um contexto com local, objeto, pessoas, relacionamentos, emoções e ações. Nós olhamos, vemos e entendemos o contexto.
As máquinas são diferentes. Indiscutivelmente que o campo denominado de visão computacional tem evoluído de forma impressionante. Os sistemas de ML conseguem hoje reconhecer com muita eficácia determinados objetos, desde que esses objetos tenham sido alvo de seu treinamento. Mas, o que para nós é muito fácil, como reconhecer um objeto e entender o contexto, é uma tarefa muito difícil para as máquinas. Elas conseguem ver, mas não entendem.
Por exemplo, imaginemos uma foto de cachorro. Uma criança que já viu algumas poucas fotos de cachorros e/ou viu alguns na rua, é capaz de reconhecer um cachorro na foto, mesmo que de uma raça, tamanho e cor que ele nunca tenha visto ou até mesmo que não esteja com todo o corpo visível. Ela consegue reconhecer o cachorro na foto mesmo que ele esteja debaixo da chuva, todo molhado ou brincando no parque, de dia ou de noite, em movimentos diversos.
A máquina recebe pixels que constitui a foto. Sem compreensão do todo, ela tem que aprender a separar pixels que são cachorros dos que não são. E apreender a reconhecer o animal em todas as circunstâncias acima. Como os algoritmos de ML são fórmulas matemáticas, eles precisam transformar toda a foto em uma matriz de pixels, representados por números.
Para ser capaz de reconhecer um cachorro o algoritmo precisa ser exposto a um grande número de fotos, em todas as possíveis combinações. A cada imagem o algoritmo classifica se a figura é ou não um cachorro e o grau de confiança que tem na resposta. Com o volume de treinamento, ele vai se refinando e se ajustando para obter maior assertividade na resposta. Como a máquina não tem bom senso, mesmo que tenha uma assertividade de 90%, a cada resposta não sabemos se ela se encaixa nos 90% de acerto ou nos 10% de erro, e esse erro pode ser bem grotesco, como apontando um objeto qualquer como cachorro. A razão é simples: o padrão de pixels que ele conseguiu identificar se assemelha ao padrão de pixels daquele objeto, qualquer que seja ele.
Obviamente para um sistema ser realmente inteligente, precisa evoluir muito além de reconhecer objetos. Ele precisa entender o que é o objeto. Hoje os sistemas de IA apenas identificam objetos, cometem erros grosseiros pela absoluta falta de bom senso e por serem “narrow AI”, um algoritmo treinado para reconhecer gatos e cachorros não consegue reconhecer imagens de câncer de mama ou de peixes.
Um sistema inteligente, como nós humanos, teria que ser capaz de descrever o objeto, sabendo o que está descrevendo. Hoje já temos algoritmos que criam imagens a partir de textos, como o Midjourney e DALL-E, mas que na prática aglutinam palavras estatisticamente correlacionadas que fingem que ele sabe o que está criando. Essas ferramentas foram treinadas para gerar imagens a partir de textos escritos em linguagem humana. Você escreve um texto, um prompt, e ela gera uma imagem. Por exemplo, você digita “uma poltrona em forma de abacate”, ele gera imagens correspondentes. É realmente impressionante, mas me pareceu um pouco de exagero a afirmação do CEO da OpenAI que ele é um avanço na direção de um hipotético sistema inteligente.
O DALL-E é um complexo algoritmo de DL, mas que como todo DL carece de aspectos fundamentais a um sistema realmente inteligente, como ausência de bom senso, compreensão do que está se pedindo e assim por diante. Muitas vezes as imagens geradas são totalmente sem sentido. Se o analisarmos sob a ótica de um sofisticado DL, ele é um marco na evolução tecnológica. Mas, se quisermos ser ambiciosos e dissermos que estamos avançando na direção de criarmos uma futura máquina inteligente, talvez seja muito prematuro…A IA é inteligente apenas no nome. Não faz mágica e exige muita inteligência humana para a construção dos algoritmos. Mas, sem dúvidas, é uma ferramenta muito útil, desde que aplicada adequadamente.
https://c-taurion.medium.com/vis%C3%A3o ... 99c4821f2f