G13 g önceTech5 dk okumaBrazil

Robôs aprendem a "enxergar" com inteligência artificial e visão computacional

robótica inteligência artificial visão computacional

L'essentiel

Robôs estão aprendendo a interpretar o mundo visual através da inteligência artificial e visão computacional, com aplicações em carros autônomos, indústria e medicina.

Résumé généré par IA

Pourquoi c'est important

Robôs estão aprendendo a interpretar informações visuais de forma sofisticada, graças aos avanços da inteligência artificial e da visão computacional.

Taille de police

Robô Neo — Foto: Divulgação/1X Technologies

Durante muito tempo, enxergar parecia uma habilidade exclusivamente biológica. Humanos e animais observam o ambiente, reconhecem rostos, desviam de obstáculos e tomam decisões em frações de segundo quase sem perceber.

Hoje, porém, máquinas também estão aprendendo a fazer algo parecido. Graças aos avanços da inteligência artificial e da visão computacional, robôs já conseguem interpretar informações visuais de maneira cada vez mais sofisticada.

A visão computacional é a área da tecnologia que permite que computadores e robôs interpretem imagens e vídeos.

Em vez de apenas registrar o que está à frente, como faz uma câmera comum, esses sistemas analisam o conteúdo visual para identificar pessoas, objetos, movimentos, distâncias e até comportamentos.

Embora ainda esteja longe da percepção humana, essa tecnologia vem transformando robôs em máquinas capazes de perceber o ambiente, reagir a mudanças e tomar decisões em tempo real.

Ela já está presente em carros autônomos, drones agrícolas, sistemas de segurança, monitoramento ambiental, hospitais e linhas de produção industrial.

A visão começa nos sensores

O processo começa com câmeras e sensores instalados no robô. Esses dispositivos capturam imagens do ambiente em tempo real, funcionando de forma semelhante aos olhos humanos. Dependendo da aplicação, diferentes tipos de sensores podem ser utilizados.

Entre os mais comuns estão as câmeras RGB tradicionais, que registram cores como uma câmera convencional.

Também são muito usados os sensores infravermelhos, capazes de detectar calor ou operar em ambientes escuros, além das câmeras térmicas, usadas para visualizar diferenças de temperatura.

Mas enxergar não é suficiente. O robô também precisa entender profundidade e posição espacial, por meio de sensores de profundidade.

Já são bem difundidos os modelos mais simples, que estimam a distância entre objetos ao redor. Eles aparecem, por exemplo, em robôs aspiradores domésticos, que se desviam sozinhos de móveis e escadas.

Os modelos mais avançados usam sistemas LiDAR, uma tecnologia baseada em feixes de laser que cria mapas tridimensionais do ambiente com maior precisão.

Outra técnica é a visão estéreo, que combina duas câmeras simultaneamente para calcular profundidade de forma parecida com a visão humana.

Interpretação por IA

Depois da captura das imagens, entra em ação a inteligência artificial. Algoritmos processam cada frame da câmera buscando padrões visuais.

As redes neurais artificiais profundas, inspiradas no cérebro humano, são treinadas com milhões de imagens.

Assim, elas conseguem reconhecer que determinadas combinações de formas, cores e texturas correspondem a pessoas, animais, carros, móveis, placas, ferramentas, árvores ou estradas.

Com isso, o sistema além de identificar os elementos de uma cena, também classifica o que eles representam. Em muitos vídeos de inteligência artificial aparecem caixas coloridas ao redor de pessoas e objetos. Essas marcações são geradas automaticamente pelos algoritmos.

Robô chinês corre 100 metros em 10 segundos e se aproxima de recorde de Usain Bolt. — Foto: Divulgação/Unitree

Vale distinguir esse tipo de IA dos chamados LLMs (Large Language Models), como o ChatGPT, que são focados em processar e gerar linguagem humana.

Ambos usam redes neurais profundas, mas com dados e objetivos completamente diferentes: enquanto os LLMs analisam texto, a visão computacional é especializada em interpretar pixels e formas para navegação no espaço físico.

Muitos sistemas vão além do reconhecimento e fazem uma reconstrução 3D e mapeamento do ambiente. Alguns robôs conseguem criar mapas completos dos locais por onde passam, em tempo real.

Esse processo é conhecido como SLAM, sigla para Simultaneous Localization and Mapping, uma das tecnologias mais importantes da robótica moderna.

Aplicações, avanços e limitações

Apesar dos avanços impressionantes, os robôs ainda enxergam o mundo de forma muito diferente dos humanos.

Nós temos uma capacidade extraordinária de interpretação contextual, algo que a inteligência artificial ainda está aprendendo. Um simples objeto parcialmente escondido ou uma mudança inesperada de iluminação pode confundir sistemas automáticos.

Há também um enorme desafio computacional: para enxergar em tempo real, um robô precisa processar milhares ou até milhões de cálculos por segundo, exigindo sensores sofisticados, algoritmos otimizados e hardware poderoso.

Um avanço importante foi o das Unidades de Processamento Gráfico (GPUs), microprocessadores especializados em imagens, originalmente criado para videogames.

Demonstração de robô com modelo Isaac Gr00t N1, da Nvidia — Foto: Divulgação/Nvidia

Outro gargalo é que, muitas vezes, rotular uma grande quantidade de dados é um processo dispendioso e demorado. Pesquisadores buscam constantemente novas abordagens.

Uma publicação recente de nossa equipe da PUC-Rio, no Journal Of Imaging Informatics In Medicine, propõe uma metodologia inspirada no ensino construtivista para identificar casos incertos e acionar eficientemente intervenções humanas durante o treinamento.

Na prática, os resultados já são notáveis. Em veículos autônomos, por exemplo, a visão computacional funciona em situações extremamente complexas. Reconhece placas de trânsito, faixas de pista, pedestres e obstáculos à frente.

Além disso, também precisam detectar condições climáticas e a movimentação de outros veículos. Tudo isso em poucos milissegundos, enquanto o carro está em movimento.

Na indústria, robôs equipados com visão computacional já realizam inspeções de qualidade capazes de identificar defeitos imperceptíveis ao olho humano.

Em hospitais, sistemas inteligentes analisam exames médicos em busca de sinais precoces de doenças. Na agricultura, drones monitoram plantações e detectam falhas, pragas e problemas de irrigação.

Alberto Barbosa Raposo recebe financiamento da FAPERJ e CNPq.

Alexandre Soares não presta consultoria, trabalha, possui ações ou recebe financiamento de qualquer empresa ou organização que poderia se beneficiar com a publicação deste artigo e não revelou nenhum vínculo relevante além de seu cargo acadêmico.

Ops!