Распознавание объектов и текстов через камеру

Курс: Искусственный интеллект для жизни: практическое применение12+

Мы уже научились управлять ассистентом с помощью голоса и текста, создав базу для личного ИИ-органайзера. Теперь мы расширим возможности системы: научим её «видеть». Камера смартфона сегодня — это полноценный орган чувств искусственного интеллекта, который позволяет мгновенно получать информацию из физического мира.

Как ИИ понимает изображение

Способность нейросетей анализировать визуальную информацию называется компьютерное зрение. В отличие от обычной фотографии, которая просто фиксирует пиксели, ИИ «понимает», что именно находится в кадре.

Процесс работы строится на двух технологиях:

Распознавание образов — идентификация объектов, их формы и назначения. ИИ сопоставляет картинку с базой данных, чтобы отличить породу собаки, модель кроссовок или вид комнатного растения.
OCR (Optical Character Recognition) — технология, которая находит буквы на изображении и превращает их в цифровой текст. Его можно копировать, переводить или редактировать.

Как показано в Сравнении 1, возможности современного ИИ превосходят обычный поиск по картинкам: система анализирует контекст и предлагает действия, а не просто ищет похожие фото.

Практическое применение

В повседневных задачах удобнее всего использовать «Умную камеру» Яндекса, Google Lens или системные функции iOS.

Перевод и работа с текстом

Технология OCR незаменима, когда нужно прочитать состав на импортном продукте или быстро скопировать артикул с коробки.

Кейс: Инструкция к технике На панели управления увлажнителя только иностранные символы.

Откройте «Умную камеру».
Выберите режим «Текст» или «Перевод».
Наведите камеру на панель. ИИ наложит перевод прямо поверх кнопок.

Поиск товаров и предметов

Распознавание образов помогает быстро найти вещь в интернет-магазинах. Достаточно навести камеру на понравившийся предмет, и ИИ покажет его цену на маркетплейсах (Яндекс Маркет, Ozon, Wildberries).

Как делать не стоит Не пытайтесь распознать объект в темноте или при сильных бликах. ИИ может ошибиться и выдать похожий, но неверный товар. Если рамка фокуса «прыгает», измените угол наклона смартфона.

Диалог с объектом

Современные модели мультимодальны: вы можете не просто распознать объект, но и обсудить его с ИИ. Загрузите фото в GigaChat или ChatGPT и задайте уточняющий вопрос:

Фото растения: «Почему у него желтеют листья и как часто его поливать?» 🌿
Фото детали мебели: «Для чего нужен этот винт и какой ключ к нему подойдет?»
Фото содержимого холодильника: «Что приготовить из этих продуктов за 15 минут?»

Задание: Поиск в быту

Найдите дома предмет, о котором вы мало знаете (гаджет, растение, инструмент).
Откройте «Умную камеру» (Яндекс или Google Lens).
Определите название предмета через поиск по фото.
Скопируйте название с помощью OCR и отправьте его своему ИИ-ассистенту с вопросом: «Дай 3 совета по использованию этого предмета».

Мы научились использовать камеру для быстрого поиска и перевода. Это важный шаг в настройке помощника. Однако в быту часто нужно извлечь данные из сложных документов — например, перенести информацию из длинного чека или бумажной инструкции в цифровой файл. Этим мы займемся в следующей теме, где разберем профессиональную оцифровку документов.

Понравился урок?

Сохраните прогресс и получите персональный курс по любой теме — без форм и паролей

Продолжить в Telegram