Распознавание объектов и текстов через камеру
Мы уже научились управлять ассистентом с помощью голоса и текста, создав базу для личного ИИ-органайзера. Теперь мы расширим возможности системы: научим её «видеть». Камера смартфона сегодня — это полноценный орган чувств искусственного интеллекта, который позволяет мгновенно получать информацию из физического мира.
Как ИИ понимает изображение
Способность нейросетей анализировать визуальную информацию называется компьютерное зрение. В отличие от обычной фотографии, которая просто фиксирует пиксели, ИИ «понимает», что именно находится в кадре.
Процесс работы строится на двух технологиях:
- Распознавание образов — идентификация объектов, их формы и назначения. ИИ сопоставляет картинку с базой данных, чтобы отличить породу собаки, модель кроссовок или вид комнатного растения.
- OCR (Optical Character Recognition) — технология, которая находит буквы на изображении и превращает их в цифровой текст. Его можно копировать, переводить или редактировать.
Как показано в Сравнении 1, возможности современного ИИ превосходят обычный поиск по картинкам: система анализирует контекст и предлагает действия, а не просто ищет похожие фото.
Практическое применение
В повседневных задачах удобнее всего использовать «Умную камеру» Яндекса, Google Lens или системные функции iOS.
Перевод и работа с текстом
Технология OCR незаменима, когда нужно прочитать состав на импортном продукте или быстро скопировать артикул с коробки.
Кейс: Инструкция к технике На панели управления увлажнителя только иностранные символы.
- Откройте «Умную камеру».
- Выберите режим «Текст» или «Перевод».
- Наведите камеру на панель. ИИ наложит перевод прямо поверх кнопок.
Поиск товаров и предметов
Распознавание образов помогает быстро найти вещь в интернет-магазинах. Достаточно навести камеру на понравившийся предмет, и ИИ покажет его цену на маркетплейсах (Яндекс Маркет, Ozon, Wildberries).
Как делать не стоит Не пытайтесь распознать объект в темноте или при сильных бликах. ИИ может ошибиться и выдать похожий, но неверный товар. Если рамка фокуса «прыгает», измените угол наклона смартфона.
Диалог с объектом
Современные модели мультимодальны: вы можете не просто распознать объект, но и обсудить его с ИИ. Загрузите фото в GigaChat или ChatGPT и задайте уточняющий вопрос:
- Фото растения: «Почему у него желтеют листья и как часто его поливать?» 🌿
- Фото детали мебели: «Для чего нужен этот винт и какой ключ к нему подойдет?»
- Фото содержимого холодильника: «Что приготовить из этих продуктов за 15 минут?»
Задание: Поиск в быту
- Найдите дома предмет, о котором вы мало знаете (гаджет, растение, инструмент).
- Откройте «Умную камеру» (Яндекс или Google Lens).
- Определите название предмета через поиск по фото.
- Скопируйте название с помощью OCR и отправьте его своему ИИ-ассистенту с вопросом: «Дай 3 совета по использованию этого предмета».
Мы научились использовать камеру для быстрого поиска и перевода. Это важный шаг в настройке помощника. Однако в быту часто нужно извлечь данные из сложных документов — например, перенести информацию из длинного чека или бумажной инструкции в цифровой файл. Этим мы займемся в следующей теме, где разберем профессиональную оцифровку документов.
Понравился урок?
Сохраните прогресс и получите персональный курс по любой теме — без форм и паролей
Продолжить в Telegram