Голосовой ввод и мультимодальное общение

Курс: Искусственный интеллект для жизни: практическое применение12+

Мы уже настроили основные российские ИИ-сервисы на смартфонах и убедились, что они умеют больше, чем обычный поиск. Теперь перейдем к самому естественному способу общения — живому диалогу. В 2026 году грань между набором текста и разговором стерлась. Мы научимся использовать голос как полноценный инструмент управления задачами, когда руки заняты или мысли бегут быстрее, чем пальцы по клавиатуре.

От диктовки к диалогу

Раньше голосовое управление ограничивалось короткими командами. Сегодня мы используем голосовой ввод нового поколения. Современные модели (Алиса Про, GigaChat) воспринимают аудиопоток напрямую. ИИ слышит не только слова, но и интонации, паузы и фоновый шум — это помогает ему лучше понимать ситуацию.

Ключевое свойство таких систем — мультимодальность. Это способность нейросети одновременно обрабатывать разные типы данных: текст, звук и изображения. В одном чате можно поставить задачу голосом, прикрепить фотографию документа и получить структурированный ответ. Все эти данные объединяются в единое контекстное окно — «память» текущего диалога.

Принцип работы показан в Схеме 1.

Как формулировать голосовые запросы

Голосовой запрос отличается от текстового. Вам не нужно следить за знаками препинания, но важно сохранять структуру, чтобы ИИ не потерял суть в потоке мыслей.

Ситуация: Вы готовите ужин и понимаете, что продуктов не хватает.

— «Алиса, привет! Посмотри наш прошлый список покупок и добавь туда два литра молока и десять яиц. Еще предложи быстрый рецепт из курицы и выпиши недостающие ингредиенты отдельным списком. Отправь результат текстом в чат».

Как не стоит формулировать запрос:

— «Э-э-э, ну, в общем, запиши там... молоко... и что-то еще... а, и рецепт какой-нибудь с курицей...». Проблема: Без четкой задачи и контекста ИИ может выдать случайный рецепт или забыть про список покупок.

Технический процесс: транскрибация и контекст

Когда вы говорите с ИИ, происходит транскрибация — мгновенное преобразование речи в текст. Для пользователя важнее другое: глубина «памяти» системы.

Контекстное окно в современных сервисах вмещает десятки страниц текста. Вы можете начать разговор утром, а днем задать уточняющий вопрос — ИИ вспомнит, о чем шла речь.

Практикум: тестируем возможности

Выполните упражнение, чтобы привыкнуть к общению с ИИ.

Задание «Голосовой ассистент в деле»:

Откройте приложение (Яндекс или GigaChat).
Активируйте голосовой режим и дайте сложную задачу: «Представь, что ты мой секретарь. Составь план на завтра: в 9 стоматолог, в 14 созвон, вечером — аптека. Рассчитай время на дорогу между точками с учетом пробок».
В середине ответа прервите ИИ: «Подожди, стоматолога перенесли на 11, пересчитай график».
Попросите прислать итоговый вариант текстовым списком.

Мы научились использовать голос для управления делами. Это ускоряет постановку задач, особенно на ходу. Однако ИИ может быть не только слушателем, но и зорким наблюдателем.

В следующей теме мы разберем «интеллектуальное зрение»: научим ИИ распознавать объекты и тексты через камеру смартфона, чтобы мгновенно получать информацию о мире вокруг.

Понравился урок?

Сохраните прогресс и получите персональный курс по любой теме — без форм и паролей

Продолжить в Telegram