Голосовой ввод и мультимодальное общение
Мы уже настроили основные российские ИИ-сервисы на смартфонах и убедились, что они умеют больше, чем обычный поиск. Теперь перейдем к самому естественному способу общения — живому диалогу. В 2026 году грань между набором текста и разговором стерлась. Мы научимся использовать голос как полноценный инструмент управления задачами, когда руки заняты или мысли бегут быстрее, чем пальцы по клавиатуре.
От диктовки к диалогу
Раньше голосовое управление ограничивалось короткими командами. Сегодня мы используем голосовой ввод нового поколения. Современные модели (Алиса Про, GigaChat) воспринимают аудиопоток напрямую. ИИ слышит не только слова, но и интонации, паузы и фоновый шум — это помогает ему лучше понимать ситуацию.
Ключевое свойство таких систем — мультимодальность. Это способность нейросети одновременно обрабатывать разные типы данных: текст, звук и изображения. В одном чате можно поставить задачу голосом, прикрепить фотографию документа и получить структурированный ответ. Все эти данные объединяются в единое контекстное окно — «память» текущего диалога.
Принцип работы показан в Схеме 1.
Как формулировать голосовые запросы
Голосовой запрос отличается от текстового. Вам не нужно следить за знаками препинания, но важно сохранять структуру, чтобы ИИ не потерял суть в потоке мыслей.
Ситуация: Вы готовите ужин и понимаете, что продуктов не хватает.
— «Алиса, привет! Посмотри наш прошлый список покупок и добавь туда два литра молока и десять яиц. Еще предложи быстрый рецепт из курицы и выпиши недостающие ингредиенты отдельным списком. Отправь результат текстом в чат».
Как не стоит формулировать запрос:
— «Э-э-э, ну, в общем, запиши там... молоко... и что-то еще... а, и рецепт какой-нибудь с курицей...». Проблема: Без четкой задачи и контекста ИИ может выдать случайный рецепт или забыть про список покупок.
Технический процесс: транскрибация и контекст
Когда вы говорите с ИИ, происходит транскрибация — мгновенное преобразование речи в текст. Для пользователя важнее другое: глубина «памяти» системы.
Контекстное окно в современных сервисах вмещает десятки страниц текста. Вы можете начать разговор утром, а днем задать уточняющий вопрос — ИИ вспомнит, о чем шла речь.
Практикум: тестируем возможности
Выполните упражнение, чтобы привыкнуть к общению с ИИ.
Задание «Голосовой ассистент в деле»:
- Откройте приложение (Яндекс или GigaChat).
- Активируйте голосовой режим и дайте сложную задачу: «Представь, что ты мой секретарь. Составь план на завтра: в 9 стоматолог, в 14 созвон, вечером — аптека. Рассчитай время на дорогу между точками с учетом пробок».
- В середине ответа прервите ИИ: «Подожди, стоматолога перенесли на 11, пересчитай график».
- Попросите прислать итоговый вариант текстовым списком.
Мы научились использовать голос для управления делами. Это ускоряет постановку задач, особенно на ходу. Однако ИИ может быть не только слушателем, но и зорким наблюдателем.
В следующей теме мы разберем «интеллектуальное зрение»: научим ИИ распознавать объекты и тексты через камеру смартфона, чтобы мгновенно получать информацию о мире вокруг.
Понравился урок?
Сохраните прогресс и получите персональный курс по любой теме — без форм и паролей
Продолжить в Telegram