Я развиваю AI-агентство, пишу подробные промпты для нейросетей, общаюсь с клиентами и командой по переписке, создаю контент для своего Telegram-канала. Каждый день — тысячи слов текста. И долгое время я тратил на это неприлично много времени.
Год назад я начал использовать умный голосовой ввод. Теперь я просто наговариваю тексты голосом, а LLM превращает это в грамотно оформленный текст с правильной структурой и пунктуацией. Экономия — минимум 10 часов в неделю.
Очевидный лайфхак? Да. Но им пользуется ничтожное меньшинство, даже среди тех, кто работает с ИИ каждый день.
В этой статье расскажу про исследования, которые подтверждают эффективность голосового ввода, покажу конкретные сценарии использования и сравню популярные инструменты, которые проверил лично.
Это не субъективное ощущение, а научный факт, подтверждённый исследованиями.
В 2016 году команда Стэнфордского университета под руководством Andrew Ng провела масштабное исследование, сравнивая скорость голосового ввода и набора на клавиатуре. Результаты оказались показательными: голосовой ввод в 3 раза быстрее клавиатуры.
Конкретные цифры из исследования:
Скорость голосового ввода для английского языка — 161 слово в минуту
Скорость набора на клавиатуре — 52 слова в минуту
При этом количество ошибок при голосовом вводе оказалось на 20.4% ниже
Для мандаринского китайского разница ещё больше — голос быстрее в 2.8 раза, а ошибок меньше на 63.4%.
Средний человек печатает со скоростью 38–40 слов в минуту. Профессиональные машинистки — 65–75 слов. А средняя скорость речи — 120–150 слов в минуту. Математика простая.
Что это значит на практике? Если вы пишете хотя бы 2000 слов в день (а это вполне реальный объём для тех, кто работает с текстом или ИИ), голосовой ввод экономит вам около 30 минут ежедневно. За год — больше 150 часов, или почти 4 полные рабочие недели.
Если голосовой ввод настолько эффективнее, почему большинство людей продолжают печатать?
Привычка. Мы учились печатать десятилетиями. Это автоматический навык, и менять его некомфортно.
Качество распознавания раньше было ужасным. Кто помнит голосовой набор на телефонах 2010-х годов, тот знает — это была пытка. Технология кардинально изменилась, но репутация осталась.
Непонимание возможностей. Многие думают, что голосовой ввод — это просто транскрибация. Сказал «привет запятая как дела вопросительный знак» — получил текст с пунктуацией. Современные инструменты работают иначе: они понимают контекст, сами расставляют знаки препинания и форматируют текст.
Социальный дискомфорт. Странно разговаривать с компьютером в офисе или кафе. Но для этого есть решения — например, режим шёпота в некоторых приложениях.
Справедливости ради, я иногда и вправду чувствую себя сумасшедшим, когда сижу и общаюсь с Claude Code. Со стороны это выглядит странно.
При этом инструменты буквально под рукой. На клавиатуре Mac есть кнопка микрофона — нажал и диктуешь. Качество так себе, но работает. В мобильных клавиатурах iOS и Android — тоже. В самих LLM-интерфейсах — ChatGPT, Claude, Gemini — встроен голосовой ввод прямо в поле чата. Нажимаешь на микрофон, говоришь, отправляешь. Никаких дополнительных приложений.
Но почти никто этим не пользуется. Привычка печатать оказывается сильнее здравого смысла.
У меня пять основных сценариев.
Это главный способ применения. Хороший промпт для нейросетей — это развёрнутое описание задачи с контекстом, ограничениями, примерами и форматом вывода. Написать такой промпт руками — 5–10 минут. Наговорить голосом — 1–2 минуты.
Я открываю Claude или ChatGPT, включаю диктовку и просто рассказываю, что хочу получить. Могу говорить 10–15 минут подряд, давая максимум контекста. Чем больше деталей — тем лучше результат.
Когда нужно написать развёрнутый ответ клиенту или коллеге, я не печатаю — наговариваю. Просто формулирую мысль голосом, как будто объясняю собеседнику вживую. Инструмент преобразует это в структурированный текст.
Особенно полезно для сложных писем, где важно всё объяснить, но не хочется тратить 20 минут на формулировки.
А еще я сделал такую штуку: если записываю человеку голосовое в Telegram — оно автоматом расшифровывается и отправляется структурированным текстом. Уважаю время других людей!
Если интересно, как такое сделать — напишите в комментариях. Сделаю отдельный пост.
Отдельная история — работа с Claude Code. У меня есть система Second Brain, про которую я писал вот в этой статье. Это набор MCP-серверов и команд, которые автоматизируют рутину: планирование дня, обработку встреч, трекинг задач.
Когда я работаю с Claude Code, процесс итеративный: ставишь задачу → смотришь результат → корректируешь → снова смотришь. Печатать каждое уточнение — медленно. Голосом — в разы быстрее.
Открываю терминал, запускаю Claude Code, и дальше просто разговариваю с ним. Это как парное программирование, только партнёр — ИИ, а я управляю голосом.
Посты, статьи, заметки — всё это я начинаю с голоса. Но важное уточнение: я не отдаю на откуп ИИ весь процесс.
Работает это так: у меня есть skill в Claude Code, куда загружены примеры моих текстов и описание тона голоса. Когда хочу написать пост, открываю новый чат в этом проекте и наговариваю тезисы — ключевые мысли, которые хочу донести. Не готовый текст, а именно сырые идеи, как они приходят в голову.
ИИ упаковывает это в черновик. А дальше — ручная работа: редактура, уточнение формулировок, добавление примеров. Финальный текст всегда проходит через мои руки. Голосовой ввод ускоряет этап «вывалить мысли из головы», но не заменяет авторскую работу.
Эта статья, кстати, тоже началась с голосовой записи — я наговорил структуру и основные тезисы минут за 15.
Мысль пришла в голову — наговорил в заметки. Не нужно останавливаться, открывать приложение, печатать. Просто сказал вслух — и идея зафиксирована.
Это особенно полезно на прогулках или в дороге. Вместо того чтобы пытаться набрать что-то на телефоне одной рукой, просто диктую.
На рынке есть много серьёзных решений для голосового ввода с ИИ-обработкой. В разное время пробовал разное. Расскажу только про свой опыт. Не реклама. Можете погуглить, что еще есть.
Платформы: Mac, Windows, iOS
Цена: $15/мес (но есть бесплатный план с лимитом)
Тип обработки: облачный
Wispr Flow — это то, что я использую сейчас. Приложение работает системно: нажимаешь горячую клавишу в любом приложении — и диктуешь. Текст появляется там, где стоит курсор.
Что мне нравится:
Работает в любом приложении — Telegram, браузер, IDE, терминал — везде
Отлично форматирует текст без команд типа «запятая», «точка»
Есть настройка стиля письма под разные программы — формально для почты, неформально для мессенджеров
Режим шёпота для работы в публичных местах
Интеграция с Cursor для разработчиков — понимает всякие функции и помечает их
Удобное мобильное приложение
Минусы:
Работает только через интернет, нет локального режима
Данные обрабатываются в облаке, но при этом быстро
Можно получить пробную подписку на 30 дней без ввода карты вот тут. У других сервисов такого не видел. Там просят платить сразу.
Платформы: Mac, iPhone, Windows (вроде недавно появился)
Цена: $8.48/мес или $249 единоразово
Тип обработки: локальный + облачный
Superwhisper — моё предыдущее основное приложение. Главное преимущество — возможность работать полностью локально, без отправки данных в облако.
Что хорошо:
Полностью офлайн-режим с локальными моделями
Гибкие настройки и выбор моделей
Есть одноразовая покупка вместо подписки — для тех, кто не любит подписки
Минусы:
Требует настройки и понимания разных моделей
Результат часто нужно дочищать вручную, особенно на быстрых локальных моделях
Интерфейс местами сложноват для новичков
Бесплатно пользоваться нельзя
Если приватность критична и вы готовы потратить время на настройку — Superwhisper отличный выбор.
Начните с промптов. Это самый безболезненный способ попробовать. Качество ответа LLM не зависит от красоты вашего текста — только от смысла. Наговорите задачу как есть, со всеми «э», «ну» и повторами. Нейросеть всё равно поймёт.
Используйте встроенные инструменты. Прежде чем покупать подписку, попробуйте кнопку микрофона на клавиатуре или голосовой ввод прямо в ChatGPT / Claude. Это бесплатно и даст понимание, подходит ли вам формат.
Не пытайтесь говорить идеально. Современные инструменты отлично справляются с естественной речью. Говорите как думаете, не старайтесь формулировать готовыми предложениями.
Используйте для черновиков. Голос отлично работает на этапе «вывалить мысли из головы». Финальную редактуру делайте руками — это быстрее, чем пытаться надиктовать идеальный текст.
Дайте себе время привыкнуть. Первые дни будет странно. Через неделю станет естественно. Через месяц не сможете представить, как раньше без этого жили.
Голосовой ввод — это один из тех инструментов, про которые думаешь: «Ну да, логично, надо попробовать» — и откладываешь на потом. А потом ещё раз. И ещё.
Я так делал год. Потом попробовал — и долго не мог понять, как работал по-другому.
Если вы много пишете — промпты для ИИ, сообщения, документы, контент — попробуйте. Начните со встроенной диктовки в ChatGPT или Claude, это бесплатно и занимает 10 секунд.
150 часов в год — это математика.
У меня есть Telegram-канал , где рассказываю простым языком про AI-инструменты, продуктивность в эпоху AI и эффективный вайбкодинг. Там же больше про другие лайфхаки, которые реально экономят время. Заходите: ссылка
Источник


