Татьяна Лихоманенко — выпускница Школы анализа данных «Яндекса» (ШАД) и исследователь в Facebook AI Research, работает над улучшением технологии распознавания речи с помощью ИИ. Корреспонденту журнала «Будущее» она рассказала, почему компьютеры слушают и понимают речь не так, как люди, какие проблемы у них при этом возникают и как их можно решить, о неочевидных применениях технологии и, наконец, как устроиться на работу в Facebook.
— Давайте сразу разберемся. Компьютеры распознают человеческую речь по тому же принципу, что и наш мозг, или есть важные отличия?
— Нейросеть, как и наш мозг, состоит из взаимодействующих нейронов. Однако принцип работы у них разный, как и вид сигналов, которыми нейроны обмениваются. Несмотря на это, искусственная нейросеть в целом обладает многими характеристиками, свойственными распознаванию речи человеком. Например, и машина, и человек часто делают ошибки в одних и тех же местах, хуже распознают речь при наличии нескольких разговаривающих.
Главные характеристики звуковой волны, влияющие на наше восприятие, — частота и соответствующая ей амплитуда. Звуковая волна, как правило, проходит предобработку, которая направлена на вычисление амплитуд с корректировкой на то, что человек по-разному воспринимает разные частоты. В какой-то мере мы пытаемся переложить наше понимание физического процесса в машину. Было замечено, что такая предобработка данных неустойчива к различным шумам и приводит к ухудшению качества распознавания. Поэтому в последнее время активно идут исследования, как обучать нейросети на исходной звуковой волне, минуя амплитудное представление. При этом мы по-прежнему пытаемся интегрировать какие-то нюансы физического процесса, например, все ту же корректировку на восприятие разных частот.
Очень важно: человеческий мозг воспринимает речь в контексте. Если мы не знаем какое-то слово или не расслышали его, наш мозг обычно может восстановить его значение по контексту. Машины пока только учатся это делать, и это чрезвычайно сложная задача, потому что контекст может выходить далеко за рамки одного конкретного предложения; подобные задачи возникают при разработке чат-ботов. Такие разработки уже ведутся, но пока что они далеки от идеального решения. Отчасти проблему решает добавление языковой модели, которая «ориентируется» в структуре языка и закономерностях словоупотребления.
Наконец, машине требуется огромное количество примеров, чтобы научиться хорошо распознавать речь. На данный момент мы плохо представляем себе, как научить машину распознавать речь на небольшом количестве данных, как это происходит с маленькими детьми. По-видимому, дело в том, что у детей к слуховой составляющей добавляются другие рецепторы — например, когда мы показываем им круглый предмет и говорим, что он называется «яблоком», они могут его увидеть, пощупать и так далее. Выстраивается ассоциация между формой, цветом, тактильными ощущениями, вкусом и, наконец, произнесенным словом. А может — и обстановкой или местом, где это произошло. Если что-то такое удастся проделывать с машинами, это будет огромный прорыв.