Фото: Сергей Карпов
Над поисковиком, который бы работал не со словами, а со смыслом запроса, бьются все гиганты – Google, «Яндекс», ABBYY и десятки других. Пока все они пытаются создать универсальную технологию семантического поиска, российский стартап Toprater в Кремниевой долине уже сделал ее, правда, не универсальную, а только в сфере поиска отзывов. Алгоритм Toprater читает и, главное, понимает отзывы, оставленные в интернете на 95–98% точно так же, как живой человек. Чтобы отшлифовать алгоритм, команде TopRater понадобилось более 50 млрд отзывов и мнений и три года работы. По замыслу основателей, теперь, чтобы выбрать идеальный фильм, отель или работодателя, вам не придется сутками изучать отзывы в сети – компьютер это сделает за вас.
Выбирай – не хочу!
«Людей предпринимательского склада в России найти сложно, мы не первый месяц не можем подобрать для российского офиса достойного операционного директора, – говорит Эдуард Стругов, создатель Toprater. – В США команду собрать гораздо легче, люди приходят с большим опытом работы в стартапах и на лету ловят потенциал нашего проекта».
Стругов не похож на среднего московского стартапера, 43-летний бизнесмен занимается интернет-технологиями уже больше двадцати лет, он стоял у истоков нескольких крупных российских ИТ-компаний.
Toprater родился из давней идеи Стругова что-то сделать с тем, что в интернете слишком много информации. Как-то во время учебы в MBA экономфака МГУ Стругов с друзьями решили отправиться покататьcя на лыжах в Европе. Несколько недель они спорили о курорте и отеле: одним был важен вид из окна, другим – близость трасс, кого-то не устраивали отзывы об инструкторах, кого-то – слишком шумные вечеринки в поселках. Тогда Стругов, инженер по образованию, прописал в Excel все критерии выбора отдыха, проставил для каждого из них уровень значимости и вывел рейтинг, в котором каждый мог найти для себя лучшее. Это и был прототип Toprater.
Позже Стругов выяснил, что на TripAdvisor более 150 млн отзывов и человеку потребуется 400 лет, чтобы их изучить. После многочасового исследования измученный человек часто принимает решение наобум. По данным Expedia, человек тратит на подбор варианта отдыха не менее месяца, но за это время находит в среднем лишь шесть полезных отзывов. Проблема иллюзии осознанного выбора – это глобальная проблема современного интернета.
Сейчас на cайте Toprater пользователь может найти отель, фильм или работодателя по любым критериям, которые когда-либо интересовали людей. Toprater составит рейтинг по запросу, если вы хотите посмотреть, скажем, сериал sci-fi с английским юмором и апокалиптическим миром (всего критериев для кино – 70 тысяч) или топ-лист лучших работодателей не только по страховке для сотрудников, оплате фитнеса, но и по критериям вроде «фрукты в переговорной» или «отсутствие скучных совещаний» (всего критериев для работодателей – 20 тысяч).
В отзывах об отелях, с которых все начиналось, команда Стругова выявила 240 тысяч критериев. Почти в каждом отзыве есть оценка и мнение об отеле и номере, еде и местности. О романтической обстановке пишут в 33% отзывов, а о разумных ценах – в 31%. Домашняя выпечка фигурирует в 0,13% отзывов, хороший кофе – в 18%.
Собственный сайт пока работает в закрытой бета-версии, но категоризированная информация по 800 тысячам отелей уже упакована в разные интерфейсы компаний-партнеров. Например, алгоритм Toprater вмонтирован в спецпроект CNN.
Здесь можно смотреть на лучшие отели глазами североамериканца или африканца: отели из составленного по твоему запросу рейтинга появятся на карте. Разумеется, есть стандартные фильтры вроде региона, возраста отдыхающих, расстояния до пляжа. Но можно задать и более экзотические параметры: Toprater может показать влюбленным отели, где лучше всего смотреть на закаты, а студенческой компании – лучшие по ассортименту выпивки хостелы. Или отели, где лучше сворачивают лебедей из полотенец.
Эдуард Стругов
«Понятно, что у людей нет списка из 240 тысяч желаний, которые бы соответствовали нашему списку. Точно так же никто не помнит 810 млн запросов в Google об отелях, которые когда-либо было вбиты в поисковую строку. Поэтому поисковая выдача предполагает, что ты все равно будешь бродить по сайтам и читать кучу строк. Мы исходим из того, что любое желание человека с вероятностью, близкой к 100%, уже было кем-то сформулировано, ответ был найден. Надо только извлечь этот предыдущий опыт и показать его».
Как это работает
За три года команда Стругова разработала свою технологию аспектно-сентиментного анализа для отзывов. Методы машинного изучения, конечно, изобрели не они: многие программы уже могут извлекать аспекты (что именно оценивается – пляж, вид из номера и т.д.), группировать их по категориям и определять тональность высказываний (переводить в цифры эпитеты «потрясающе», «ужасно» и т.д.). Например, ABBYY Compreno уже умеет делать такой анализ текста, чтобы распределять поток входящих документов по департаментам. Проекты с использованием Compreno уже работают в Государственной думе, «КЭС-Холдинге, некоторых нефтяных и энергетических компаниях.