Чего ждать от индустрии Big Data

В сентябре компания Rusbase организовала уже третье нишевое мероприятие. В рамках нашей экспериментальной серии ивентов мы уже собирали на одной площадке проекты и экспертов в областях EdTech и FinTech (о прогнозах в этих сферах можно почитать здесь и здесь).

На этот раз решили обратить прицельное внимание на индустрию больших данных. На конференции Big Data Russia участники обсудили тренды и поделились кейсами о семантике, инфраструктуре и аналитике больших данных.

Rusbase собрала несколько прогнозов от участников конференции и прочих экспертов, чтобы понять, чего нам ждать от индустрии Big Data в России.
Общие экономические тренды рождают потребности в Big Data
Дмитрий Армяков, генеральный директор SAP Labs СНГ
Мы мониторим рынок на экономические тренды. Не обязательно по конкретной индустрии, а в целом – какие драйверы, механизмы рынка меняют те индустрии, которые нас окружают. Сейчас мы видим несколько таких мощнейших трендов. Во-первых, это глобальный рост среднего класса: растет потребление и все те процессы, индустрии, которые связаны с производством товаров для среднего класса, с логистикой, с хранением и т.д. То есть фактически один тренд сразу задействует, как веером, огромное количество индустрий, в которых рождаются потребности в Big Data.
Еще один тренд, который меняет многие экономические процессы на глобальном уровне, – это мобильные устройства, постоянно подключенные к интернету или к сетям передачи данных. Их количество растет огромными темпами: в некоторых странах оно даже выше одного-двух устройств на человека, включая маленьких детей и старшее поколение. Все эти устройства рождают определенные данные, задействовано множество индустрий, которые заняты как производством этих устройств, так и написанием программ для этих устройств, предоставлением сервисов и прочее.
Еще один очень интересный тренд – это интернет вещей, то есть это даже не просто мобильные устройства, а все большее количество датчиков во всем, начиная от холодильников и заканчивая тележками в магазинах, которые также подключены к сетям передачи данных. Это рождает еще большее количество информации, которое требует постоянной переработки и попыток сделать из этих данных какое-то полезное применение. Например, в ритейле огромное количество данных рождается из каждой покупки – сам чек уже содержит огромное количество информации о потребителе, которая предоставляет большую ценность для той или иной компании. С интернетом вещей это становится еще более значимым.
Все это ведет к тому, что за последние 5–10 лет человечество уже нагенерировало данных больше, чем за всю предыдущую историю.
Больше не будет Big Data – будет просто Data или Realtime Data
Иван Бегтин, генеральный директор Smart Data Labs
Большие данные (Big Data) – это уже уходящий тренд и уходящий термин. Уже давно нет проблем с обработкой данных условно любых объемов, и это вопрос лишь только цены, которая снижается год от года. Будущее за такими явлениями, как обработка данных в реальном времени (Realtime Data) и платформами, позволяющими проводить анализ данных любого объема в конкретных отраслях. В будущем, я думаю, не будут больше проводить конференции под названием Big Data, а будут просто –Data.
Вместо многочисленных стартапов – отдельные специалисты в компаниях
Александр Горный, директор по информационным технологиям Mail.Ru Group
Все будет хорошо! Мне кажется, в каком-то смысле повторится история Web 2.0. Все забудут модное слово, закроются многочисленные стартапы, за которыми ничего, кроме этого слова, нет. Зато появятся специалисты, которые умеют работать с определенным классом задач и владеющие определенными инструментами. Они будут работать как в крупных, так и в мелких компаниях, но в основном в крупных – в мелких просто не будет достаточно данных. Продукты этих компаний станут еще лучше или дешевле или одновременно лучше и дешевле, но мир в целом останется таким же, каким и был.

Что касается ближайшего будущего, то два самых очевидных пути использования bigdata-техник так и останутся самыми популярными. Реклама с каждым днем будет все более прицельной, а финансовый скоринг все более точным. Но, конечно, и менее популярные применения, например, в таких областях, как логистика или контроль качества, никуда не денутся.
На смену разрозненным игрокам придут информационные кластеры
Степан Вяльцев, руководитель SmartBox eCRM
Big Data в ближайшее время трансформируется в Clean Data, или «чистые данные» – отсортированные массивы данных, сразу готовые к использованию. В рекламе это будут предварительно отобранные сегменты целевой аудитории, которые уже в начале использования продемонстрируют большую эффективность по сравнению с разрозненными данными.

Изменится и направленность компаний, и частных лиц, которые сейчас участвуют в Big Data: с обработки информации они переключатся на ее сортировку и упаковку в «коробочный продукт», который можно в простой и понятной форме передать бизнесу или агентствам моментального использования.

Рынок очень сильно укрупнится: разрозненные игроки, занимающиеся обработкой и анализом данных, уступят место настоящим информационным кластерам, которые будут не столько обрабатывать, сколько совмещать разные данные о пользователях для моделирования его потребительского поведения.

Помимо тех сущностей данных, которые уже сейчас используются для анализа, особое внимание будет уделено тем данным, которые позволят предсказать эффективность коммуникации с пользователем: истории его реакции на конкретный канал коммуникации (соцсети, SMS, медийные размещения и т.д.) и креативы – сами рекламные сообщения.
Рост компаний, специализирующихся на аналитике
Павел Калайдин, data scientist RuTarget
Доступных данных становится все больше, и компании осознают их ценность. Растет потребность в обработке данных и получении из них знаний. Быстро вырастить такие компетенции in-house практически нереально, поэтому бизнес должен будет обратиться к партнерам, специализирующимся на работе с данными. Думаю, в ближайшее время стоит ожидать появления новых компаний, специализирующихся именно на аналитике Big Data, то есть на решении чужих задач.
Настало время стартапов Big Data
Роман Зыков, директор по аналитике Retail Rocket
Я думаю, что в России все больше будут популярными сервисы по обработке данных компаний, которые в свою очередь приносят этим компаниям прибыль. Это могут быть сервисы в сфере интернет-рекламы, системы рекомендаций, «умные» электронные письма и т.д. Раньше я наблюдал, что многие компании пытались все делать внутри себя, но это приводило к расфокусировке бизнеса и потере денег из-за непредвиденных расходов. Теперь настало время стартапов.
Появятся биржи обмена данных – исчезнут некоторые профессии
Дмитрий Лушников, евангелист Flocktory.com
Как таковой термин Big Data – это просто маркетинговый трюк, об этом говорят многие, и это правда так.
Данные есть сейчас, они были и пять лет назад, и будут через тридцать. Само их количество растет, и это становится определенным временным трендом. Понятно, что дальше их будет только больше, и к этому уже не будет столько внимания.
Компании учатся как-то работать с этими объемами данных, но пока толком особо никто не научился. Развиваются различные технологии, большие корпорации инвестируют миллионы долларов, чтобы работать с данными стало проще. Также развиваются облака, в которых стоимость хранения данных будет дешевле с каждым годом.
Появятся биржи обмена данных, это будет интересно и весело. Появятся также новые рекламные инструменты и рекомендательные движки, основывающиеся на этом. Собственно, Flocktory в этом направлении и движется: это маркетинг, основанный на анализе больших данных.
Но в целом тренд на Big Data уйдет, и явление станет вполне естественным. Хорошим примером будет то, как это уже было с модным в 99-м трендом High Load: сейчас уже никто не говорит о высоконагруженных системах так много.
Но самое интересное будет в обычной жизни – часть профессий просто уйдет в небытие. Например, врач-терапевт. Имея данные по миллионам пациентов, можно просто сопоставить симптомы и поставить предварительный диагноз значительно точнее, чем это сделает врач общей квалификации. Но это уже более отдаленное будущее.
Компаниям нужно привлекать внешние структуры с их компетенциями
Михаил Левиев, CEO «АлгоМост»
Работа с большими данными зачастую это использование внешних структур и компетенций, что по менталитету российскими компаниями воспринимается очень плохо. Поэтому они пойдут по длинному пути и будут стремиться создавать и вкладывать в свою инфраструктуру, нарабатывать собственные компетенции, а это дорого и долго.

Также у наших компаний очень неоднозначное отношение к понятию персональных данных собственных клиентов и к работе с ними. Кто-то научился полноценно работать с персональными данными, а кто-то закрылся, от греха подальше. Это является вторым барьером.

Работа с большими данными четко влияет на KPI компаний и, соответственно, руководства, что является фактором как роста, так и сдерживания этой индустрии. Одна группа топ-менеджеров использует Big Data как инструмент для достижения KPI; другая группа препятствует этому, так как анализ данных отразит качество принятых решений. Особенность работы с большими данными в том, что этот инструмент не только дает прирост, но и показывает, за счет чего этот прирост получился.
Объем информации, собранной в 2012 году, в два раза превосходит объем информации в цифровом виде, созданном в 2010 году. Что будет дальше – держитесь!

Индустрия Big Data просто приходит и говорит: «Ваши данные достигли такого объема, что силами аналитиков с Excel вы уже ничего не сделаете, и классические консультанты не помогут. Вам нужно привлекать внешние структуры с их компетенциями».
На этот счет в России пока не так много возможностей. Есть компании, такие как «АлгоМост», которые помогают в разных индустриях решать задачи в области Big Data с точки зрения создания алгоритмов. Есть компании, которые помогают с точки зрения инфраструктуры, такие как IBS, «Ланит» и другие системные интеграторы.

Еще одним фактором роста индустрии служит текущее состояние экономики. Бизнес достиг уровня, когда базовый набор инструментов для конкуренции доступен всем. Классические методы рыночной борьбы не подходят. Нужен инструмент, который даст четкое понимание того, что происходит, и поможет обрести корпоративную интуицию.
Этические, политические и правовые проблемы работы с данными затмят технические проблемы
Анатолий Левенчук, президент «ТехИнвестЛаб»
Во-первых, работа с данными – это уже не просто искусство или наука, это самая настоящая политика. Когда политики предписывают хранить «персональные данные» на серверах, находящихся на территории конкретной юрисдикции, это означает невозможность электронной торговли, заказа авиабилетов, обучения в иностранных вузах, работы с иностранными финансовыми институтами, заказа номеров в гостинице и т.д. Это уже не «всего лишь данные». Ограничения на работу с данными являются ограничениями на права и свободы человека. Так что мы говорим не только об «индустрии», но и о сфере политики. И конечно, не секрет, что с Самыми Большими Данными работают спецслужбы и разведки.

Этические проблемы, проблемы политики, правовые проблемы работы с данными в ближайшее время затмят все возможные технические проблемы, ибо технические проблемы решить обычно можно, а вот с безумными хотелками политиков всех мастей справиться обычно не удается.
Во-вторых, слово BigData останется пустым, ибо объем данных – это ни разу не проблема, а чисто маркетинговые пустые термины-зонтики выходят из употребления. Останется слово Data, а уж Big или Small – это совершенно не важно, большинство нынешних технологий работы с данными отлично масштабируются. Сегодня же под этим термином-зонтиком понимают и проблемы статистической обработки данных, и удобной визуализации результатов такой обработки. Букет чисто технологических проблем. Знаменитое VVVV, в котором каждое слово – отдельная проблема, требующая отдельных технических решений: volume – не проблема давно; velocity – здесь будет realtime (в том числе realtime по перестройке схемы базы данных и стриминг); variety – семантика и онтология, графовые и прочие NoSQL; veracity (правдивость, точность) – и здесь важны верификации и валидации. А еще есть data science, data engineering, data base management. Слово BigData пытается охватить все, то есть не указывает ни на что.
В-третьих, слово «онтология» уже известно всем, кто занимается данными, но больше никому. Онтология – это про то, как данные описывают окружающий мир, насколько совместимы описания мира, сделанные разными людьми. Другими словами, это про то, как «объективировать» описания: хорошо организовать субъективность отдельных людей, приходящих каждый со своими данными. Скоро слово «онтология» станет известно и за пределами узких специалистов-модельеров данных, ибо онтологическое моделирование позволяет решать сложные задачи федерирования данных (федерирование – объединение изначально автономных данных). Слово «семантика» уже хорошо известно всем, потому как переход к факт-ориентированному (графовому, трипловому) представлению данных позволяет избавиться от проблемы переструктурирования схемы базы данных каждый раз, когда появляются новые виды данных. Эти два слова станут стандартным способом борьбы с variety (разнообразием) в Big Data.
В-четвертых, data science становится все более спортивной. Недостаточно говорить, что «у нас лучшие алгоритмы». Есть способ легко проверить их крутизну по сравнению с алгоритмами конкурентов: поучаствовать в очередном соревновании. Сама data science тоже быстро меняется. В 2006 году научили первую глубокую нейронную сетку, и появились глубокие (многоуровневые) архитектуры машинного обучения. Классическая статистика, конечно, никогда не сдаст своих позиций, но уже понятно: настоящие прорывы в работе с данными не в ней. Глубокие архитектуры пришли, чтобы остаться, и наблюдать за этим процессом удобнее всего на соревнованиях (например, kaggle.com).