Термин Big Data неимоверно популярен. О «больших данных» говорят и пишут IT-поставщики и их клиенты, журналисты и ученые, банкиры и врачи, политтехнологи, инженеры и все-все-все. При этом далеко не все они в деталях понимают, о чем вообще идет речь. И лишь единицы способны осмысленно представить будущее этого перспективного нового подхода. Не технологии, как часто называют Big Data. Не направления бизнеса. Не нового класса аппаратуры или программ. А именно подхода. Подхода, меняющего для человека привычную схему интерпретации окружающего мира: оценка произошедшего, прогноз грядущего, решение, которое необходимо принять в настоящем.

Все это будет делаться по-другому в мире Big Data. И в первую очередь дедукция перестанет быть эффективным способом решения интеллектуальных задач. Шерлок Холмс не стал бы великим сыщиком, существуй в его время Big Data.

Не верите? Тогда придется потратить время на объяснение этих тезисов, данное профессором Сендхилом Муллайнатаном в ходе ноябрьской дискуссии в онлайн-салоне для интеллектуалов Edge.org.

Теория – гипотеза – проверка

Согласно «Википедии», дедукция – это метод мышления, при котором частное положение логическим путем выводится из общего, вывод по правилам логики; цепь умозаключений, звенья которой связаны отношением логического следования.

Как-то мудрено сказано. На деле же все достаточно просто и прозрачно. Дедуктивный метод решения интеллектуальных задач (он же – научный метод) начинается с формулировки теории, на основе которой выдвигается гипотеза, позволяющая, по мнению ее автора, решить поставленную задачу. Далее проводится серия тестовых проверок гипотезы, и на основании результатов тестирования делается вывод – правильная была гипотеза или нет.

Например, Холмс хочет описать владельца часов, которого он не знает и не располагает никакой информацией о нем. Есть только часы и ничего более. Тогда Холмс включает дедуктивный метод. Сначала используется теория. К примеру, такая: много царапин вокруг отверстия для завода часов могут свидетельствовать, что их владелец – алкоголик. 

Гипотеза Холмса проста: хозяин часов был вечно пьян и подолгу не мог попасть ключом в отверстие для завода, царапая вокруг него корпус часов. 

Далее следует тестовая проверка гипотезы. Ее Холмс выполнял многократно, внимательно вглядываясь в часы людей, с которыми приходилось сталкиваться. Результаты тестирования: у подавляющего числа сильно пьющих мужчин часы изобиловали царапинами у отверстия для завода. Значит, гипотеза верна и ею можно пользоваться в практике сыщика.

Но так ли это на самом деле? Чтобы понять это, давайте обратимся не к гипотетическому примеру дедукции, а к реальному (к сожалению, во времена Холмса никто не удосужился собрать данные по царапинам на часах, а потом и отверстия для ключа заменили на вращающуюся головку).

Дедукция и «теория оптимизма»

Хотя этот пример и основан на реальной жизни, все же для сохранения живости рассказа придадим ему немного научно-фантастической интриги.

В XIX веке была популярна теория о связи тела и духа, или «теория оптимизма» – чем более человек преисполнен оптимизма, тем больше у него шансов выжить при заболеваниях. Давайте выдвинем в рамках «теории оптимизма» гипотезу, которую можно было бы проверить на реальных данных. Например, если в больнице умирает один из больных, то у оставшегося в живых соседа по палате оптимизм снижается. И следовательно, его шансы остаться в живых становятся ниже, чем у пациентов, не потерявших соседей по палате. То есть получается, что смертность среди пациентов, потерявших соседей по палате, должна быть выше средней смертности по больнице, а среди не потерявших своих соседей – ниже средней.

Осталось проверить эту гипотезу на реальных данных. И это уже сделали до нас. Как вы думаете, каков результат проверки? Именно так – гипотеза подтвердилась: смертность в госпиталях среди тех, у кого умирали соседи, ощутимо выше, чем среди тех, у кого соседи не умирали.

Значит, «теория оптимизма» торжествует? Получается, что так. Но на самом деле она ошибочна. В заблуждение нас ввела дедукция, а точнее дедуктивный метод проверки гипотезы. Это довольно просто увидеть, применив подход Big Data. 

Суть подхода Big Data

Рассмотрим еще один пример, теперь из области искусственного интеллекта, – обработка естественного языка. Сорок лет было потрачено впустую в поисках алгоритмов, позволяющих запрограммировать решение проблемы многозначности слов. Когда английское слово bank означает «банк», «берег»? Когда – «блок» или «модуль», а когда – «группу» (например, кнопок)? Когда – «картотеку» (например, музыкальную), а когда – «запас» или «резерв»?

За сорок лет самые светлые умы в области обработки естественного языка не сильно продвинулись в решении проблемы. И еще несколько лет назад никто даже не предполагал, что решение вот-вот появится, причем само собой. 

Проблема решилась при разработке Siri – приложения для смартфонов Apple. Что же позволило так запросто решить задачу, десятилетиями считавшуюся неразрешимой?

Ответ простой: появился и заработал подход Big Data.

Алгоритму, умеющему учиться на основе обрабатываемых им данных, дают на вход миллионы и миллиарды примеров использования слова bank и для каждого из них фиксируют, что это слово означает («банк», «берег» или…). Обучающийся алгоритм просто обрабатывает огромное количество данных. Никто не указывает, какие правила он должен использовать. Алгоритм должен сам найти контекстные ассоциации, позволяющие предсказывать конкретное значение слова. И чем больше данных загружается, тем точнее его предсказания.

Так и работает подход Big Data: никаких заранее определенных правил или гипотез, никаких дедуктивных тестов. Этот подход Сендхил Муллайнатан называет «индуктивным научным методом» (от слова «индукция»; только не нужно писать в комментах, что это не совсем удачная формулировка, – все вопросы к Сендхилу). Взамен проверки конкретной гипотезы о значимости определенного фактора проверяются все возможные факторы.

Вернемся теперь к «теории оптимизма». Имея множество данных, мы вправе предположить, что, помимо фактора «смерть соседа», есть еще какие-то факторы, влияющие на перспективы выживания больных в госпиталях. Что это за факторы и сколько их, заранее неизвестно. Но это вполне соответствует ключевому принципу Big Data: проверяются все факторы, для проверки которых достаточно данных. И – о чудо! – помимо фактора «смерть соседа» обнаруживается масса иных факторов. И многие из них оказываются куда более значимыми. Например: практика мытья рук врачом при переходе от пациента к пациенту или использование общего скальпеля. Индуктивный метод, характерный для подхода Big Data, позволяет выявить эти факторы, куда более значимые для прогнозирования выживаемости, чем смерть соседа. И тем самым опровергается «теория оптимизма», столь легко нашедшая подтверждение применением дедуктивного теста.

Так значит, долой дедукцию?

Мы собираем данные, и это недешевое занятие, если данных много. Поэтому естественно задать вопрос: какие именно данные мы будем собирать? До последнего времени в мире существовал лишь один универсальный ответ на этот вопрос: будем собирать те данные, которые мы считаем наиболее важными для достижения наших целей. Этот ответ опирается на уверенность в интеллектуальной мощи дедукции: (1) мы изначально предполагаем, какие данные важны, и на основе этих предположений организуем их сбор; а затем (2) мы используем собранные данные и получаем подтверждение правильности наших гипотез.

К примеру, так подтверждается гипотеза о вредности больниц для здоровья пациентов: ведь там случается, что соседи умирают, а это подрывает оптимизм. Более того, в результате мы можем так и не узнать о существовании куда более важных вещей, как, например, необходимость мыть руки. И возможно, связанная с этим бактериологическая теория так и останется не открытой.

Ужасно? Но выход есть. При использовании индуктивного научного метода, лежащего в основе подхода Big Data, мы даже можем, как и прежде, высказывать гипотезы. 

Но! Вместо исследования конкретной гипотезы на подобранных для ее проверки данных мы даем возможность алгоритму самому определить все факторы, наибольшим образом влияющие на интересующий нас результат.

Раз все так замечательно и просто, возникает соблазн положиться на сбор как можно большего объема данных. И пусть потом компьютер думает, у него, как говорится, голова большая. Увы, этот путь ведет в никуда. 

Индукция индукции люпус эст

Оказывается, индуктивный научный метод эффективен далеко не всегда. Мы можем иметь море данных, а толку от этого не будет никакого. Чтобы этот метод работал во благо подхода Big Data, необходимо выполнение двух условий.

Первое условие – этот метод эффективно работает лишь при обилии разнообразных данных. Это очень важно понимать, ибо, следуя дедуктивному подходу, мы десятилетиями собирали лишь те данные, которые считали важными, вовсе не заботясь при этом об их разнообразии. Да и что это такое – разнообразие данных?

Слово big в названии подхода лишь сбивает с толку. На самом деле данные не бывают «большие» (big), а бывают «длинные» (long) и «широкие» (wide). 

«Длина» данных определяется количеством доступных для анализа наблюдений конкретного фактора. «Ширина» же данных говорит о количестве функциональных зависимостей, существующих между различными факторами.

Эти две характеристики, определяющие, насколько «большими» данными располагает исследователь, работают прямо противоположно. Чем «длиннее» данные, тем лучше – тем точнее алгоритм будет предсказывать значимость конкретного фактора. С «шириной» дело хуже. С ее ростом экспоненциально возрастают вычислительные проблемы. В результате, когда данные делаются все «шире» и «шире», проблема их обработки становится все сложнее и сложнее, а алгоритм работает все хуже и хуже.

Получается противоречие. С одной стороны, для эффективной работы индуктивного метода нам нужно обилие разнообразных данных. С другой стороны, с ростом разнообразия данных увеличивается их «ширина» и алгоритм работает все хуже. Проблема здесь куда тяжелее, чем, например, в шахматных программах, умеющих сегодня обыгрывать даже чемпиона мира. В шахматах мы всегда имеем огромное дерево, в котором каждый новый ход перемещает нас на новую ветку через очередную развилку возможных ходов. И даже когда возможных вариантов в этой развилке очень много, их все же куда меньше, чем суммарное число всех ветвей дерева. Поэтому в шахматах может оказаться достаточным просчитать всего несколько развилок, определяющих несколько очередных ходов. А при использовании индуктивного метода в Big Data нужно рассчитывать «все дерево».

Выбирать оптимальную «ширину» данных компьютеры пока не могут. На это способен только человек с его интуицией, опытом и уникальной связкой зрения и разума при анализе зрительной информации. То есть получается, что в большинстве случаев подход Big Data без эксперта – человека не может использоваться эффективно.

Второе условие эффективного использования Big Data кажется довольно простым. Но только на первый взгляд. Условие таково: получаемые результаты не следует трактовать как причинно-следственные связи между исследуемыми факторами. Речь следует вести лишь об интерпретации причинно-следственных связей, которые обнаруживаются алгоритмом.

При невыполнении этого условия легко впасть в заблуждение, а то и хуже, – в мистику и шаманство. Это довольно быстро может обесценить прорывные результаты, достигаемые за счет Big Data. Рассмотрим еще один интересный пример. Он может оказаться полезным для многих читателей.

Так продавать акции или нет?

Финансовым брокерам и аналитикам, равно как и математикам, давно известен так называемый disposition effect. В России его довольно неудачно называют «эффект диспозиции», хотя куда правильнее его было бы назвать «эффектом предрасположенности». Зачастую, помимо логики и здравого смысла, людьми движут нерациональные мотивы. Даже самые крутые профессионалы предрасположены к странным поступкам. В частности, не признавать понесенные потери или убытки. Подавляющее большинство из нас вообще не любят признавать свои ошибки ни в какой форме, пытаясь сознательно и бессознательно убедить себя в правильности своих поступков и решений. Факты, противоречащие этому, мы предпочитаем просто не замечать.

Вот характерный пример. Человек покупает два пакета акций двух компаний, А и Б, по одной и той же цене 10 рублей за акцию. Спустя какое-то время акции компании А упали в цене до 9 рублей, тогда как акции компании Б подорожали до 11 рублей за акцию. Допустим, владелец акций нуждается в средствах. Логика подсказывает, что он оставит себе акции, цена которых растет, и продаст акции с падающей стоимостью.

Но логика отступает перед психологией «эффекта предрасположенности». Ведь, продав акции А, придется зафиксировать понесенный убыток (покупал акции по 10 рублей, а продал их всего по 9 рублей). Трейдер внутренне противится попадать в ситуации, когда ему придется признать убытки. В результате он оставляет акции А и продает акции Б, убеждая себя и других, что просто фиксирует прибыль (ведь он покупал акции Б по 10 рублей, а продал их уже по 11 рублей).

Дедуктивная проверка гипотезы о том, что за «эффектом диспозиции» стоит нежелание признать потери, вроде как, ее подтверждает. При рассмотрении миллионов решений, какие акции оставить, а какие продать, оказывается, что люди с большей вероятностью расстаются с подорожавшими на Х% акциями, чем с акциями, цена которых упала на Х%. Но мы уже знаем, что полагаться на дедукцию при подходе Big Data не стоит.

Запустив самообучающийся алгоритм и дав ему на вход большой объем данных (в данном случае это были данные о миллионах транзакций, проведенных ста тысячами трейдеров), мы не указываем никаких гипотез и факторов, которые алгоритм должен проверять. И что мы получаем?

Самообучающийся алгоритм находит фактор, влияющий на решение о продаже или удержании акций: это потеря или приобретение при текущей цене акции. Как нам кажется, это подтверждает «эффект диспозиции», движимый нежеланием трейдеров признавать потери. Бинго!

Но не тут-то было. Мы вспоминаем о втором условии: получаемые результаты не следует трактовать как причинно-следственные связи. То есть было бы неправильно утверждать, что нежелание трейдеров признавать потери является причиной того, что люди чаще расстаются с подорожавшими акциями, чем с падающими. Это всего лишь одна из возможных интерпретаций, причем, как показывают дальнейшие исследования массива данных, далеко не самая точная.

Поэтому мы не останавливаем работу самообучающегося алгоритма, желая найти иные значимые факторы и иные функциональные зависимости между ними. И обнаруживается, что интерпретация, основанная на «эффекте диспозиции», терпит полное фиаско. Этот эффект ничего не предсказывает. Но в результате анализа обнаружены два других фактора.

Первый: когда трейдер смотрит на график изменения цены акции за интересующий его период, ему видно, в какой квартиль (в какую четверть) попадает текущая цена акции. Так вот, если текущая цена находится в верхнем квартиле, то вероятность выбора решения «продать эту акцию» много-много выше, чем если бы текущая цена была в любом из трех других квартилей графика. 

При этом заметьте: решение о продаже или сохранении акций совсем не зависит от цены их покупки.

Второй – тренд динамики трех последних цен конкретной акции, который видит трейдер. Если тренд «вверх – вверх – вверх» (то есть цена упорно растет), трейдер, скорее всего, продаст эти акции. Но! Аналогичное решение трейдер примет и при тренде «вниз – вниз – вниз» (когда цена упорно падает).

В итоге получаем следующее: если текущая цена акции находится в верхнем квартиле, если при этом во время трех последних наблюдений она росла – или же падала, – то с очень большой вероятностью трейдер продаст эти акции.

Вот так грамотное применение подхода Big Data развенчало все называвшиеся ранее известными учеными способы интерпретации «эффекта диспозиции»: от предрасположенности к непризнанию потерь до когнитивного диссонанса. В реальной жизни, помимо привычных психологических механизмов, работают и гораздо более сложные поведенческие паттерны, предсказать которые без применения Big Data невозможно.

Облачные сервисы из людей и компьютеров

Подведем итоги.

1. Big Data – это новый подход, меняющий привычную схему интерпретации окружающего мира: оценка произошедшего, прогноз грядущего, решение, которое необходимо принять в настоящем.

2. Дедуктивный метод решения интеллектуальных задач (он же – научный метод), основанный на схеме «Теория – гипотеза – дедуктивная проверка», при использовании подхода Big Data неэффективен.

3. Индуктивный метод решения интеллектуальных задач – самообучающийся алгоритм сам определяет все факторы, наибольшим образом влияющие на интересующий нас результат, – может быть эффективным при использовании подхода Big Data.

Однако эффективность метода и подхода достигается лишь при соблюдении двух условий:

1. Разнообразие данных. Это условие невыполнимо без участия эксперта-человека в определении оптимальной «ширины» данных – задачи, не доступной пока что для чисто компьютерного решения.

Также из этого следует, что далеко не все собранные и собираемые хранилища данных можно будет эффективно использовать при подходе Big Data.

2. Получаемые результаты нельзя трактовать как причинно-следственные связи между исследуемыми факторами, а лишь как интерпретацию причинно-следственных связей.

Из этого опять же вытекает необходимость задействования эксперта-человека, но уже по другой причине. Без его участия компьютер в большинстве сложных задач будет бесконечно обнаруживать и просчитывать все новые и новые функциональные зависимости различных факторов. Эксперт же будет сдвигать и фиксировать граничные условия поиска решения.

Из всего вышесказанного следует: хотя большие затраты на «большие данные» (по прогнозу, это $14 млрд в 2014 году) и делают Big Data одним из девяти самых крутых технологических трендов следующего года, для получения реальной отдачи от этих вложений придется здорово постараться. Успех придет лишь к тем, кто сможет собрать «большое число» экспертов-людей. Остальные игроки останутся на технологическом подхвате: они будут собирать данные, накапливать их, фильтровать, интегрировать и т.д.

Наибольший же успех будет сопутствовать тем, кто создаст облачные сервисы из людей и компьютеров. Сервисы, которые позволят клиентам покупать Big Data as a Service, вместо того чтобы нести огромные риски и пытаться самостоятельно извлекать из Big Data добавленную стоимость.

Так что долой Холмса в мире Big Data! Да здравствует «Ватсон как услуга»!