Человечество к данному моменту накопило информации только в цифровом виде на 1,2 зетабайта (это 270 байтов). Если завалить стадион полностью загруженными айпэдами так, чтобы они возвышались на 8 км, то этот столб примерно будет содержать в себе такое количество информации. Каждый день наша цивилизация порождает 2,5 квинтиллиона байтов. Если мы хотим, чтобы они не просто лежали на дисках, а обрабатывались и в результате приводили нас к каким-то ценным выводам о мире, в котором мы живем, то традиционными методами обработки данных этого не сделать. Тот объем информации, который можно обработать только нетрадиционно, обычно называется «большими данными». Более точного определения у этого явления пока нет. Зато по большим данным уже проходят научные конференции – одна из них (Data Science Summit Russia 2012) прошла 4 октября в Высшей школе экономики.
Приглашенный российский бизнес неохотно рассказывал о том, как использует технологии обработки больших данных. Удалось узнать, что:
«Мегафон» не только использует получаемую в реальном времени информацию от вышек и телефонов для оптимизации работы сети, но и создал приложение «Мегафон-Навигация», которое – в отличие от «Яндекс.Пробок» – строит карту загрузки дорог на основании карты загрузки сотовой сети. «Все остальное в этом приложении хуже, чем у «Яндекса», но пробки лучше», – сказал директор департамента новых технологий и проектов столичного филиала «Мегафона» Денис Ирз. Банки и сотовые операторы относят своих клиентов к разным категориям в зависимости от объема средств, которые они тратят на банковские услуги или услуги связи. К этому еще добавляются алгоритмы выявления ключевых клиентов. Так, обычно только один член семьи принимает решение об обслуживании в какой-либо организации или смене оператора, а с ним уже меняет «прописку» вся семья. Поэтому целесообразно выявлять таких клиентов и сосредоточивать маркетинговые усилия именно на них. Такие системы позволяют снижать отток клиентов у сотовых операторов на 20–25%. Автоматическая обработка массивов данных из соцсетей уже используется банками для анализа эффективности маркетинговых акций. Но системы скоринга пока еще несовершенны, и в России как минимум в ближайшие полгода данные из соцсетей не будут использоваться для решения о выдаче кредита.
Компания EMC представила спонсируемый ею глобальный краудсорсинговый проект «Человеческое лицо больших данных» (The Human Face of Big Data). Приложение для iOS и Android скоро можно будет скачать. Программа, по сути, представляет носимый в кармане социологический и психологический опросник. Время от времени приложение спрашивает вас о настроении, взглядах, отношении к жизни и так далее. Кроме того, оно фиксирует ваше имя, возраст и прочие личные характеристики, а также отслеживает перемещение во времени. Эти данные, будучи сложены вместе и проанализированы, должны дать ученым совершенно новый уровень понимания того, как живет общество. Собираемые данные можно уже смотреть здесь. Например, ниже приведены результаты опроса о том, хотят ли вернуть потерянную любовь люди, которые уже вступили в брак, вместе с ответами одного из участников проекта, Мэтта Гриффитса (щелкните по картинке, чтобы увеличить).
Владимир Определенов из компании «Эпос», которая занимается оцифровкой предметов искусства, рассказал, что для оцифровки российских музеев, где находится 86 млн предметов, необходимо 66 500 терабайт. И это по минимуму, потому что для полноценной каталогизации современная наука требует заполнения 3500 текстовых полей на каждый предмет (название, тип, размеры – это самые первые и простые поля) и высококачественную фотосъемку. Например, Ферапонтов монастырь включен в список Всемирного наследия ЮНЕСКО и по правилам организации – чтобы оставаться в списке – требует ежегодной съемки фресок с разрешением 300 dpi.
Но главная причина, по которой российское культурное наследие требует скорейшей оцифровки, – это не ЮНЕСКО и не стремление идти в ногу с прогрессом: из-за недостатка финансирования и контроля музейный фонд разрушается и расхищается с такой скоростью, что если не поторопиться с оцифровкой, то скоро оцифровывать будет нечего.
ВШЭ по заказу Минэкономразвития разрабатывает концепцию открытых данных для правительства РФ, рассказал директор направления Linked Data в российском офисе W3C Иван Бегтин. Открытых правительственных данных в нашей стране уже десятки терабайт, но выкладываются они в форматах, малопригодных для обработки. Например, МВД публикует свои приказы картинками в jpg. В идеале ведомства должны публиковать все нормативные акты в пригодном для машинной обработки виде, что не позволит зарабатывать фирмам, которые сейчас продают базы законов. Также бесплатным должен стать доступ к ЕГРЮЛ. Мы выкладываем презентацию Ивана Бегтина полностью в виде слайд-шоу, а архив со всеми докладами конференции можно скачать тут (zip, 72 мб).
Открытые государственные данные
Скачать архив со всеми презентациями конференции (72 Мб)