Синтетические данные: что это такое, как они помогут развитию ИИ, какие проблемы могут возникнуть с ними

Фото: Unsplash.com

За последние несколько лет разработчики машинного обучения для ИИ поняли, что лучше больших данных (big data) могут быть только хорошие данные. Пионер машинного обучения Эндрю Ын недавно запустил кампанию Landing AI, призывающую коллег переключить внимание с моделей обучения и алгоритмов на качество данных, используемое для тренировки этих моделей. Суть в том, что небольшие объемы правильных, чисто маркированных данных способны улучшить работу системы ИИ в большей степени, чем в 10 раз больший объем «неочищенных» данных или даже более совершенный алгоритм.

Например, компания Affectiva, лидер в сфере «эмоционального» искусственного интеллекта, создает системы, которые помогают машинам понимать эмоции или когнитивные состояния человека. Один из ее проектов помогает автопроизводителям создавать умные помощники водителя, которые способны распознавать, когда человек засыпает за рулем. Но снимать показания с тысяч испытуемых, сидящих в автомобильных симуляторах, довольно дорого и занимает много времени. Тогда Affectiva обращается в такие стартапы как Datagen или Synthesis AI, которые генерирует синтетических людей, а точнее – 3D-модели лиц высокого разрешения.