Как технологии искусственного интеллекта помогают в генерации синтетических датасетов

Специалисты Петрозаводского госуниверситета разработали технологию, позволяющую создавать синтетические наборы данных для обучения нейронных сетей, что может снизить затраты на получение реальных данных.

👁️ 98
синтетические датасеты
Фото: trashbox

Специалисты Центра искусственного интеллекта, открытого в Петрозаводском государственном университете (ПетрГУ), представили новую технологию генерации синтетических наборов данных—датасетов, необходимых для обучения нейронных сетей. Ученые отметили, что основой их разработки стала модель виртуального пространства, которая в дальнейшем позволит создавать экономически выгодный контент, легко адаптирующийся под запросы заказчиков.

«В наш центр регулярно поступают заявки от крупных промышленных предприятий, в том числе федерального уровня, на разработку различных решений в области видеоаналитики. Например, задачи по фиксации нарушений техники безопасности и охраны труда сотрудниками. Для решения таких задач, как правило, требуется обучение нейронных сетей на реальных данных, фотографиях или видеозаписях. Получить такой набор данных для простых объектов, например, кошек, машин, достаточно просто. Но когда речь идет о сложном производственном процессе, собрать такие данные либо невозможно, либо крайне дорого. Возникает потребность имитации, и здесь приходят на помощь технологии виртуальной реальности. Создается 3D-модель той или иной ситуации, процесса, явления, и на ее основе собирается датасет.»
Алексей Марахтанов, директор центра

Свою работу сотрудники ПетрГУ начали с обучения нейросети, способной распознавать средства индивидуальной защиты, используя для этого синтетические данные.

«Сотрудники нашего центра создали виртуальное производственное помещение с работниками, максимально похожими на настоящих людей. В этом виртуальном цехе были установлены камеры, которые производили съемку с различных ракурсов. Мы использовали анимацию для воспроизведения различных ситуаций. В результате разработаны сцены с рабочими, которые соблюдают правила или пренебрегают средствами индивидуальной защиты при выполнении потенциально опасных работ.»
Алексей Марахтанов, директор центра

В результате работы ученым удалось создать датасет, который включает более 70 000 изображений. Они также отметили, что при использовании 3D-моделирования данные собираются заранее размеченными, что значительно ускоряет процесс обработки.

«В целом, нам удалось доказать, что нейронная сеть, обученная на синтетическом датасете, показывает результаты, сопоставимые с обучением на реальных данных. Например, для каски, как средства индивидуальной защиты, точность превышает 99%, а по детекции более сложного объекта — защитных очков — 95%.»
Алексей Марахтанов, директор центра искусственного интеллекта ПетрГУ

Работы по разработке технологии генерации синтетических датасетов начались в начале прошлого года, а пилотная стадия будет завершена в 2025 году. В Петрозаводском университете планируют создать полноценную платформу для обучения нейронных сетей на основании своей разработки.