Лица без права на приватность: как фото людей превратили в сырьё для алгоритмов

Анубхав Джайн: перекос в распознавании лиц связан с проблемой обучающих данных

Искусственный интеллект, а особенно системы распознавания лиц, долгое время страдали от серьёзных перекосов. Ошибки чаще всего касались женщин и людей с тёмным цветом кожи, тогда как белые мужчины распознавались почти безупречно.

Последствия таких сбоев были реальными: блокировка телефонов, неправомерные аресты и рост недоверия к технологиям. Сегодня ситуация изменилась — точность лучших алгоритмов достигает 99,9%. Но вместе с прогрессом возникла новая дилемма: что ценнее — конфиденциальность или совершенство ИИ?

Почти безупречная точность — но какой ценой

"С близкого расстояния системы распознавания лиц почти совершенно точны", — сказал информатик Сяомин Лю из Мичиганского государственного университета.

Современные алгоритмы способны одинаково точно определять людей разных полов и расовых групп. Однако для обучения использовались миллионы фотографий, собранных в интернете без согласия владельцев. Это не только нарушает приватность, но и создаёт риск кражи личности.

Сравнение подходов к обучению

Метод	Преимущества	Недостатки
Реальные фотографии	Высокая точность, разнообразие условий	Нарушение конфиденциальности, перекосы
Синтетические лица	Безопасность, баланс по демографии	Ниже точность, "студийный" вид
Гибридный подход	Комбинация преимуществ	Сложность реализации

Как работает распознавание лиц

Прорыв произошёл в 2010-х с появлением свёрточных нейросетей (CNN). Они разбивают изображение на уровни признаков: от простых контуров до сложных черт лица. Результат кодируется в "шаблон" — набор чисел, уникальных для каждого человека.

Системы бывают двух типов:

"один к одному" (например, при разблокировке телефона),
"один ко многим" (поиск лица в базе данных).

Именно во втором случае в прошлом чаще всего возникали ошибки.

Ошибки прошлого

В 2018 году исследование выявило драматический перекос: тёмнокожих женщин некоторые системы путали с мужчинами.

В 2019 году NIST подтвердил проблему: алгоритмы ошибались в 10-100 раз чаще при идентификации азиатских и тёмнокожих лиц. В ряде случаев ошибки приводили к арестам невиновных.

"Перекос в моделях распознавания — это по сути проблема данных", — пояснил информатик Анубхав Джайн из Нью-Йоркского университета.

Советы шаг за шагом: как учат справедливые модели

Балансировка наборов данных по полу, возрасту и цвету кожи.
Применение функций потерь, которые заставляют алгоритмы одинаково точно учиться на всех группах.
Проверка моделей на демографическом разнообразии.
Использование синтетических изображений для восполнения пробелов.
Тонкая настройка алгоритмов на реальных фото с согласия людей.

А что если…

Что если генерация синтетических лиц станет нормой? Тогда отпадёт необходимость собирать миллионы фото из интернета. Но при этом рискуем получить модели, слишком "идеализированные" и плохо справляющиеся с реальными, "грязными" условиями.

Примеры исследований

В 2023 году исследователи создали датасеты с 10 000 синтетических лиц. Алгоритм, обученный на них, показал меньшую точность, но и меньший перекос: разница между группами сократилась в три раза по сравнению с моделью, обученной на реальных данных.

Это означает, что синтетика может стать важным инструментом, но пока не заменяет реальность.

FAQ

Почему ИИ ошибался чаще с женщинами и людьми с тёмной кожей?
Потому что в обучающих наборах было больше фото белых мужчин.

Можно ли доверять распознаванию лиц в аэропортах?
Сегодня точность очень высока, но остаются риски как технических, так и человеческих ошибок.

Станет ли синтетика решением проблемы приватности?
Вероятно, да, но только при гибридном подходе с реальными фото.

Мифы и правда

Миф: распознавание лиц теперь идеально.
Правда: в контролируемых условиях — да, но в реальной среде остаются сбои.
Миф: синтетические лица решают все проблемы.
Правда: они снижают риск утечки данных, но пока уступают в точности.
Миф: алгоритмы больше не дискриминируют.
Правда: перекосы уменьшились, но полностью не исчезли.

3 факта

• В базе Clearview AI, по оценкам, более 60 млрд изображений, собранных без согласия.
• IBM создала набор Diversity in Faces из миллиона фото, но тоже без разрешения владельцев.
• С 2018 года ошибка в алгоритмах снизилась более чем на 90%.

Исторический контекст

2010-е — внедрение CNN и массовый рост точности.
2018 — скандалы из-за дискриминации и исследований.
2023 — первые эксперименты с синтетическими лицами для обучения.

Баланс между точностью и правами

"Каждый человек, независимо от цвета кожи, пола или возраста, должен иметь равные шансы быть корректно распознанным", — сказал информатик Кетан Котвал из института Idiap.

Учёные согласны: лучше точный алгоритм, чем система, которая ошибается. Но они также признают, что вместе с ростом точности растёт и риск тотальной слежки.