
Лица без права на приватность: как фото людей превратили в сырьё для алгоритмов
Искусственный интеллект, а особенно системы распознавания лиц, долгое время страдали от серьёзных перекосов. Ошибки чаще всего касались женщин и людей с тёмным цветом кожи, тогда как белые мужчины распознавались почти безупречно.
Последствия таких сбоев были реальными: блокировка телефонов, неправомерные аресты и рост недоверия к технологиям. Сегодня ситуация изменилась — точность лучших алгоритмов достигает 99,9%. Но вместе с прогрессом возникла новая дилемма: что ценнее — конфиденциальность или совершенство ИИ?
Почти безупречная точность — но какой ценой
"С близкого расстояния системы распознавания лиц почти совершенно точны", — сказал информатик Сяомин Лю из Мичиганского государственного университета.
Современные алгоритмы способны одинаково точно определять людей разных полов и расовых групп. Однако для обучения использовались миллионы фотографий, собранных в интернете без согласия владельцев. Это не только нарушает приватность, но и создаёт риск кражи личности.
Сравнение подходов к обучению
Метод | Преимущества | Недостатки |
---|---|---|
Реальные фотографии | Высокая точность, разнообразие условий | Нарушение конфиденциальности, перекосы |
Синтетические лица | Безопасность, баланс по демографии | Ниже точность, "студийный" вид |
Гибридный подход | Комбинация преимуществ | Сложность реализации |
Как работает распознавание лиц
Прорыв произошёл в 2010-х с появлением свёрточных нейросетей (CNN). Они разбивают изображение на уровни признаков: от простых контуров до сложных черт лица. Результат кодируется в "шаблон" — набор чисел, уникальных для каждого человека.
Системы бывают двух типов:
-
"один к одному" (например, при разблокировке телефона),
-
"один ко многим" (поиск лица в базе данных).
Именно во втором случае в прошлом чаще всего возникали ошибки.
Ошибки прошлого
В 2018 году исследование выявило драматический перекос: тёмнокожих женщин некоторые системы путали с мужчинами.
В 2019 году NIST подтвердил проблему: алгоритмы ошибались в 10-100 раз чаще при идентификации азиатских и тёмнокожих лиц. В ряде случаев ошибки приводили к арестам невиновных.
"Перекос в моделях распознавания — это по сути проблема данных", — пояснил информатик Анубхав Джайн из Нью-Йоркского университета.
Советы шаг за шагом: как учат справедливые модели
-
Балансировка наборов данных по полу, возрасту и цвету кожи.
-
Применение функций потерь, которые заставляют алгоритмы одинаково точно учиться на всех группах.
-
Проверка моделей на демографическом разнообразии.
-
Использование синтетических изображений для восполнения пробелов.
-
Тонкая настройка алгоритмов на реальных фото с согласия людей.
А что если…
Что если генерация синтетических лиц станет нормой? Тогда отпадёт необходимость собирать миллионы фото из интернета. Но при этом рискуем получить модели, слишком "идеализированные" и плохо справляющиеся с реальными, "грязными" условиями.
Примеры исследований
В 2023 году исследователи создали датасеты с 10 000 синтетических лиц. Алгоритм, обученный на них, показал меньшую точность, но и меньший перекос: разница между группами сократилась в три раза по сравнению с моделью, обученной на реальных данных.
Это означает, что синтетика может стать важным инструментом, но пока не заменяет реальность.
FAQ
Почему ИИ ошибался чаще с женщинами и людьми с тёмной кожей?
Потому что в обучающих наборах было больше фото белых мужчин.
Можно ли доверять распознаванию лиц в аэропортах?
Сегодня точность очень высока, но остаются риски как технических, так и человеческих ошибок.
Станет ли синтетика решением проблемы приватности?
Вероятно, да, но только при гибридном подходе с реальными фото.
Мифы и правда
-
Миф: распознавание лиц теперь идеально.
Правда: в контролируемых условиях — да, но в реальной среде остаются сбои. -
Миф: синтетические лица решают все проблемы.
Правда: они снижают риск утечки данных, но пока уступают в точности. -
Миф: алгоритмы больше не дискриминируют.
Правда: перекосы уменьшились, но полностью не исчезли.
3 факта
• В базе Clearview AI, по оценкам, более 60 млрд изображений, собранных без согласия.
• IBM создала набор Diversity in Faces из миллиона фото, но тоже без разрешения владельцев.
• С 2018 года ошибка в алгоритмах снизилась более чем на 90%.
Исторический контекст
-
2010-е — внедрение CNN и массовый рост точности.
-
2018 — скандалы из-за дискриминации и исследований.
-
2023 — первые эксперименты с синтетическими лицами для обучения.
Баланс между точностью и правами
"Каждый человек, независимо от цвета кожи, пола или возраста, должен иметь равные шансы быть корректно распознанным", — сказал информатик Кетан Котвал из института Idiap.
Учёные согласны: лучше точный алгоритм, чем система, которая ошибается. Но они также признают, что вместе с ростом точности растёт и риск тотальной слежки.