Лицо и цифровая сетка
Лицо и цифровая сетка
Арина Михайлова Опубликована сегодня в 14:36

Лица без права на приватность: как фото людей превратили в сырьё для алгоритмов

Анубхав Джайн: перекос в распознавании лиц связан с проблемой обучающих данных

Искусственный интеллект, а особенно системы распознавания лиц, долгое время страдали от серьёзных перекосов. Ошибки чаще всего касались женщин и людей с тёмным цветом кожи, тогда как белые мужчины распознавались почти безупречно.

Последствия таких сбоев были реальными: блокировка телефонов, неправомерные аресты и рост недоверия к технологиям. Сегодня ситуация изменилась — точность лучших алгоритмов достигает 99,9%. Но вместе с прогрессом возникла новая дилемма: что ценнее — конфиденциальность или совершенство ИИ?

Почти безупречная точность — но какой ценой

"С близкого расстояния системы распознавания лиц почти совершенно точны", — сказал информатик Сяомин Лю из Мичиганского государственного университета.

Современные алгоритмы способны одинаково точно определять людей разных полов и расовых групп. Однако для обучения использовались миллионы фотографий, собранных в интернете без согласия владельцев. Это не только нарушает приватность, но и создаёт риск кражи личности.

Сравнение подходов к обучению

Метод Преимущества Недостатки
Реальные фотографии Высокая точность, разнообразие условий Нарушение конфиденциальности, перекосы
Синтетические лица Безопасность, баланс по демографии Ниже точность, "студийный" вид
Гибридный подход Комбинация преимуществ Сложность реализации

Как работает распознавание лиц

Прорыв произошёл в 2010-х с появлением свёрточных нейросетей (CNN). Они разбивают изображение на уровни признаков: от простых контуров до сложных черт лица. Результат кодируется в "шаблон" — набор чисел, уникальных для каждого человека.

Системы бывают двух типов:

  • "один к одному" (например, при разблокировке телефона),

  • "один ко многим" (поиск лица в базе данных).

Именно во втором случае в прошлом чаще всего возникали ошибки.

Ошибки прошлого

В 2018 году исследование выявило драматический перекос: тёмнокожих женщин некоторые системы путали с мужчинами.

В 2019 году NIST подтвердил проблему: алгоритмы ошибались в 10-100 раз чаще при идентификации азиатских и тёмнокожих лиц. В ряде случаев ошибки приводили к арестам невиновных.

"Перекос в моделях распознавания — это по сути проблема данных", — пояснил информатик Анубхав Джайн из Нью-Йоркского университета.

Советы шаг за шагом: как учат справедливые модели

  1. Балансировка наборов данных по полу, возрасту и цвету кожи.

  2. Применение функций потерь, которые заставляют алгоритмы одинаково точно учиться на всех группах.

  3. Проверка моделей на демографическом разнообразии.

  4. Использование синтетических изображений для восполнения пробелов.

  5. Тонкая настройка алгоритмов на реальных фото с согласия людей.

А что если…

Что если генерация синтетических лиц станет нормой? Тогда отпадёт необходимость собирать миллионы фото из интернета. Но при этом рискуем получить модели, слишком "идеализированные" и плохо справляющиеся с реальными, "грязными" условиями.

Примеры исследований

В 2023 году исследователи создали датасеты с 10 000 синтетических лиц. Алгоритм, обученный на них, показал меньшую точность, но и меньший перекос: разница между группами сократилась в три раза по сравнению с моделью, обученной на реальных данных.

Это означает, что синтетика может стать важным инструментом, но пока не заменяет реальность.

FAQ

Почему ИИ ошибался чаще с женщинами и людьми с тёмной кожей?
Потому что в обучающих наборах было больше фото белых мужчин.

Можно ли доверять распознаванию лиц в аэропортах?
Сегодня точность очень высока, но остаются риски как технических, так и человеческих ошибок.

Станет ли синтетика решением проблемы приватности?
Вероятно, да, но только при гибридном подходе с реальными фото.

Мифы и правда

  • Миф: распознавание лиц теперь идеально.
    Правда: в контролируемых условиях — да, но в реальной среде остаются сбои.

  • Миф: синтетические лица решают все проблемы.
    Правда: они снижают риск утечки данных, но пока уступают в точности.

  • Миф: алгоритмы больше не дискриминируют.
    Правда: перекосы уменьшились, но полностью не исчезли.

3 факта

• В базе Clearview AI, по оценкам, более 60 млрд изображений, собранных без согласия.
• IBM создала набор Diversity in Faces из миллиона фото, но тоже без разрешения владельцев.
• С 2018 года ошибка в алгоритмах снизилась более чем на 90%.

Исторический контекст

  1. 2010-е — внедрение CNN и массовый рост точности.

  2. 2018 — скандалы из-за дискриминации и исследований.

  3. 2023 — первые эксперименты с синтетическими лицами для обучения.

Баланс между точностью и правами

"Каждый человек, независимо от цвета кожи, пола или возраста, должен иметь равные шансы быть корректно распознанным", — сказал информатик Кетан Котвал из института Idiap.

Учёные согласны: лучше точный алгоритм, чем система, которая ошибается. Но они также признают, что вместе с ростом точности растёт и риск тотальной слежки.

Читайте также

Элоиза Погджо: телескоп Gaia выявил гигантскую волну в диске Млечного Пути сегодня в 6:18

Волна длиной в галактику: космос показал движение, которое невозможно остановить

Астрономы нашли в Млечном Пути гигантскую "волну", охватывающую миллиарды звёзд. Но что вызвало это движение и как оно повлияет на галактику?

Читать полностью »
The Washington Post: на Земле осталось всего 50 китов Райса сегодня в 5:03

Только что открытый вид китов уже вымирает: в мире живы считанные десятки животных

Новый вид китов был признан совсем недавно, но его численность катастрофически мала. Учёные опасаются, что он может исчезнуть уже в этом веке.

Читать полностью »
Китайские инженеры заявили о запуске сверхзвукового самолёта Da Sheng к 2030 году сегодня в 4:12

Скорость, шум и миллиарды: что скрывает китайская ставка на сверхзвуковую авиацию

Китайский дрон Cuantianhou обещает скорость в два раза выше "Конкорда" и открывает путь к пассажирскому лайнеру Da Sheng. Удастся ли проекту изменить авиацию?

Читать полностью »
Учёные: в Байкале обитает каннибал среди рыб — байкальский голомянка сегодня в 3:52

Самое древнее озеро Земли скрывает тёмную тайну: в его глубинах обитает рыба-людоед

Байкал хранит тайны не только в своих глубинах, но и на поверхности. Уникальная рыба и загадочные ледяные кольца до сих пор удивляют учёных.

Читать полностью »
Бруно Лаэнг: оптическая иллюзия вызывает расширение зрачков у людей сегодня в 2:25

Чёрная дыра на бумаге: рисунок, от которого зрачки расширяются сами собой

Учёные из Осло показали, что простое изображение способно вызвать реальную реакцию зрачков — но только у части людей. Почему так происходит, до сих пор загадка.

Читать полностью »
Исследование 2024 года: ученые в Японии нашли гибридов гигантских саламандр сегодня в 1:49

170 миллионов лет истории — и всё впустую: гибриды саламандр ставят под угрозу древний вид

Гибриды гигантских саламандр усложняют сохранение этих живых ископаемых. Почему они появились и чем это грозит редким видам.

Читать полностью »
Орегонский университет: эксперимент показал возможность ЭКО с клетками кожи сегодня в 0:31

Из кожи в жизнь: первая попытка сделать человеческую яйцеклетку без природы

Учёные смогли создать человеческие яйцеклетки из клеток кожи и превратить их в эмбрионы. Но получится ли довести технологию до клиники?

Читать полностью »
Arthritis Care and Research: хруст в коленях не связан с артритом вчера в 23:15

Не всё, что хрустит, — это плохо: как хруст в коленях может не быть опасным для вашего здоровья

Новое исследование опровергло миф о том, что хруст в коленях всегда предсказывает развитие артрита. Это не всегда связано с долгосрочными проблемами.

Читать полностью »