У каждого из нас есть право контролировать использование своих биометрических данных, к которым относится и цифровое описание уникальных черт лица. Проблема в том, что системы видеонаблюдения и аутентификации с функцией распознавания лиц основаны на «патологически памятливых» нейросетях. Однажды увидев лицо, нейросетевая модель запоминает его навсегда, создавая риски для приватности. Из-за этой особенности глубокой нейросети вас могут отслеживать, даже когда это не является необходимым и правомерным. Юридическое «право на забвение» вступает в конфликт со сложностью его реализации.
Эту проблему исследовал специалист лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» Михаил Захаров. Он разработал уникальный метод выборочного забывания лиц системами компьютерного зрения (CVS). Предложенный метод можно использовать для удаления образов лиц из различных систем биометрической идентификации, не нарушая их функциональность.
Напомним, что типовая модель распознавания лиц работает не с фотографиями, а с их цифровыми «отпечатками» — векторными представлениями. Это наборы чисел, которые кодируют ключевые признаки лица. Векторы находятся в скрытом пространстве (latent space) нейросети.
В ходе исследования Михаил выяснил, что существующие методы избирательного «забывания» не работают для исключения лиц из поисковой выдачи. Они лишь запутывают классификатор и не изменяют внутренние представления лиц в нейросети.
Именно компактность расположения векторов одного лица позволяет системе надёжно находить совпадения. Однако она же делает классические методы машинного забывания почти бесполезными. Большинство таких методов создавали для задач классификации изображений, где нужно забыть, например, класс «коты». Их цель — изменить границу решения модели. Для поиска по векторным представлениям эта граница вторична. Даже если модель «забудет» метку, сами векторы одного человека останутся близко друг к другу, и система по-прежнему сможет найти его по схожести «цифровых отпечатков».
Разработанный Михаилом подход получил название «метод рассеивания» (Dispersion). Вместо изменения границ решений или параметров модели он напрямую воздействует на геометрию пространства эмбеддингов.
Новый метод решает критическую проблему «машинного забывания» (machine unlearning) в системах распознавания лиц. В нём используется рассеивающая функция потерь (dispersion loss). Она рассеивает векторы одного кластера, разрушая его компактность. Модифицированная функция harddispersionloss обрабатывает наиболее близкие пары внутри кластера, что ускоряет процесс забывания. При этом не требуется переобучение модели и сохраняется высокий уровень распознавания остальных лиц.
Предложенный метод работает на разных наборах данных (CelebA, VGGFace2) без значительной доработки. Эксперименты показали, что качество поиска целевых идентичностей после «рассеивания» их эмбеддингов падает на 73–88% по ключевой метрике mAP (усреднённая средняя точность), что является численным подтверждением успешного забывания.
По другой метрике — R@1 (полнота на первом ранге) — примерно в половине случаев наиболее похожий результат поиска всё ещё может принадлежать «забытому» человеку. Это связано с фундаментальными ограничениями: наличием почти идентичных данных и изначально низким разбросом признаков у одного человека на выровненных фотографиях.
Для получения более контролируемого варианта агрессивного забывания необходимо комбинировать предложенный «геометрический» подход с другими техниками. Например, можно рассмотреть расширения в стиле SimCLR, в которых аугментированные представления одного и того же изображения явно рассеиваются в пространстве признаков.
Разработка приобретает особую актуальность на фоне ужесточения законодательства о биометрии и росте количества цифровых профилей граждан. Технология позволяет исполнять требования «права на забвение» и отзыва согласия на обработку биометрических данных без остановки работы инфраструктуры.
Предложенный метод может использоваться также для актуализации баз наблюдения, удаления биометрических представлений лиц уволенных сотрудников и сертификации систем компьютерного зрения по этическим стандартам.
Логическим этапом развития метода станет интеграция алгоритма рассеивания в открытые промышленные фреймворки (InsightFace и его аналоги). Это даст бизнесу и государству готовый инструмент для ответственной работы с биометрическими данными.
Сейчас во многих странах отмечается глобальный тренд: по требованию правительств и в рамках частной инициативы системы распознавания лиц начинают сертифицировать на соответствие этическим стандартам, что даёт их производителям конкурентное преимущество. Без выборочного забывания лиц такая сертификация попросту невозможна.
Подробнее читайте в научной статье «Машинное забывание лиц в задаче поиска на основе дисперсии эмбеддингов».
В России для этого предусмотрено два основных варианта. Если биометрические данные находятся в Единой биометрической системе, то запрос на их удаление подаётся через Госуслуги или МФЦ. Если же биометрия хранится в локальной базе конкретной компании, то подаётся заявление на имя директора этой компании.
Особый случай: если сотрудник использовал аутентификацию по лицу в системах СКУД (например, для прохода в офис), то его биометрия обрабатывалась в рамках трудовых отношений. Поэтому работодатель обязан прекратить обработку биометрических данных уволенного сотрудника в день прекращения трудового договора.
Источник


