Свыше 150 млн веб-сайтов предоставляют доступ к конфиденциальным данным

Свыше 150 млн веб-сайтов предоставляют доступ к конфиденциальным данным

Кульминацией двух лет напряженной работы международной команды исследователей из Сетевого института IMDEA (Мадрид, Испания), технологических университетов Берлина (Германия) и Кипра стали обучаемые ИИ-классификаторы, способные выявлять веб-сайты, содержащие конфиденциальную информацию.

Авторы применили созданную ими технологию для поиска таких несоответствий среди примерно миллиарда URL-адресов, охватывающих бóльшую часть англоязычного Интернета. Результаты их работы обобщены в научном докладе, который будет представлен на конференции ACM по измерениями Интернете (IMC’20), проходящей 27-29 октября в г. Питтсбург (США).

Главным (и наиболее тревожным) открытием стало то, что около 150 миллионов веб-ресурсов содержат конфиденциальный контент, позволяющий увязать с конкретными личностями информацию, связанную со здоровьем, политическими убеждениями, сексуальной ориентацией и т. д.

«Наше, безусловно крупнейшее исследование по отслеживанию деликатных тем в Интернете показывает, что значительная его часть содержит контент конфиденциального характера. К сожалению, эти страницы, похоже, отслеживаются так же легко, как и остальная часть Интернета», — сказал Николаос Лаутарис (Nikolaos Laoutaris), профессор-исследователь IMDEA.

Законы о конфиденциальности, такие как GDPR, предназначены для использования, как правило, уже после их нарушения, например, для подачи жалоб, проведения расследований и даже передачи дел в суды. Однако с новыми автоматическими классификаторами дополнительные защитные меры впервые могут быть предприняты превентивно.

Так, браузер или дополнительная программа смогут предупредить пользователя ещё до нажатия им на гиперссылку для перехода по адресу, содержащему конфиденциальный контент. Посещение таких сайтов будет возможно только с заблокированными трекерами, при этом программа будет автоматически направлять жалобы в соответствующие инстанции.

Однако для всего вышеперечисленного прежде всего нужно иметь возможность автоматически определять в реальном времени, является ли веб-адрес конфиденциальным или нет. Международный коллектив исследователей рассчитывает предложить пользователям готовое технологическое решение уже в следующем году.

Источник: ko.com.ua