Все публикации подряд (habrahabr_ru) wrote,
Все публикации подряд
habrahabr_ru

[Перевод] Как быть, если ваша нейросеть включает в генерируемые тексты реальные телефонные номера лю

https://habr.com/ru/post/548216/?utm_source=habrahabr&utm_medium=rss&utm_campaign=548216

Как обуздать GPT-3


Компания OpenAI готовится к открытию коммерческого API к GPT-3, своей самой новой и крупной нейросети для генерации текста. В рамках подготовки компания создаёт систему фильтрации контента, чтобы не давать ей публиковать личную информацию людей.

Инженеры разрабатывают эту систему, к примеру, для того, чтобы она не выдавала личные телефоны людей. Работа идёт уже более года, и в лаборатории машинного обучения из Сан-Франциско предполагают, что выпустят API уже в этом году.

Зачем нужен такой фильтр?


В декабре 2020 года специалисты по информатике из различных учебных заведений и компаний – например, Стэнфорда, Калифорнийского университета в Беркли, OpenAI и Google – в совместной работе показали, что GPT-2, предшественницу GPT-3, можно спровоцировать на включение в генерируемый ею текст персональной информации людей. Такая информация может включать имена людей, их адреса, телефонные номера и номера социальной страховки.

Более того, команда обнаружила, что не менее чем в 0,1% всех текстов, которые генерировала GPT-2 – и это по консервативным оценкам – цитируются длинные отрезки текста из документов, входящих в обучающий набор данных. Иначе говоря, в миллионах страниц публично доступного текста, собранных с интернета для обучения нейросети, содержится утекшая или ошибочно опубликованная личная информация, или же защищённый авторский правом контент. И все эти данные попадают в выдаваемый GPT-2 текст.
Читать дальше →
Subscribe
  • Post a new comment

    Error

    default userpic
    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments