Добавить новость
smi24.net
News in English
Май
2024

Here’s how machine learning can violate your privacy

0

Machine learning has pushed the boundaries in several fields, including personalized medicineself-driving cars and customized advertisements. Research has shown, however, that these systems memorize aspects of the data they were trained with in order to learn patterns, which raises concerns for privacy.

In statistics and machine learning, the goal is to learn from past data to make new predictions or inferences about future data. In order to achieve this goal, the statistician or machine learning expert selects a model to capture the suspected patterns in the data. A model applies a simplifying structure to the data, which makes it possible to learn patterns and make predictions.

Complex machine learning models have some inherent pros and cons. On the positive side, they can learn much more complex patterns and work with richer datasets for tasks such as image recognition and predicting how a specific person will respond to a treatment.

However, they also have the risk of overfitting to the data. This means that they make accurate predictions about the data they were trained with but start to learn additional aspects of the data that are not directly related to the task at hand. This leads to models that aren’t generalized, meaning they perform poorly on new data that is the same type but not exactly the same as the training data.

While there are techniques to address the predictive error associated with overfitting, there are also privacy concerns from being able to learn so much from the data.

How machine learning algorithms make inferences

Each model has a certain number of parameters. A parameter is an element of a model that can be changed. Each parameter has a value, or setting, that the model derives from the training data. Parameters can be thought of as the different knobs that can be turned to affect the performance of the algorithm. While a straight-line pattern has only two knobs, the slope and intercept, machine learning models have a great many parameters. For example, the language model GPT-3, has 175 billion.

In order to choose the parameters, machine learning methods use training data with the goal of minimizing the predictive error on the training data. For example, if the goal is to predict whether a person would respond well to a certain medical treatment based on their medical history, the machine learning model would make predictions about the data where the model’s developers know whether someone responded well or poorly. The model is rewarded for predictions that are correct and penalized for incorrect predictions, which leads the algorithm to adjust its parameters – that is, turn some of the “knobs” – and try again.

To avoid overfitting the training data, machine learning models are checked against a validation dataset as well. The validation dataset is a separate dataset that is not used in the training process. By checking the machine learning model’s performance on this validation dataset, developers can ensure that the model is able to generalize its learning beyond the training data, avoiding overfitting.

While this process succeeds at ensuring good performance of the machine learning model, it does not directly prevent the machine learning model from memorizing information in the training data.

Privacy concerns

Because of the large number of parameters in machine learning models, there is a potential that the machine learning method memorizes some data it was trained on. In fact, this is a widespread phenomenon, and users can extract the memorized data from the machine learning model by using queries tailored to get the data.

If the training data contains sensitive information, such as medical or genomic data, then the privacy of the people whose data was used to train the model could be compromised. Recent research showed that it is actually necessary for machine learning models to memorize aspects of the training data in order to get optimal performance solving certain problems. This indicates that there may be a fundamental trade-off between the performance of a machine learning method and privacy.

Machine learning models also make it possible to predict sensitive information using seemingly nonsensitive data. For example, Target was able to predict which customers were likely pregnant by analyzing purchasing habits of customers who registered with the Target baby registry. Once the model was trained on this dataset, it was able to send pregnancy-related advertisements to customers it suspected were pregnant because they purchased items such as supplements or unscented lotions.

Is privacy protection even possible?

While there have been many proposed methods to reduce memorization in machine learning methods, most have been largely ineffective. Currently, the most promising solution to this problem is to ensure a mathematical limit on the privacy risk.

The state-of-the-art method for formal privacy protection is differential privacy. Differential privacy requires that a machine learning model does not change much if one individual’s data is changed in the training dataset. Differential privacy methods achieve this guarantee by introducing additional randomness into the algorithm learning that “covers up” the contribution of any particular individual. Once a method is protected with differential privacy, no possible attack can violate that privacy guarantee.

Even if a machine learning model is trained using differential privacy, however, that does not prevent it from making sensitive inferences such as in the Target example. To prevent these privacy violations, all data transmitted to the organization needs to be protected. This approach is called local differential privacy, and Apple and Google have implemented it. Differential privacy is a method for protecting people’s privacy when their data is included in large datasets.

Because differential privacy limits how much the machine learning model can depend on one individual’s data, this prevents memorization. Unfortunately, it also limits the performance of the machine learning methods. Because of this trade-off, there are critiques on the usefulness of differential privacy, since it often results in a significant drop in performance.

Going forward

Due to the tension between inferential learning and privacy concerns, there is ultimately a societal question of which is more important in which contexts. When data does not contain sensitive information, it is easy to recommend using the most powerful machine learning methods available.

When working with sensitive data, however, it is important to weigh the consequences of privacy leaks, and it may be necessary to sacrifice some machine learning performance in order to protect the privacy of the people whose data trained the model. – Rappler.com

This story originally appeared on The Conversation.

Jordan Awan, Assistant Professor of Statistics, Purdue University








Один год в двадцатилетней истории Marins Москва Пражская

Время для душевных встреч

Карабахская земля горит под ногами оккупантов

UNOde50 представил коллекцию осень-зима 2025/26 (FW-2025/26): украшения как путь к себе


Weah’s agent: One Juventus director ‘is creating problems’

Today in History: July 28, US Army airplane crashes into Empire State Building

Chat log from R20 of 2025: Richmond vs Collingwood

Kolo Muani: Juventus prepare new offer but face Man United and Chelsea threat


Отечественные технологии для корпоративного рынка: СУБД Nexign Nord получила сертификат совместимости с Astra Linux

Деревенские прогулки...

Экс-руководителей Ростовского облсуда обвинили в получении взяток

Российская аналитическая платформа Modus BI теперь доступна клиентам Navicon


Fretless — The Wrath of Riffson — музыка спасёт мир. Рецензия

Quarantine Zone creator reveals 3 reasons the zombie sim went viral on TikTok

Bloody fighting game Invincible VS gets its most brutal character yet in Comic-Con trailer

Today's Wordle answer for Monday, July 28



Слушатели ENERGY отправятся на «Пикник Афиши» в Петербурге

Приключения в Дагестане: Comedy Radio рекомендует «Атель-Матель»

Только смелым покоряются моря

Сотрудница подразделения столичного главка Росгвардии завоевала «золото» на чемпионате войск по легкоатлетическому кроссу


МЧС: пострадавшие в санатории Кисловодска находятся в состоянии средней тяжести

Двое туристов из Тольятти пострадали в Кисловодске из-за обвала грунта

Лео Канделаки и Анжелика Стубайло сыграют в новую трэвел-игру «Кто куда» на ТНТ

Где живут и на чем ездят самые аварийные водители России?


Проблемный ЖК «Воскресенское» в Коммунарке ...

ББР Банк вошел в ТОП-30 по приросту и ТОП-100 по объему средств физлиц

"Главпродукт" стал государственной собственностью России по решению суда

Детёныш редкого кенгуру валлаби появился на свет в Московском зоопарке


Рублев покинул топ-10 мирового рейтинга ATP

Радукану вспомнила, как предложила Рыбакиной выступить в парном разряде

Кудерметова пробилась во второй раунд турнира в Монреале.

Александр Бублик посвятил супруге победу на турнире ATP-250 в Кицбюэле


После развода Петросяна остался долг за экспертизу: более полумиллиона рублей

Сотрудница подразделения столичного главка Росгвардии завоевала «золото» на чемпионате войск по легкоатлетическому кроссу

Какие новые пляжные отели открылись в Турции в этом году

Сбой в Аптеках «Столички»: В Москве из 780 точек работают только 9


Музыкальные новости

В Италии поднимается огромная общественная волна в поддержку Гергиева

Где похоронен Владимир Высоцкий

Ресторан рэпера Басты откроют в Красноярске

Брендовая сумочка, шикарные букеты и дорогие подарки: старшей дочери Джигана и Самойловой Ариеле исполнилось 14 лет


Сотрудница подразделения столичного главка Росгвардии завоевала «золото» на чемпионате войск по легкоатлетическому кроссу

Культовый BAW 212 уже в России

Приключения в Дагестане: Comedy Radio рекомендует «Атель-Матель»

Слушатели ENERGY отправятся на «Пикник Афиши» в Петербурге


В РПЦ объяснили отсутствие маркировки на святой воде в храмах

«Россети Центр» обеспечили электроэнергией объекты водоснабжения Смоленской области

Чемпионат по военно-спортивному многоборью среди росгвардейцев завершился в Грозном

Прокуратура: инцидент со сбоем систем "Аэрофлота" в Шереметьево на контроле


Культовый BAW 212 уже в России

ДТП с участием трех автомобилей произошло на внутренней стороне 104 километра МКАД

Сотрудники ОМОН Росгвардии помогли пострадавшему в ДТП на МКАД

В Москве 2 будет ограничено движение автомобилей


Путин: рост Сбербанка обеспечивает стабильность банковской системы.

"Ъ": Москва облегчила жизнь молдаванам в России

Греф представил Путину отчет о деятельности Сбербанка.

Путин поделился достижениями России в области технологий искусственного интеллекта.


Новый штамм COVID-19 переносится как легкая форма ОРВИ


Депутата ЗакСа Ленобласти Ивана Апостолевского задержали за пост с Навальным*


Врач-косметолог Мадина Осман: что такое липофилинг и кому он может быть показан

Врач-косметолог Зухра Балакеримова: как замедлить старение кожи

Клиника гнатологии – лечение ВНЧС и восстановление прикуса

Благотворительная акция ко Всемирному Дню офтальмологии от детских глазных клиник «Ясный Взор»


Чтобы убрать Зеленского, США достаточно показать ему одну папку: вот почему Киев упал в ноги Трампу


Чемпионат по военно-спортивному многоборью среди росгвардейцев завершился в Грозном

В День парашютиста героем рубрики «Знай наших» стал сотрудник вневедомственной охраны столичного главка Росгвардии младший лейтенант полиции Александр С.

Легкоатлеты из Мордовии показали лучшие результаты мирового сезона на международных соревнованиях в Москве

«Краснодар» и московское «Динамо» проведут сегодня первые матчи в Кубке России


Лукашенко взял на контроль ситуацию с уничтожением БПЛА над Минском

В Минске готовы активизировать сотрудничество с Эфиопией


Собянин рассказал, как строят станцию «Достоевская» Кольцевой линии метро

Собянин рассказал о тестировании уникальной ИИ-системы для диагностики инсульта

Мэр Москвы рассказал о развитии бывшей промзоны «Кирпичные улицы»

Собянин: Участие москвичей в жизни города — ключ ко всем позитивным изменениям


Александр Михайлов (GSOC): «Безопасность IT-экосистемы — это зона нулевого доверия к подрядчикам»

Число пострадавших от непогоды автомобилей растет

В Ростокине расскажут о млекопитающих Москвы

В Бузулукском бору в эти дни работает смена проекта «Заповедное дело РГО»


Россияне стали вторыми в синхронных прыжках с десятиметровой вышки на ЧМ

Сотрудница подразделения столичного главка Росгвардии завоевала «золото» на чемпионате войск по легкоатлетическому кроссу

ЦБ готовится к новому решению: как изменится ключевая ставка и что ждет рынок недвижимости

Путин: модернизация Военно-морского флота усилит защиту интересов России


Не чайные клиперы

В Архангельске представили киноальманах «Север, я люблю тебя!» по произведениям современных писателей

Деревенские прогулки...

В Архангельске с 29 июля перекрывается движение по участку набережной Северной Двины


В Севастополе пройдет масштабная выставка картин Александра Дейнеки

Сколько пассажиров прибывают в Крым летом на поездах ежедневно

В Крыму из-за дыма от пожара столкнулись девять автомобилей

К парню с костылем подошли трое с требованием уступить. Он был готов, но заступилась бабушка по соседству


Какие новые пляжные отели открылись в Турции в этом году

Московских учителей оштрафовали за нарушение правил проведения ОГЭ в СИЗО

ЦСКА близок к продаже бразильского защитника Келлвена в «Палмейрас» за € 7 млн

Сотрудница подразделения столичного главка Росгвардии завоевала «золото» на чемпионате войск по легкоатлетическому кроссу














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *