Добавить новость
smi24.net
News in English
Апрель
2024

SharpeRatio@k: Novel Metric for Evaluation of Risk-Return Tradeoff in Off-Policy Evaluation

0

SharpeRatio@k, a novel evaluation metric for Off-Policy Evaluation estimators, effectively measures the risk-return tradeoff of evaluating policies used in reinforcement learning and contextual bandits, which are typically ignored by conventional metrics, show scientists at Tokyo Tech. This novel metric, inspired from risk assessment in financial portfolio management, provides a more insightful evaluation of OPE, paving the way for improved policy selection.

Reinforcement learning (RL) is a machine learning technique that trains software by mimicking the trial-and-error learning process of humans. It has demonstrated considerable success in many areas that involve sequential decision-making. However, training RL models with real-world online tests is often undesirable as it can be risky, time-consuming and, importantly, unethical. Thus, using offline datasets that are naturally collected through past operations is becoming increasingly popular for training and evaluating RL and bandit policies.

In particular, in practical applications, the Off-Policy Evaluation (OPE) method is used to first filter the most promising candidate policies, called "top-k policies," from an offline logged dataset, and then use more reliable real-world tests, called online A/B tests, to choose the final policy. To evaluate the effectiveness of different OPE estimators, researchers have primarily focused on metrics such as the mean-squared error (MSE), RankCorr and Regret. However, these methods solely focus on the accuracy of OPE methods while failing to evaluate the risk-return tradeoff during online policy deployment. Specifically, MSE and RankCorr fail to differentiate whether near-optimal policies are underestimated or poor-performing policies are overestimated, while Regret focuses only on the best policy and overlooks the possibility of harming the system due to sub-optimal policies in online A/B tests.

Addressing this issue, a team of researchers from Japan, led by Professor Kazuhide Nakata from Tokyo Institute of Technology, developed a new evaluation metric for OPE estimators. "Risk-return measurement is crucial in ensuring safety in risk-sensitive scenarios such as finance. Inspired by the design principle of the financial risk assessment metric, Sharpe ratio, we developed SharpeRatio@k, which measures both potential risk and return in top-k policy selection," explains Prof. Nakata. The study was published in the Proceedings of the ICLR 2024 Conference.

SharpeRatio@k treats the top-k policies selected by an OPE estimator as a policy portfolio, similar to financial portfolios, and measures the risk, return and efficiency of the estimator based on the statistics of the portfolio. In this method, a policy portfolio is considered efficient when it contains policies that greatly improve performance (high return) without including poorly performing policies that negatively affect learning in online A/B tests (low risk). This method maximises return and minimises risk, thereby identifying the safest and most efficient estimator.

The researchers demonstrated the capabilities of this novel metric through example scenarios and benchmark tests and compared it with existing metrics. Testing revealed that SharpeRatio@k effectively measures the risk, return and overall efficiency of different estimators under varying online evaluation budgets, while existing metrics fail to do so. Additionally, it also addresses the overestimation and underestimation of policies. Interestingly, they also found that while in some scenarios it aligns with existing metrics, a better value of these metrics does not always result in a better SharpeRatio@k value.

Through these benchmarks, the researchers also suggested several future research directions for OPE estimators, including the need to use SharpeRatio@k for efficiency assessment of OPE estimators and the need for new estimators and estimator selection methods that account for risk-return tradeoffs. Furthermore, they also implemented their innovative metric in an open-source software for a quick, accurate and insightful evaluation of OPE.

Highlighting the importance of the study, Prof. Nakata concludes, "Our study shows that SharpreRatio@k can identify the appropriate estimator to use in terms of its efficiency under different behaviour policies, providing useful insight for a more appropriate estimator evaluation and selection in both research and practice."

Overall, this study enhances policy selection through OPE, paving the way for improved reinforcement learning.

Reference

Conference :
Title :
Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation
Related links :
Authors :
Haruka Kiyohara1*, Ren Kishimoto2*, Kosuke Kawakami2, Ken Kobayashi2, Kazuhide Nakata2, and Yuta Saito1
Affiliations :

1 Cornell University, USA

2 Tokyo Institute of Technology, Japan

* Corresponding author's email: nakata.k.ac@m.titech.ac.jp

School of Engineering
—Creating New Industries and Advancing Civilization—

Information on School of Engineering inaugurated in April 2016

School of Engineering

Schools, Departments, and Institute for Liberal Arts

Further Information

Professor Kazuhide Nakata

School of Engineering, Tokyo Institute of Technology

Email nakata.k.ac@m.titech.ac.jp
Tel +81-3-5734-3321

Contact

Public Relations Division, Tokyo Institute of Technology

Email media@jim.titech.ac.jp
Tel +81-3-5734-2975








Гастроэнтеролог Садыков: аппендицит из-за семечек арбуза или шелухи подсолнуха — миф

Marins Park Hotel Нижний Новгород – партнёр фестиваля «ПАРИ ФЕСТ 2025»

Стирание исторических следов как признание цивилизационного банкротства

Продвижение Песни в Импульсе Яндекс Музыка.


OpenAI launches GPT-5, its most powerful AI yet—will it be enough to stay ahead in today’s ruthless AI race? 

Man Utd have agreed deal with AC Milan for £40m star's exit, await player decision - report

Report: AC Milan’s Christian Pulisic set to team up with $87 million Manchester United star

Report: Liverpool decision hands advantage to Man United in midfielder pursuit


Гранатометчика ВСУ приговорили к 16 годам за преступления в Курской области

Под Орлом КамАЗ выехал на встречку и протаранил автомобиль

Два года с конфискацией "Гелика"

По подозрению в мошенничестве задержали замдиректора департамента мэрии Екатеринбурга


Находи идеальные места для персонажей-фигурок в «Is This Seat Taken?»

Modders are trying their hardest to add an NVMe SSD to the Switch 2, which is both impressive and something I'm not going to do

The US Air Force wants to test blowing up Cybertrucks because 'it is likely the type of vehicles used by the enemy may transition to Tesla Cyber trucks'

Mafia: The Old Country получила положительные оценки в Steam


Овочі можусть стати розкішшю для українців


Охранник из аэропорта Внуково стал моделью

Добро в каждой чашке: Елизавета Боярская, фонд «Жизнь в Движении» и сеть кофеен «Ягода» запускают авторский кофе для помощи детям с ОВЗ

«Бежим за Мечту — Ходить»: подростки на протезах пробегут марафон в Екатеринбурге

Метод Эффеком: Как перевернуть правила игры с помощью знаний


Индекс RGBI достиг максимума с февраля, Мосбиржа активно растет на фоне новостей

Британского наёмника Хейдена привезли в Москву: Психически нестабильный вэсэушник оказался в СИЗО

Собянин сообщил о сбитии 10 летевших на Москву беспилотников

Героическое участие армян в СВО. Часть шестнадцатая


Что будет работать в России даже при заблокированном интернете?

Парк усадьбы Петровско-Разумовское признан наследием ландшафтного искусства

Актера Ивана Краско похоронят в Комарово рядом с могилой сына

Почти 40 тысяч детей проверили на генетические заболевания в Подмосковье с января


Павлюченкова уступила 94-й ракетке мира на турнире WTA в Цинциннати

Самсонова уступила 125-й ракетке мира во втором раунде турнира в Цинциннати

Теннисистка Калинская пробилась в третий круг турнира в Цинциннати

Теннисист номер один мира прошёл отбор на итоговое соревнование ATP


Температура морской воды на крымских пляжах: 11 августа

Дегтярёв привёл в пример потолок зарплат в КХЛ, говоря о российском футболе

Половина молодых якутян думает об отъезде. В КСП назвали главную причину

Почти 40 тысяч детей проверили на генетические заболевания в Подмосковье с января


Музыкальные новости

Продвижение Песни в Импульсе Яндекс Музыка.

Посвященную Шостаковичу выставку открыли в Филармонии Петербурга

«Не крякай»: подруга Тимати Валя Иванова резко ответила на неожиданное сравнение с Леной Борщевой

Рилсмейкер. Услуги Рилсмейкера. Рилсмейкер в Москве.


Охранник из аэропорта Внуково стал моделью

«Бежим за Мечту — Ходить»: подростки на протезах пробегут марафон в Екатеринбурге

"Динамо" Карпина упустило победу над "Сочи" в конце матча

Добро в каждой чашке: Елизавета Боярская, фонд «Жизнь в Движении» и сеть кофеен «Ягода» запускают авторский кофе для помощи детям с ОВЗ


Сергей Собянин. Главное за день

РПЛ: «Зенит» забил в свои ворота и проиграл «Ахмату» Черчесова, а хет-трик Батракова помог «Локомотиву» обыграть «Спартак»

ЦСКА разгромил "Рубин" 5:1: дубль Глебова и блеск Мусаева!

ГК «КОРТРОС» — в числе лидеров страны по объему ввода жилья


Кино на Белой даче: какие фильмы чеховский музей покажет в августе

У Крымского моста скопилась очередь из 1,1 тысячи автомобилей

Процесс сошел с рельсов // Верховный суд определил пересмотреть дело о наезде Kia на трамвай

Москва: Новая эра зарядных станций для электромобилей с поддержкой инвесторов


Путин обратился с приветствием к участникам форума «Машук»

Российские акции демонстрируют уверенный рост на фоне ожиданий встречи Путина и Трампа

Bloomberg сообщает, что ЕС хочет провести переговоры с Трампом до встречи с Путиным

Медиа сообщили о предполагаемой локации встречи Путина и Трампа на Аляске




Компания «КЕНГУРУ.ПРО» подписала соглашение с сетью премиальных фитнес-студий PRO TRENER

Custom Clinic - это клиника в центре Санкт-Петербурга, где решают проблему выпадения волос комплексно и эффективно

«Бежим за Мечту — Ходить»: подростки на протезах пробегут марафон в Екатеринбурге

«Бежим за Мечту — Ходить»: подростки на протезах пробегут марафон в Екатеринбурге


В Киеве сделали заявление о территориальных уступках

После «успешных» переговоров с Вэнсом в Киеве вновь отвергли мирные инициативы


Росгвардейцы обеспечили безопасность фестиваля ЛИГА ТРИАТЛОНА & IRONSTAR МОСКВА 226 2025.

«Торпедо» и «Спартак» Кострома сразятся за три очка. «Торпедо» Москва — «Спартак» Кострома: прогноз и ставка

Компания «КЕНГУРУ.ПРО» подписала соглашение с сетью премиальных фитнес-студий PRO TRENER

"Динамо" Карпина упустило победу над "Сочи" в конце матча


Интервью Лукашенко на "Беларусь 1" стало примером пропагандистской одержимости

В Минске считают, что интервью Лукашенко превратили в пропагандистский опус


Собянин: с 2011 года в Москве привели в порядок более 90 км набережных

Сергей Собянин: С 2011 года в Москве привели в порядок более 90 км набережных

Собянин: Окончен основной этап благоустройства набережной в Покровском-Стрешневе

Собянин: Еще два направлявшихся к Москве БПЛА нейтрализованы силами ПВО


Было-стало. Какая улица вела на Москву, а привела в заповедник

Преимущества применения озона для очистки воды

Без морщин. Эксперты рассказали о плюсах изменения климата в Москве

США предостерегают о возможной крупной чрезвычайной ситуации


Почти 40 тысяч детей проверили на генетические заболевания в Подмосковье с января

Ультракороткофокусный лазерный проектор Hisense Smart Laser Cinema PT1 – теперь в России

Парк усадьбы Петровско-Разумовское признан наследием ландшафтного искусства

JA Resorts & Hotels выходит на рынок Великобритании с двумя аутентичными отелями в Шотландии


Льготные ипотеки на Дальнем Востоке активно получают участники СВО и сотрудники ОПК

В Алтайском крае не будут проводить проверку на предмет чрезмерного роста тарифов на ЖКУ

Полицейский погиб при задержании поджигателя релейного шкафа под Архангельском

Чёрный день календаря. 8 августа: Архангельская трагедия. Как ошибка пилота погубила рейс Як-40


Сергей Карякин: 7 августа на поезде из Москвы в Симферополь выехали участники специальной спортивно-образовательной программы «Шахматный лагерь Сергея Карякина», которая стартует в Международном детском центре «Артек»

Прогноз погоды в Крыму на понедельник

Прогноз погоды в Крыму на 11 августа

Подросток на Мersedes сбил пешехода на трассе в Керчь


«Желтый» уровень опасности из-за грозы с дождем объявлен в столичном регионе

Что будет работать в России даже при заблокированном интернете?

Актера Ивана Краско похоронят в Комарово рядом с могилой сына

Выставка имени Олега Табакова: на открытие пришли родители вдовы артиста — вот, что мама Зудиной говорит о покойном














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *