Задача

X5 имеет возможность отправлять СМС клиентам, для того чтобы стимулировать их совершать покупки. Понятно, что имеет смысл делать коммуникацию только по тем клиентам, кто без нее не совершил бы покупку, а после нее - совершит. Необходимо разработать алгоритм, который сможет успешно предсказывать, каким клиентам стоит отправлять СМС, а каким нет.

 Видео про uplift

Критерий качества

В задачах моделирования uplift-а клиенты из тестовой выборки ранжируются по убыванию эффективности коммуникации. Из ранжированного списка выбирается топ 30% (наиболее перспективные). По выбранным 30% оценивается средняя добавленная конверсия. Простым языком, вычисляется средний прирост отклика при воздействии на клиента.

Призы

Призовой фонд задачи - 400 000 ₽! Команда-победитель получит 150 000 ₽, второе место - 100 000 ₽, третье - 50 000₽, а четвертое и пятое места - по 25 000 ₽.
Плюс номинация за лучшее выложенное в опенсорс решение в 50 000₽.
Разрешены команды до 4 человек, со всего мира. В каждой из задач Retail Hero можно участвовать в разных составах команд.

 Правила соревнования

Смысл uplift

В решении о том, кому стоит отправлять СМС, возможны 3 различные ситуации с различными эффектами:

  • +1: клиент совершил покупку после коммуникации, но если бы ее не было — не совершил бы;
  • 0: клиент совершит/не совершит покупку независимо от коммуникации;
  • -1: клиент не совершил покупку после коммуникации, но если бы коммуникации не было — совершил бы.

Данные

Участникам предоставляется несколько наборов данных для решения этой задачи. Общие данные:

  • clients.csv: информация о клиентах;
  • products.csv: информация о товарах;
  • purchases.csv: история покупок клиентов до момента рассылки.

Данные, относящиеся непосредственно к задаче:

  • uplift_train.csv: набор клиентов для обучения, с указанием treatment_flg — была ли совершена коммуникация, target — была ли совершена покупка после совершения коммуникации;
  • uplift_test.csv: список клиентов, для которых необходимо оценить uplift;
  • uplift_sample_submission.csv: пример файла с предсказаниями.

Формат решений

Для построения модели, участникам предоставляется обучающий набор клиентов uplift_train.csv с информацией о наличии коммуникации (treatment_flg) и совершение покупки (target).

Необходимо для каждого клиента из тестовой выборки uplift_test.csv оценить эффективность коммуникации (uplift). Имеет значение порядок оценок, а не их абсолютные значения. Результат должен быть представлен в виде CSV-файла с колонками client_id и uplift.

  client_id,uplift
008fb49e3a,0.1149912020897228
0095340acc,0.8353208872466903
015c0b4d79,0.3085840952650095
...
ff70c360ad,0.0809048695228205
ff86a1311b,0.4815832858531034
ffcccc2cc4,0.10523347182011245

Участникам также предоставляется базовый пример решения от организаторов.

Архив с материалами