Все публикации подряд (habrahabr_ru) wrote,
Все публикации подряд
habrahabr_ru

Как мы анализируем предпочтения пользователей виртуальных ассистентов Салют

https://habr.com/ru/post/547568/?utm_source=habrahabr&utm_medium=rss&utm_campaign=547568

Приветствую всех! Меня зовут Ибрагим, я работаю в SberDevices и занимаюсь машинным обучением. Сегодня я расскажу о том, как мы находим и анализируем интересы и предпочтения пользователей наших виртуальных ассистентов Салют.

Также поделюсь видео с моего недавнего выступления на онлайн-конференции «Применение ML в Digital-продуктах», которую проводили коллеги из AGIMA и Epoch8.


В этом посте мы разберём следующее:

  • где можно искать данные, если для задачи нет готового датасета; 
  • как можно быстро и дёшево увеличить размер своего датасета;
  • как использовать кластеризацию сырых данных;
  • какие есть методы улучшения качества датасета после разметки.

Вступление


Работая над виртуальными ассистентами, нам часто необходимо обучать специфические модели-классификаторы, которые решают свою узкую задачу. У таких задач есть несколько особенностей:

  • отсутствие готовых датасетов;
  • отсутствие чёткой структуры классов, на которые можно разделить данные;
  • наличие сырых логов, в которых могут быть интересующие нас данные;
  • сильный дисбаланс классов, где самый многочисленный класс – это класс нерелевантной информации.

Для решения подобных задач, мы выработали определенный пайплайн – последовательность шагов, которая позволяет быстро и дёшево обучить нужную модель. Ниже рассмотрим процесс обучения модели для классификации интересов пользователей.
Читать дальше →
Subscribe
  • Post a new comment

    Error

    default userpic
    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments