Как я могу обрабатывать неизвестные значения для кодировки меток в sk-learn? Кодировщик меток будет взорваться только за исключением того, что были обнаружены новые метки.Обработка неизвестных значений для кодировки меток
То, что я хочу это кодирование категориальных переменных через один докрасна -encoder. Однако sk-learn не поддерживает строки для этого. Поэтому я использовал кодировщик меток для каждого столбца.
Моя проблема заключается в том, что на моем этапе перекрестной проверки на конвейере отображаются неизвестные ярлыки. В базовом однострочном кодере есть возможность игнорировать такие случаи. Недостаточно apriori pandas.getDummies /cat.codes
, так как трубопровод должен работать с реальными свежими входящими данными, которые могут содержать неизвестные метки.
Можно ли использовать для этой цели CountVectorizer
?
У вас есть образец иллюстрации для такой цели? –
Можете ли вы поймать исключение, запишите его (или что-то еще), затем перейдите? Или просто игнорировать их? – wwii
Если интеллектуальная модель развернута как API, весьма вероятно, что она будет сталкиваться с еще неизвестными ярлыками функций. Как я могу справиться с этим в sklearn? Вы предложили бы распространять ошибку в API? –