Предположим, у меня есть функция определения местоположения. В данных поезда установлены его уникальные значения: «NewYork», «Chicago». Но в тестовом наборе есть «Нью-Йорк», «Чикаго», «Лондон». Итак, создавая одну горячую кодировку, как игнорировать «Лондон»? Другими словами, как не кодировать категории, которые появляются только в тестовом наборе?Как обрабатывать невидимые категориальные значения в наборе тестовых данных с помощью python?
2
A
ответ
0
Предполагая, что это ваши списки
train_data = ['NewYork', 'Chicago']
test_set = ['NewYork', 'Chicago', 'London']
Основываясь на ваш вопрос:
Как не кодировать категории, которые появляются только в тестовом наборе?
for each in test_set:
if filter(lambda element: each in element, train_data):
print each
Это выводит NewYork
& Chicago
, что означает London
пропускается.