2

Предположим, у меня есть функция определения местоположения. В данных поезда установлены его уникальные значения: «NewYork», «Chicago». Но в тестовом наборе есть «Нью-Йорк», «Чикаго», «Лондон». Итак, создавая одну горячую кодировку, как игнорировать «Лондон»? Другими словами, как не кодировать категории, которые появляются только в тестовом наборе?Как обрабатывать невидимые категориальные значения в наборе тестовых данных с помощью python?

ответ

0

Предполагая, что это ваши списки

train_data = ['NewYork', 'Chicago'] 
test_set = ['NewYork', 'Chicago', 'London'] 

Основываясь на ваш вопрос:

Как не кодировать категории, которые появляются только в тестовом наборе?

for each in test_set: 
    if filter(lambda element: each in element, train_data): 
     print each 

Это выводит NewYork & Chicago, что означает London пропускается.

 Смежные вопросы

  • Нет связанных вопросов^_^