1

Я хочу использовать svmstruct для моей Именованной сущности Задача распознавания. Некоторые из моих функций для каждого токена не в численном формате (в основном в текстовом формате, таком как n-char аффиксы или форма слова, ...). Поскольку формат ввода svmstruct такой же, как формат svmlight, я хотел бы знать, как мне преобразовать эти текстовые функции в числовые?Как подготовить входной файл для svmstruct

Все Bests

ответ

0

В основном вам нужно кодировать текстовые данные в виде двоичных категорий.

Например позволяет сказать, что у вас есть данные

affix shape 
============== 
ing  lower 
     initcap 
ed  allcaps 

Что вы хотите отправить svmstruct что-то вроде этого:

affix_ing:1 shape_lower:1 
shape_initcap:1 
affix_ed:1 shape_allcaps 

Теперь вы можете» t вы как идентификаторы столбцов, но svmstruct использует разреженный формат, поэтому вы можете использовать широко раздельные colu mn, если они уникальны.

Это отличное приложение для хэш-функции. Таким образом, метод состоит в том, чтобы составлять идентификаторы столбцов «на лету» и «фиктивные» кодировать ваши дискретные данные.

hash(colName + colValue) => 1 

В зависимости от ваших данных, возможно, не потребуется ColName. Может ли colName столкнуться с colValue?

Вы можете использовать функцию хэша, такую ​​как хэш-шумиха или cityhash, чтобы получить огромное пространство с быстрым вычислением и низкими столкновениями.