В основном вам нужно кодировать текстовые данные в виде двоичных категорий.
Например позволяет сказать, что у вас есть данные
affix shape
==============
ing lower
initcap
ed allcaps
Что вы хотите отправить svmstruct что-то вроде этого:
affix_ing:1 shape_lower:1
shape_initcap:1
affix_ed:1 shape_allcaps
Теперь вы можете» t вы как идентификаторы столбцов, но svmstruct использует разреженный формат, поэтому вы можете использовать широко раздельные colu mn, если они уникальны.
Это отличное приложение для хэш-функции. Таким образом, метод состоит в том, чтобы составлять идентификаторы столбцов «на лету» и «фиктивные» кодировать ваши дискретные данные.
hash(colName + colValue) => 1
В зависимости от ваших данных, возможно, не потребуется ColName. Может ли colName столкнуться с colValue?
Вы можете использовать функцию хэша, такую как хэш-шумиха или cityhash, чтобы получить огромное пространство с быстрым вычислением и низкими столкновениями.