2013-06-05 1 views
0

Например, терминыexperience, yrs, ctc должен указывать вопрос вакансий, badge, unlocked, связанных с четырьмя квадратами.Как получить разделы по темам для терминов?

Как получить предмет со своих условий? Я хочу анализировать менее формальный английский, например, электронные письма, твиты и т. Д. Есть ли для этого репозиторий данных и API? Могу ли я запросить Freebase для этого? Я предпочитаю то, что может быть самообслуживанием.

+0

Являются ли эти последствия (например, cv -> jobs) зависимыми от ваших конкретных данных или вообще? В вашей коллекции вы помечены документами (например, на рабочих местах), где появляются эти термины? – miguelmalvarez

+0

нет, мы не. Отсюда потребность в внешнем источнике. Мой плохой, не говоря уже об этом. – aitchnyu

ответ

1

Freebase включает WordNet, но на самом деле не так много, что поможет в решении этой задачи - по крайней мере, напрямую. Как предполагает Мигель с его вопросом, если у вас есть стандартные данные по золоту, вы можете обучить классификатор или набор классификаторов для своей проблемы. Другой вариант - заплатить за коммерческую услугу, чтобы сделать это.

0

@TomMorris был очень ясен с его ответом, и я согласен с тем, что FreeBase (или подобные подходы) могут использоваться только косвенно, потому что глобальная таксономия может не иметь прямого сопоставления с вашей проблемой.

Мой совет, и что я буду делать, если не может быть предоставлена ​​никакая тема информация следующая:

  1. Применение методов кластеризации для ваших данных.
  2. Попытайтесь решить (автоматически или нет) значение каждого кластера.
  3. Предположим, что весь документ в кластере принадлежит к этому классу.
  4. Используйте эту информацию для подачи классификатора.

Основные проблемы: 1. Я понятия не имею, о размере ваших данных, но это может быть проблемой для кластеризации и/или ручной маркировки кластеров. 2. Качество может быть ниже, чем при использовании ручных суждений.

Надеюсь, это даст вам хоть какие-то намеки.