2008-08-24 8 views
10

Я ищу существующую библиотеку для обобщения или перефразирования контента (я нацелен на сообщения в блоге) - какой-либо опыт работы с существующими библиотеками обработки естественного языка?Какая библиотека естественного языка используется для перефразирования?

Я открыт для различных языков, поэтому меня больше интересуют способности & точность.

ответ

0

Вы попадаете в очень отдаленный домен типа AI. Я сделал обширную работу по преобразованию текста в машинные знания, в основном используя Attempto Controlled English (см.: http://attempto.ifi.uzh.ch/site/), это естественный язык (английский), который полностью обрабатывается компьютером в нескольких разных онтологиях, таких как OWLDL.

Похоже, что бы мы путь излишества, хотя ...

Есть ли причина не только делают первые несколько предложений вашего блоге, а затем добавления эллипса для вашего резюме?

0

Спасибо за эти ссылки. Похоже, что GROK мертв, но он может работать для моих целей.

еще 2 ссылки:

Attempto Controlled Английский интересная концепция: поскольку это совершенно обратный способ смотреть на эту проблему. Не совсем практично для того, что я пытаюсь сделать.

@mmattax Что касается предложения взять несколько предложений - я не пытаюсь представить резюме: в противном случае это было бы хорошим решением judo. Я хочу на самом деле обобщить содержание для других целей оценки.

0

Может хочет попробовать GATE или с закрытым исходным кодом, запатентованный и дорогостоящей TextAnalyst COM API

5

Я думаю, что он хочет, чтобы генерировать сообщения пользователя автоматически перефразировать то, что было это блог этой системой является мониторингом.

Это было бы действительно интересно, если бы вы могли объединить от 2 до 10 должностей в блогах, которые похожи, но из разных источников, а затем автоматически перефразируют «реальное» резюме (размер 1 сообщения в блоге).

Это также может быть отлично подходит для домашних заданий. К сожалению, это не так просто сделать.

Единственный способ, которым я мог видеть, - это разложить каждое предложение на «значение», а затем случайным образом изменить структуру предложения и некоторые слова, сохраняющие значение.

Эти предложения означают то же самое:

  • Я ненавижу этого парня, он настолько глуп.
  • Этот парень глуп, я его ненавижу.
  • Я презираю этого немого парня.
  • Он немой, я ненавижу его.

Было бы нетривиально написать программу для преобразования одного из этих предложений в другие, и это простые предложения, реальные предложения из блогов намного сложнее.

9

Было некоторое обсуждение Грока. Теперь это поддерживается как OpenCCG, а также будет переопределено в OpenNLP.

Вы можете найти OpenCCG по адресу http://openccg.sourceforge.net/. Я также предложил бы парсер Curran и Clark CCG, который можно найти здесь: http://svn.ask.it.usyd.edu.au/trac/candc/wiki

В принципе, для перефразирования вам нужно написать то, что сначала анализирует предложения сообщений в блоге, извлекает смысловое значение этих сообщения, а затем выполняет поиск по пространству слов словаря, которые будут композиционно создавать одно и то же семантическое значение, а затем выбрать тот, который не соответствует текущему предложению. Это займет много времени, и это может не иметь большого смысла. Не забывайте, что для этого вам понадобится почти идеальное разрешение анафоры и возможность забрать выводы на уровне дискурса.

Если вы просто хотите сделать записи в блоге, которые не имеют идентифицируемого машиной дублирующегося содержимого, вы всегда можете просто использовать преобразования темы и фокуса и синонимы WordNet. Там определенно были сайты, которые внесли деньги в AdWords, которые сделали это раньше.

 Смежные вопросы

  • Нет связанных вопросов^_^