2015-03-22 6 views
1

Ищете способ анализа текста для определенных характеристик, таких как:Как анализировать текст в Ruby?

  1. определить аббревиатуры и названия (ICANN, д-р г-н Ф. Д., и др.)
  2. жаргона
  3. уровень чтения
  4. наречия и прилагательные
  5. правильная грамматика и пунктуация
  6. активный и пассивный голос

Я посмотрел Stanford NLP library, но понятия не имею, о чем они говорят (возможно, потому, что у меня нет степени в лингвистике).

Есть ли рубиновый камень, который обеспечит такой анализ текста?

ответ

1

1.) Для аббревиатур вы можете украсть у нас: https://github.com/diasks2/pragmatic_segmenter/blob/master/lib/pragmatic_segmenter/abbreviation.rb. Что касается сокращений, список может быть бесконечным, так что это действительно зависит от того, что вы пытаетесь сделать. Вы можете попробовать регулярное выражение для извлечения сокращений.

2.) Не уверен, вы должны быть более конкретными в отношении того, что вы пытаетесь выполнить.

3.) Используйте драгоценный камень lingua и ознакомьтесь с этим tutorial.

4.) Проверьте engtagger, библиотеку Tagger of Ruby Party Of Speech.

5.) Я не знаю ни одной библиотеки, которая может автоматически определять правильные ошибки грамматики/пунктуации (так как было бы много случаев, когда нет четкого правильного ответа). Однако я сделал драгоценный камень, где человек может исправить предложение, и драгоценный камень автоматически покажет разницу между неправильным предложением и правильным предложением, включая количество ошибок, тип ошибок и т. Д. Он называется Chat Correct.

6.) Проверьте драгоценный камень под названием verbs.

+0

Благодарим вас за этот задумчивый ответ. Кажется, мне могут понадобиться разные инструменты для разных характеристик. –

1

Посмотрите драгоценный камень linkparser. Он анализирует целые предложения, вы можете, например, получить предмет, глагол, наречия и прилагательные. Я считаю, что вы можете также идентифицировать аббревиатуры и названия в предложении с этим драгоценным камнем.

https://github.com/ged/linkparser

Этого камень является оболочкой для более крупного проекта, Link-грамматики, под руководство команды Abiword.

http://www.abisource.com/projects/link-grammar/

Действительно интересный проект.