2010-01-20 5 views
0

У меня есть куча данных, собранных с форума, который у меня есть, и хотел бы сделать некоторый интеллектуальный анализ текста или использовать некоторую лингвистическую библиотеку для извлечения полезной информации.библиотека ввода текста или языковая библиотека?

любая текстовая обработка, библиотека интеллектуального анализа данных на любом языке.

спасибо.

+1

Что бы вы хотели? Иногда сложнее определить проблему, чем решение. –

ответ

0

Mallet - это Java-библиотека, предназначенная для интеллектуального анализа текста. Как только вы предварительно обработали текстовые данные, для вашей задачи также будет полезен общий инструмент для интеллектуального анализа данных, такой как Weka.

Если у вас есть доступ к SPSS или SAS, их продукты должны быть проще в использовании.

2

Возможно, вам понравится Python NLTK (Natural Language ToolKit): он специально разработан для такого рода вещей.

Существует также great book, в котором вы можете только начать работу.

4

Я рекомендую вам иметь a look at R. Он имеет большое количество пакетов для интеллектуального анализа текста: have a look at the Natural Language Processing view. В частности, посмотрите на пакет tm. Вот некоторые соответствующие ссылки:

Другой пример полезного пакета для этого Gary King's readme package.

0

Попробуйте GATE, он имеет графический интерфейс и, конечно, вы можете использовать Java API для получения дополнительной мощности: http://gate.ac.uk/family/developer.html

Вы также можете использовать Weka для обработки текста и делать анализ текста, взглянуть на эти полезные лекции: http://sentimentmining.net/weka/

+0

Некоторые из лекций weka, похоже, нарушили ссылки на скачивание. – NilsHaldenwang

0

stanford core-nlp хорошо подходит для текста на английском языке и имеет такие функции, как распознавание имен и имен. Посмотрите на: http://nlp.stanford.edu/software/corenlp.shtml

GATE, который уже рекомендовал Ehsan, также хорош, но это может быть немного сложно, если вам нужно написать свои собственные компоненты. Для крупномасштабных вещей это здорово.

UIMA похож на GATE, но не так прост в использовании, потому что в нем нет обширного графического интерфейса, такого как GATE. (http://uima.apache.org)

 Смежные вопросы

  • Нет связанных вопросов^_^