2015-08-05 5 views
0

Как использовать WEKA для поиска ключевых фраз с контролируемым medo.контролируемый поиск ключевой фразы weka или другой инструмент

я должен узнать модель для извлечения ключевой фразы, поэтому у меня есть корпус для обучения (для каждого документа в correspending файл, который содержит ключевые фразы или ключевые слова)

Также у меня есть Corpus для испытания на контролируемую модели (docuement без keyphrases file), поэтому модель должна выводить список ключевых фраз для каждого документа.

Мой вопрос заключается в том, чтобы ввести документ в WEKA, я должен добавить для каждого документа

@attribute док струнной

@data «Docu1 ............ " "Docu2 ............" ... .. "DocuN ............"

Теперь, как ввести файлы которые содержат th ключевых фраз для каждого документа, чтобы узнать из модели?

ответ

1

Сначала вам нужно выбрать, какие функции использовать: самый базовый алгоритм, основанный только на значениях tf-idf. https://code.google.com/p/kea-algorithm/ Но вы также можете расширить эту функцию своими «задачами». Например, первое появление фразы и т. Д. В этой статье вы можете найти некоторые возможные функции: http://www.aclweb.org/anthology/S/S10/S10-1040.pdf Чем вам нужно выбрать алгоритм машинного обучения и обучить его обучению набору данных и оценить его на своем тестовом наборе.

+0

Этот вопрос похож на этот: http://stackoverflow.com/questions/20002095/how-to-use-weka-in-keyphrase-extraction-from-text-arguments –

+0

Или google предлагает api: https : //code.google.com/p/jatetoolkit/ –

+0

Спасибо, что я понимаю, что после подготовки модели с алгоритмом машинного обучения система сможет автоматически обнаруживать ключевые фразы и возвращать список кифр, если у вас есть любая идея о лучшем алгоритме для тестирования –