2016-06-22 9 views
0

У меня есть набор документов (текст нескольких строк текста). Я хотел бы сгруппировать их с помощью carrot2. В соответствии с XML-файлом, указанным в документации. Должен быть запрос и документы с фрагментами и URL-адресом и заголовком.Что нужно указать в URL-адресе в файле carrot2 xml?

Мои вопросы заключаются в следующем: -

  1. Что должно быть написано в компоненте запроса в файле XML ??
  2. Что следует указывать в качестве URL-адреса и названия документов, поскольку у меня нет ни одного из них. У меня просто есть документы (многострочные тексты), которые я извлек из набора данных.

Я думаю, что ответ на первый вопрос: *:*. Это верно?? Пожалуйста, помогите !!

Edit: -

carrot2-wordbench бросает java.lang.NullPointerException после указания файла XML и процесс прессования.

Я уверен, что ошибка связана с тем, что файл xml задан как вход.

Кто-нибудь знает о возможных ошибках с xml, которые могут заставить программу выбросить исключение?

Я не мог понять это в течение длительного времени.

ответ

1

Вы можете оставить поля заголовка и URL пустыми. Содержание заголовка, если оно присутствует, получает больше веса при кластеризации. Поле URL используется только для показа.