2015-01-27 5 views
2

У меня есть FileSystem источник данных, и я создал dataconfig для того, чтобы запустить DIH dataconfig являетсяDataImportHandler DIH для FileSystem DataSource

 
<?xml version="1.0" encoding="UTF-8"?> 
<dataConfig> 
    <dataSource type="FileDataSource" /> 
    <document> 
     <entity name="pdf" processor="FileListEntityProcessor" baseDir="/path/to/my/pdf" fileName=".*pdf" newerThan="'NOW-3DAYS'" recursive="true" rootEntity="false" dataSource="pdf"> 
     </entity> 
    </document> 
</dataConfig> 

и когда я бегу DIH, это дает
индексирование завершено , Добавлено/Обновлено: 0 документов. Удалено 0 документов.
запросы: 0, Извлечена: 35924, пропущено: 0, Обработано: 0

Любая идея, почему он не обрабатывал какого-либо документа?

ответ

1

Спасибо, я это сделал, и ниже необходимого dataconfig

 
<?xml version="1.0" encoding="UTF-8"?> 
<dataConfig> 
    <dataSource type="BinFileDataSource" /> 
    <document> 
     <entity name="pdf" processor="FileListEntityProcessor" baseDir="/path/to/my/pdf" fileName=".*pdf" newerThan="'NOW-3DAYS'" recursive="true" rootEntity="false" dataSource="null"> 
      <field column="fileAbsolutePath" name="id" /> 
      <entity name="documentImport" processor="TikaEntityProcessor" url="${pdf.fileAbsolutePath}" format="text"> 
       <field column="text" name="text"/> 
      </entity> 
     </entity> 
    </document> 
</dataConfig> 
0

У вас нет корневого объекта в вашей конфигурации; у вас есть только одна сущность, и она имеет rootEntity = "false", поэтому из нее не создаются никакие документы.

Вам также необходимо определить некоторые «полевые» строки внутри вашего объекта, чтобы отобразить информацию о файле в поля вашей схемы; этот вопрос indexing all documents in doc folder in to solr FileListEntityProcessor делает что-то похожее на то, что вам нужно.

+0

Спасибо Yann, Раджеш, в ссылке вы предоставили страдает, как хорошо, и он не получил ответа :(. Re rootEntity : По умолчанию сущности, подпавшие под документ, являются корневыми объектами. Если для него установлено значение false, объект, непосредственно попадающий под этот объект, будет рассматриваться как корневой объект. Не могли бы вы поделиться примером dataconfig для источника данных файловой системы, если у вас есть? – Alaa

+0

У меня нет ничего похожего на ваш случай (я загружаю CSV-файлы, которые затем обрабатываю через скрипт). Еще одна вещь, которую я вижу в вашем скрипте: вы не указали свои данные source (в теге источника данных), а в сущности (теге объекта) вы ссылаетесь на источник данных «pdf», который также является именем объекта, что кажется неправильным? – Yann

+0

Например: '' и '' – Yann

 Смежные вопросы

  • Нет связанных вопросов^_^