«Содержимое» слишком велико при индексировании содержимого блоба для поиска Azure

Я настроил индексирование blob и полнотекстовый поиск Azure, как описано в этой статье: Indexing Documents in Azure Blob Storage with Azure Search.«Содержимое» слишком велико при индексировании содержимого блоба для поиска Azure

Некоторые из моих документов неудачу в индексатор, метание возвращающегося следующее сообщение об ошибке:

Field 'content' contains a term that is too large to process. The max length for UTF-8 encoded terms is 32766 bytes. The most likely cause of this error is that filtering, sorting, and/or faceting are enabled on this field, which causes the entire field value to be indexed as a single term. Please avoid the use of these options for large fields.

Конкретная PDF, который производит эта ошибка 3,68 MB, и содержит множество контента (текст, таблицы , изображения и т. д.).

Индекс и указатель настроены точно так, как описано в этой статье, с добавлением некоторых ограничений типа файла.

индекс:

{ 
    "name": "my-index", 
    "fields": [{ 
     "name": "id", 
     "type": "Edm.String", 
     "key": true, 
     "searchable": false 
    }, { 
     "name": "content", 
     "type": "Edm.String", 
     "searchable": true 
    }] 
}

Индексатор

{ 
    "name": "my-indexer", 
    "dataSourceName": "my-data-source", 
    "targetIndexName": "my-index", 
    "schedule": { 
     "interval": "PT2H" 
    }, 
    "parameters": { 
     "maxFailedItems": 10, 
     "configuration": { 
      "indexedFileNameExtensions": ".pdf,.doc,.docx,.xls,.xlsx,.ppt,.pptx,.html,.xml,.eml,.msg,.txt,.text" 
     } 
    } 
}

Я попытался найти через свои документы и некоторые другие соответствующие статьи, но я не мог найти какую-либо информацию. Я предполагаю, что это связано с тем, что эта функция все еще находится в режиме предварительного просмотра.

источник

2016-07-11 valverij

есть ограничение на размер одного термина в индексе поиска - это также бывает 32 КБ. Если поле content в вашем поисковом индексе помечено как filterable, facetable или sortable, то вы попадете в этот предел (независимо от того, помечено ли поле для поиска или нет). Обычно для большого контента с возможностью поиска вы хотите включить searchable, а иногда и retrievable, но не для остальных. Таким образом, вы не будете использовать ограничения на длину контента со стороны индекса.

См. Также this answer для получения дополнительной информации.

источник

2016-07-11 16:44:59

Делает смысл. Таким образом, поле по умолчанию помечено 'filterable',' facetable' и/или 'sortable'? – valverij

Да, строковые поля сортируются/фильтруются/сортируются по умолчанию - см. [Create Index API] (https://msdn.microsoft.com/en-us/library/azure/dn798941.aspx) для всех деталей. –

Мы должны, вероятно, обновить наш образец индекса в статье индексации blob, чтобы сделать все эти свойства ложными. –

«Содержимое» слишком велико при индексировании содержимого блоба для поиска Azure

ответ

Смежные вопросы