Я настроил индексирование blob и полнотекстовый поиск Azure, как описано в этой статье: Indexing Documents in Azure Blob Storage with Azure Search.«Содержимое» слишком велико при индексировании содержимого блоба для поиска Azure
Некоторые из моих документов неудачу в индексатор, метание возвращающегося следующее сообщение об ошибке:
Field 'content' contains a term that is too large to process. The max length for UTF-8 encoded terms is 32766 bytes. The most likely cause of this error is that filtering, sorting, and/or faceting are enabled on this field, which causes the entire field value to be indexed as a single term. Please avoid the use of these options for large fields.
Конкретная PDF, который производит эта ошибка 3,68 MB, и содержит множество контента (текст, таблицы , изображения и т. д.).
Индекс и указатель настроены точно так, как описано в этой статье, с добавлением некоторых ограничений типа файла.
индекс:
{
"name": "my-index",
"fields": [{
"name": "id",
"type": "Edm.String",
"key": true,
"searchable": false
}, {
"name": "content",
"type": "Edm.String",
"searchable": true
}]
}
Индексатор
{
"name": "my-indexer",
"dataSourceName": "my-data-source",
"targetIndexName": "my-index",
"schedule": {
"interval": "PT2H"
},
"parameters": {
"maxFailedItems": 10,
"configuration": {
"indexedFileNameExtensions": ".pdf,.doc,.docx,.xls,.xlsx,.ppt,.pptx,.html,.xml,.eml,.msg,.txt,.text"
}
}
}
Я попытался найти через свои документы и некоторые другие соответствующие статьи, но я не мог найти какую-либо информацию. Я предполагаю, что это связано с тем, что эта функция все еще находится в режиме предварительного просмотра.
Делает смысл. Таким образом, поле по умолчанию помечено 'filterable',' facetable' и/или 'sortable'? – valverij
Да, строковые поля сортируются/фильтруются/сортируются по умолчанию - см. [Create Index API] (https://msdn.microsoft.com/en-us/library/azure/dn798941.aspx) для всех деталей. –
Мы должны, вероятно, обновить наш образец индекса в статье индексации blob, чтобы сделать все эти свойства ложными. –