2015-04-10 1 views
0

Мы отправляем канал GSA «метаданные и url» для некоторых PDF-файлов, которые не могут быть достигнуты при обычном сканировании. Наряду с URL-адресом PDF мы также представляем дополнительные метаданные. Канал завершается успешно, и PDF добавляется в индекс GSA (доступен в диагностике индекса и в результатах XML). Но отправленные метаданные игнорируются и рассматриваются только те метаданные, которые сама GSA извлекает, сканируя документ (автор и т. Д.).GSA feeds - отправленные метаданные игнорируются

Мы значительно ниже предела лицензии (даже не достигнув 50%).

Подачу запись выглядит следующим образом:

<record lock="true" action="add" mimetype="application/pdf" crawl-once="true" url="<PDF URL HERE>"> 
     <metadata> 
      <meta content="md1value" name="md1name"/> 
      <meta content="md2value" name="md2name"/> 
      ... 
     </metadata> 
</record> 

индексная страница диагностики показывает эти метаданные для PDF:

Metadata Name Metadata Content   Metadata Content length 
CreationDate D:20110622112810-04'00'  23 
ModDate   D:20110622112949-04'00'  23 
Producer  PDF-XChange 4.0.165.0  75 

Так что нет записи для md1name и md2name. Пожалуйста помоги.

ответ

1

Ниже приведена выдержка из документации Google.

Информация о метаданных - информация о метаданных URL во время сканирования. Также показано добавление метаданных объекта. Обратите внимание, что когда имеется большое количество информации о метаданных, не все это отображается здесь, хотя все метаданные по-прежнему индексируются правильно.

Для того чтобы увидеть все метаданные, запросить огонь по запросу (без проксистата) с помощью getfields = * и проверить результат xml.

Надеюсь, это поможет.

+0

Да, я тоже это сделал. Не удалось получить метаданные. Кроме того, у нас не более 4-5 мета-записей, и иногда они появляются для некоторых документов. – Vasan

+0

Если фид отправлен правильно без ошибок (Источники контента> Каналы), он должен отразить в результате xml. Это похоже на странное поведение. Поднимите билет поддержки с помощью Google. –

1

Вам следует попробовать удалить все атрибуты xml из фида и только нажать наиболее релевантные (например, remove: lock = true, crawl-once = true). После успешной обработки фидов (и, следовательно, вы видите записи и свои метаданные в Диагностике индекса), вы можете попробовать добавить атрибуты. Так что попробуйте следующий формат:

<?xml version="1.0" encoding="UTF-8" ?> 
<!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" "gsafeed.dtd"> 
<gsafeed> 
<header> 
    <datasource>$datasource_name</datasource> 
    <feedtype>metadata-and-url</feedtype> 
</header> 
<group> 
    <record action="add" mimetype="text/pdf" url="{$URL}"> 
     <metadata> 
      <meta name="{$name1}" content="{$content1}" /> 
      <meta name="{$name2}" content="{$content2}" /> 
     </metadata> 
    </record> 
</group> 
</gsafeed> 

быть также уверен, что ваши корма клиентских сообщений подающего с соответствующим типом (метаданные и-URL). И я считаю, что mimetype PDF-файла является «text/pdf», а не «application/pdf» (такие вещи часто дают хорошую головную боль).

+0

Вам не нужно указывать тип MIME, если GSA собирается обходить контент. –

 Смежные вопросы

  • Нет связанных вопросов^_^