2014-12-12 5 views
0

Я хочу использовать YQL для извлечения всех 10-Q & 10-K файлов из базы данных SEC EDGAR. После обсуждения обсуждений [1] & [2], я сталкиваюсь с некоторыми проблемами.Используйте YQL для поиска отчетов о регистрации компании EDGAR

Похоже, что YQL не может получить результаты поиска от search engine.

Однако я могу напрямую получить доступ к filing detail page.

jsfiddle показывает проблему. Хотя оба запроса возвращают успешное сообщение, запрос к поисковой системе возвращает результат пустого массива.

Есть ли другой способ получить все html-адреса страниц с подробными документами без запроса поисковой системы EDGAR? Благодарю.

Пример кода с помощью YQL показывает ниже:

// results page from EDGAR search engine: 
    // fail to get data 
    var queryURL = "http://www.sec.gov/cgi-bin/browse-edgar?" + 
    "action=getcompany&CIK=0001326801&type=10-K&dateb=&owner=exclude&count=100"; 

    // EDGAR 10-K detail filing page: 
    // success to fetch by YQL 
    var filingURL = "http://www.sec.gov/Archives/edgar/data/1326801/" + 
     "000132680114000007/0001326801-14-000007-index.htm"; 


    $.get(queryURL).then(function() { 
      // get successful message, but get results of empty array 
    }) 
    .then(function() { 
     $.get(filingURL).then(function() {    
      // get successful message, and get results of empty array 
     }) 
    }) 

ответ

2

/cgi-bin URL-адрес ограничен robots.txt, поэтому YQL будет выполнять это и не сползать страницу.

Это можно увидеть, включив диагностику для запроса YQL.

  • Добавить diagnostics=true в URL YQL, как /v1/public/yql?diagnostics=true&callback=?
  • Посмотрите на diagnostics поле в результатах. Он содержит информацию о запросе и любых URL-адресах, которые он посетил.

Firebug showing diagnostics