2010-01-26 1 views
3

У меня есть 20000-50000 записей в файле excel. В одной колонке указано название этой компании. В идеале я бы хотел найти имя этой компании, и что бы ни был первым результатом, я бы выбрал URL-адрес, связанный с ним. Я знаю, что Google (который мой идеальный выбор) предоставляет API поиска AJAX. Тем не менее, он также имеет 1000 ограничений на поиск для каждого владельца регистрации. Есть ли способ получить более 20000 поисков, не делая 20 учетных записей в Google, или есть альтернативный двигатель, который я мог бы использовать?API веб-поиска для 25000-50000 Записи

Любые альтернативные способы приближения к этой проблеме также приветствуются (например, запросы WhoIs).

+0

Просто хотел указать на это, если вы не знали: API поиска AJAX - единственный законный способ получить прямой доступ к поисковому индексу Google. (См. Http://markmail.org/message/gcluw5ayuocvxfv5) – David

+0

Я просмотрел FAQ и Условия использования для получения информации о нескольких учетных записях. Множественные учетные записи не являются запрещенными. Тем не менее, TOU говорит, что вы не можете скрыть или замаскировать личность своего сервиса, поэтому, если у вас есть несколько учетных записей, им, вероятно, будет легко понять это - если они будут взламывать это. – David

ответ

3

Google AJAX Search не имеет такого предела в 1000. Yahoo Search делает. Google AJAX Search ограничивает вас получением 64 результатов за поиск, но в противном случае не имеет ограничений.

От Google AJAX Search API - Class Reference:

Примечание: Максимальное количество результатов страниц на основе типа поисковика. Локальный поиск поддерживает 4 страниц (или максимум 32 итоговых результатов) и других искателей (Блог, книга, изображение, новости, патент, Видео и веб) поддержка 8 страниц (для максимум 64 результатов).

+0

А, мне нужно быть более основательным! Я рассматривал FAQ API для поиска SOAP, а не AJAX. Извини за это. – Brian

1

Подходы, избегаем с помощью внешнего поискового сервиса ...

Подход 1 - поместить информационное содержание XML в базу данных и поиска с помощью SQL/JDBC. Вариации одного и того же использования Hibernate и т. Д.

Подход 2 - прочитайте XML-файл как структуру данных в памяти как коллекцию Java и выполните поиск программно. Это будет использовать бит памяти в зависимости от того, сколько информации содержится в XML-файле, но вам нужно только выяснить, как разбирать/загружать XML и получать доступ к коллекции.

Однако это поможет, если вы объясните контекст, в котором вы пытаетесь это сделать. Это плагин для браузера? Клиентская сторона веб-приложения? Серверная сторона? Настольное приложение?

+0

Ну, я бы хотел сделать это как одноразовый запуск в качестве настольного приложения на Java. Я мог бы запускать его как скрипт PHP на сервере, но я не хочу блокировать этот сайт или что-то еще, пока он работает (что займет довольно много времени). – Brian