Я делаю университетский проект, который должен собирать и комбинировать данные по теме, предоставленной пользователем. Проблема, с которой я столкнулся, заключается в том, что результаты поиска Google для многих терминов загрязнены низкокачественными автогенерированными страницами, и, если я их использую, я могу получить неверные факты. Как можно оценить качество/достоверность страницы?Как оценить качество веб-страницы?
Вы можете подумать: «Нах, инженеры Google работают над проблемой в течение 10 лет, и он просит разрешения», но если вы думаете об этом, SE должен предоставить обновленный контент и, если он отметит хороший как плохой, пользователи будут недовольны. У меня нет таких ограничений, поэтому, если алгоритм случайно отмечает как-то неплохие страницы, это не будет проблемой.
Вот пример: Произнести ввод buy aspirin in south la
. Попробуйте выполнить поиск в Google. Первые 3 результаты уже удалены с сайтов, но четвёртая один интересно: radioteleginen.ning.com/profile/BuyASAAspirin
(я не хочу, чтобы сделать активную ссылку)
Вот первый параграф текста:
голая покупка рецептурных препаратов из Канады в настоящее время является большой в США. Это , потому что в лекарстве от США по рецепту цена взрыва взлетели, сделав его трудным для тех, кто ударил или сосредоточил доходы, чтобы купить их много Необходимые лекарства. Американцы платят больше за свои наркотики, чем кто-либо в классе .
Остальная часть текста аналогична, а затем следует список связанных ключевых слов. Это то, что я считаю страницей низкого качества. Хотя этот конкретный текст имеет смысл (за исключением его ужасного), другие примеры, которые я видел (пока не могу найти), - это всего лишь мусор, целью которого является получение некоторых пользователей от Google и запрещение на следующий день после создания ,
В чем ваш вопрос? Можете ли вы более подробно указать «качество/надежность»? –
@Pekka - Я добавил пример – Fluffy
КАК это связанное программирование - вообще? –