2016-05-30 4 views
0

Я читаю IEEEXplore для некоторых данных PDF, плитки и ссылок.Странный код HTML при очистке IEEEXPLORE

Так недавно, когда я выскабливание этого сайта (с Python и модулем саржи) я получаю это похож содержание:

��7���j��/�5�,X��]����O�s˟�����U|]�l 
��c��qLE�[����:yg�u%��_�9e�;�4��^�kt)j�Te���:OX���[��u����B���-]?t�C���m/��ά��Ҋ��n�'��}'�Ù�ف{�S;�ƣ������3�dS��M[m 

Так почему это происходит! Я сомневаюсь в кодировке страницы.!

код большой, но я вставил одну часть тех здесь:

вы можете увидеть код здесь:

https://github.com/power-electro/test-ieeexplore-scraper/blob/master/ieeexplore_ieee_org.py

Так Free PDF файлы из Elsevier версии этого сайта, является доступны по этой ссылке:

http://free-papers.elasa.ir

+0

Что такое ссылка и где ваш код? –

ответ

0

было бы интересно посмотреть на остальной выход, но я предполагаю, что все это перепутало материал, который трудно читать, это на самом деле файл изображения или видеофайл или что-то в этом роде. Изображения и видеофайлы выглядят очень странно, когда мы пытаемся выполнить HTTP GET и распечатываем их как текст. Я предполагаю, что обычный веб-сайт, который вы хотите (текст, html и т. Д.), Также присутствует.

0

Я нашел ответ я извлекал й: является часть его заголовка:.

t_com.add_extra_header('Accept-Encoding', 'gzip, deflate') 

рудных данных !!! данных, являющимся файлом

я де ziped данные по этим кодам:

   content1 = t_brw.result.page 
       # print 'debug twill post content:', content 
       import StringIO 
       content1 = StringIO.StringIO(content1) 
       import gzip 
       gzipper = gzip.GzipFile(fileobj=content1) 
       content = gzipper.read()