В настоящее время я пытаюсь получить код с этого сайта: http://netherkingdom.netai.net/pycake.html Тогда у меня есть скрипт python, который выставляет весь код в тегах html div и, наконец, записывает текст между теги div в файл. Проблема в том, что он добавляет кучу файлов \ r и \ n в файл. Как я могу либо избежать этого, либо удалить \ r и \ n. Вот мой код:Как удалить n и r из строки
import urllib.request
from html.parser import HTMLParser
import re
page = urllib.request.urlopen('http://netherkingdom.netai.net/pycake.html')
t = page.read()
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
print(data)
f = open('/Users/austinhitt/Desktop/Test.py', 'r')
t = f.read()
f = open('/Users/austinhitt/Desktop/Test.py', 'w')
f.write(t + '\n' + data)
f.close()
parser = MyHTMLParser()
t = t.decode()
parser.feed(t)
А вот полученный файл он делает:
b'
import time as t\r\n
from os import path\r\n
import os\r\n
\r\n
\r\n
\r\n
\r\n
\r\n'
Предпочтительно я хотел бы также иметь начинающему Ь «и последняя» удалена. Я использую Python 3.5.1 на Mac.
Python 2.x или 3.x? – RafaelC
Я бы сказал 3.x, если urllib возвращает объект байтов –
Кроме того, 'html.parser' является Python 3. –