Я использую BeautifulSoup для очистки некоторых веб-сайтов, однако у меня проблема с некоторыми конкретными символами, код внутри UnicodeDammit, похоже, указывает на то, что это (еще раз) некоторые из них были изобретены Microsoft.Escaping & hellip; with BeautifulSoup
Я использую последнюю версию BeautifulSoup (3.0.8.1) как я все еще использую python2.5
Следующий код иллюстрирует мою проблему:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…')
print soup
'...Baby One More Time (Digital Deluxe Version…'
Как вы можете видеть проблему это символ «& hellip;» (hellip) в конце (который ваш браузер, вероятно, сбежал правильно). Очевидно, меня это не интересует.
Было бы хорошо, если бы это представление символов Unicode или что-то еще. Даже безнравственное игнорирование это решит мою конкретную проблему.
Как это сделать с помощью BeautifulSoup?