У меня было чертовски время, связанное с контентом, который был скопирован и вставлен из Microsoft Word и представлен в нашу систему.Кодирование с символами Microsoft Word [UTF-8 по ISO-5589-1]
Содержимое включает в себя многобайтовые символы: “ ” ’
, которые я бы хотел преобразовать в " " '
.
Поскольку наше приложение/база данных настроено для UTF-8, эти многобайтные символы передаются и сохраняются без проблем. Но когда мы объединяем нашу информацию с третьей стороной, использующей ISO-8859-1, мы сталкиваемся с некоторыми проблемами с кодировкой.
У кого-нибудь была эта проблема? Или есть возможное решение?
Что именно вы хотели бы сделать со всеми персонажами, которые не выражены в iso-8859-1? Выкинь их? Попробуйте найти близкий матч? Замените их все на '?'? – sarnold
Идеально найти однобайтовый эквивалент для наиболее популярных экземпляров. цитаты, апострофы и т. д. Любые другие экземпляры можно игнорировать, если они не могут быть выражены. –