Итак, я получил сайт, который использует ISO-8859-1 кодировку, и я не могу это изменить. Я хочу быть уверенным, что контент, который я вхожу в веб-приложение на сайте, правильно разбирается. Парсер работает по характеру по характеру. Я также не могу изменить парсер, я просто пишу файлы для его обработки. Содержимое в моем файле, о котором я рассказываю приложению после разбора, содержит символы Unicode (или, по крайней мере, я предполагаю это, даже если они были созданы с помощью кодов Windows Alt, сопоставленных с CP437). Использование сущностей не является опцией из-за характера символьного действия анализатора. Единственными символами, которые синтаксический анализатор выходит на выходе, являются чувствительные к разметке, такие как амперсанды, меньше или больше символов. Я бы просто пошел вперед и посмотрел, как это выглядит, но вывод можно увидеть только в публикации, которая должна провести пару дней, чтобы получить одобрение, и это потребует слишком много для всего теста ,Если я использую Unicode на сайте ISO-8859-1, как это будет интерпретироваться браузером?
Итак, длинный рассказ, если я сказал сайту вывести ▼ ÇÑ ¥ ☺☻ на сайт с метатегом, в котором говорится, что он должен использовать ISO-8859-1, браузер автоматически определит Unicode и отобразить его или буквально перевести его как ISO-8859-1 и получить другой набор символов?
ОБНОВЛЕНИЕ: Я сделал временный тестовый сайт по адресу http://doorstop.csh.rit.edu/home/testing, где я сделал тестовый файл в Notepad ++, используя UTF-8 без спецификации, но использовал метатег, который устанавливает кодировку в ISO-8859-1.
Потому что вы можете якобы определить допустимую строку байтов utf-8 и иметь вероятность того, что она фактически должна быть закодирована в ISO-8859-1, так как сайт говорит очень очень низко. Перейдите на http://en.wikipedia.org/wiki/UTF-8#Advantages и посмотрите источники цитат # 19 и # 20. Я просто подумал, что браузеры часто визуализируют html на основе контекста контента, а не истинной спецификации HTML, будет ли браузер отображать UTF-8 в случае вероятного контекста UTF-8, хотя он по спецификации HTML должен использовать ISO-8859 -1? –
@ grg-n-sox: Большинство браузеров следуют стандартам, давая mojibake.Но, по-видимому, IE привык угадывать кодировку, игнорируя то, что говорит сервер. –