2015-07-31 9 views
0

Я пишу разметку на финском языке.Коды сущностей и атрибут lang: следует ли использовать оба?

Я использую атрибут lang="fi-fi". Должен ли я использовать объекты разметки (ä для ä и т. Д.) В сочетании с атрибутом языка или достаточно использовать атрибут языка? Как атрибуты сущностей и языка влияют друг на друга?

«Проблема» возникает из-за того, что разметка написана без сущностей, и у меня есть сценарий, который должен заменить скандические буквы сущностями с помощью регулярных выражений - после определения атрибута lang сценарий не появляется (что он якобы сделал до добавления атрибута lang).

Моя главная забота заключается в том, что разметка отображается правильно независимо от браузера, хотя можно предположить, что существует «современный» браузер.

ответ

0

Корень моей проблемы был на самом деле кодировкой символов. Хотя все документы были определены с помощью UTF-8, сценарий каким-то образом не распознал его. Говоря сценарию, что входные файлы (которые должны были быть исправлены с помощью сущностей), UTF-8 кодирует скрипт правильно.

В качестве ответа на вопрос в заголовке: чтобы быть абсолютно уверенным в том, что документы совместимы с сервером - да, я должен использовать сущность-кодировку (хотя я понимаю, что, предполагая, что сервер разрешает UTF-8 является довольно безопасным предположением в целом, как это подразумевает Квентин). По другим причинам (связанным с созданием автоматического контента), я также должен использовать атрибут lang.

0

Атрибут и сущности lang выполняют совершенно разные задания.

Атрибут lang сообщает парсеру, на каком человеческом языке написан документ. Это позволяет, например, поисковым системам сообщать, является ли это хорошим документом для воспроизведения на колонках Finish и программном обеспечении для чтения экрана, чтобы выбрать правильную библиотеку произношения ,

Объекты просто позволяют вам представлять символы, которые вы иначе не могли бы представить. например

  • Потому что вы не можете ввести символ клавиатуры
  • Поскольку кодировка символов документа сохраняется в (например, ASCII) не включает в себя характер. В этом столетии вы должны использовать UTF-8 практически везде и не должны беспокоиться об этом.
  • Поскольку символ в противном случае имел бы особый смысл в HTML (например, <).

  • Всегда используйте атрибут lang, если вы знаете, на каком языке текст документа будет записан в
  • Всегда используйте объекты для символов со специальным значением в HTML
  • Используйте прописные буквы, если вы можете быть достаточно уверенным, что кодировка символов не будет искажена (что вы можете использовать большую часть времени), поскольку они используют меньшее количество байтов и легче читать в исходном коде.
+0

Благодарим вас за ответ. Он не полностью решил мою проблему, но он указал мне в правильном направлении. –