2015-12-03 5 views
0

Мне поручено взять китайский перевод английского HTML и переустановить его в соответствии с оригинальным английским HTML. Китайский «HTML» больше не имеет ни одного оригинального Divs или стиля английского HTML. Китайская кодировка символов - GB2312.Возьмите китайский HTML-контент и переместите его в соответствующий div в другом HTML-файле

Я хочу создать программу/скрипт для автоматизации этого, так как есть 182 файла HTML, которые нуждаются в повторной стилизации, и я не хочу делать это вручную. Я больше всего знаком с PHP, но я открыт для чего угодно.

Here is a one of the English HTML files

Here is the equivalent Chinese HTML file

Как вы можете видеть, они очень разные. Если это всего лишь пара файлов, я просто копирую китайские символы и вставляю их в соответствующий DIV - одновременно заменяя текст на английском языке. Затем измените кодировку на GB2312 в <head>, чтобы китайские символы отображались правильно. например:

<meta charset="gb2312"> 

Моя мысль, насколько преобразуя два, чтобы разобрать через китайский файл, найти каждую независимую строку китайского, материал каждую строку в его собственной переменной, а затем разобрать через эквивалентный английский файл, найдите строки английского текста и замените их эквивалентными китайскими символами из переменной. Добавление исключений для & reg и & копия.

Кто-нибудь знает, как я могу начать это делать? Большинство языков сценариев поддерживают поиск символов, отличных от UTF8?

ответ

0

Я не знаком с PHP, но только с C#.

Как я не вижу всю картину (например, HTML иерархии всех файлов у Вас есть и различия между файлами, если есть), я могу только посоветовать вам ...

Вы можете:

  1. Вы можете просматривать файлы в цикле.
  2. Используйте 3-х партийную библиотеку (например, NTextCat или Language Detection API), чтобы прочитать их, чтобы вы могли легко брать все, что хотите (текст, атрибуты, определять шаблоны) и хранить их временными, как вы хотели.
  3. Используйте стороннюю библиотеку (например, Html Agility Pack), чтобы определить язык этого файла (на самом деле это часть «шага 2», так как вы хотите анализировать только файлы html с китайцами).
  4. два варианта:
    1. Найти эквивалентный файл на английском языке и заменить тексты (можно использовать «шаг 2»). Я думаю, вы узнаете лучше нас, как понять, какой текст вы должны заменить тем, что ...
    2. Или вы можете подготовить шаблон «MVC style» и использовать 3'rd party library (например, RazorEngine) для шаблонов.

Надеется, что это поможет. Если у вас есть какие-либо вопросы, заполните бесплатно, чтобы задать вопрос: