2010-06-23 1 views
0

Строка ниже приведена в качестве примера одного из многих файлов с неправильной кодировкой символов, которые у меня есть;Что такое кодировка символов, которая может соответствовать этому преобразованию: от «§» до «Ç»?

REAPRESENTA§AO VIA DTENTRY 

Правильное представление должно быть таким:

REAPRESENTAÇAO VIA DTENTRY 

Там больше символов с неверной кодировкой. Как это исправить?

alt text http://nerull.webs.com/screen.JPG

+1

Вы уверены, что шрифт вы используете не является причиной? – Will

+0

Нет. Это простой текстовый файл с совместимым с utf-8 шрифтом! –

+0

Пожалуйста, укажите больше ввода. – kennytm

ответ

3

Сами файлы не имеют неправильную кодировку, это когда вы читаете файл, который вы используете неправильную кодировку, чтобы декодировать их.

Исправление состоит в том, чтобы использовать ту же кодировку для декодирования файла, который использовался для его кодирования.

Если вы не знаете, что такое кодировка, вы должны узнать байтовый код для проблемных символов до их декодирования и искать кодировку с набором символов, где код символа соответствует символу, который вы хотите ,

Например, файл может быть закодирован с использованием IBM905, чтобы символ «Ç» был закодирован в байтовый код 74. Если вы затем декодируете файл с использованием IBM278, байт-код 74 интерпретируется как символ «§», ,

Вот список возможных комбинаций, которые я нашел во встроенном кодировок:

from cp875 to IBM290 
from cp875 to IBM420 
from cp875 to x-EBCDIC-KoreanExtended 
from cp875 to IBM-Thai 
from cp875 to IBM880 
from IBM290 to IBM290 
from IBM290 to IBM420 
from IBM290 to x-EBCDIC-KoreanExtended 
from IBM290 to IBM-Thai 
from IBM290 to IBM880 
from IBM420 to IBM290 
from IBM420 to IBM420 
from IBM420 to x-EBCDIC-KoreanExtended 
from IBM420 to IBM-Thai 
from IBM420 to IBM880 
from IBM424 to IBM290 
from IBM424 to IBM420 
from IBM424 to x-EBCDIC-KoreanExtended 
from IBM424 to IBM-Thai 
from IBM424 to IBM880 
from x-EBCDIC-KoreanExtended to IBM290 
from x-EBCDIC-KoreanExtended to IBM420 
from x-EBCDIC-KoreanExtended to x-EBCDIC-KoreanExtended 
from x-EBCDIC-KoreanExtended to IBM-Thai 
from x-EBCDIC-KoreanExtended to IBM880 
from IBM-Thai to IBM290 
from IBM-Thai to IBM420 
from IBM-Thai to x-EBCDIC-KoreanExtended 
from IBM-Thai to IBM-Thai 
from IBM-Thai to IBM880 
from IBM880 to IBM290 
from IBM880 to IBM420 
from IBM880 to x-EBCDIC-KoreanExtended 
from IBM880 to IBM-Thai 
from IBM880 to IBM880 
from cp1025 to IBM290 
from cp1025 to IBM420 
from cp1025 to x-EBCDIC-KoreanExtended 
from cp1025 to IBM-Thai 
from cp1025 to IBM880 
from IBM1026 to IBM01143 
from IBM1026 to IBM278 
from IBM905 to IBM01143 
from IBM905 to IBM278 
+1

@ Guffa: Я думаю, что это был вопрос (то есть процесс, описанный в вашем последнем абзаце), используя SO-механическую реализацию Turk Turk. –

+0

@ Guffa, посмотрите, помогает ли это изображение идентифицировать кодировку. –

+0

@ Guffa, вы знаете, можно ли сделать это преобразование с помощью PHP? –