У меня есть> 5000 текстовых файлов, сгенерированных в Windows из файлов PDF, которые мне нужно обработать на машине Mac OS X. Я запускаю dos2unix
на всех из них, чтобы исправить новую строку и преобразовать кодировку из UTF-16LE в UTF-8.Текстовые файлы, появляющиеся как bynaries на Mac Os X
В 4949 случаях все идет нормально, но для 320 файлов dos2unix пропускает выполнение, говоря, что это двоичные файлы.
Это когерентный номер file -c
, который дает мне data
для 320 пропущенных файлов и текста для других файлов. Однако это текст с визуального осмотра ...
Как я могу восстановить 320? Сначала я подозревал, что это наличие спецификации, но оно также появляется в файлах, которые не дают проблем.
Кроме того, как данные, так и текстовые файлы начинаются с:
0000000 ff fe 3d 00 20 00 70 00 61 00 67 00 65 00 20 00
0000010 31 00 20 00 3d 00 0a 00 0d 00 0d 00 0a 00
Любой намек? Спасибо заранее.
Рори, спасибо, но в конце концов это создаст только другие искаженные файлы, которые я не могу обработать дальше. – agaved