У меня есть текстовый файл размером 300 ГБ, содержащий данные геномики с более чем 250 тыс. Записей. Есть некоторые записи с плохими данными, и наша программа геномики «Popoolution» позволяет нам прокомментировать «плохие» записи со звездочкой. Наша проблема заключается в том, что мы не можем найти текстовый редактор, который будет загружать данные, чтобы мы могли комментировать плохие записи. Какие-либо предложения? У нас есть как Windows, так и Linux.Как редактировать текстовый файл 300 ГБ (данные геномики)?
UPDATE: Больше информации
Программа Popoolution (https://code.google.com/p/popoolation/) падает, когда он достигает «плохой» запись дает нам номер строки, мы можем закомментируйте. В частности, мы получаем сообщение от Perl, в котором говорится: «F # €% & Леса». В руководстве говорится, что мы можем просто использовать звездочку, чтобы прокомментировать неудачную строку. К сожалению, нам придется многократно повторять этот процесс ...
Еще одна мысль ... Есть ли подход, который позволит нам добавить звездочку к строке, не открывая сразу весь текстовый файл. Это может быть очень полезно, учитывая, что нам придется повторять процесс неизвестное количество раз.
Зачем вам нужно его открывать в текстовом редакторе? Наверняка вы не будете комментировать все 250 тыс. Записей вручную? Посмотрите на использование awk или sed. –
Найдите шаблон для этих плохих записей и решите проблему с awk или sed, как указывает @Joshua. 250 тыс. Записей, которые нужно проверить вручную, означают всю жизнь. – fedorqui
Мы попытались загрузить файл в Notepad ++ и потребовалось более 24 часов для загрузки и в основном использовали. –