Я новичок в программировании и буду благодарен за вашу помощь!случайным образом удалять части последовательности для создания более короткой последовательности
У меня есть файл с ~ 20K последовательностей со следующим форматом:
>sequence_1
MAADTPGKPSASPMAGAPASASRTPDKPRSAAEHRKSSKPVMEKRRRARINESLAQLKTLILDALRKESSRHSKLEKADILEMTVRHLRSLRRVQVTAALSADPAVLGKYRAGFHECLAEVNRFLAGCEGVPADVRSRLLGHLAACLRQLGPSRRPASLSPAAPAEAPAPEVYAGRPLLPSLGGPFPLLAPPLLPGLTRALPAAPRAGPQGPGGPWRPWLR
>sequence_2
MGWDLTVKMLAGNEFQVSLSSSMSVSELKAQITQKIGVHAFQQRLAVHPSGVALQDRVPLASQGLGPGSTVLLVVDKCDEPLSILVRNNKGRSSTYEVRLTQTVAHLKQQVSGLEGVQDDLFWLTFEGKPLEDQLPLGEYGLKPLSTVFMNLRLRGGGTEPGGRS
Я хочу, чтобы создать случайные фрагменты этих последовательностей длины ~ 50-100 символов. Мне нужно сохранить первоначальный порядок неповрежденным (поэтому я не произвожу случайных символов).
Примеры последовательностей я мог бы сделать из> sequence_1 будет:
MAADTPGKPSASPMAGAPASASRTPDKPRSAAEHRKSSKPVMEKRRRARINESLAQLKTLILDALR
или
MTVRHLRSLRRVQVTAALSADPAVLGKYRAGFHECLAEVNRFLAGCEGVPADVRSRLLGHLAACLRQLGPSRRPASLSPAAPAEAPAPEVYAGRPLLPSLGGPFPLLAPPLLPGLTRALPAAPRAGPQGPGGPW
Лучшая аналогия, я думаю, случайно резки этих последовательностей на меньшие длины. Я действительно не уверен, как это сделать, или если это возможно со сценарием. Я также благодарен за любое объяснение ответов, чтобы я мог учиться.
я не знаю достаточно о кодировании еще даже попробовать что-нибудь. Я полностью потерял о том, как подойти к этой проблеме. Сожалею. – juneau
Итак, что именно вы хотите? Одна случайная подпоследовательность из каждой исходной последовательности? Или больше? Какой формат вывода вы хотите? Ваш ввод выглядит как FASTA; вы хотите, чтобы результат был таким же, или это всего лишь одна последовательность на строку в порядке? Разделяются ли начальные позиции и длины, или вы хотите что-то еще? – Borodin
@Borodin, это может быть одна или несколько случайных подпоследовательностей из каждой исходной последовательности, поэтому в зависимости от того, что проще. Да, выход fasta был бы идеальным. Начальные позиции и длины необязательно должны быть распределены равномерно, поэтому снова, однако, проще всего написать сценарий. Самое большое ограничение состоит в том, что последовательности должны быть между 50-100 аминокислотами (или символами) в длину. Кроме того, если возможно, было бы идеальным, чтобы сценарий генерировал новые случайные последовательности каждый раз, когда он запускался. Спасибо. – juneau