Я хочу загрузить файл fastq из RNAseq, чтобы получить значения выражения гена. Но GEO предоставляет только форматы .bed.gz и .wig.gz. Что я могу сделать, чтобы получить значения RPKM? Большое спасибо!Как получить значение RPKM из файла или файла парика? И в чем разница между этими двумя типами файлов?
ответ
Для того, чтобы рассчитать RPKM, вам необходимо (картировать) raw считывает, как указано в файлах BAM/SAM или даже CRAM. Wiggle, BED и их производные, такие как bigWiggle, представляют собой сжатые версии тех, которые содержат только покрытие (в основном используется для построения графика), то есть они потеряли информацию для чтения, необходимую для подсчета и, следовательно, вычисляют RPKM (или FPKM/TPM для этого способа).
Стандартным подходом является запуск из файла bam, извлечение отсчетов чтения для интересующих регионов и вычисление RPKM и т. Д. Существует много конвейеров, таких как this.
Если файлы Bam недоступны, у GEO обычно есть как минимум необработанные файлы fastq (или файлы sra, которые могут быть преобразованы в fastq) в качестве основы для сопоставления для получения файла bam. Также взгляните на ArrayExpress, они могут иметь необработанные файлы для этого проекта, поскольку он зеркалирует GEO.
Возможно, в качестве предупреждения, если вы намерены выполнять анализ дифференциальных выражений, вам нужно перейти от необработанных счетчиков, а не значений RPKM.