Я работаю с большим количеством гистограмм. В частности, эти гистограммы основаны на сегментах на геноме человека.Алгоритм анализа изменчивости
Каждая точка вдоль оси х представляет собой одно из четырех азотистых оснований (A, C, T, G), которые составляют ДНК, а ось y представляет, сколько раз основание могло быть вызвано (или распознаваемый секвенсорной машиной, чтобы упорядочить геном, который просто определяет личность каждой базы вдоль генома).
Многие из этих гистограмм показывают примерно линейные отклонения (когда машины не могут получить достаточную глубину считывания), которые падают до 0 или (почти-0) из платообразных областей. Когда оценка падает до нуля, это означает, что секвенсор не может определить личность базы. Если вы видели двойную спираль раньше, это означает, что секвенсер не может определить идентификацию одной половины ступени спирали. Определенные регионы генома сложнее охарактеризовать, чем другие. Базы (или х точек данных) с большим количеством базовых костей порядка порядка = 100 могут быть окончательно идентифицированы. Например, если было всего 250 вызовов для одной базы, и у нас было вызвано 248 T, 1 G и 1 A, мы бы назвали, что T. Регионы с 0 basecalls вызывают беспокойство, потому что тогда мы должен был сделать вывод из соседних регионов о том, что может быть самоидентификатором области с низким уровнем чтения. Есть ли простой алгоритм для присвоения этим графикам оценки, отражающей эту тенденцию? См. Box.net/shared/nbygq2x03u для примера histo.