2014-03-25 3 views
2

Я взял один из многочисленных анализов ДНК в Интернете, и он идентифицировал генетических родственников на основе ДНК, но большинство из этих родственников - по крайней мере 3-й кузены. У этих других пользователей есть семейные деревья в Интернете, к которым я могу получить доступ как данные JSON.
Я усыновлен, поэтому «истинная истина» для меня неизвестна.Как я могу заключить ближайших родственников из родословных других, исходя из семени дальних родственников?

Но мне нужен какой-то алгоритм для хруста этих данных. Самый простой, о котором я могу думать, - найти наиболее распространенные фамилии из данных, но это не кажется очень сложным. Я хотел бы еще несколько предложений или ссылок на соответствующие обсуждения или алгоритмы.

Я не хочу обсуждать, если я должен сделать это. Я не уверен на 100%, если я заинтересован в этом ради своей выгоды или для большего количества академических упражнений.

ответ

1

Оценка максимального правдоподобия является одним из стандартных подходов к решению такого рода проблем. После того, как вы собрали семейные деревья, вычислите, насколько вероятно, что кто-то из дерева получит ваши результаты теста (делая допущения о независимости свободно, чтобы упростить математику). Затем перебирайте всех, кто-то (надеюсь, это не займет слишком много времени) и сообщите о k наибольших вероятностях.

Трудная часть здесь получает разумные оценки правдоподобия. Вот один из подходов; Я не знаю, хорошо ли это. Ваше семейное «дерево» - это ориентированный ациклический (надеюсь, никто не имеет машины времени), где каждый узел имеет ровно нуль или два предшественника. Итерации по узлам в топологическом (то есть правдоподобном хронологическом) порядке. Для узлов с нулевыми предшественниками инициализируйте «хромосому», состоящую из 2k случайных битов, сгруппированных в k пар 1-битных аллелей (не знаете, как установить k, может быть, тысячу?). Для узлов с двумя предшественниками для каждой из k пар генерируют хромосому, выбирая один из аллелей матери и один из отцов. В конце вы можете получить оценки генетического сходства через расстояния Хэмминга. Вам нужно будет найти сопоставление между результатами испытаний и расстояниями, возможно, путем моделирования/разработки математики для горшечных примеров третьих кузенов и т. Д.

+0

Не стесняйтесь редактировать этот ответ, если я испортил термины биологии. Это было какое-то время = P –

+0

Если я правильно понимаю ваш подход, он предполагает, что у меня есть доступ к записям ДНК других пользователей. Но я этого не делаю. Я просто имею доступ к их родословным деревьям. –

+0

@coding_hero Нет, вы подделываете записи ДНК в соответствии с генеалогическим деревом, чтобы получить представление о том, насколько близки их фактические записи ДНК, если бы у вас был доступ. –