Перейти к содержимому

 

Фото

Школа Днк-Генеалогии


  • Чтобы отвечать, сперва войдите на форум
Нет ответов

#1 В.Юрковец

В.Юрковец

    Advanced Member

  • Administrators
  • 1 417 сообщений

Опубликовано 19 Октябрь 2013 - 23:16

Во 2-м номере "Вестника Академии ДНК-генеалогии" за этот год опубликована хорошая статья "Как вырастить своё древо?", в которой на примере своей гаплогруппы и личного опыта пошагово рассматривается все детали построения филогенетических деревьев. Автор - Лабай Александр Анатольевич. Статью можно найти, скачав Вестник т. 6 № 2 в разделе "Вестник".

 

Статья ещё хороша тем, что в ней изложены основные положения и последовательность практических действий для тех, кто решил узнать свою гаплогруппу и углубиться в изучение своего рода с помощью ДНК-генеалогии. Т.е. - полезна для всех новичков. Поэтому она размещена здесь (в содержательной своей части) и далее будет дополнена другими учебными материалами по данной теме.

 

 

 

ШКОЛА ДНК-ГЕНЕАЛОГИИ

THE DNA GENEALOGY SCHOOL

Как «вырастить» своё дерево

А.А. Лабай

 

ШАГ ПЕРВЫЙ

 

Открывать удивительный мир ДНК-генеалогии лучше всего с себя. Многие уже знают, что документальная генеалогия даёт сведения не ранее середины 19 века. Если повезёт до 18 века или, при самом удачном раскладе, до 17-16 веков. А если хочется заглянуть ещё дальше? Тогда вам надо сделать первый шаг - узнать свой гаплотип. Для этого надо связаться с лабораторией, делающей анализ некоторых участков Y-хромосомы, которые в ДНК-генеалогии называются маркерами. Например, с американской лабораторией FTDNA (Family Tree DNA), занимающей сегодня лидирующие позиции в этой области (http://www.familytreedna.com/).

...

Здесь надо сделать маленькое отступление. Дело в том, что маркеры, о которых говорилось выше, передаются по наследству только от отца к сыну и не передаются дочерям. И если у женской половины возникают вопросы о роде отца, то приходится брать пробы у отца, или у брата или у родного дяди. Мужчина может брать пробу у себя или у другого родственника по мужской отцовской линии. После запечатывания аппликаторов в индивидуальные упаковки, переходим ко второму шагу.

 

ШАГ ВТОРОЙ

 

Наступает  время определиться, что вам надо получить от ваших проб. Для новичка вопрос сложный и попробую его разъяснить с позиций того опыта, который я приобрёл за полтора года изучения ДНК-генеалогии.

Во-первых, чем больше вы хотите извлечь информации, тем дороже такой анализ стоит.

Во-вторых, «скупой» платит дважды.

Самый дешёвый анализ (стоит 2000 руб., не считая стоимости набора для проб) это определение вашей гаплогруппы. Это прямая дорога в страну с названием «Популяционная генетика» с её феерическими картами (пример на рис.1), которые гипнотизируют людей не хуже чем взгляд удава зазевавшегося кролика.

В России наиболее вероятны (в %) гаплогруппы:

I1 – 5%

I2a-10.5%

R1a-46 %

R1b-6%

G-1%

J2-3%

E1b1b - 2.5%

Т-1.5%

Q-1.5%

N-23%

В других странах (популяциях) соотношения могут быть другими (см. http://www.eupedia.c...plogroups.shtml) . Рассматривая популяционные карты и цифры, мы видим современное распределение представителей тех или иных гаплогрупп по странам и регионам. Если вспомнить, что гаплогруппа передаётся по наследству от отца к сыну, то за термином «гаплогруппа» можно закрепить такое понятие как Клан (по мужской линии). Здесь главное понять, что общий предок этого Клана жил десятки тысяч лет назад. Таких Кланов сейчас насчитывают двадцать и обозначают заглавными латинскими буквами от А до Т.  Глубинного смысла в этих буквах нет. Просто за ними скрывается информация, заложенная в Y-хромосоме (определённый однонуклеотидный полиформизм или SNP(англ.)) и передающаяся от отца к сыну. Как вы уже, наверное, заметили, к некоторым заглавным буквам присоединены цифры и маленькие буквы. Это означает, что внутри Клана можно надёжно лабораторными методами зафиксировать расхождение клана на ветви. Например, клан R  давным-давно разделился на R1 и R2. А R1, в свою очередь в какой-то момент времени, разошёлся на R1a и R1b.  Такие ветви в ДНК-генеалогии принято называть РодАми (по мужской линии). Различие между ними - в списке имеющихся SNP (см. дерево SNP по версии International Society of Genetic Genealogy -httpwww.isogg.org/tree/). Заплатив 2500 руб. вы получите знание о принадлежности к какому-то клану или даже роду. Но для более подробной классификации и привязки к дереву SNP вам придётся дозаказывать исследования по целому ряду SNP. При этом ваша индивидуальность будет растворена в популяции, группе с одним и тем же набором SNP.

Более дорогие анализы позволят вам узнать о своём гаплотипе, характеристике более индивидуальной и позволяющей не только косвенно судить о гаплогруппе, но и искать родственников по мужской линии по всему миру и считать время жизни общего предка родственной группы конкретных людей. Стоимость определения гаплотипа зависит от количества маркеров, которые подлежат анализу. Так например 12-маркерный гаплотип стоит 2400 руб., а 67-маркерный гаплотип – 10700 руб. (стоимость не включает стоимости набора для взятия проб).  По своему опыту могу сказать, что заказывать надо 67-маркерный гаплотип, который позволяет проводить детальные генеалогические исследования с высокой точностью.  Сейчас определяют и 111-маркерные гаплотипы, но не всем они доступны, да и в базах данных их немного. При необходимости можно будет дополнительно заказать исследование остальных маркеров. Но повторяю, что для первых шагов в ДНК-генеалогии лучше знать на сегодняшний день свой 67-маркерный гаплотип. Кроме того, в анализ входит определение гаплогруппы.  Указывайте необходимый анализ в сопроводительном документе и смело отправляйте свои анализы заказным (обязательно) письмом по указанному адресу. Вот алгоритм действий для тех, кто решился определить свой гаплотип, а не ограничился гаплогруппой:

1. Отслеживайте путь заказного письма на сайте «Почта России».

2. Как только письмо прибудет в конечную точку, звоните (или пишите) в ЗАО «Родство» и предупредите сотрудника.

3. Убедитесь, что письмо получено.

4. После этого ждите сообщения о том, что письмо передано в лабораторию FTDNA. Как только окажется, что ваши пробы пригодны для анализа, вам надо будет оплатить анализ.

5. После оплаты вам  сообщат логин (это номер вашего KIT) и пароль, по которому вы сможете зайти в личный кабинет на сайте FTDNA и отслеживать результаты.

 

ШАГ ТРЕТИЙ

 

Наступает период длительного ожидания. Мой совет - не тратьте время на болтовню. У вас ещё будет масса времени делать сногосшибательные «открытия», какая гаплогруппа «круче» и «кто кого заборет».  Лучше откройте статью А. Клёсова «ДНК-генеалогия. О чем эта наука, что она определяет и выявляет, и кому она интересна». Найти её можно в «Вестник Российской Академии ДНК-генеалогии. Том 4, № 11, ноябрь 2011» (см.http://aklyosov.home...ex.html#vestnik). Начинайте читать и вникать. Много будет непонятно. Не стесняйтесь и задавайте вопросы в разделе «Практическая ДНК-генеалогия» на форуме «Родство». Вам всегда помогут разобраться и подскажут.

 

ШАГ ЧЕТВЁРТЫЙ

 

И вот, наконец-то, вы становитесь обладателем шестидесяти семи заветных цифр  и гаплогруппы. Это ваша модель, ваш представитель в мире ДНК-генеалогии.

Вот, например, мой 67-маркерный гаплотип из клана T1(M-70):13 23 14 10 15 16 11 12 12 12 13 29 -- 18 9 9 11 13 26 14 19 33 11 13 15 19 -- 10 9 22 23 16 14 17 16 37 39 12 9 -- 11 8 16 17 8 11 10 8 12 9 12 20 20 17 10 12 12 14 8 12 23 19 14 11 11 13 11 11 9 11

Цифры записаны в определённом порядке, установленном FTDNA. Первые 12 цифр (до двойного дефиса) соответствуют 12 маркерам с названиями:

DYS393-DYS390-DYS19-DYS391-DYS385a-DYS385b-DYS426-DYS388-DYS439- DYS389i- DYS392- DYS389ii. Это первая панель гаплотипа. Как раз за неё предлагалось заплатить 2400 руб.

Вторую панель гаплотипа составляют маркеры:

DYS458-DYS459i-DYS459ii-DYS455-DYS454-DYS447-DYS437-DYS448-DYS449-DYS464a-DYS464b-DYS464c-DYS464d (до второго двойного дефиса).

Если их добавить к первой панели, то это будет 25-маркерный гаплотип FTDNA.

Третью панель образуют маркеры:

DYS460-(Y-GATA-H4)-YCAIIa-YCAIIb-DYS456-DYS607-DYS576-DYS570-CDYa-CDYb-DYS442-DYS438.

Вместе с первой и второй панелью она составляет 37-маркерный гаплотип FTDNA.

В четвёртой панели ещё тридцать маркеров:

DYS531-DYS578-DYF395S1a-DYF395S1b-DYS590-DYS537-DYS641-DYS472-DYF406S1-DYS511-DYS425-DYS413a-DYS413b-DYS557-DYS594-DYS436-DYS490-DYS534-DYS450-DYS444-DYS481-DYS520-DYS446-DYS617-DYS568-DYS487-DYS572-DYS640-DYS492-DYS565.

Если её добавить к трём первым, то имеем 67-маркерный гаплотип FTDNA.

Если вы сталкиваетесь с какой-то записью гаплотипов, то в первую очередь надо узнать, в какой последовательности расставлены маркеры. И записать в такой же последовательности цифры, соответствующие этим маркерам, из своего гаплотипа.

Так, например, А. Клёсов ввел понятие 22-маркерного «медленного» гаплотипа, который состоит из маркеров :

DYS426-DYS388-DYS392/DYS455-DYS454/DYS438/DYS531-DYS578-DYF395S1a-DYF395S1b-DYS590-DYS641-DYS472-DYS425-DYS594-DYS436-DYS490-DYS450- DYS617-DYS568-DYS640-DYS492.

Здесь косой чертой обозначены панели маркеров. Я беру значения этих маркеров (выделены жирным в моем 67-маркерном гаплотипе выше) и записываю в том же порядке, в котором следуют маркеры:

11 12 13 --11 13 -- 9 -- 11 8 16 17 8 10 8 11 10 12 12 8 11 11 11 9

Более подробно о  22 маркерных гаплотипах можно прочитать в статье А. Клёсова «Расчеты численных значений констант скоростей мутаций самых медленных 22 маркеров 67-маркерной панели» (Вестник Академии ДНК-генеалогии, том 4, номер 5, май 2011).

Теперь самое время запомнить одну истину. ДНК-генеалогия это не генетика. Вас не должно волновать, почему маркеры называются так, а не иначе; в каком месте Y-хромосомы располагаются эти маркеры и что означают цифры, соответствующие этим маркерам. На первом этапе довольствуйтесь тем, что вам из лаборатории прислали цифровую модель вашей личности. Эти знания будут приходить постепенно, по мере освоения методологии ДНК-генеалогии.

 

ШАГ ПЯТЫЙ

 

Когда проходит  первая радость от обладания такими сокровенными знаниями, то возникает извечный вопрос: «Что делать?».Ответ простой – искать место, где собрались цифровые модели реальных людей. Это различные базы гаплотипов разных коммерческих и научных организаций. Одна из мощных баз – это база FTDNA. Вот один из способов найти представителей своего клана. Как я говорил, в результате проведённого анализа моей Y-хромосомы, мне сообщили гаплогруппу Т1 (М-70).

 Захожу по ссылке http://www.isogg.org/tree/ на сайт Международной организации генетической генеалогии. В строке «Haplogroups:» нажимаю на кнопку T и попадаю на страницу гаплогруппы Т и её субкладов. Учитывая, что я уже знаю о наличии SNP под названием М-41470, то вижу, что как минимум  мой род – Т1а. Чтобы углубиться, надо делать дополнительные тесты на наличие нисходящих SNP.

В пункте «Additional Resources:» выбираю опцию «The Y-DNA Haplogroup T (former K2) Project» и через пару секунд я в базе данных гаплогруппы Т. В опции «Y-DNA Results» из выпадающего списка выбираю «Сlassic» и вижу гаплотипы разной длины, принадлежащие реальным людям с гаплогруппой Т. Для других гаплогрупп алгоритм поиска такой же. Со временем вы найдёте и другие базы гаплотипов.

 

ШАГ ШЕСТОЙ

 

 Для поиска родственных связей надо сформировать матрицу гаплотипов. Для этого каждый гаплотип записывается в одну строку (проще всего это делать в формате Excel). На первом месте стоит идентификационный номер. Затем идут цифры, соответствующие выбранным маркерам. В качестве идентификационных номеров можно использовать номера KIT из базы данных или порядковый номер. Для наглядности перейдём с 67-маркерного формата в 22-маркерный. Тогда матрица будет иметь вид:

 

Labay_1.JPG.jpg

 

В следующих строках надо добавлять гаплотипы интересующих людей. В частности я заметил, что в базе данных имеется всего семь 67-маркерных гаплотипов, которые в маркере DYS492 имеют цифру 9. Запишем их 67 и 22 маркерные форматы. На первом месте стоит KIT из базы данных, в скобках идентификационный номер, который я присвоил этим гаплотипам.

64705 (идентификационный номер 2)

67 маркерный формат:

13 23 14 10 15 16 11 12 12 12 13 27 -- 17 9 9 11 13 26 14 18 33 11 13 15 19 -- 10 9 22 23 16 14 17 16 38 39 12 9 -- 11 8 16 17 8 11 10 8 12 9 12 20 20 17 10 12 12 14 8 12 23 19 14 11 11 13 11 11 9 11

22 маркерный формат:

11 12 13-11 13-9-11 8 16 17 8 10 8 12 10 12 12 8 11 11 11 9415

168005 (идентификационный номер 3)

67 маркерный формат:

13 23 14 10 15 16 11 12 12 12 13 27 -- 17 9 9 11 13 26 14 18 33 11 13 15 19 -- 10 9 22 23 16 14 17 16 39 39 13 9 -- 11 8 16 17 8 11 10 8 12 9 12 20 20 17 10 12 12 14 8 12 23 19 14 8 11 13 11 11 9 11

22 маркерный формат:

11 12 13-11 13-9-11 8 16 17 8 10 8 12 10 12 12 8 8 11 11 9

97388 (идентификационный номер 4)

67 маркерный формат:

13 23 14 10 15 16 11 12 12 12 13 27 -- 18 9 9 11 13 26 14 18 33 11 13 15 19 -- 10 9 22 23 16 14 17 16 38 39 12 9 -- 11 8 16 17 8 11 10 8 12 9 12 20 20 17 10 12 12 14 8 12 23 19 14 11 11 14 11 11 9 11

22 маркерный формат:

11 12 13-11 13-9-11 8 16 17 8 10 8 12 10 12 12 8 11 11 11 9

59953 (идентификационный номер 5)

67 маркерный формат:

13 23 14 10 15 16 11 12 12 12 13 27 -- 18 9 9 11 14 26 14 18 33 11 13 15 19 -- 10 9 22 23 15 14 17 16 38 39 12 9 -- 11 8 16 17 8 11 10 8 12 9 12 20 20 17 10 12 12 14 8 12 23 19 14 11 11 13 11 11 9 11

22 маркерный формат:

11 12 13-11 14-9-11 8 16 17 8 10 8 12 10 12 12 8 11 11 11 9

64704  (идентификационный номер 6)

67 маркерный формат:

13 23 14 10 16 16 11 12 12 12 13 27 -- 17 9 9 11 13 26 14 18 33 11 13 15 19 -- 10 9 22 23 16 14 17 16 39 39 12 9 -- 11 8 16 17 8 11 10 8 12 9 12 20 20 17 10 12 12 14 8 12 23 19 14 11 11 13 11 11 9 11

22 маркерный формат:416

11 1213- 11 13 – 9-11 8 16 17 8 10 8 12 10 12 12 8 11 11 11 9

107555 (идентификационный номер 7)

67 маркерный формат:

13 23 14 10 16 16 11 12 12 12 13 27 -- 17 9 9 11 13 26 14 18 33 11 13 15 19 -- 10 9 22 23 16 14 17 16 39 39 13 9 -- 11 8 16 17 8 11 10 8 12 9 12 20 20 17 10 12 12 14 8 12 23 19 14 11 11 13 11 11 9 11

22 маркерный формат:

11 12 13-11 13-9- 11 8 16 17 8 10 8 12 10 12 12 8 11 11 11 9

147827 (идентификационный номер 8)

67 маркерный формат:

13 23 14 10 16 16 11 12 12 12 13 28 -- 18 9 9 11 13 26 14 18 34 11 13 15 19 -- 10 9 22 23 16 14 17 16 38 38 11 9 -- 11 8 16 17 8 11 10 8 12 9 12 20 20 17 10 12 12 14 8 12 23 19 14 11 11 13 11 11 9 11

22 маркерный формат:

11 12 13-11 13 -9 -11 8 16 17 8 10 8 12 10 12 12 8 11 11 11 9

Теперь занесём 22 маркерные гаплотипы в матрицу. Для компактности записи вместо длинных KIT я использовал нумерацию от 1 до 8. Своему гаплотипу присвоил идентификатор 1. Итого в матрице записано восемь гаплотипов.

 

Labay_2.JPG.jpg

 

Теперь видно, что гаплотипы 2, 4, 6, 7, 8  абсолютно одинаковы. Формально в ДНК-генеалогии они определяют базовый гаплотип данной популяции, который в данном случае имеет вид:

11 12 13-11 13 -9 -11 8 16 17 8 10 8 12 10 12 12 8 11 11 11 9

Предполагается, что он был у предка этой популяции. Подробнее о базовом гаплотипе можно узнать из статьи А. Клёсова « О понятиях "базовый гаплотип", "модальный гаплотип", "предковый гаплотип", «медианный гаплотип» (Вестник, т.4, номер 8, 2010г».

Возникает правомерный вопрос: «Почему тогда гаплотипы 1, 3 и 5 отличаются в некоторых маркерах друг от друга и от базового гаплотипа?»

Дело в том, что при рождении сына есть вероятность изменения любого маркера, полученного от отца. При этом обычно оказывается, что меняется в лучшем случае только один маркер, и то обычно раз во много поколений. Поэтому другие варианты имеют ничтожно малую

вероятность, которой можно пренебречь. Такие изменения в маркере называются мутациями. Многих людей это слово пугает, но бояться нечего. Во-первых, маркеры не являются генами, а значит - не влияют на генотип человека, на его здоровье и самочувствие.

Во-вторых, никто не доказал, что есть какая-то связь между состоянием маркера и какими-либо заболеваниями. Были отдельные скоропалительные заявления, но они не подтвердились.

Более подробную информацию можно получить из статьи А. Клёсова «Микросателлиты и гены Y-хромосомы» («Вестник Российской Академии ДНК-генеалогии. Том 5, № 7, июль 2012»).

В чём проявляются мутации маркера?  В изменении числа, которое характеризует состояние маркера. Как это число изменяется? Оно становиться больше или меньше на 1 (одношаговая мутация). При этом направление изменения числа есть событие равновероятное, как бросание монеты в опыте «орёл-решка». Вероятность двух- или трёхшаговой мутации очень мала, но забывать о них не стоит. Как часто мутируют маркеры? Каждый маркер имеет свою вероятность мутации. У одних она выше, у других ниже. Главное не забывать, что это событие статистическое. Никто не знает,  когда оно произойдёт, но все знают, что оно произойдёт обязательно и предсказывают, что в среднем это событие произойдёт столько-то раз,  за такой-то промежуток времени. Нас не интересуют в данный момент количественные показатели этого процесса, хотя они есть. Самое главное сейчас усвоить, что из поколения в поколение в родовой популяции идёт накопление мутаций и этот процесс прямо пропорционален  времени существования этой популяции. Это означает, что в каждом роду, вместе с не мутированными гаплотипами, существуют отличные, производные от них.

 

ШАГ СЕДЬМОЙ

 

В сформированной ранее матрице мы видим следующую картину - из восьми гаплотипов пять одинаковых и три отличающихся. Загадкой остаётся только динамика развития этой популяции, то есть развитие во времени. Для решения этого вопроса необходимо провести классификацию имеющихся гаплотипов. Под классификацией (сортировкой) подразумевается система группировки гаплотипов на основе учёта общих признаков и закономерных связей между ними. Цель такой классификации это образование пучков гаплотипов (кластеров) и размещение их на некоторой шкале.

Общим в гаплотипах является структура гаплотипа и начальные условия (общий предок). Закономерным является накопление мутаций от начальных условий. И чем древнее гаплотип, тем больше можно ожидать мутаций. Правда, в силу равновероятного выбора направления мутации, накопление может тормозиться или даже «обнуляться» до начальных условий (см. статью Д.Адамова и А.Клёсова «Теоретическая и практическая оценка возвратных мутаций в  гаплотипах Y-хромосомы», Вестник Академии ДНК генеалогии, т.1, №4, 2008г.) Но при сортировке это не важно. Если гаплотипы родственные – можно ожидать скученности кластеров. А при явном разрыве – их расхождение на бОльшие расстояния на линейной шкале. Мерилом родственных отношений будет выступать, в таком случае, минимальное количество мутаций между кластерами.Прежде чем перейти к классификации (сортировке) гаплотипов, создадим матрицу расстояний, т.е. узнаем на сколько мутаций отличается каждый гаплотип друг от друга.

Для этого открываем утилиту BETA Y-DNA Comparision Utility: 111 Allele по адресу:

http://www.mymcgee.com/tools/yutility.html?mode=ftdna_mode.

Начинаем настройку интерфейса.

В строке Exists оставить включёнными только маркеры, входящие в 22-маркерный гаплотип. При работе с другими гаплотипами включается соответствующий набор.В строке Enable можно оставить все маркеры включёнными. В разделе Generate Tables :FTDNA order haplotype comprasion - выкл. SMGF order haplotype comparison with search links – выкл

Ybase order haplotype comparison – выкл

Yhrd order haplotype comparison - выкл

Genetic Distance - вкл

Hybrid mutation model - вкл

Infinite allele mutation model – выкл

В разделе General Setup:

Show Line Numbers - выкл

Create modal haplotype -выкл

Show Legends - вкл

Show Status - выкл

Show ToolTip names -выкл

Show Diagonal Count - выкл

Show HTML Source - выкл

Show Mutation Rates - выкл

В разделе Highlight Reference:

Modal Reference-выкл

Row Reference-выкл

None - вкл

ID Column - 1

1st Data Column – 2

Настройки закончены. Теперь надо скопировать данные из матрицы гаплотипов (всё, кроме первой строки) и вставить в окно Paste haplotype rows here (without marker headers). После этого нажать кнопку Execute. В новом окне сгенерируется таблица. Это и есть матрица расстояний. Нас интересуют только цифры.

 

Labay_3.JPG.jpg

 

Labay_4.JPG.jpg

 

Скопируем данные (с 3 по 10 строку) и вставим в txt. файл простейшего редактора, например «Блокнот» из стандартных программ операционных систем Windows. Все прочерки заменяем на нули. В первой строке, в крайнем правом положении, записываем цифру равную количеству гаплотипов в матрице. В нашем случае – восемь. Со второй строки записаны гаплотипы. Надо иметь в виду, что идентификаторы должны отстоять от левого крайнего положения в 10-ой позиции. Другими словами, идентификаторы должны быть десятипозиционными, не больше и не меньше. Откорректированный файл имеет вид:

 

Labay_5.JPG.jpg

 

и сохраняется как infile.txt. Это файл с входными данными для программы классификации (сортировки) гаплотипов.

 

ШАГ ВОСЬМОЙ

 

Прежде чем перейти к классификации гаплотипов, вспомним, как была сформирована выборка гаплотипов.

Во-первых, все гаплотипы принадлежат клану (гаплогруппе) Т. Во-вторых, в выборку включены только те гаплотипы, которые имеют DYS492=9. В третьих, только те гаплотипы, которые можно записать в полном 22 маркерном формате. Составив матрицу расстояний, мы выяснили:

1. На сколько мутаций отличается один гаплотип от другого.421

2. Пять гаплотипов абсолютно одинаковые.

Единственное, мы не знаем филогению 8 имеющихся гаплотипов, т.е. насколько они родственны и как шло развитие этой выборки во времени. Время связано с количеством мутаций, накопленных в каждом гаплотипе, предположительно от начальных условий. Как решить эту задачу?

Применим кластерный анализ, который не даст нам статистическую картину, но предложит наиболее возможно значимое решение. Есть множество методов иерархического кластерного анализа, которые различаются не только используемыми мерами сходства и различия, но и алгоритмами классификации. Из них наиболее распространен метод ближайшего соседа. Этот метод известен также под названием метод одиночной связи. Расстояние между двумя кластерами определяется как расстояние между ближайшими гаплотипами из этих кластеров.

На каждом шаге в матрице расстояний ищется минимальное значение, соответствующее расстоянию между двумя наиболее близкими кластерами. Найденные кластеры объединяются, образуя новый кластер. Эта процедура повторяется до тех пор, пока не будут объединены все кластеры. В нашем случае первый кластер (2,4,6,7,8), так как эти гаплотипы отличаются друг от друга на 0 ( т.е. не отличаются). Второй кластер это (1,5). Он отстоит от кластера (2,4,6,7,8) на 1. Третий кластер (3) отстоит от объединённого кластера ((2,4,6,7,8)(1,5)) на 1. Таким образом, предлагается следующее решение:

1.Гаплотипы 2,4,6,7,8 образуют базовый (предковый) гаплотип.

2.Гаплотип 3 приобретает статус самого древнего.

3. Гаплотипы 1 и 5 менее древние, но скорее всего не связаны с 3.

Существуют специальные программы, которые проводят такую классификацию самыми разными алгоритмами, отличие которых - в пересчёте расстояний, после образования новых кластеров. На сайте

http://evolution.gen...edu/phylip.html скачиваем программу PHYLIP (version 3.69). Из папки EXE копируем два файла neighbor.exe и font1 и вставляем в Новую папку (дальше можете переименовать её по своему желанию). Это будет рабочая среда классификации гаплотипов. В эту среду переносим файл infile.txt и переименовываем его в просто infile, без всякого расширения.

 

ШАГ ДЕВЯТЫЙ

 

Запускаем файл neighbor.exe . Если файл infile составлен правильно, то откроется окно:

Neighbor-Joining/UPGMA method version 3.69

Settings for this run:

 N  Neighbor-joining or UPGMA tree? Neighbor-joining

 O Outgroup root? No, use as outgroup species 1

 L Lower-triangular data matrix? No

 R Upper-triangular data matrix? No

 S  Subreplicates? No

 J  Randomize input order of species? No. Use input order

 M  Analyze multiple data sets? No

 0 Terminal type (IBM PC, ANSI, none)? ANSI

 1 Print out the data at start of run No

 2  Print indications of progress of run Yes

 3 Print out tree Yes

 4  Write out trees onto tree file? Yes

 Y to accept these or type the letter for one to change

Смело набираете “Y” и запускайте расчёт. Программа методом ближайшего соседа создаст два выходных файла: outfile и outtree. При желании их можно просмотреть в блокноте. Для нас особую ценность имеет файл outtree. Сделайте с него копию и переименуйте её в intree.

 

ШАГ ДЕСЯТЫЙ

 

Теперь нам осталось представить полученные данные в графическом виде. Для этого можно использовать модуль drawtree.exe из папки EXE. Но практика показывает, что лучше всего файл intree открывать программой Mega5 (см. http://www.megasoftware.net/). Для этого надо запустить программу. Открыть выпадающий список User Tree и выбрать опцию Edit/Draw Tree (Manual). В появившейся панели Tree Construction нажать кнопку “From A file”. Найти свой файл intree (для этого прийдётся включить опцию «Все файлы») и открыть его. Затем нажать кнопку сохранить под нужным названием в формате «.nwk». Теперь в любой момент открывайте этот файл опцией «Displey Newick Trees».

На рис.1 Изображено искомое дерево.

 

Labay_6.JPG.jpg

 

Рис. 1 Дерево из восьми 22-маркерных гаплотипов гаплогруппы Т.

Алгоритм программы работает несколько по-другому, чем стандартный алгоритм, но результат тот же. Мы видим базовый кластер 2,4,6,7,8. Кластер 5,1 здесь показан как два одиночных гаплотипа, одинаково удалённых от базового, но не связанные между собой. И одиночный гаплотип 3 – самый мутированный и значит, предположительно, самый старый из этой популяции. Такая конфигурация говорит о неоднородности выборки.

 

ШАГ ОДИННАДЦАТЫЙ

 

Что делать дальше? На этот вопрос даёт ответ статья А. Клёсова «Общие принципы ДНК-генеалогии (новая редакция)», Вестник Академии ДНК-генеалогии, том 2, номер 7, июль 2009г. Главная информация, получаемая из выборки гаплотипов - это время жизни общего предка этой популяции. Сделаем расчёт.

Из матрицы гаплотипов мы узнаем, что гаплотип №1 от базового отличается на 1 мутацию, №5 – тоже на 1 и №3 на 3 мутации. Всего – 5 мутаций на восемь гаплотипов.

Тогда имеем 5/8/0.006=104 поколения или, примерно, 104х25 ≈2600 лет назад. Точность здесь невысокая – плюс-минус 40%.

Проведенный расчёт является качественным только в том случае, если выборка гаплотипов сформирована из родственных гаплотипов. Но мы ранее определили, что выборка, скорее всего, неоднородная. Требуется проверка. Как это делается?

У нас есть пять не мутированных гаплотипов. Проведём расчет времени жизни логарифмическим способом:  (Ln(8/5))/0.006=78 поколений до общего предка. Между первым и вторым способом расхождение составляет  примерно 25%.  Можно сделать вывод, что гаплотипы в нашей выборке имеют не менее двух общих предков. Другими словами, критерий отбора  DYS492=9 не является родообразующим. Если бы расхождение было бы в пределах 5%, то выборку гаплотипов можно

было бы признать качественной. Более подробно этот вопрос изложен в статье И. Рожанского « Оценки сходимости выборок в STR-филогении и анализ ветвей дерева R1a1», Вестник Академии ДНК-генеалогии, т.3, №2, февраль 2010г.

 

ЗАКЛЮЧЕНИЕ

 

Одиннадцать шагов, которые изложены в этой статье, помогут любознательному человеку быстро войти в ДНК-генеалогию. Надо понимать, что это первые шаги, алгоритм «для чайников». Но как говорят: «Да осилит дорогу идущий». А опыт – дело наживное.






0 пользователей читают эту тему

0 пользователей, 0 гостей, 0 скрытых

Copyright © 2024 Академия ДНК-генеалогии. Климатический филиал