Как найти генетических родственников

Время на прочтение
5 мин

Количество просмотров 44K

Я расскажу вам немного о пользе ДНК-тестирования при поиске родственников и своих корней, о стоимости данных тестов, как его заказать и отправить обратно, и о результатах, которые вы можете узнать. Постараюсь сделать это достаточно кратко и просто, настолько, насколько это нужно для понимания сути днк-тестирования при поиске своих родственников и информации о предках.

Зачем делать тест ДНК при генеалогических исследованиях

Что такое классические генеалогические исследования, основанные на документах (актовые записи ЗАГС, метрические книги, ревизские сказки, базы данных участников войн и т.д.) – это понятно. Это классика, это гарантированное подтверждение достоверности информации. Но бывают ситуации, когда документов просто нет (пожар, война на территории архива) или когда человек банально не знает своих настоящих фамилии и места рождения (усыновление, например). Можно, конечно, искать везде и сразу, но это очень затруднительно и по времени и финансово, особенно если человек или предки перемещались территориально.
Вот тогда есть ещё один способ найти информацию о своих родственниках – это анализ ДНК.

image

Всем известно, что ДНК передаётся из поколения в поколение, но как это может нам помочь? Научно доказано, что все живущие на планете люди имеют одного общего предка по мужской линии и одного общего предка по женской линии, т.е. всё человечество происходит от одного мужчины и одной женщины (генетические Адам и Ева, которые к библейским не имеют никакого отношения). Постепенно из поколения в поколение в ДНК происходят необратимые мутации, которые «рождают» отдельные гаплогруппы (ветки ДНК), восходящие к общему предку и передаваемые всем потомкам, через которые можно проследить цепочку до самого давнего предка «Адама» с той самой корневой гаплогруппой. Вообще лучше на эту тему читать отдельную литературу, но смысл должен быть понятен – прослеживаемость родства сквозь поколения через ДНК-тестирование.

Для справки:
Генетические анализы и расчёты показали, что Y-хромосомный Адам – ближайший общий предок всех современных мужчин – жил в Африке около 100 тыс. лет назад. Тогда как митохондриальная Ева – ближайшая прародительница всех ныне живущих женщин – тоже жила в Африке, но около 150 тыс. лет назад. Более того, сам Y-хромосомный Адам является далёким правнуком митохондриальной Евы.

Как далеко можно проследить предков через тест ДНК?

Тесты ДНК можно разделить на 3 типа: аутосомный «общий» тест (au-DNA), мужская линия (y-DNA), женская линия (mt-DNA).
Аутосомный тест – самый популярный. Он выявляет совпадение со всеми протестированными, с кем у вас будет общий предок примерно в 8 поколении. Почему так неточно? Много нюансов, например в процентном соотношении четвероюродные браться на одном уровне генеалогического древа и троюродный родственник с разницей в два поколения с вами будут иметь примерно одинаковый процент совпадения части ДНК. Всё зависит от возраста тестируемого, точнее от числа поколений до общего предка.

image

ДНК в теории делится примерно так:

  • в вас 100% Вашей ДНК и Длина молекулы ДНК — 7000 cM (Са̀нтимо́рган)
  • от мамы и папы у вас по половине их ДНК, а значит совпадение с каждым из них примерно по 50% — 3500cM
  • с дедушкой и бабушкой совпадение уже примерно по 25% — 1750cM
  • в 3 поколении с прадедушками и прабабушками уже только по 12,5% — 875cM
  • в 4 поколении – 6,25% — 440cM
  • в 5 поколении – 3,1% — 220cM
  • и далее меньше и меньше…

image
Это примерная схема в процентах, а ниже в единицах измерения — сМ.

image

image

Например, мой предок в 4 поколении, являющийся также общим предком в 4 поколении для того родственника, которого я нашёл, даёт совпадения между нами обоими в 85cM, а между мной и его отцом – 128cM. Потому что те самые «расчётные» 6,25% до прапрадеда в 4 поколении «размывается» ДНК людей по другой родственной ветке, вот и получается уже 6,25% / 2 = 3,1 / 2 = 1,56 / 2 = 0,78% или расчётные 54,68cM. Реально тест показывает у меня даже больше – 85cM.

Я об этом родственнике не знал, но когда появились ФИО на руках и его генеалогическое древо – сразу нашлись общие точки и стало понятно кто кому и кем приходится. Сайты с результатами тестов же выдают совпадения и 0,2% и 0,1%, так что родство может быть очень дальнее.
Тест мужской линии (Y-ДНК) и тест женской линии (mt-ДНК) интереснее, хотя менее популярны из-за своей дороговизны. Дело всё в том, что по прямой мужской линии от деда к отцу, от отца к сыну передаётся неизменная часть ДНК, по которой можно определить общего предка хоть на интервале 100 лет, хоть 10000 лет. Аналогично по женской линии от прабабушки к бабушке, от бабушки к матери, от матери к дочери, от дочери к детям любого пола (но на мальчике далее не передастся). Этот тест не покажет вам много совпаденцев в процентном соотношении, но покажет место в «цепочке ДНК». Вы точно сможете понять, что ваш далёкий предок был из «финнов», например, даже если последние несколько поколений всегда жили в Украине или России и известные вам фамилии прадедушек все до единой — славянские.

image

Совмещение этих тестов даст более точные и интересные результаты, но это более затратно, поэтому для начала лучше ограничиться «аутосомным» тестом, который даст вам набор хромосом с набором мутаций от всех предков.

Какие результаты я увижу, после того как сделаю тест ДНК? Что делать дальше?

Результаты всех, кто сделал тест, попадают в единую базу лаборатории. Если человек не скрыл свои данные сознательно, то у всех, с кем совпадает хоть небольшая частичка ДНК, этот человек появится в списке «совпаденцев».

Сайты сами выстраивают «совпаденцев» по степени близости родства и предполагают в каком поколении у вас общий предок. Всем пользователям предлагается заполнить кратко информацию, где можно указать фамилии в роду, места жительства предков, свои контактные данные. Соответственно кроме просто процентов совпадения с людьми, появляется возможность искать среди совпавших и фамилии и города проживания и прочие дополнительные детали.

image

image

Имея совпаденцев с достаточно высоким процентом имеет смысл поискать фамилии в своём древе, а также просто связаться с людьми по их контактным e-mail и пообщаться, описав совпадение и расспросив друг друга. Общего предка в 6-7 поколении, да ещё и по женской линии, например, вы так просто не вычислите, но если фамилия не менялась, или если место жительства совпадёт у обоих известных предков – это вам даст направление поиска и лишние зацепки. Почему всё не так просто? Потому что уже в 4 поколении у вас 16 предков и столько же фамилий по их рождению; далее каждое поколение умножаем на 2.

Вопрос выбора лаборатории для сдачи теста – это отдельный, большой вопрос. Нюансов много, например количество протестированных людей в базах данных, а также возможность заливать результаты теста на другие сайты. Вопросы определения этнического происхождения также оставлю за скобками, это по умолчанию во всех тестах есть, но в деле поиска предков это вряд ли поможет.

Этические вопросы и вопросы защиты персональных данных и результатов ДНК

Лаборатории (особенно иностранные) на самом деле очень серьёзно относятся к защите персональных данных и просто так к их результатам никто доступ не получит. Функция поиска совпадений заложена изначально, поэтому если не хотите неожиданно найти внебрачных детей, то лучше указать не совсем реальную фамилию и имя в профиле тестируемого, а также создать отдельный e-mail для приёма писем от возможных совпаденцев (или не делать тест совсем). В остальных случаях лично я никакого криминала в хранении образца ДНК в каких-либо базах не вижу. Можно притянуть за уши вариант доступа к результатам ДНК правоохранительными органами, но вы же не совершаете ничего противозаконного, вам же нЕчего бояться?!

Ну а с целью поиска родственников наоборот нужно указывать реальные данные, указывать дополнительную информацию по искомым фамилиям и местности, тогда шансы найти кого-то существенно повысятся.

Резюме по тестам ДНК

ДНК-тестирование – хороший помощник для исследователей своего рода, особенно если у вас сильные тупики в поисках, связанные с утерей документов или родственных связей. В случаях активных поисков со стороны потерявших память или усыновлённых, так вообще рекомендованный инструмент в поисках.

Какой именно тест выбрать и сколько это стоит – это я расскажу во второй части, о нюансах покупки теста — в третьей части, а что можно увидеть в результатах и как это помогает в поисках – это уже в четвёртой части статьи.

Изучение своей родословной — важная часть самоидентификации. Генетические тесты помогают понять, где жили ваши предки и к каким этносам относились. Это особенно ценно для тех, кто мало знает о прошлых поколениях своей семьи или интересуется, откуда во внешности появились необычные черты.

Но определение этноса – не единственная возможность изучения своей семьи для тех, кто сдал тест. Большая база данных помогает искать совпадения в ДНК между всеми, кто когда-либо сдавал Генетический тест, то есть находить родственников, которые, возможно, никогда не знали друг о друге.

Как понять, что ДНК принадлежат родственникам?

Мы ищем совпадающие сегменты ДНК и сравниваем их между собой. В личном кабинете пользователя Атлас совпадение указано в процентах.

Близость совпадения ДНК измеряют в процентах или в сантиморганах (сМ).

Процент совпадения объясняет степень родства:

50% – родитель или ребенок;

25% — дедушка, бабушка, внук, дядя или тётя, племянник;

12,5% — прадедушка или прабабушка, правнуки, двоюродные братья, внучатые племянники.

Чем меньше процент, тем больше вариантов формы родства.

Каких родственников можно найти?

Мы показываем совпадения до восьмой степени родства. Это значит, что вы можете увидеть людей, ДНК которых на 0,2 % совпадает с вашей.

Это могут быть четвероюродные племянники, внуки троюродной тети или дяди по материнской или отцовской линии. Если найти таких родственников, можно существенно расширить свое генеалогическое древо и восстановить историю семьи, найти общих предков.

Связываться с родственниками или нет – решать пользователю. В личном кабинете есть возможность написать найденным родственникам и при желании продолжить знакомство.

Пользователи попадают в программу поиска родственников только после того, как выражают свое согласие. Если согласия нет, значит, ваши данные не будут раскрыты возможным родственникам, а вам не будут присылать информацию о найденной родне. Кроме того, вы можете согласиться участвовать в программе, оставаясь анонимным пользователем. Это значит, что ваше имя и контакты будут скрыты от других участников проекта.

Генетический тест Атлас расскажет об особенностях вашего здоровья, наследственности и происхождения.

Больше о генетике происхождения в блоге:

  • Гаплогруппы
  • Популяционный состав

В двух предыдущих статьях спецпроекта о генетической генеалогии мы разобрали такие понятия как «этнос», «нация» и «популяция». Мы также писали о том, как популяционная генетика помогает ответить на вопросы историков. Теперь, когда мы подготовили достаточную базу, поговорим о развлекательных генетических тестах — тех, которые проходят, чтобы узнать больше о своем происхождении, найти потерянных родственников и просветиться насчет своих генетических особенностей. В этой статье мы расскажем, как правильно трактовать результаты этих тестов и как извлечь из них пользу.

Генетическая генеалогия

[увеличить рисунок]

В статьях спецпроекта мы расскажем, что изучает генетическая генеалогия, чем она отличается от популяционной генетики, какую роль играет в истории человечества, и с какими трудностями можно столкнуться при интерпретации результатов генетических тестов на этническую принадлежность.

Независимый консультант спецпроекта — Артём Недолужко, к.б.н., сотрудник Nord University (Норвегия) и главный редактор сайта «Квакша».

Представьте такой сценарий: парень сделал генетический тест и выяснил, что у него есть сестра, о существовании которой он и не догадывался. Событие, казалось бы, достойно индийского фильма, где воссоединившиеся после долгой разлуки брат и сестра радуются, поют и танцуют. Однако это правдивая история, которая случилась с выпускником факультета биоинженерии и биоинформатики МГУ Павлом Федоровым (рис. 1).

Павел Федоров с сестрой

Рисунок 1. Фотография, которую Павел Федоров выложил в Facebook с подписью: «Вот как выглядят брат и сестра, которых всего лишь через 27 лет нашел генетический тест через плевок в пробирку».

Павел сделал генетический тест компании 23andMe. Компания также предлагает пользователям зарегистрироваться на сайте и вступить в «генетическую социальную сеть», где можно увидеть степень родства с другими людьми, сделавшими тот же анализ, и общаться с ними. Через несколько лет после того, как Павел сделал тест, он узнал, что у него есть единокровная сестра Наталья: у них разные матери, но общий отец. Ни Наталья, ни Павел до знакомства и не предполагали о существовании друг друга. По словам Павла, узнав, что у него есть сестра, он испытал скорее не сентиментальные чувства, а «научное детское любопытство — а что из фенотипа/поведения будет у нас похоже?»

Наталья — блондинка, живет в Сан-Франциско, работает инженером в Uber, занимается альпинизмом, любит хаски и спасать природу Аляски. Павел — брюнет, живет в Москве и занимается совершенно другими вещами. Но почему-то тоже любит хаски. Хотя кто же их не любит? А еще, судя по фотографии, они оба носят очки и предпочитают один и тот же оттенок серого цвета. Или это мы, сторонние наблюдатели, глядя на фотографию двух людей, обязательно найдем их сходства, если узнаем, что они брат и сестра?

Ох уж эти родственники!

Результаты генетических тестов — штука личная, и не каждый согласится на то, чтобы его родословную разбирали публично. Поэтому для того, чтобы обсудить кое-какие вопросы, касающиеся этих тестов, мы разберем выдуманный пример — возможно, слегка нелепый, но забавный.

Допустим, Витя и Маша решили пожениться. Пышная свадьба им была не по карману, но и совсем без праздника оставаться не хотелось. Поэтому они решили отпраздновать свадьбу скромно и позвать только родственников.

Маша начала составлять список гостей со своей стороны: мама и папа, дедушка Володя и бабушка Раиса, дядя Коля из Барнаула и его внучатый племянник Еремей (а также жена дяди Коли и их сын Федя), тетя Лариса из Новочеркасска с тремя дочками… И это Маша только начала.

Когда Витя увидел этот список, ему тоже захотелось составить свой. Но никого, кроме мамы, папы, двух бабушек и младшего брата он вспомнить не мог. Тут ему пришла в голову мысль: а что если сделать генетический тест и найти родственников по ДНК?

Витя так и сделал: заказал тест от 23andMe, плюнул в пробирку, отправил и стал ждать. А Маша тем временем всё вспоминала своих дядюшек и тетушек, писала им письма, спрашивала их об общих родственниках и всех аккуратно записывала в свою таблицу [1].

Через месяц Витя получил результат теста и ужасно обрадовался: его список родственников оказался длиннее, чем у Маши — 1245 человек! Но как только он начал разбираться, кто есть кто в этом списке, его энтузиазм заметно поубавился. Оказалось, что большинство найденных родственников живет очень далеко — в Северной Америке (рис. 2).

Карта Витиных родственников

Рисунок 2. Карта, на которой цифрами обозначено, сколько Витиных родственников живет в том или ином регионе. Скриншот с сайта 23andMe.

Казалось бы, Витины родственники должны жить в России, ведь никаких американцев в его семье не было. Как так получилось? Всё очень просто: большинство покупателей тестов 23andMe — жители США и Канады. Среди них действительно могут попасться Витины родственники, но все-таки больше можно было бы найти в России, откуда Витя родом. И чтобы их найти, Вите стоило обратиться в компанию, находящуюся в России — например, «Генотек».

Более того, все найденные родственники были далекими — четвероюродные, пятиюродные, шестиюродные братья и сестры. В английском языке все братья и сестры, начиная с двоюродных, называются cousins (часто переводится как «кузены», хоть это и не совсем точно). Таким образом, cousin — двоюродный брат или сестра, а 5th cousin — это шестиюродный брат или сестра (рис. 3). Если считать, что от мамы и папы Витя получил по 50% генов, те — по 50% генов бабушек и дедушек, и так далее, то получается, что уже с четвероюродными братьями и сестрами мы делим всего около 0,78% ДНК (рис. 3). Хотя у родных братьев и сестер обычно совпадает около 50% генов, но чисто теоретически между ними может не быть совпадений вовсе (хотя для этого должен хорошенько поработать демон Максвелла), а может быть и 100% совпадений (как в случае с однояйцевыми близнецами). Так происходит потому, что родные братья и сестры наследуют от родителей не одни и те же гены. Поэтому и кузены, не набравшие нужного процента совпавших генов, могут просто не появиться в списке родственников (рис. 5).

Схема родственников до седьмого колена

Рисунок 3. Схема родственников до седьмого колена. Скриншот с сайта 23andMe.

Есть и случаи, когда ребенок наследует гены от матери и отца не поровну. Это явление называется однородительской дисомией и заключается в том, что ребенок наследует две копии какой-нибудь хромосомы (или ее участка) от одного родителя и ни одной от другого. Удвоение может случайно возникнуть на стадии формирования яйцеклетки или сперматозоида или же на стадии формирования зародыша.

У Павла и Натальи, чей случай описан в начале этой статьи, было более 25% совпадений. Однако такое количество совпадений может быть не только у единокровных или единоутробных братьев и сестер, но также у племянников и их дядей или тетей, у внуков и их бабушек и дедушек. Определяя родство, Павел и Наталья все-таки ориентировались на семейную историю, и отчество было не последней уликой.

Но результаты Витиного теста были совсем не такие выдающиеся, как у Павла и Натальи. Вот, например, первая предполагаемая родственница Вити в списке — Вероника (рис. 4). С ней у Вити совпало 0,33% ДНК: 3 сегмента в 25 сантиморганов.

Витины предполагаемые родственники

Рисунок 4. Витины предполагаемые родственники

Обычно, чем ближе родственная связь двух людей, тем больше общих участков ДНК и тем больше значение в сантиморганах. Хотя бывают и исключения: например, с конкретным четвероюродным кузеном вы можете делить больше ДНК, чем с конкретным троюродным.

Разные хромосомы имеют различную склонность к перекресту (рекомбинации), поэтому число пар оснований, соответствующих одному сантиморгану, варьирует. Для человека 1 сантиморган соответствует примерно одному миллиону пар оснований [2].

С родителями мы обычно делим около 3500 сМ, с братьями и сестрами — около 2500 сМ, а вот уже с кузенами — сильно меньше: начиная от четвероюродных братьев и сестер мы можем просто не иметь общих сегментов (0 сМ), а можем иметь 50 (рис. 5) [3]. Поэтому нельзя точно определить, кем Вите приходится Вероника — она может быть и четвероюродной, и семиюродной, а может быть и еще более дальней родственницей.

Таблица измерения родства в сантиморганах

Рисунок 5. Таблица измерения родства в сантиморганах. Обозначения: 1C — двоюродные братья и сестры; по аналогии: 2C, 3C, 4C — это троюродные, четвероюродные, пятиюродные и так далее братья и сестры. 1C1R — ребенок двоюродного брата (сестры); и по аналогии: 1C2R — внук, 1C3R — правнук. Half-sibling — брат или сестра по матери или отцу (единокровные или единоутробные). Дальше — их дети и двоюродные (троюродные и так далее) братья и сестры.

Тут Витя подумал: а что, если их общие с Вероникой сегменты просто указывают на то, что их предки были из одной и той же популяции? В каком-то смысле все люди — родственники, просто нужно хорошенько покопаться.

Наличие нескольких идентичных участков ДНК само по себе еще не указывает на то, что два человека имеют общего недавнего предка. Возможно, два человека случайно унаследовали один и тот же фрагмент ДНК их далекого предка. А также эти два человека могут происходить из одной генетически гомогенной популяции. Например, ашкеназы часто имеют общие участки ДНК, потому что на самом деле являются далекими родственниками и имеют множество общих предков на протяжении многих поколений.

Если считать, что одно поколение — 25 лет, то общий предок Вити и Вероники родился около 150 лет назад (см. рис. 3). Чтобы найти такого далекого предка, нужно собирать рассказы бабушек и дедушек, искать свидетельства о смерти и церковные записи о крещении и проследить свой род до шестого колена. Собственно, Маша примерно этим и занялась, когда начала составлять список приглашенных на свадьбу.

К тому моменту, как Витя получил результаты теста и задумчиво пролистывал на экране список своих кузенов, у Маши набралось 300 человек, с большинством из которых она не была знакома. «Столько гостей на свадьбе — это перебор», — подумала она. И сказала: «Вить, а давай не будем звать всех этих родственников? Ведь мы их даже не знаем. Давай просто позовем родителей, бабушек, моего дедушку, твоего брата и наших самых близких друзей?»«Давай», — обрадовался Витя, — «все равно я уже выиграл. У меня получилось больше родственников, чем у тебя». — «Зато я нашла всех близких, а у тебя — седьмая вода на киселе! — заметила Маша. — Но знаешь, что самое главное? — продолжила она. — Я выяснила, что мы с тобой не близкие родственники, а значит, смело можем пожениться!»«Даже если бы ты была моей кузиной, — ответил Витя, — меня бы все равно это не остановило. Ведь великий Чарльз Дарвин женился на своей двоюродной сестре Эмме!»

Витя и Маша весело рассмеялись и поцеловались.

На этой трогательной развязке мы их оставим.

Далекие предки

Генетические тесты часто проходят те, кто хочет подтвердить семейные легенды о прабабушке-цыганке, прадедушке-шотландце и тому подобном, или те, кто родился и вырос в генетически разнообразных смешанных сообществах (например в США или Канаде).

Компаниям, предлагающим генетические тесты, такой спрос выгоден — ведь благодаря ему можно продать больше тестов. Также этот спрос играет на руку и владельцам туристических компаний, ведь многие из тех, кто прошел генетический тест и «узнал свою родословную», обязательно захотят узнать больше о своих предках. А как узнать больше, если никаких записей и фотографий этих предков не сохранилось? Конечно же, съездить на историческую родину!

Следуя этой логике, нам всем стоит побывать в Африке, откуда родом все представители рода Homo sapiens [5]. Но предприниматели отнеслись к этой идее вполне серьезно. Например, летом 2019 года 23andMe и Airbnb начали партнерские отношения, суть которых состоит в том, чтобы предлагать людям, прошедшим генетический тест, съездить на каникулы «на родину предков». Но как понять, земли каких именно предков нужно почтить таким визитом?

Компании, продающие генетические тесты, дают следующий ответ: они сравнивают результаты пользователя с данными, полученными по различным популяциям (о том, как составляют такие геногеографические карты, мы рассказали в предыдущей статье «Щепки в потоке истории» [6]). Потом на основании полученных результатов пользователю выдают список популяций, с которыми у него наибольшее количество совпадений. И из этого уже делается вывод о том, кем были его предки и где жили.

Здесь у вдумчивого читателя могут возникнуть вопросы: ведь сравнивают данные современного человека с данными современных популяций. А люди из этих популяций никак не могут быть предками того, кто проходит генетический тест. Две современные популяции могут иметь общую предковую популяцию — как, например, современные молдаване и итальянцы.

Социолог и антрополог Дарья Халтурина остроумно прокомментировала результаты своего генетического теста, обнаружив там балканцев и итальянцев: «Балканцы и итальянцы — это следы [моих] молдавских предков с Кубани. Наверное, всем молдаванам пишут, что они частично итальянцы. Уж писали бы “римляне”». Так какую же родину стоит посетить Дарье — Италию или Молдавию? Следуя рекомендациям, которые теперь совместно выдают 23andMe и Airbnb, посещать надо Италию. И это замечательно: в Италии тепло и красиво, вкусная еда и великолепные музеи. Но почему не Молдавию? И вообще, с какой стати на основании каких-то кусочков ДНК можно указывать человеку, в какой музей ему идти?

Оставим этот вопрос риторическим и снова займемся Витей.

Когда Витя сдавал тест, он надеялся получить какой-нибудь интересный результат и узнать больше о своем происхождении. А получилось, что тест выдал то, что Витя и сам знал: скорее всего, его предки из России (рис. 6). «Спасибо, кэп», — подумал Витя.

Результат генетического теста Вити

Рисунок 6. Результат генетического теста Вити

Итак, тест показал, что Витя на 97,3% из России, Польши и Украины. А на остальные 2,7%? Тут Витя задумался: что означают эти проценты?

А они в данном случае отражают долю этноспецифических SNP, представленных в анализируемом геноме.

Например, если бы у Вити в результате теста оказалось 30% сходства с шотландцами, это бы означало, что у Вити и представителей коренного населения Шотландии общая вероятная популяция происхождения. И доля этой предковой популяции в геноме Вити — 30%.

Но шотландцами называть эту популяцию мы не можем, потому что шотландцы — это нация, а нация и народ никакого отношения к генам не имеют, так как это социологические понятия, которые могут меняться (всё это подробно разобрано в статье «В поисках национального генотипа» [7]).

Покопавшись еще немного в результатах своего теста, Витя обнаружил, что 0,1% его генов совпадает с генами коренных американцев. Вот это было интересно! Может быть, кто-то из его предков был вождем племени?

По умолчанию, для того чтобы сообщить результаты, 23andMe выставляет уровень доверия доверительного интервала в 50% и не показывает результаты, которые этот порог не прошли. Но пользователь может и сам выставить уровень доверия. На рис. 7 видно, как в зависимости от этого уровня меняется результат теста. Популяции с малыми процентами пропадают уже при 80%.

Результаты Витиного генетического теста в зависимости от выбранного уровня доверия

Рисунок 7. Результаты Витиного генетического теста в зависимости от выбранного уровня доверия. а — Шкала выбора уровня доверия. б — Результаты Витиного теста. Слева направо: 90%, 80%, 70%, 50%.

Так что же означают эти малые проценты? Здесь приходит на ум какой-нибудь кулинарный пример: скажем, вам дали три вареные фасолинки и попросили угадать, частью какого блюда они являются. Грузинское лобио или мексиканское chili con carne? А может, что-то другое? Для того чтобы достоверно определить, из какого блюда эти фасолинки, нужны дополнительные подсказки. Когда речь идет о генетических тестах, такими подсказками станут семейные архивы.

Статистический шум

Рисунок 8. Малые проценты в вашем предковом составе не означают, что кто-то из ваших далеких предков был представителем указанной национальности. Скорее всего, это лишь статистический шум [8].

Развлекательные генетические тесты

Рынок генетических тестов — интересное явление.

С одной стороны, генетические тесты — это развлечение. В интернете можно найти много рекомендаций, основанных на генетических тестах: подбор сорта вина, диет, склонности к различным видам спорта и творчества. Особой популярностью пользуются тесты на происхождение. Символично, что в 2018 году главным исполнительным директором компании Ancestry стала Марго Георгиалис, занимавшая до этого ту же позицию в Mattel — компании, продающей игрушки (в том числе кукол Барби).

По данным исследовательской компании Kalorama Information, объемы продаж развлекательных ДНК-тестов выросли с 15 миллионов долларов в 2010 году до более 99 миллионов долларов в 2017 году [9].

В ноябре 2018-го CEO Ancestry заявила, что компания продала 14 миллионов генетических тестов. А их главный конкурент, 23andMe, к тому моменту всего 10 миллионов наборов.

С другой стороны, эти тесты могут служить хорошим подспорьем в криминалистике и разработке лекарств. Компании, продающие генетические тесты, собрали огромные массивы генетических данных — причем им удалось это сделать за счет покупателей.

В прошлом году 23andMe и GlaxoSmithKlein (GSK) заключили соглашение, согласно которому, GSK может пользоваться базой данных, собранной 23andMe [10], [11]. Большинство клиентов 23andMe также предпочитают отвечать на вопросы о своем здоровье, что дает представление о взаимосвязи между генетикой и конкретными заболеваниями. Правда, есть одна проблема: покупатели теста 23andMe составляют вполне определенную социальную группу — тех, кому не жалко потратить 100–200 долларов на развлечение. То есть группу белых обеспеченных американцев.

Но США — страна большая и генетически разнообразная, поэтому генетические тесты не решают проблему сбора информации о генетических особенностях ее жителей. В других странах дело обстоит по-другому. Например, популяция Финляндии формировалась обособленно, поэтому для нее можно выделить список наиболее распространенных болезней и мутаций [12]. Но активность генов регулируется эпигенетическими механизмами — то есть приобретенной «надстройкой» над генами. Поэтому предсказательная сила генетического анализа немного снижается.

Вообще, тема генов и их влияния на личность человека окружена огромным количеством мифов. Самые главные из них разобраны в статье «6 мифов о генах», опубликованной на сайте «ПостНаука» [13]. Интересную разоблачительную статью опубликовал и Сергей Белков в ответ на якобы найденный компанией «Генотек» «ген алкоголизма» [14].

Приведем еще один пример неправильной методологии трактовки генетических данных. В 2017 году компания «Генотек» опубликовала результаты исследования, согласно которым на долю «коренных русских» приходится лишь 16,2% от генома «среднего россиянина». В статье «Щепки в потоке истории» мы уже писали о том, какие разнообразные популяции формировались на территории России [6]. Поэтому у тех, кто читал эту статью (или просто хорошо разбирается в теме), должен сразу возникнуть вопрос: кто такие «коренные русские»? Может быть, дославянское население? Иван в ушанке, играющий на балалайке и танцующий с медведем? Или житель Среднерусской возвышенности? Результаты, опубликованные компанией «Генотек», вызвали у специалистов недоумение и были качественно разобраны — например, в статье, написанной Артемом Космарским и опубликованной на сайте Indicator [15].

Вообще, все эти примеры только лишний раз указывают на то, что генетический материал мало собрать и секвенировать — нужно его и правильно трактовать. А что такое «правильно» зависит от того, что мы ищем. Хорошим примером может стать компания yRisk, созданная Андреем Афанасьевым и Антоном Тихоновым. Компания занимается именно трактовкой результатов тестов [16]. Работники высылают образец крови исследуемого человека в стороннюю лабораторию, а потом по сырым данным оценивают вероятность возникновения рака, основываясь на наследственной предрасположенности. Конечно, риск возникновения рака из-за курения или других внешних факторов таким образом не оценить, да и наследственная предрасположенность к раку не означает, что у человека он обязательно разовьется. Но все же предупрежден — значит вооружен.

Здесь стоит добавить, что большинство компаний, предлагающих генетические тесты, позволяют пользователям скачать и сырые данные, которые потом можно проанализировать с помощью других инструментов. Правда, не факт, что эти компании изучают все важные участки генома.

Поговорим теперь о другой важной области применения генетических тестов — о криминалистике. 25 апреля 2018 года полиция Сакраменто объявила об аресте бывшего полицейского — Джозефа Деанжело, «убийцы из Золотого штата», обвиняемого, по крайней мере, в 13 убийствах и 50 изнасилованиях. Трудно представить себе, что чувствовали жертвы и близкие убитых: преступника не удавалось обнаружить в течение 40 лет. Биоматериала убийцы у полиции было предостаточно, но так как он никогда не привлекался к ответственности, найти его в полицейской базе данных не удавалось.

На помощь пришел GEDmatch — сервис, созданный для того, чтобы люди могли найти потерянных родственников. Полиция нашла родственников Деанжело и уже по родственным связям и психологическому портрету добралась до самого преступника.

Как видите, генетические тесты могут здорово помочь криминалистике. И этим пользуются: например, Family Tree DNA, одна из крупнейших частных компаний, продающая генетические тесты, позволяет агентам Федерального бюро расследований (FBI) пользоваться своей обширной базой данных для поиска преступников, совершивших жестокие преступления.

Ловить опасных преступников — это прекрасно, но что, если данные генетических тестов попадут не в те руки? Поделившись с кем-то информацией о своей ДНК, вы также автоматически делитесь информацией о родственных связях и о ДНК ваших ближайших родственников — родителей, братьев, сестер и так далее. Например, если двоюродный брат Вити, прошедшего тест 23andMe в начале этой статьи, работает в разведке, то спецслужбы его легко вычислят, если раздобудут его ДНК. Они прогонят данные разведчика через базу данных 23andMe, обнаружат, что она похожа на ДНК Вити и проследят за родственными связями. Но у Вити нет двоюродного брата, так что и волноваться тут нечего.

Согласно российскому законодательству, граждане России не могут отправлять свой генетический материал за границу. Это правило касается только образцов в контейнерах — внутри себя вы можете смело провозить любые свои биоматериалы. Так что если вы хотите пройти генетический тест, не выезжая из России, вам нужно воспользоваться услугами компаний, зарегистрированных здесь, — например, «Генотека» или «Атласа».

Мнения экспертов

Как мы уже писали в этой статье, трактовка данных генетических тестов — дело сложное. Разные ученые и работники компаний могут подходить к этому вопросу по-разному, и от их подхода зависит, что же мы получим на выходе. Мы задали несколько вопросов экспертам: Александру Ракитько, представляющему компанию «Генотек», и специалистам по генетической генеалогии — Олегу Балановскому и Вадиму Вереничу.

Вопросы Александру Ракитько

1. Что показывают тесты на этническую принадлежность?

Человек обращается в генетические компании с вопросами: «Кем были мои бабушки, прадедушки?», «К каким народам они принадлежали?». Не совсем понятно, как определять этническую принадлежность человека, у которого папа был горским евреем, а мама — татаркой. А воспитывался он в приемной семье азиатов, проживающих в Финляндии. В этом случае задача генетического теста состоит в определении того, что половина предков данного человека была татарского происхождения, а половина — горские евреи. К счастью для популяционных генетиков, 150 лет назад самолетов еще не было, а миграционные процессы и межэтнические браки не имели столь высокую интенсивность, как сейчас. Так что технологии расшифровки генома подоспели вовремя: у нас еще есть возможность разобраться, когда и какие группы людей смешивались. Как в контексте одного человека, так и в контексте целых народов.

Для проведения генетического теста на этническое происхождение необходимы три компонента:

  1. Расшифрованные геномы людей, чье происхождение известно. Так называемая обучающая выборка. Как правило, требуется, чтобы все бабушки и дедушки человека были из одной популяции / этнической группы (например, жили в одной деревне). Эти геномы составляют некоторую референсную панель. Чем больше разных популяций представлено и чем больше образцов в каждой популяции, тем лучше панель.
  2. Расшифрованный геном исследуемого.
  3. Алгоритм, который на основании референсной панели из геномов с известным происхождением сможет сказать, из каких «составных частей» состоит геном исследуемого.

Мы можем представлять себе, что геном каждого человека состоит из перемешанных фрагментов, доставшихся от прародителей, словно покрывало из разноцветных лоскутков. Фрагменты одного происхождения (например, из одного и того же этноса) будем раскрашивать в один цвет, другого происхождения — в другой цвет. Тогда задача генетического теста сводится к тому, чтобы понять, какова доля фрагментов каждого цвета в геноме исследуемого. Основные алгоритмические сложности состоят в том, что мы не знаем, где начинается и заканчивается каждый фрагмент, а также в какой цвет его правильно раскрасить.

Изначально мы работаем с размеченной выборкой референсных геномов — геномов, происхождение которых мы знаем. Но нужно учитывать ряд важных моментов. Например, кто-то ошибся и неправильно сообщил информацию о своем происхождении. Такие выбросы мы сможем увидеть и отфильтровать на стадии формирования обучающего датасета. Какие-то популяции окажутся слишком похожими друг на друга генетически, и мы будем вынуждены рассматривать их объединение как единый генетический кластер (например, генетически русские и белорусы слабо различаются, по крайней мере, текущими статистическими инструментами различия определить сложно).

По сути, это означает, что генетические тесты основаны на сравнении генома человека не с различными этносами, а с некоторыми генетическими кластерами. Которые формируются так, чтобы быть хорошо отличимыми друг от друга, покрывать как можно больше различных популяций и состоять из достаточно большого количества расшифрованных геномов. С формальной точки зрения эти кластеры описываются теми образцами, которые в них входят, и набором генетических маркеров, которые были расшифрованы. Однако для исследуемого эта информация малопонятна и не информативна.

Чаще всего биоинформатически выделенный генетический кластер соответствует некоторому этносу или набору этносов. Другими словами, почти все люди из одного генетического кластера относятся к одному этносу / набору этносов. В то же время, подавляющее большинство людей из рассматриваемого этноса будут генетически более похожи на образцы именно из соответствующего кластера, а не из какого-либо иного генетического кластера. Именно поэтому для упрощения восприятия генетическим кластерам дают названия этносов или географических регионов (когда генетический кластер состоит из многих этносов).

Резюмируя, можно сказать, что генетические тесты определяют, какова доля в конкретном геноме того или иного генетического кластера (кластеры определяются как обучающей выборкой, так и используемым алгоритмом и его ограничениями). Результаты же сообщаются после некоторого упрощения, в ходе которого генетическим кластерам сопоставляются популяции, этносы, регионы. Эти сопоставления обусловлены историческими и статистическими факторами.

Итак, мы разобрались, откуда в генетических тестах появляются этносы и народы. Теперь необходимо понять, каким образом рассчитываются доли для каждого из генетических кластеров (этносов/регионов). Существует два основных подхода: global ancestry inference и local ancestry inference.

Подход global ancestry inference основан на анализе различий частот генетических маркеров в разных популяциях (далее слово «популяция» будем использовать как синоним генетического кластера). Для этого в геноме выделяют набор генетических маркеров (SNP), которые разбросаны по всему геному, независимы и имеют различные частоты в разных популяциях. Мы предполагаем, что геном исследуемого сформировался в результате смешения в некоторых пропорциях референсных (донорских) популяций. Зная генотип исследуемого в этих точках, мы можем выбрать пропорцию смешивания донорских популяций, которая будет наиболее правдоподобной для этого исследуемого. У такого подхода есть ряд плюсов: вычислительная эффективность, необходимость знать лишь частоты SNP для каждой популяции, возможность предполагать существование «древних» популяций, которые сформировали текущие популяции. К недостаткам стоит отнести то, что данный подход не сообщает, из какой именно популяции пришел конкретный участок генома человека, не используется информация о LD-структуре (LD — linkage disequilibrium, неравновесное сцепление генов), алгоритм плохо работает для близких популяций.

В этом свете подход local ancestry inference выглядит более предпочтительным, поскольку он основан непосредственно на раскраске хромосом (фазированных) в цвета разных популяций. Такой подход сложнее вычислительно и требует бóльших размеров обучающих выборок. Однако позволяет разделять относительно близкие популяции и учитывает LD-структуру. Нужно понимать, что оба подхода представляют вероятностно-статистические методы, которые работают с некоторой (не 100-процентной) точностью.

В итоге мы получаем, что генетические тесты определяют, на какие генетические кластеры были похожи геномы предков исследуемого. Для упрощения генетические кластеры сопоставляются этносам/регионам. В результате генетического теста сообщают, в каких пропорциях геном исследуемого включает маркеры различных генетических кластеров (в случае local ancestry inference геном предварительно «раскрасят» в каждый из кластеров).

2. Какие базы SNP и частот SNP используют компании: одну общедоступную или каждая свою? Насколько эти базы обширные и охватывают ли они все континенты в достаточной мере? Позволяют ли выделять мелкие кластеры: регионы государств, отдельные города?

К сожалению, единой базы с геномами из популяций со всего мира не существует. Есть несколько проектов (1000 Genomes, HapMap, HGDP) с открытыми данными, которые входят практически в любую референсную панель. Однако это всего лишь несколько тысяч геномов, которые покрывают лишь часть популяций. Причем почти для всех популяций количество проанализированных образцов недостаточно для того, чтобы качественно охарактеризовать генетическое разнообразие данной популяции. Это означает, что каждая компания вынуждена собирать свою собственную базу референсных геномов. И в этом, в частности, заключается конкуренция: чем лучше собранная база, тем более детальные результаты может предлагать компания.

Можно выделить три основных источника данных:

  1. Образцы с известным происхождением, собранные и генотипированные самой компанией.
  2. Выборки из статей по популяционной генетике, которых в последнее время, к счастью, становится все больше.
  3. Выборки из статей по генетике здоровья. Размеры этих выборок в разы превышают выборки из популяционных исследований. Однако, сильно зашумлены, содержать большое количество метисов, описываются регионами, а не этносами.

Стоит отметить, что научное сообщество предпринимает определенные попытки по агрегации и систематизации различных выборок.

Estonian Biocentre — коллекция статей и данных в открытом доступе от эстонского биоцентра.

David Reich Lab — агрегированный датасет Медицинской школы Гарварда из более 7000 современных и древних геномов.

Для популяционных выборок характерна несбалансированность. Например, можно обнаружить гораздо большее количество расшифрованных геномов якутов, нежели геномов белорусов. Потому что якуты формируют изолированную популяцию, представляющую бóльший научный интерес, нежели белорусы.

С одной стороны, на текущий момент доступно не так много данных, позволяющих полно и качественно охарактеризовать различные регионы в масштабе этносов и субэтносов. С другой стороны, количество расшифрованных геномов в последнее время существенно выросло. Мы весьма оптимистично настроены относительно возможностей разделения близких этнических групп. И генетические компании должны сыграть одну из главных ролей в формировании обучающих выборок и совершенствовании предсказательных алгоритмов.

3. Какова глубина (в поколениях) этих тестов?

Однозначного ответа на этот вопрос не существует, так как слишком много факторов оказывает влияние на точность и полноту предсказания происхождения. Существуют инструменты (например ADMIXTURE), которые позволяют оценивать долю «древних» популяций, существовавших сотни и тысячи лет назад. Если же говорить о раскраске хромосом в различные популяции, то даже уже на уровне трех поколений возникают проблемы — фрагменты ДНК, доставшиеся нам от прадедов, достаточно коротки, чтобы иметь возможность идентифицировать их с достаточной точностью. Также важно понимать, какие популяции смешивались. Если это были африканские и европейские популяции, то обнаружить их смешение несколько поколений назад гораздо больше шансов, чем, например, двух популяций с Северного Кавказа.

Любопытно отметить, что популяционные генетики и исследователи из коммерческих компаний часто решают схожие задачи, но для разных временных интервалов (как следствие, и алгоритмы используют разные). Коммерческим компаниям важно уметь отвечать на вопрос «Из каких народов были ваши предки несколько поколений назад (<5)?». Научно-исследовательские институты, наоборот, интересуются событиями, происходившими 5–20 поколений назад, причем не для конкретного человека, а в масштабе целых популяций. С поиском родственников ситуация, кстати, противоположная. Коммерческие компании соревнуются в определении наиболее дальнего родства. А в научно-исследовательских лабораториях внимание обращают на близких родственников (их необходимо исключать из выборок, иначе будут возникать разного рода смещения).

4. Почему результаты (интерпретации) по одной и той же пробе у разных компаний разнятся (причем часто сильно разнятся)?

Я не могу согласиться с тем, что результаты у разных компаний разнятся часто и сильно. По нашему опыту сравнения тестов Genotek, MyHeritage, 23andMe и нескольких других компаний, результаты почти всегда совпадают в пределах статистической погрешности методов для крупных регионов (Африка / Западная Европа / Восточная Европа / Азия), а отличия чаще всего вызваны разными обучающими выборками, о чем компании заявляют заранее.

В целом, я бы выделил три основные причины различий в результатах:

  1. Различные референсные базы данных с геномами известного происхождения. Как мы уже говорили, единой базы не существует. Поэтому каждая компания собирает свою базу данных. Кто-то фокусируется на афроамериканцах, кто-то на народах Сибири.
  2. Различные алгоритмы оценки происхождения. Хотя основные игроки на мировом рынке используют сходные подходы, не существует золотого стандарта и лучшего алгоритма.
  3. Различные методики генотипирования. Разные компании используют разные модели чипов для генотипирования. А кто-то вообще использует секвенирование со сверхнизким покрытием.

5. Могут ли специалисты компаний ошибочно интерпретировать результаты тестов и какие возможны ошибки?

В тех компаниях, с которыми я знаком, нет специалистов, вручную интерпретирующих результаты ДНК-тестов. Клиент получает проценты, рассчитанные искусственным интеллектом. С одной стороны, это хорошо. Потому что машина работает так, как ее запрограммировали, ее результат не зависит от настроения. С другой стороны, если в ее «программе» есть систематическая ошибка или неточность, то она будет в результатах всех клиентов.

Наиболее частый пример систематических ошибок (или ограничений метода) — неполнота обучающей выборки. Например, если в референсной панели из народов Восточной Сибири будут только якуты, то все тувинцы и буряты будут определяться как якуты. Хотя сами по себе эти народы различимы генетически.

Вопросы Олегу Балановскому

1. Что показывают тесты на этническую принадлежность?

Тесты, которые (некорректно, но доходчиво) называются тестами на этническую принадлежность, или этнокалькуляторами, показывают степень сходства генотипа конкретного человека с каждой из основных популяций мира. Если этот генотип неотличим от одной из них, можно сделать вывод, что практически все предки человека происходят из этой популяции. Если генотип похож на две или три, можно сделать вывод, что предки человека были из этих разных популяций, и можно примерно оценить, какая доля из всего множества его предков происходила из одной популяции, какая — из другой, и так далее.

Но тут есть две сложности. Первая — определяются именно популяции, а не этносы (народы). Вторая — многое зависит от выбора основных популяций, с которыми производится сравнение.

Сначала о первой сложности. Связь популяции и этноса — неоднозначная научная проблема, потому что принадлежность человека к этносу определяется самосознанием самого этого человека, то есть это психология, а принадлежность к популяции — это биология. Поэтому этнос и популяция, с одной стороны, могут быть не связаны (Пушкин — русский поэт, несмотря на своего африканского предка), а с другой стороны, в какой степени представители одного народа заключают браки со своими, в такой же мере большинство членов этноса относятся и к одной биологической популяции. Получается, что то, что определяют эти тесты, точнее называть «биогеографическое происхождение», а вовсе не «этническая принадлежность». Применительно к генетической генеалогии все это означает, что генетическая принадлежность к какой-либо популяции показывает лишь вероятную (но вовсе не обязательную) принадлежность предков исследуемого к соответствующему народу. Обратите внимание на слово «соответствующему». Какому народу соответствует популяция «южная Европа» — испанцу, греку или румыну? Каждому из них! И почти все популяции, включенные в генетико-генеалогические тесты, соответствуют довольно большим территориям, на которых проживает не один, а несколько народов.

Вот мы и подошли ко второй сложности. Пример 1: генотип исследуемого человека сравнивается с русскими, чеченцами и татарами, и обнаруженное совпадение с татарами может означать, что его предки происходят из любой популяции, более похожей на татар, чем на чеченцев или русских, — например из популяций башкир или узбеков. И формально совершенно правильный результат «100% татарского компонента» может ввести в заблуждение. Пример 2: для исследуемого показано сходство с Южным Кавказом и конкретно с азербайджанцами и армянами. Но на Южном Кавказе много других народов, и то, что не отмечено сходство с талышами или езидами, может означать либо что исследуемый на них не похож, либо что этих народов просто нет в панели сравнения. Напрашивается идея сравнивать с максимально большим числом популяций — десятками и сотнями по всему миру. Но эта идея создает больше проблем, чем решает: во-первых, многие популяции генетически очень сложно отличить друг от друга (например, русских и поляков, казахов и киргизов, и т.д.). Во-вторых, если популяций сравнения много, то проценты происхождения из каждой из них теряют свой прямой смысл — поскольку сами базовые популяции становятся смесью друг из друга; в результате человек, имеющий всех предков только из Центральной России, будет смоделирован как имеющий и славянские, и финно-угорские, и степные корни — поскольку сам генофонд русских Центральной России представляет собой смесь этих компонентов.

Поэтому при рассмотрении результатов такого тестирование имеет смысл всмотреться в список всех возможных компонентов, прикинуть, насколько географически широким является каждый из них, и не спешить приравнивать биологическое происхождение своих предков к тому, к какому народу они себя относили и на каком языке говорили.

2. Какие базы SNP и частот SNP используют компании: одну общедоступную или каждая свою? Насколько эти базы обширные и охватывают ли они все континенты в достаточной мере? Позволяют ли выделять мелкие кластеры: регионы государств, отдельные города?

Каждая использует свою. Если каждая база данных составлена хорошо, то это не проблема — они дадут одинаковые результаты. Но как говорилось в предыдущем ответе, если одна база данных включает много популяций, а другая мало, результаты заведомо будут разные.

Также нужно понимать, что проследить биологическую историю человека можно тремя способами — по отцовской линии наследования (гаплогруппам Y-хромосомы), по материнской линии (митохондриальной ДНК) или по всем линиям суммарно (аутосомным маркерам). В основном используют аутосомные тесты, и я здесь комментирую только их, но если использовать Y-хромосому или митохондриальную ДНК, то возникают как новые возможности, так и новые вопросы к качеству баз данных и уровню дробности выделяемых гаплогрупп.

Есть и еще одна небольшая сложность — понять, что конкретно обозначает то или иное название популяции. Например, популяция «Восточная Европа» в результатах одной генетико-генеалогической компании может означать европейскую часть России, а для другой — полосу стран от Польши до Греции, при этом у третьей компании Греция может относиться к популяции «Балканы», а у четвертой компании — к популяции «Южная Европа». Конечно, эту сложность легко решить, если четко описать (или нарисовать на карте) населения каких регионов или какие народы включены в ту или иную основную популяцию, но, к сожалению, не все компании это делают.

Касательно качества покрытия континентов и стран — доступных данных сейчас много, и нет проблем включить все континенты и большинство стран. Вопрос лишь в том, какие именно популяции будут выбраны как стандартные для работы алгоритма и включат ли компании лишь свои собственные данные по своим предыдущим клиентам, или постараются собрать обширную базу данных из всех доступных источников.

Можно ли найти различия внутри страны? Для большинства стран это вряд ли возможно, но, например, различия между северными и южными русскими совершенно реальны, а между южными и северными китайцами огромны. Однако при этом северные русские могут быть неотличимы от финнов, а северные китайцы — от корейцев. Различия между городами — еще более сомнительная идея, ведь города обычно аккумулируют смесь всего населения страны, поэтому все города похожи. Например, большинство населения почти всех городов России составляют генетически неразличимые между собой русские (южные и центральные), украинцы и белорусы, поэтому генетически едва ли различимы, скажем, Новосибирск и Петербург. Хотя исключения возможны (например, Махачкала населена в основном народами Дагестана, а Кызыл — тувинцами), но они будут отражать различия не между городами как таковыми, а между соответствующими регионами.

3. Какова глубина (в поколениях) этих тестов?

Если мой папа — негр, а мама — китаянка, то в каждой паре моих хромосом одна будет африканская, а другая — восточноазиатская. И это будет очень наглядно видно в моем генотипе. Моему ребенку я передам уже хромосомы, которые будут состоять из чередующихся африканских и восточноазиатских кусков, причем длина этих кусков будет в среднем совершенно определенной (на генетическом языке эта единица длины хромосомы называется «морганида»). А своим детям — моим внукам, правнукам негра и китаянки, — мой ребенок передаст африканские и азиатские куски, которые будут в два раза короче. И так каждое поколение они будут становиться все короче и короче, пока не станут совсем неразличимыми. И это произойдет уже через несколько поколений.

Поэтому при анализе генотипа клиента можно не только определить количество (долю) генома, пришедшую из определенной популяции, но и посмотреть, рассеяна эта доля по длине генома мелкими блоками или средними, или вообще по одному блоку на хромосому. Чем длиннее блок, тем ближе в родословной предок из этой популяции.

В научных исследованиях этот метод работает и на глубине в десятки поколений, до двадцати поколений точно. На там мы суммируем блоки, найденные у всех изученных индивидов, и усредняем. Тогда если у одного индивида блоков вообще нет, а у другого в два раза больше, это не страшно для результата. По идее, для целей генеалогии, когда надо получить достоверный ответ для одного индивида, эта глубина меньше, но сам я не работал этими методами для таких целей, поэтому не могу прокомментировать детали.

Анализ таких блоков генома — аутосомных гаплотипов (не путать с гаплотипами, изучаемыми на Y-хромосоме!) — позволяет также выявить, есть ли среди ранее протестировавшихся людей близкие родственники данного клиента. Логика тут та же самая — если блоки генома у двух людей совпадают, и это нельзя объяснить случайностью, значит, эти люди унаследовали эти блоки от своего общего предка. И чем длиннее эти блоки, чем ближе в родословной этот предок. Родственники первой, второй и третьей степеней родства выявляются четко, а более глубокое родство обнаруживается менее надежно, а родство далее четвероюродного выявить малореально.

4. Почему результаты (интерпретации) по одной и той же пробе у разных компаний разнятся (причём часто сильно разнятся)?

Полагаю, что примеры больших расхождений — вроде неодинаковых результатов для близнецов или совсем разных предковых популяций для одного и того же человека по результатам разных компаний — вызваны ошибками самих алгоритмов анализа. Ошибки неизбежны в любой работе. Если компании начнут подробнее описывать свои алгоритмы, таких грубых ошибок станет значительно меньше.

Кроме ошибок — с которыми справиться относительно легко, — есть и не столь большие, но систематические различия в результатах разных компаний. Они могут возникать либо из-за различий в базах данных — вроде разобранных выше различий в составе выделяемых основных популяций мира, — либо из-за различий в алгоритмах анализа. Эти различия неизбежны, но опять-таки, если алгоритмы будут более прозрачны, постепенно станет ясно, какие из них дают самые точные результаты, и все компании перейдут на них.

5. Могут ли специалисты компаний ошибочно интерпретировать результаты тестов и какие возможны ошибки?

Мелкие ошибки возможны и случаются чаще, чем хотелось бы. Иногда мелкие ошибки или недопонимание компаниями их собственных результатов может привести к громким проколам — вроде вывода, что среднестатистический россиянин является русским лишь на 16%, сделанного и растиражированного одной из крупнейших российских компаний. Но я надеюсь, что имеющиеся ошибки интерпретаций можно считать издержками роста, неточностями, недопониманием, и в процессе обсуждений и дальнейших работ их будет становиться все меньше. (Конечно, для этого результаты должны обсуждаться, комментироваться, а компании — прислушиваться к критике, когда она конструктивна.) Но глобально коммерческие компании просто решают свою задачу — определить, из каких популяций происходят предки клиента, как давно жили те или иные предки, кто из клиентов является родственником друг друга, — решают, как могут, и часто решают неплохо, и те интерпретации, которые компании дают, основаны, как правило, на корректных подходах и адекватной логике, хотя для своего усовершенствования и нуждаются в обсуждении со стороны специалистов.

Вопросы Вадиму Вереничу

1. Что показывают тесты на этническую принадлежность?

В принципе, подобный тип тестов, которые можно обозначать как этнопопуляционные тесты, показывает наиболее вероятное распределение условных компонентов этнопопуляционного происхождения клиентов. В зависимости от выбранной компанией модели и алгоритмов, они могут показывать либо процент аллельных вариантов (в данном случае снипов (SNP)) в геноме клиента компании, совпадающих с тем или иным набором референсных популяций, либо процент аллелей снипов, доставшихся клиенту от определенной условной предковой популяции.

Наибольшую проблему представляет собой интерпретация результатов таких тестов. К сожалению, простые модели панмиктических популяций, заложенные во многие наиболее популярные алгоритмы определения этнопопуляционного происхождения по результатам широкогеномного тестирования (например, в программах ADMIXTURE, STRUCTURE, sNMF, TESS, fineSTRUCTURE) на практике оказываются малоинформативными. Дело в том, что эти алгоритмы практически не учитывают, что кроме процесса смешивания (адмикса) условных предковых популяций человека, на эволюционный процесс развития этих популяций оказывали не менее важное влияние другие факторы — например, генный дрейф (искажение частот аллельных вариантов) в результате инбридинга или изоляции, появление редких аллелей в результате мутаций и т.д. Кроме того, зачастую сами условные предковые популяции или современные референсные популяции частично «перекрываются», поскольку разделяют общую эволюционную историю с другими подобными референсными популяциями/компонентами.

Разумеется, всё это оказывает колоссальное влияние на аккуратность вычисляемых процентов компонентов этнопопуляционного происхождения (снипов). Безусловно, разработчики алгоритмов и консультанты коммерческих компаний в курсе этой проблемы, и пытаются усовершенствовать свои наработки c различным успехом. Из всех изученных мной методов определения этничности по результатам тестирования в коммерческих компаниях, наиболее надежным мне представляется методология компании 23andMe. В отличие от своих конкурентов, они используют подход, который в академической литературе называют методом local ancestry, то есть определяют процент вклада различных референсных групп в этническое происхождение посегментно . Другие же компании (AncestryDNA, MyHeritage, FTDNA), очевидно, исходят из более обобщенной модели алгоритмов — global ancestry, то есть из обычного распределения аллельных вариантов.

Под сегментами тут понимаются сегменты аутосомных хромосом (реже X-хромосом), длина которых измеряется либо в сантиморганах, либо в количестве пар нуклеотидов между началом и концом сегмента.

Что касается моего личного мнения, то я склонен полагать, что наилучшие результаты в определении могли бы дать более сложные алгоритмы, основанные на редких, специфичных для каждой популяции алелльных вариантах, и в которых вместо имплицитного дискретного моделирования происхождения клиента используются популярные методы машинного обучения (например, классический анализ главных компонент или, скажем, t-SNE), поскольку они способны создать континуальную (в виде непрерывного градиента) модель этнического происхождения. Впрочем, и эти методы тоже имеют свои, хорошо изученные статистические ограничения.

Поэтому к результатам всех подобных анализов нужно относиться с большой осторожностью.

2. Какие базы SNP и частот SNP используют компании: одну общедоступную или каждая свою? Насколько эти базы обширные и охватывают ли они все континенты в достаточной мере? Позволяют ли выделять мелкие кластеры: регионы государств, отдельные города?

Базы частот аллелей относительно редко используются в современных коммерческих тестах.

Действительно, в самом начале изучения изменчивости в различных этнических и континентальных группах популяций первоначально применяли так называемые AIMs (ancestry informative markers), то есть определенную панель маркеров (обычно не более 10 000 снипов), частоты аллелей которых были статистически значимы среди различных этнических групп или чаще среди метапопуляций. В своей время, когда стоимость широкогеномного (не говоря уже о полногеномном) тестирования была высока, этот метод был очень эффективен. Однако по мере удешевления тестов, усовершенствования алгоритмов для анализа больших массивов данных и накопления самих результатов массового тестирования от этого метода отошли.

На самом деле, насколько я понимаю, для определения этнического происхождения компании используют либо гипотетические частоты аллелей в условных предковых популяциях, вычисленные с помощью программ вроде ADMIXTURE, либо векторы (упорядоченные наборы) частот аллелей или, скажем, эйгенвекторы (иногда и факторы загрузки) аллельных вариантов в каждой современной референсной группе или каждом компоненте этнического происхождения.

Для вычисления этих векторов компании активно используют как публичные (или условно-публичные) источники данных (вроде проектов HapMap, 1000 genomes, HGDP, EGDP, SGDP, а также опубликованные данные из огромного количества научных статей), так и собственную клиентскую базу. С последней, правда, иногда возникает конфуз, ибо академический принцип отбора выборки по строгим параметрам популяционной этничности в коммерческих компаниях часто заменяется на self-reported ancestry, то есть на самостоятельное декларирование клиентами своей этничности, что вносит существенный шум в процесс статистической обработки данных, заведомо снижая точность результатов.

3. Какова глубина (в поколениях) этих тестов?

Временной коридор, или интервал поколений, — наиболее сложная часть интерпретации результатов подобных тестов. Существует значительное количество разнообразных алгоритмов, которые с определенным уровнем вероятности могут дать представление о том, в каком временном интервале на генеалогическом древе клиента могли появиться представители определенной референсной группы или условного предкового компонента. На практике же аккуратность такого метода существенно ограничена тем, что нам неизвестна подлинная демографическая история человечества и как она отражается в геноме конкретного человека. Большинство таких методов основано на скоростях рекомбинации и наличии в геноме определенных блоков неравновесного сцепления (LD).

Теоретически, при определении локального происхождения каждого хромосомного сегмента можно выявить (по величине неравновесного сцепления внутри этого сегмента) условный интервал в поколениях, когда могло произойти смешение.

Однако скорости рекомбинации не являются универсальными — причем не только в отношении разных этнических групп, но даже между полами (у женщин она выше, чем у мужчин). Кроме того, до сих пор неизвестна мутационная история по всем популяциям людей, и, разумеется, во всех популяциях она разная.

Поскольку эти важные параметры до сих пор точно неизвестны, все подобные временные реконструкции носят сугубо спекулятивный характер. И относиться к ним следует лишь как к определенному статистически возможному варианту.

Возможно, в ближайшее время, после того как молекулярная демография популяций будет лучше изучена, результаты будут более надежны.

4. Почему результаты (интерпретации) по одной и той же пробе у разных компаний разнятся (причем часто сильно разнятся)?

По тем причинам, которые я упомянул при ответах на предыдущие вопросы. Во всех компаниях используются более или менее разные алгоритмы определения этнического происхождения. Используются различные академические и собственные базы данных, поэтому часто этнический состав и плотность выборок по разным популяциям различаются, что привносит искажение результатов в сторону определенных групп. Даже формат подачи данных клиенту различается.

Поэтому при использовании разных алгоритмов, разных дизайнов и методов вычисления на различных выборках трудно ожидать одинакового результата. К сожалению, людей, кто это понимает, не так уж и много.

5. Могут ли специалисты компаний ошибочно интерпретировать результаты тестов, и какие возможны ошибки?

Ошибки возможны на любом уровне — от инструментальных ошибок (например, неправильно определился аллель на чипе или при прочтении полного генома, что происходит не так уж и редко) до ошибок алгоритмов и обычного человеческого фактора. Но в целом проблема совсем в другом.

Есть еще одна причина — перенасыщение этого маленького сегмента на рынке интерпретации генетических данных. Существует уже целый ряд компаний (не менее дюжины), вышедших на рынок ДНК-генеалогии в относительно недавнее время. Каждая из них разработала свой алгоритм и красивый графический интерфейс для визуализации данных по прогнозируемому этнопроисхождению клиента. Увеличилось число крепких и активных любителей (я знаю не менее десяти таких людей), занимающихся в принципе тем же самым, причем иногда качество полученных ими моделей этнического происхождения выше таковых в коммерческих компаниях. Благодаря их усилиям число доступных этнопопуляционных калькуляторов увеличилось буквально в разы.

Но перейдем к конкретике. Часто люди систематически получают странные результаты — таких примеров можно приводить много. Причем иногда такие странные и неверные расклады можно встретить в больших этнических сообществах — например, у чеченцев стабильно в MyHeritage выскакивают в раскладе предковых групп одинаковые 10–15% жителей Британских островов.

Этот, конечно, нелепый пример отлично иллюстрирует первую проблему, связанную с разделением выборки и клиентской базы на кластеры. В отличие от любителей, большинство коммерческих компаний (за исключением разве что FTDNA, где алгоритм определения процентов этнического происхождения разработал как раз любитель) не занимается поисками настоящих предковых компонентов — вроде европейских охотников-собирателей, земледельцев и скотоводов бронзового века. Вместо этого все образцы популяций (преимущественно из академических источников) объединяются по географическому признаку в отдельные кластеры — например, скандинавский или балканские кластеры. Кластеры задаются как условные предковые компоненты (их может быть довольно много, как, например, в компании AncestryDNA), якобы позволяющие в данном случае более точно выявить недавнее этнопопуляционное происхождение клиента. И что хуже всего, в эти же кластеры включают данные самих клиентов — очень часто просто со слов клиента о своем этническом происхождении (как было в своё время в 23andMe). Хотя в последнее время в некоторых компаниях (AncestryDNA) алгоритм усовершенствовали путем включения дополнительных фильтров для отсеивания (например, с помощью определения в анализе главных компонентов, резко отличающихся и резко выделяющихся в плане этнического происхождения клиентов). Тем не менее даже самое методичное применение всевозможных дополнительных фильтров не может гарантировать повышение точности предсказания этнического происхождения. Проблема в том, что в человеческих популяциях (за исключением небольшого количества изолированных задрейфованных популяций вроде нганасан, чукчей, ульцев, калашей, папуасов) ни в одной из этнических групп компоненты не являются дискретными, а представляют собой градиенты частот аллелей, очень часто с большим разбросом, из-за чего хвосты распределения этих частот перекрываются. На практике этот феномен приводит к появлению в индивидуальных клиентских данных фантомных компонентов. Например, у европейцев часто появляются всевозможные невозможные компоненты происхождения — Amerindian, Papuan, Onge и так далее. Подобный подход только вносит сумятицу или, говоря статистическим языком, шум в результаты. Очевидно, что данная проблема связана с классической проблемой статистики — проблемой организации и подразделения выборки.

Схожей по характеру второй проблемой является проблема разнообразия выборки, используемой для определения компонентов происхождения. Очевидно, что очень сложно впихнуть всё генетическое разнообразие человечества в относительно небольшую выборку — даже если ее размер достигает полумиллиона или больше образцов (как у 23andMe). Проблема в сверхпредставленности отдельных этнических или квазиэтнических групп в подобных базах данных (западных европейцев, американцев, финнов, ашкеназов и так далее). При неравномерности выборки наблюдается другой классический статистический эффект — искажение результатов выборки в сторону наиболее представленных групп (как было в свое время в 23andMe, когда наблюдался эффект сверхпредставленности евреев-ашкеназов в числе так называемых генетических совпаденцев — предполагаемых близких родственников по результатам тестов).

Существует и третья проблема — в количестве совпадающих снипов (одинаковом их числе) между тестируемыми индивидуальными образцами и референсными группами. Это проблема затрагивает, правда, только любительские калькуляторы на базе DIYDodecad — в алгоритмах коммерческих компаний число снипов в референсных популяциях и индивидуальных образцах одинаково, так как анализируются только те образцы, которые тестировались самой компанией. В любительских же этнопопуляционных калькуляторах анализируемые всегда «кроссплатформенны». И если разработчик использовал для создания калькулятора только те снипы, которые содержаться в чипах 23andMe, то при анализе данных от компаний FTDNA или AncestryDNA совпадение снипов будет частичным (так как наборы снипов, генотипируемые в этих компаниях, совпадают лишь частично). В итоге возникает ситуация, где сравниваются аллельные частоты снипов референсных популяций (полученные при одном количестве снипов) с аллельными частотами снипов индивида (полученными при совсем другом количестве снипов). Элементарная логика подсказывает, что в таком случае будет наблюдаться искажение результатов в совершенно непредсказуемую сторону.

К счастью, у двух последних проблем есть разумные решения. Число совпадающих снипов между чипами FTDNA, 23andMe (разных версий) и AncestryDNA составляет примерно 300 000, что достаточно для создания калькуляторов, приемлемых для анализа данных от всех этих компаний. Решение первой проблемы тоже есть, но его стоимость немыслимо высока — необходимо использовать примерно несколько десятков миллионов полных геномов популяций людей со всего мира. Разумеется, никакие любители никогда в жизни не смогут собрать такое количество данных для создания сверхточных калькуляторов.

Все вышеперечисленные проблемы — сущая мелочь в сравнении с настоящими проблемами, обусловленными алгоритмической стороной вопроса. Дело в том, что все компании (и, разумеется, любители) так или иначе при вычислении аллельных частот в компонентах референсных популяций используют программы, работающие по парадигме ADMIXTURE/STRUCTURE. А они используют ML-алгоритмы, минимизирующие групповые частоты аллелей между всеми образцами выборки, то есть аллельные частоты в этом случае полностью зависят от состава исходной выборки, даже в случае так называемого supervised («обучаемого») анализа, в ходе которого некоторые популяции принимаются за исходные «чистые предковые группы». Поскольку в ранних версиях ADMIXTURE отсутствовала опция фиксирования одной из вычисляемых матриц (P-матрица — матрица аллельных частот снипов в каждом из гипотетических компонентов происхождения; Q-матрица — матрица индивидуальных коэффициентов вклада предковых компонентов в индивидуальный геном с общей построковой суммой 100%), и практически все компании использовали один и тот же алгоритм (он во всех подобных программах схож, хотя разняться его имплементации и способы оптимизации функции правдоподобия), то все результаты подвергнуты искажению истинных частот аллелей. Этот косяк вносит решающий вклад в появление фантомных компонентов происхождения.

Пользователи популярного сервиса GEDmatch назвали этот феномен эффектом калькулятора (как бы намекая на косорукость кода этой утилиты). На самом деле сам калькулятор здесь ни при чем — все дело в принципиальных различиях между определением происхождения на основании частот аллелей, вычисленных по группе образцов, и тем же самым вычислением частот аллелей, но уже не в группе, а в индивидуальном порядке. В этом легко убедиться самому — возьмите клиентские данные, например, норвежца. Вставьте его в большую выборку образцов (например, 2000 человек) и прогоните эту выборку в программе ADMIXTURE, задав такое количество гипотетических предковых популяций (K), при котором становится заметной субструктура генофонда популяций на внутриконтинентальном уровне. А затем возьмите того же самого норвежца, но уже в единственном числе, и снова прогоните в ADMIXTURE, только зафиксировав в виде предковых популяций полученные в предыдущем шаге аллельные частоты. И вы увидите, что различия между результатами анализа одних и тех же данных могут достигать двадцати, а то и более процентов. Это-то и есть ядро так называемого пресловутого эффекта калькулятора. Очевидно, что и GEDmatch Oracle (то есть инструмент определения ближайших к клиенту этнических популяций, а также моделирования происхождения клиента через набор из двух, трех, четырех популяций) в этом случае (искаженных аллельных частот) будет искусственно создавать фантомные предковые популяции. Например, у русского из Владимирской области могут появиться в качестве предков шведы, эстонцы или англичане из Кента.

Заключение

Проходить генетический тест или нет, каждый решает самостоятельно. Результаты генетических тестов могут помочь тем, кто разрабатывает лекарства, и тем, кто ловит преступников — и это прекрасно. Генетические тесты могут помочь построить семейное древо, но только если вы дополните данные теста архивными материалами и если ваши родственники также воспользуются этими тестами и добавят свои имена в базы данных.

Но не стоит относиться к тестам как к волшебной призме, которая разложит вашу личность на составляющие и покажет вам, кто же вы такой на самом деле. Результаты сильно зависят от того, данными каких популяций пользуется компания, какими алгоритмами проводит вычисления и насколько хорошо удалось собрать ваш образец.

И, наконец, гены — это далеко не всё, что нас определяет.

  1. Как побольше узнать об истории своей семьи? (2016). «Медуза»;
  2. L. Stubbs. (2001). Pulsed Field Gel Electrophoresis (PFGE). Encyclopedia of Genetics. 1582-1585;
  3. Bettinger B. (2017). August 2017 update to the shared cM project. The Genetic Genealogist;
  4. DNA relatives: detecting relatives and predicting relationships. 23andMe;
  5. Кто все эти люди?!;
  6. Щепки в потоке истории;
  7. В поисках «национального генотипа»;
  8. Алексенко А. (2017). Гены нации. «Сноб»;
  9. Brown K.V. and Porter K. (2019). Ancestry is said to prepare for IPO as DNA-test industry booms. Bloomderg;
  10. Ducharme J. (2018). A major drug company now has access to 23andMe’s genetic data. should you be concerned? Time;
  11. Roland D. (2019). 23andMe and GSK are mining customers’ DNA data in a hunt for new drugs. The Wall Street Journal;
  12. Helena Kääriäinen, Juha Muilu, Markus Perola, Kati Kristiansson. (2017). Genetics in an isolated population like Finland: a different basis for genomic medicine?. J Community Genet. 8, 319-326;
  13. 6 мифов о генах. (2015). «ПостНаука»;
  14. Белков С. (2018). Генотек и гены алкоголизма. Medium;
  15. Космарский А. (2017). В поисках «коренных» русских: как не надо рассказывать о генетических исследованиях. Indicator;
  16. Васина В. (2019). 3,6 млн человек в России болеют раком. Познакомьтесь с двумя гиками, которые намерены это изменить. «Секрет фирмы»;
  17. Балановский О. (2018). Мифы о генетике народов. pikabu;
  18. Костинская Л. (2019). Авраам родил Ицхака, или Тест на происхождение. «Детали»;
  19. Agro C. and Denne L. (2019). Близнецы получили «загадочные» результаты, проверив 5 сервисов поиска предков по ДНК. «Хабр»;
  20. Brown K.V. (2018). How DNA testing botched my family’s heritage, and probably yours, too. Gizmodo.

Loading…

Как с помощью ДНК теста найти родственников и не только

У многих людей ДНК тест и по сегодняшний день отождествляется лишь с установлением биологического отца. Мало кто задумывается, что с помощью современного оборудования можно на молекулярном уровне определить не только степень родства между людьми, но и выявить предрасположенность к каким-либо заболеваниям, склонностям организма и многое другое.

Как сдать ДНК тест?

После того, как человек твердо для себя решил: хочу сделать ДНК тест, сразу же начинается поиск подходящей лаборатории. Цены на проведение исследований ДНК в зависимости от вида и территориального размещения могут значительно отличаться друг от друга. Поэтому, при решении сделать анализ ДНК цена в Екатеринбурге не должна быть основополагающим фактором в пользу того или иного медцентра. Дело в том, что более высокая стоимость анализа чаще всего объясняется лишь популярностью лаборатории, оборудование для проведения анализа в большинстве случаев везде одинаковое.

Пройти ДНК тест на родство можно, даже не выходя из дома. Так, среди бесчисленного количества частных и государственных лабораторий в мире существует несколько компаний, занимающихся молекулярно-генетическими исследованиями. Все, что требуется от предполагаемых родственников – это отправить по адресу пробирки со слюной каждого из исследуемых. Примерно через месяц результаты анализа придут заказным письмом, на электронную почту либо на зарегистрированную страницу сервиса.

Многие задаются вопросом: сколько стоит пройти ДНК тест таким образом? Как правило, стоимость данной услуги ниже, чем при посещении лаборатории. Однако стоит понимать, что такой метод исследований включает в себя большую вероятность погрешности.

Как ДНК тест помогает найти родственников?

Сделав ДНК тест, можно найти дальних родственников в любых уголках нашей планеты. По некоторым данным, на сегодня в различных базах хранится информация о ДНК исследованиях примерно 1 млрд. человек. При желании, пройдя генетическую экспертизу, можно найти по этим базам своих дальних родственников. Вполне может оказаться, что проживать они будут в Европе, США или даже в Австралии.

Многих интересует вопрос своего происхождения. С помощью ДНК экспертизы можно не только установить степень родства, но и выявить, от кого из родителей у вас больше генов, сколько в вас азиата, европейца или араба. ДНК тест даже помогает установить, от современного человека вы произошли или от неандертальца.

Современная медицина и ДНК исследования

Исследования на молекулярно-генетическом уровне являются довольно перспективным направлением, развитие которого, к слову, тормозится мировыми производителями лекарственных средств. Дело в том, что с помощью генетических тестов можно не только выявить какие-либо отклонения в организме человека, но и установить предрасположенность к тем или иным заболеваниям. Это позволит на раннем этапе предотвратить развитие болезни. Соответственно, человеку уже не придется покупать лекарства, а компания, производящая медикаменты, не получит прибыль.

Как проводится ДНК экспертиза

Когда человек определился с местом, где в Екатеринбурге можно сделать генетическую экспертизу на установление родственных связей, закономерно возникает второй логичный вопрос: как проводится генетическая экспертиза?

Многие по своему незнанию думают, что для ДНК текста необходим забор крови или другого биологического материала организма. Конечно же, имея кровь человека, специалист может провести ДНК анализ. Но в этом нет необходимости, так как ДНК содержится в любых тканях человеческого организма.

В подавляющем большинстве случаев для исследования производится забор эпителиальных клеток с внутренней стороны щеки. Манипуляция эта абсолютно безболезненная и несложная. Забор материала производится с помощью ватной палочки, которой следует интенсивно поводить по щеке каждого участника исследования. Далее палочки с биологическим материалом помещается в разные стерильные пробирки и отправляются в лабораторию для проведения ДНК исследований на установление родственных связей.

Как я сделал анализ и расшифровку ДНК в «Атласе», Genotek, 23andMe, MyHeritage и ещё в шести сервисах — и что из этого вышло.

Нет, у меня не было задачи делать такое сравнение. Изначально я, заинтересовавшись своим происхождением и заполняя генеалогическое древо на MyHeritage, много раз видел баннер с предложением купить тест ДНК. Несколько недель он мне мозолил глаза, и в какой-то момент я все же клюнул на распродажу и заказал тесты себе и семье.

Пока мне почтой из США шли тесты, я начал изучать сайты и форумы с целью понять, что за зверь такой — ДНК-тесты. Оттуда я понял, что заказанный мной тест в MyHeritage не самый удачный, так как предполагал только неполные данные о происхождении и в нем отсутствовала интерпретация данных о здоровье. А почитав примеры, я понял, что тоже хочу знать больше о своем здоровье.

Ну а там опять начались распродажи. И докупил еще тестов в других лабораториях, даже не дождавшись результатов первого.

Хотя я также покупал тесты жене, детям и другим родственникам в разных лабораториях, сравнивать буду на примере своего.

Я перебрал все самые популярные в России и мире тесты. Глобально можно выделить два направления: происхождение и здоровье. В каких-то сервисах есть только происхождение, в каких-то только здоровье, некоторые содержат и то, и то.

Итого биоматериал я сдал в четырех лабораториях:

  1. MyHeritage.
  2. 23andMe.
  3. Genotek.
  4. «Атлас».

Взяв сырые данные, я расшифровывал и интерпретировал их в еще шести сервисах:

  1. FamilyTreeDNA.
  2. Promethease.
  3. genesis.gedmatch.com.
  4. Codegen.
  5. Genomelink.
  6. Sequencing.

В «Атласе», помимо классического ДНК-теста, я сделал еще ДНК-микробиоты. Если будет интересно — напишите, сделаю по нему отдельный материал.

Как происходит сдача биоматериала

Вам присылают специальный сосуд, вы туда сплевываете слюну до деления, заливаете консервирующим раствором из комплекта и отправляете обратно. В случае MyHeritage там не сосуд со слюной, а соскоб с внутренней поверхности щек. Все это самостоятельно, по простой инструкции.

Какие есть нюансы по доставке:

  • 23andMe. Самый сложный тест, так как он не отправляется в Россию в принципе. Пришлось заказывать через посредника, который еще не забанен компанией. Также нельзя из России отправлять обратно. Поэтому пришлось попросить знакомых, которые летели в Амстердам, чтобы они бросили коробку с биоматериалом в местный почтовый ящик. Если же вы отправите из России, 23andMe может аннулировать ваш аккаунт. Я читал о таких случаях, поэтому решил не рисковать.
  • MyHeritage. Отправляют в Россию без проблем. И даже бесплатная доставка от двух комплектов. Но отправить обратно придется за свой счет. Лайфхак: обычной «Почтой России» дошло за неделю до Хьюстона (где находится лаборатория MyHeritage). А вот EMS-отправление шло три недели. И это при разнице в цене в 20 раз не в пользу EMS!
  • «Атлас» и Genotek. Никаких проблем и долгих ожиданий. Привозит и забирает курьер. Хотя я в «Генотек» заехал лично, у них в специальном кабинете с женой наплевали, чтобы не ждать курьеров. Но эти тесты и самые дорогие.

Итак, к результатам. Давайте начнем с происхождения.

Вводные: сам я русский, родился на Дальнем Востоке, мои мама и папа тоже с Дальнего Востока. По одной линии дед и бабушка с Краснодарского края, по другой — из Сибири и Алтайского края. Все русские.

Происхождение в тесте MyHeritage

Здесь вообще территория России почти не используется. Но даже абстрагируясь от непонятного расположения ареалов восточно-европейцев, почему прибалтов у меня 33%, непонятно. Прибалтов точно в роду не было. У жены тоже прибалты. Хотя она и ее родственники совсем из других регионов. Видимо, особенности работы алгоритмов MyHeritage.

Еще MyHeritage — единственный сервис, который увидел во мне немного еврея (1,5%). Но это особенность именно этого сервиса, он родом из Израиля и многим завышает показатель по ашкенази.

В тесте не содержится сведений о гаплогруппах.

По итогу в MyHeritage — очень странное и бестолковое происхождение. Пустая трата денег. Из полезного только сырые данные, которые можно потом интерпретировать.

Количество найденных родственников — 3241 человек. Из России — 89.

Происхождение в тесте 23andMe

А здесь уже что-то похожее на правду. 86,5%, что восточно-европеец. Вот сильно похоже. Остальные цифры ничего не значат. Все показатели ниже 5% обычно воспринимаются как шум и не учитываются.

То есть здесь 23andMe «угадал». Но сделать это было несложно, учитывая, что сервис попросил меня заполнить анкету перед выдачей результатов. Там был вопрос о происхождении, я решил не врать и честно написал, что из России.

Но здесь можно кликнуть на блок восточно-европейцев и получить расклад по регионам.

А вот это уже интереснее. Здесь подсвечены регионы, в которых жили мои предки. Это настолько похоже на правду, что даже пугает.

Гаплогруппа по отцовской линии R-L260 (R1a1a1b1a1a) и по материнской линии H6a1a.

Есть просмотр древних предков по каждой из материнской И отцовской гаплогрупп.

Количество найденных родственников — 1248. Из России — 36.

Происхождение в тесте Genotek

Здесь нет карты. И нет процентов какой-то нации. Здесь просто вероятности, кем я могу быть.

С точки зрения Genotek я могу быть с одинаковой вероятностью литовцем, белорусом, поляком, украинцем, шведом, русским, эстонцем, хорватом и молдаванином. В общем, точность прогноза самая низкая из всех тестируемых вариантов. Честно говоря, еще один бестолковый тест. Особенно учитывая, что у меня и у жены результаты одинаковые.

Гаплогруппа по отцовской линии R1a1a1b и по материнской линии H6a1a.

В Genotek есть карта пути следования моих гаплогрупп по отцовской и материнской линиям.

Количество найденных родственников — 14. Все из России.

Происхождение в тесте «Атласа»

Тут красивая карта ареалов. Вроде бы, тест российской компании, но ареал обитания русских только в западной части страны. За Уралом, видимо, русские не живут, по мнению «Атласа».

Еще непонятно соотношение. Чехов с венграми во мне больше, чем русского. Ну, странная тема.

Гаплогруппа по отцовской линии R1a1a1 и по материнской линии H6a1a4.

Здесь есть очень красивая карта отцовской и материнских линий гаплогрупп. Но почему-то не до конца провели их

Родственников не ищет (или я не нашел где).

Происхождение в тесте FamilyTreeDNA

На этот тест я уже не сдавал слюну, а загрузил сырые данные и оплатил интерпретацию.

Удивительное рядом. Граница Восточной Европы проходит четко по границам России. Огромный процент Южной Европы не соответствует моим наблюдениям и другим тестам. Точность теста низкая. Здесь есть серое облако на Дальнем Востоке — это 3%, что обычно считается погрешностью и не учитывается в результатах.

Количество найденных родственников — 933. По месту сортировки нет.

Происхождение в GEDmatch

Здесь нет красивой карты. Да и результаты будут меняться в зависимости от алгоритма, который используем. Я час гонял разные алгоритмы и нашел параметры, по которым происхождение было похоже на мое. Но считаю некорректным подгон результатов. Поэтому выкладываю стандартный распространенный алгоритм.

По нему я наиболее близок к молдаванину, затем к немцу, хорвату, словаку, украинцу и другим. В общем, мимо.

Из плюсов: GEDmatch — единственный бесплатный тест в подборке по происхождению.

Количество найденных родственников — более 3000 (отображаемый максимум). По месту сортировки нет.

Выводы по происхождению

По разбросу результатов понятно, что еще есть куда расти алгоритмам. С чем справились все тесты — поняли, что я как-то связан с Восточной Европой. Причем в некоторых тестах моя страна не входит в Восточную Европу.

До обновления 23andMe я вообще решил, что все это происхождение по ДНК — гадание на кофейной гуще. Но после обновления 23andMe он стал единственным тестом, который выдал результаты, близкие к реальным. Также это единственный тест, показывающий разбивку по регионам России (с неплохой точностью).

Можно было бы все свести к неточности алгортимов. Но что меня удивило — в разных тестах немного различаются мои гаплогруппы.

Например, в 23andMe самая длинная по мужской линии, а в «Атласе» — по женской. Еще раз, я не являюсь генетиком. Но что-то мне подсказывает, что может такой разброс в точности определения происхождения связан не только с плохими алгоритмами, но и разницей в вводных данных, которые получаются после секвенирования моего ДНК.

Здоровье

Это, на мой взгляд, самая интересная часть. Гораздо более изученная учеными и точная. Почти все крупные тесты ссылаются на фундаментальные работы при выдаче результатов. Также здесь больше сервисов на рынке, есть что посмотреть.

Итак, поехали.

Здоровье в тесте 23andMe

После результатов происхождения ожидаешь здесь чего-то очень подробного. Но по факту тест нашел у меня предрасположенность к одному заболеванию. И все. Больше никакой информации. Еще есть 45 пунктов Wellness и Traits, которые больше как забавные факты, чем реально полезные вещи.

Как видно из скриншота, 23andMe сообщил, что я «скорее всего, могу почувствовать запах съеденной спаржи в моче» или у меня «скорее всего, мокрая сера в ушах». Что мне делать с этой информацией и главное — зачем мне это знать? Чего-то действительно полезного здесь нет. Вывод — 23andMe лучший в плане происхождения, но совершенно не подходит для определения рисков здоровья.

Здоровье в тесте Genotek

Genotek выдал мне список из 17 рисков с процентной вероятностью ими заболеть у меня и в среднем по популяции людей вокруг меня. Причем в расчетах учитывается возраст, и риски меняются со временем. То есть они сделали что-то вроде превентивного планировщика заболеваний.

Наглядность меня удивила, но еще больше — объем информации. По клику на каждый мой риск есть подробное описание. Вот пример одного из рисков.

При соблюдении правильного образа жизни я снижаю риск по заболеванию до среднего по популяции.

Есть и информация для врача. По клику на любой из этих генов я попадаю на экран с исследованиями и доказательствами, откуда это взято. Этим разделом уже пользовался мой лечащий эндокринолог.

Помимо раздела со здоровьем, есть раздел «Диета и фитнес», где указаны спортивные предрасположенности, риск травм, предрасположенность по гормонам и нехватке конкретных витаминов и микроэлементов.

Я решил протестировать эти витамины в лаборатории, и действительно, витамина D было очень мало, гомоцистеин и кальций чуть выше верхней границы нормы. После чего добавил в рацион витамин В и привел значение в норму за счет лошадиных доз каждый день в течение нескольких месяцев.

Также тест от Genotek рассчитывает диету и план тренировок в зависимости от цели, но именно к этой функции я отношусь несерьезно. Поэтому пропустим.

Но что интересно, есть уникальная вещь, эффективность лекарств, где собрано огромное количество лекарств и моя личная реакция на них. Вот пример из списка:

Еще здесь есть сервис прогнозирования рисков серьезных заболеваний у детей. Нужно два теста в одном аккаунте иметь, тогда сервис выдаст, какие наследственные заболевания могут возникнуть и с какой вероятностью. У нас с супругой, слава богу, таких не было.

Отчет Genotek самый объемный из всех сервисов, что я видел, очень наглядный и привязанный к реальности.

Здоровье в тесте «Атлас»

Здесь есть, также как и у Genotek, информация о каждом риске.

Что интересно: по здоровью в «Атласе» есть риски, которых нет в Genotek (и тем более в других тестах). Но и в Genotek есть риски, которых нет в «Атласе». Общий объем не такой большой.

Здоровье в Genomlink

Здесь просто набор забавных фактов, ничем не примечательный сервис, который стоит $14 в месяц. За эти $14 они добавляют несколько фактов ежемесячно.

Я был полгода подписан, вспоминал каждый раз после списания, думал, что надо отписаться, и забывал. Практического применения этого сервиса немного, так как заболеваний здесь нет.

Здоровье в Promethese

Этот сервис был первым, куда я загрузил сырой файл из первого своего теста в MyHeritage. И чуть не поседел. Судя по выдаче этого сайта, умирать я буду в муках и от всех возможных болезней. Там сотни разных рисков, читать все это страшно.

Хотя с тех пор прошло больше полугода и выдачу они сократили. Да, еще это бесплатный сервис. Но лично я решил им не пользоваться. Информация плохо структурирована. Исследования, которые влияют на один и тот же риск, разбросаны по тексту, надо вручную выискивать и сопоставлять. Проще воспользоваться сервисами, где это делается автоматически.

Здоровье в Codegen

Очень много разбросанных рисков, взятых из непроверенных источников. Я когда читал, расстраивался с каждой строчкой. Столько негативных предрасположенностей я от себя не ожидал. А потом оказалось, что информация на этом ресурсе не проверена серьезными исследованиями. Поэтому я расслабился и больше на этот сервис не хожу.

Здоровье в Sequencing

Сайт-магазин. Загружаете сюда из любого источника сырые данные, покупаете здесь приложения, которые их расшифровывают. К этому моменту я не стал покупать платные, так как и так стало страшно, сколько денег потратил на изыскания по ДНК. Поэтому посмотрел только бесплатные модули. Ничего примечательного не нашел. То, что видел, — упрощенная копия 23andMe

Выводы по здоровью

Лично мне больше всего понравился тест от Genotek. Он самый объемный, с визуализацией и привязкой к текущей ситуации. Я проверил риски, и они совпали с лабораторной диагностикой. В плане теста здоровья, на мой взгляд, это лучшее из всего, что я пробовал. Как на русском языке, так и на английском.

Хочу отметить тест «Атласа», поставив его на второе место. У него меньшая информативность, но тоже есть расчет рисков исходя из текущей ситуации по анкете.

Остальные популярные тесты, на мой взгляд, больше для развлечения. И меньше подходят для того, чтобы понять риски и скорректировать образ жизни.

Стоимость тестов

Вот важный момент — стоимость. Цены я указал на 4 ноября (в момент обновления статьи). Сейчас идут распродажи во всех сервисах по ДНК. Видимо, в честь Хэллоуина. Позже цены могут измениться.

Myheritage и FTDNA самые доступные тесты. В виду плохого выполнения основной задачи — показа происхождения годятся они только для недорого получения сырых данных, которые можно потом интерпретировать в других местах. В какой из этих лабораторий заказывать — без разницы, тк Myheritage своей лаборатории не имеет и делает на мощностях FTDNA.

Важный момент — при заказе этих тестов — сырые данные в 23andme загрузить будет нельзя. Скачать из 23andme можно, а загрузить в него только из теста Ancietry, который я не покупал, так как он заточен под внутренний рынок США.

На мой взгляд, бесмысленно покупать тесты этих двух компаний если вы не преследуете поиск родственников. В них много найдено моих родственников, но толку ноль: родственные связи на уровне четырех-пяти поколений, то есть общей пра-пра-прадедушек и бабушек или больше.

Единственное использование, которое вижу, — получить недорого сырой файл от этих сервисов и крутить до посинения в бесплатных сервисах. Но лично мне они быстро надоели ввиду плохого интерфейса и сложности извлечения информации.

Если есть желание максимально сэкономить и получить наиболее точные результаты происхождения и здоровья, я бы сделал тест в 23andme, получил оттуда сырые данные и интерпретировал их в Genotek. «Атлас», к сожалению, не позволяет загружать сырые данные, как и 23andme.

Также в 23andme нет смысла брать с интерпритацией здоровья: от нее толку все равно нет. Сырой файл будет все равно один и тот же. Получается сэкономить еще $20 по цене распродажи.

Если нужно только происхождение , можно сделать в 23andme и больше не париться, на сегодня я ничего близко к этому не видел.

Если нужно только здоровье и есть возможность, лучше сделать «Атлас» или Genotek. И там, и там, кстати, есть консультация генетика, которая сама по себе стоит недешево. Лично я и обе бесплатные консультации взял к этим тестам, и дополнительную позже в Genotek, и еще консультацию эндокринолога в клинике «Атласа».

Консультации все равно скорее всего понадобятся, здесь хотя бы по одной входит бесплатно. Хотя они больше обзорные и неглубокие. Не стоит на них расчитывать на решение какой-либо проблемы.

Заключение

Сейчас я советую друзьям, когда они спрашивают. что для понимания происхождения лучший на сегодня 23andMe. Благодаря самой большой точности попадания, да еще и с разбивкой по регионам.

Для понимания здоровья лучший Genotek. Это фантастический объем рекомендаций, удобный интерфейс, индивидуальные расчеты в зависимости от возраста и PDF-отчет на 150 страниц рекомендаций по итогам теста.

Есть еще отдельная история с ДНК микробиоты. Тут единственный игрок — «Атлас». Но микробиота не тема сегодняшней статьи. Поэтому ее я не упоминал. Также у «Атласа» довольно неплохая клиника. Имеет смысл сделать там ДНК-тест, если планируете там лечиться.

Вот кроме этих трех компаний, лично для меня, смысла никуда смотреть нет. Разве что на Dantelabs, где можно недорого (относительно) сделать полное секвенирование всего генома, а не только 600–700 тысяч снипов как у всех перечисленных лабораторий выше.

Также важный момент — в тесты от «Атлас» и Genotek входит бесплатная онлайн-консультация генетика по результатам теста. Это приятное дополнение, воспользовался и там, и там. И эта консультация еще больше прояснила направление движения и дальнейшего контроля за здоровьем.

Дисклеймер: я не являюсь генетиком, ученым или врачом. Я простой пользователь, который решил больше узнать о себе и этим поделиться. Прошу извинить за непрофессиональный язык и возможные ошибки.

Понравилась статья? Поделить с друзьями:
  • Как найти ошибки в молекуле днк
  • Как найти структурную матрицу
  • Дано множество как найти его подмножества
  • Как правильно найти оазис
  • Ошибка в дате договора купли продажи квартиры как исправить