Выравнивание дерева - Tree alignment

В вычислительная филогенетика, выравнивание деревьев это вычислительная проблема занимается производством множественное выравнивание последовательностей, или выравнивания трех или более последовательностей ДНК, РНК, или же белок. Последовательности сгруппированы в филогенетическое дерево, моделируя эволюционные отношения между разновидность или же таксоны. В редактировать расстояния Последовательности между последовательностями вычисляются для каждой из внутренних вершин дерева, так что сумма всех расстояний редактирования в пределах дерева минимизируется. Выравнивание дерева может быть выполнено с использованием одного из нескольких алгоритмов с различными компромиссами между управляемым размером дерева и вычислительными затратами.

Определение

Вход: Множество ${displaystyle S}$ последовательностей, a филогенетическое дерево ${displaystyle T}$ с надписью на листе ${displaystyle S}$ и редактировать расстояние функция ${displaystyle d}$ между последовательностями.

Выход: Разметка внутренних вершин ${displaystyle T}$ такой, что ${displaystyle Sigma _ {ein T} d (e)}$ минимизируется, где ${displaystyle d (e)}$ это редактировать расстояние между конечными точками ${displaystyle e}$ .

Задача NP-жесткий.^[1]

Фон

Выравнивание последовательности

Это простое выравнивание последовательности гена инсулина крысы, человека и курицы. Помеченные нуклеотиды - это разные нуклеотиды, обозначенные Ⅰ и --- означает отсутствующие нуклеотиды.

В биоинформатика, основным методом обработки информации является сопоставление данных последовательности. Биологи используйте его, чтобы обнаружить функции, структуру и эволюционную информацию в биологических последовательностях. Следующий анализ основан на сборка последовательности: the филогенетический анализ, гаплотип сравнение и предсказание РНК структура. Следовательно, эффективность выравнивания последовательностей будет напрямую влиять на эффективность решения этих проблем. Для разработки рационального и эффективного выравнивания последовательностей разработка алгоритмов становится важной отраслью исследований в области биоинформатики.

Как правило, выравнивание последовательностей означает построение строки из двух или более заданных строк с наибольшим сходством путем добавления букв, удаления букв или добавления пробела для каждой. нить. Проблема множественного выравнивания последовательностей обычно основана на парном выравнивании последовательностей, и в настоящее время для решения проблемы парного выравнивания последовательностей биологи могут использовать динамическое программирование подход к ее оптимальному решению. Однако проблема множественного выравнивания последовательностей по-прежнему остается одной из наиболее сложных проблем в биоинформатике. Это связано с тем, что поиск оптимального решения для множественного выравнивания последовательностей доказал свою эффективность. НП-полный проблема и можно получить только приближенное оптимальное решение.^[2]

Метод матрицы расстояний

Метод расстояния измеряет минимальное количество операций символа вставки, удаления, и замены которые необходимы для преобразования одной последовательности ты к другой последовательности v при работе на паре струн. Расчет расстояния редактирования может быть основан на динамическое программирование, и уравнение находится за время O (| u | × | v |), где | u | и | v | - длины u и v.^[3] Эффективная оценка расстояния редактирования важна, поскольку Метод расстояния это основной принцип в вычислительная биология ^[4] Для функций с наследственными свойствами может использоваться «симметризация». Из-за того, что для расчета расстояния редактирования используется ряд функций, разные функции могут давать разные результаты. Поиск функции оптимального расстояния редактирования важен для задачи выравнивания дерева.

Проблема выравнивания деревьев

Эта цифра показывает скорость роста относительно экспоненциального времени, полиномиального времени и линейного времени.

Выравнивание дерева приводит к NP-жесткий проблема, когда режимы подсчета очков и размеры алфавита ограничены. Его можно найти как алгоритм, который используется для поиска оптимального решения. Однако существует экспоненциальная зависимость между его эффективностью и числовыми последовательностями, что означает, что, когда длина последовательности очень велика, время вычислений, необходимое для получения результатов, чрезвычайно велико. Использование звездочки для получения приблизительного оптимизированного решения быстрее, чем использование выравнивания по дереву. Однако какой бы ни была степень сходства множественных последовательностей, временная сложность звездообразного выравнивания пропорциональна квадрату порядкового номера и квадрату средней длины последовательности. Как обычно, последовательность в MSA настолько длинная, что также неэффективна или даже неприемлема. Таким образом, проблема уменьшения временной сложности до линейной является одной из основных проблем при выравнивании дерева.

Комбинаторная стратегия оптимизации

Комбинаторная оптимизация это хорошая стратегия для решения проблем MSA. Идея комбинаторной стратегии оптимизации состоит в том, чтобы преобразовать множественное выравнивание последовательностей в парное выравнивание последовательностей для решения этой проблемы. В зависимости от стратегии трансформации, комбинаторная стратегия оптимизации может быть разделена на алгоритм выравнивания дерева и алгоритм выравнивания по звездам. Для данного набора нескольких последовательностей ${displaystyle S}$ ={ ${displaystyle s_ {1}}$ ,..., ${displaystyle s_ {n}}$ } найдите эволюционное дерево который имеет n листовых узлов и устанавливает взаимно однозначную связь между этим эволюционным деревом и множеством ${displaystyle S}$ . Присваивая последовательность внутренним узлам эволюционного дерева, мы вычисляем общую оценку каждого ребра, а сумма оценок всех ребер является оценкой эволюционного дерева. Цель выравнивания дерева - найти назначенную последовательность, которая может получить максимальный балл, и получить окончательный результат сопоставления из эволюционного дерева и назначенной последовательности его узлов. Выравнивание по звездам можно рассматривать как частный случай выравнивания по дереву. Когда мы используем звездное выравнивание, эволюционное дерево имеет только один внутренний узел и n листовых узлов. Последовательность, которая назначается внутреннему узлу, называется базовой последовательностью.^[5]

Теория дерева ключевых слов и алгоритм поиска Ахо-Корасика

Когда комбинаторный Стратегия оптимизации используется для преобразования множественного выравнивания последовательностей в парное выравнивание последовательностей, основная проблема изменена с «Как повысить эффективность множественного выравнивания последовательностей» на «Как повысить эффективность попарного выравнивания последовательностей». Теория дерева ключевых слов и алгоритм поиска Aho-Corasick - эффективный подход к решению проблемы попарного выравнивания последовательностей. Целью объединения теории дерева ключевых слов и алгоритма поиска Aho-Corasick является решение такого рода проблем: для данной длинной строки ${displaystyle T}$ и набор коротких завязок ${displaystyle P}$ ={ ${displaystyle p_ {1}}$ , ${displaystyle p_ {2}}$ ,... , ${displaystyle p_ {z}}$ } (z∈N, z> 1), найти расположение всех ${displaystyle P_ {i}}$ в ${displaystyle T}$ . Дерево ключевых слов, созданное набором ${displaystyle P}$ используется, а затем ищется в ${displaystyle T}$ с этим деревом ключевых слов через алгоритм поиска Aho-Corasick.^[6] Общая временная сложность использования этого метода для поиска всех ${displaystyle P_ {i}}$ положение в T равно O ( ${displaystyle m}$ + ${displaystyle n}$ + ${displaystyle k}$ ), куда ${displaystyle m}$ =| ${displaystyle T}$ | (длина ${displaystyle T}$ ), ${displaystyle n}$ =∑| ${displaystyle P_ {i}}$ | (сумма всех ${displaystyle P_ {i}}$ длины) и ${displaystyle k}$ означает сумму вхождений для всех ${displaystyle P_ {i}}$ в ${displaystyle T}$ .

Теория дерева ключевых слов

Дерево ключевых слов набора ${displaystyle P}$ ={ ${displaystyle p_ {1}}$ , ${displaystyle p_ {2}}$ ,... , ${displaystyle p_ {z}}$ } (z∈N, z> 1) является корневым деревом, корень которого обозначается K, и это дерево ключевых слов удовлетворяет:

(1): каждый край четко разграничивает одну букву.

(2): любые два ребра, отделенные от одного и того же узла, должны соответствовать разным буквам.

(3) Каждый узор ${displaystyle P_ {i}}$ (i = 1,2, ..., z) соответствует узлу ${displaystyle v}$ , а путь от корня K до узла ${displaystyle v}$ может точно правильно написать строку ${displaystyle P_ {i}}$ .

Для каждого листового узла этого K-дерева он соответствует одному из определенных шаблонов множества ${displaystyle P}$ .

${displaystyle L (v)}$ используется для представления СТРОКИ, которая связана от корневого узла к узлу ${displaystyle v}$ . ${displaystyle Lp (v)}$ затем будет использоваться для представления длины самого длинного суффикса (также этот суффикс является префиксом одного из шаблонов в наборе ${displaystyle P}$ ). Поиск этого префикса от корневого узла в дереве ключевых слов и последнего узла, обозначенного ${displaystyle n_ {v}}$ когда поиск закончится.^{[требуется разъяснение ]}^[7]

Например, набор ${displaystyle P}$ = {картофель, тату, театр, другое}, а дерево ключевых слов показано справа. В этом примере, если ${displaystyle L (v)}$ = картофель, тогда ${displaystyle Lp (v)}$ = | tat | = 3, а ссылка на отказ узла ${displaystyle v}$ показан на этом рисунке.

Установление связи сбоя - ключ к улучшению временной сложности алгоритма Ахо-Корасика. Его можно использовать для уменьшения исходного полиномиального времени до линейного времени поиска. Следовательно, суть теории дерева ключевых слов состоит в том, чтобы найти все ссылки на ошибки (что также означает поиск всех ${displaystyle n_ {v}}$ s) дерева ключевых слов за линейное время. Предполагается, что каждый ${displaystyle n_ {v}}$ всех узлов ${displaystyle v}$ , расстояние от которого до корневого узла меньше или равно ${displaystyle k}$ , можно найти. В ${displaystyle n_ {v}}$ узла ${displaystyle v}$ расстояние от корневого узла ${displaystyle k}$ + 1 можно тогда искать. Его родительский узел ${displaystyle v '}$ , а буква, представленная узлом ${displaystyle v}$ и ${displaystyle v '}$ , является ${displaystyle x}$ .

(1): Если следующая буква узла ${displaystyle n_ {v} '}$ является ${displaystyle x}$ , другой узел этого ребра можно задать как ${displaystyle w}$ , и ${displaystyle n_ {v}}$ = ${displaystyle w}$ .

(2): Если не все буквы ${displaystyle x}$ путем поиска всех краев между ${displaystyle n_ {v} '}$ и его дочерние узлы, ${displaystyle L (n_ {v})}$ суффикс ${displaystyle L (n_ {v} ')}$ плюс ${displaystyle x}$ . Поскольку этот суффикс соответствует СТРОКЕ, начинающейся с корневого узла (аналогично префиксу), ${displaystyle x}$ после ${displaystyle n_ {v} '}$ может быть обнаружен или нет. В противном случае этот процесс может быть продолжен до тех пор, пока ${displaystyle x}$ или корневой узел найден.

Алгоритм поиска Aho-Corasick

После установления всех неудачных ссылок в дереве ключевых слов алгоритм поиска Aho-Corasick используется для поиска местоположений всех ${displaystyle P_ {i}}$ (i = 1,2, ..., z) за линейное время. На этом этапе временная сложность составляет O (m + k).

Другие стратегии

В MSA, ДНК, РНК и белки обычно генерируются последовательности, и предполагается, что они имеют эволюционную взаимосвязь. Сравнивая сгенерированные карты РНК, ДНК и последовательностей из эволюционных семейств, люди могут оценить сохранность белков и найти функциональные домены генов, сравнивая различия между эволюционными последовательностями. Как правило, эвристические алгоритмы и графики выравнивания деревьев также применяются для решения множества задач выравнивания последовательностей.

Эвристический алгоритм

В общем, эвристические алгоритмы полагаться на итеративный стратегия, то есть основанная на методе сравнения, оптимизация результатов множественного выравнивания последовательностей с помощью итеративного процесса. Дэви М. предложил использовать оптимизация роя частиц алгоритм для решения задачи множественного выравнивания последовательностей; Икеда Такахиро предложил эвристический алгоритм, основанный на Алгоритм поиска A *; Э. Бирни впервые предложил использовать скрытая марковская модель решить проблему множественного выравнивания последовательностей; и многие другие биологи используют генетический алгоритм чтобы решить это.^[8]^[9] Все эти алгоритмы обычно надежны и нечувствительны к количеству последовательностей, но у них также есть недостатки. Например, результаты алгоритма оптимизации роя частиц нестабильны, а его достоинства зависят от выбора случайных чисел, время выполнения алгоритма поиска A * слишком велико, а генетический алгоритм легко может быть признан локально превосходным.^{[требуется разъяснение ]}

График выравнивания дерева

Грубо говоря, граф выравнивания деревьев направлен на выравнивание деревьев в граф и, наконец, их синтез для разработки статистики. В биологии графы выравнивания деревьев (TAG) используются для удаления эволюционных конфликтов или перекрывающихся таксонов из наборов деревьев, а затем могут быть запрошены для изучения неопределенности и конфликта. Путем интеграции методов согласования, синтеза и анализа, TAG стремится разрешить конфликтующие отношения и частичное перекрытие таксон наборы, полученные из широкого диапазона последовательностей. Кроме того, граф выравнивания дерева служит фундаментальным подходом для супердерево и прививка упражнения, которые были успешно протестированы Берри для построения супердеревьев.^[10] Поскольку преобразование деревьев в граф содержит аналогичные узлы и края из исходных деревьев теги могут также обеспечивать извлечение исходных деревьев для дальнейшего анализа. TAG - это комбинация набора выравнивающих деревьев. Он может хранить противоречивые гипотезы об эволюционной взаимосвязи и синтезировать исходные деревья для разработки эволюционных гипотез. Следовательно, это основной метод решения других проблем центровки.^[11]

Смотрите также

Обобщенное выравнивание дерева