Анализ пути - Pathway analysis - Wikipedia

Путь это термин из молекулярной биологии для обозначения тщательно подобранного схематического представления хорошо охарактеризованного сегмента молекулярного физиологического механизма, такого как метаболический путь описание ферментативного процесса в клетке или ткани или сигнальный путь модель, представляющая регуляторный процесс, который, в свою очередь, может включить метаболический или другой регуляторный процесс ниже по течению. Типичная модель пути начинается с внеклеточного сигнальная молекула что активирует конкретный рецептор, тем самым запуская цепочку молекулярных взаимодействий.[1] Путь чаще всего представляет собой относительно небольшой график с геном, белком и / или небольшой молекулой узлы связаны края известных функциональных отношений. Хотя более простой путь может выглядеть как цепочка,[2] сложные топологии путей с петлями и альтернативными маршрутами встречаются гораздо чаще. Вычислительный анализ использует специальные форматы представления пути.[3][4] Однако в простейшей форме путь может быть представлен как список молекул-членов с неуказанными порядком и связями. Такое представление, обычно называемое функциональным генетическим набором (FGS), также может относиться к другим функционально охарактеризованным группам, таким как белковые семейства, Генная онтология (Иди и Онтология болезней (DO) термины и т. Д. В биоинформатике методы анализа путей могут использоваться для определения ключевых гены /белки в пределах ранее известного пути в отношении конкретного эксперимента / патологического состояния или построения пути de novo из белков, которые были определены как ключевые затронутые элементы. Изучая изменения, например, экспрессия гена в пути можно исследовать его биологическую активность. Однако чаще всего анализ путей относится к методу первоначальной характеристики и интерпретации экспериментального (или патологического) состояния, которое изучалось с помощью омики инструменты или GWAS.[5] Такие исследования могут выявить длинные списки измененных генов. Визуальный осмотр в таком случае затруднен, и информацию трудно обобщить, поскольку измененные гены соответствуют широкому спектру путей, процессов и молекулярных функций (с большой долей генов без какой-либо аннотации). В таких ситуациях наиболее продуктивным способом изучения списка является определение обогащение конкретных ФГСв нем. Общий подход к анализу обогащения состоит в том, чтобы идентифицировать FGS, члены которых были наиболее часто или большинство сильно измененный в данном состоянии по сравнению с набором генов, взятым случайно. Другими словами, обогащение может отображать канонические априорные знания, структурированные в форме FGS, в состояние, представленное измененными генами.

Использовать

Данные для анализа пути поступают из биология с высокой пропускной способностью. Это включает в себя высокую пропускную способность последовательность действий данные и микрочип данные. Прежде чем можно будет провести анализ пути, необходимо оценить изменение каждого гена с помощью омики набор данных в любом количественном (анализ дифференциальной экспрессии ) или качественного (обнаружение соматических точечные мутации или сопоставление соседних генов с ассоциированным с заболеванием SNP ). Также возможно комбинировать наборы данных из разных исследовательских групп или нескольких платформ omics с метаанализом и кроссплатформенной регуляризацией.[6][7]Далее, список, в котором идентификаторы генов сопровождаются атрибутами изменения, подвергается анализу пути. Используя программное обеспечение для анализа путей, исследователи могут определить, какие ФГСs обогащены измененными экспериментальными генами[8][9] Например, анализ путей нескольких независимых экспериментов с микрочипами (метаанализ ) помог раскрыть потенциал биомаркеры в одном пути, важном для перехода от быстрого к медленному переключению типа волокна в Мышечная дистрофия Дюшенна.[10] В другом исследовании метаанализ идентифицировал два биомаркеры в крови пациентов с болезнь Паркинсона, что может быть полезно для наблюдения за болезнью.[11] Аллели гена-кандидата, вызывающие болезнь Альцгеймера и деменцию пожилого возраста, были впервые обнаружены GWAS и дополнительно подтверждены анализом обогащения сети по сравнению с ФГС состоящий из известных генов Альцгеймера.[12][13]

Базы данных

Коллекции Pathway и сети взаимодействия составляют база знаний требуется для анализа пути. Содержимое, структура, формат и функциональность пути различаются для разных ресурсов базы данных, таких как КЕГГ,[14] WikiPathways, или же Reactome.[15] Также существуют собственные коллекции путей, используемые, например, Студия Pathway[16] и анализ пути изобретательности[17] инструменты. Общедоступные онлайн-инструменты могут предоставлять предварительно составленные и готовые к использованию меню путей и сети из разных открытых источников (например, EviNet ).

Методы и программное обеспечение

Программное обеспечение для анализа пути можно найти в виде настольных программ, веб-приложений или пакетов, написанных на таких языках, как р и Python и открыто делится через BioConductor [18] и GitHub [19] проекты. Методология анализа путей быстро развивается, и классификация все еще обсуждается.[20][21] со следующими основными категориями анализа путей обогащения, применимыми к высокопроизводительным данным:[20]

Анализ перепредставления (ORA)

Этот метод измеряет перекрытие между, с одной стороны, набором генов (или белков) в ФГС и, с другой стороны, список наиболее измененных генов, обычно называемых измененными наборами генов (AGS). Типичный пример AGS - это список лучших N дифференциально экспрессируемые гены из РНК-Seq проба. Основное предположение, лежащее в основе ORA, заключается в том, что биологически значимый путь может быть идентифицирован по превышению AGS гены в нем по сравнению с числом, ожидаемым случайно. Целью ORA является выявление таких обогащенных путей, судя по Статистическая значимость перекрытия между FGS и AGS, что определяется либо соответствующей статистикой, такой как Индекс Жаккара или с помощью статистического теста, дающего p-значения (Точный тест Фишера или тест с использованием гипергеометрическое распределение ).

Оценка функционального класса (FCS)

Этот метод определяет ФГС рассматривая их взаимное расположение в полном списке генов, изученных в эксперименте. Следовательно, этот полный список должен быть ранжирован заранее по статистике (например, мРНК изменение экспрессии T-тест Стьюдента и т. д.) или p-значение - наблюдая за изменением направления складывания, поскольку p-значения не являются направленными. Таким образом, FCS принимает во внимание каждый ген FGS независимо от его статистической значимости и не требует предварительной компиляции. AGS. Одним из первых и наиболее популярных методов, использующих подход FCS, был анализ обогащения генетического набора (GSEA).[9]

Анализ топологии пути (PTA)

Аналогично FCS, PTA учитывает данные с высокой пропускной способностью для каждого ФГС ген.[22] Кроме того, используется конкретная топологическая информация о роли, положении и направлениях взаимодействия генов пути. Для этого требуются дополнительные входные данные из базы данных путей в заранее заданном формате, например, KEGG Markup Language (KGML ). Используя эту информацию, PTA оценивает значимость пути, учитывая, насколько каждое отдельное изменение гена могло повлиять на весь путь. Можно использовать несколько типов альтерации параллельно (соматические варианты числа копий, точечные мутации и т. д.) при наличии. [23] Набор методов PTA включает анализ воздействия сигнального пути (SPIA),[24][25] EnrichNet,[26] GGEA,[27] и TopoGSA.[28]

Анализ обогащения сети (NEA)

Сетевой анализ обогащения (NEA) был расширением анализа обогащения набора генов в области глобальные генные сети[29][30][31][32] Основной принцип NEA можно понять в сравнении с ORA, где обогащение ФГС в генах AGS определяется тем, сколько генов напрямую разделяют AGS и FGS. В NEA, напротив, в глобальной сети ищутся края сети, которые связывают любые гены AGS с любыми генами FGS. Поскольку значимость обогащения зависит от сильно изменчивой степени узлов отдельных генов AGS и FGS, ее следует определять с помощью специального статистического теста, который сравнивает наблюдаемое количество ребер сети с числом, ожидаемым случайно в том же сетевом контексте. Некоторые ценные свойства NEA:

  1. он более устойчив к биологической и технической вариабельности между повторениями образцов;[33][34]
  2. AGS гены не обязательно могут быть аннотированы как члены пути;[35]
  3. ФГС члены не должны быть изменены сами, но все же учитываются из-за наличия сетевых связей с генами AGS.[36]

Коммерческие решения

Помимо инструментов с открытым исходным кодом, таких как НИТЬ или же Cytoscape, ряд компаний продают лицензионные программные продукты для анализа наборов генов. В то время как большинство общедоступных решений используют онлайн-коллекции и общедоступные пути, коммерческие продукты в основном продвигают собственные, проприетарные пути и сети. Выбор таких продуктов может определяться навыками клиентов, финансовыми и временными ресурсами и потребностями.[5] Изобретательность, например, поддерживает базу знаний для сравнительного анализа данных экспрессии генов.[37] Студия Pathways [38] это коммерческое программное обеспечение, которое позволяет искать биологически релевантные факты, анализировать эксперименты и создавать пути. Наблюдатель Pathways Studio [39] это бесплатный ресурс от той же компании для презентации коллекции интерактивных путей и базы данных Pathway Studio. Предлагаются два коммерческих решения PTA: PathwayGuide от Корпорация Адвайта и MetaCore от Thomson Reuters.[40] Адвайта использует рецензируемый метод анализа воздействия на сигнальный путь (SPIA).[24][25] а метод MetaCore не опубликован.[40]

Ограничения

Отсутствие аннотаций

Применение методов анализа пути зависит от аннотаций, имеющихся в существующих базы данных, например, принадлежность набора генов к путям, топология пути, присутствие генов в глобальной сети и т. д. Эти аннотации, однако, далеки от полноты и имеют весьма разную степень достоверности. Кроме того, такая информация обычно носит общий характер, т.е. лишена, например, тип клетки, компартмент или контекст развития. Следовательно, интерпретация результатов анализа пути омики наборы данных следует делать с осторожностью.[41] Частично проблему можно решить, анализируя большие наборы генов в более глобальный контекст, например, большие коллекции путей или глобальные сети взаимодействия.

Рекомендации

  1. ^ Берг Дж. М., Тимочко Дж. Л., Страйер Л. Биохимия, 5-е издание, Нью-Йорк: У. Х. Фриман; 2002 г.
  2. ^ Ольрогге, Дж; Обзор, J (июль 1995 г.). «Биосинтез липидов». Растительная клетка. 7 (7): 957–70. Дои:10.1105 / tpc.7.7.957. PMID  7640528. S2CID  219201001.
  3. ^ «Главная страница - SBML.caltech.edu». sbml.org.
  4. ^ «KGML (язык разметки KEGG)». www.genome.jp.
  5. ^ а б Гарсия-Кампос, Мигель Анхель; Эспиналь-Энрикес, Хесус; Эрнандес-Лемус, Энрике (2015). «Анализ пути: современное состояние». Границы физиологии. 6: 383. Дои:10.3389 / fphys.2015.00383. ЧВК  4681784. PMID  26733877.
  6. ^ Уолш, Кристофер; Ху, Пинчжао; Батт, Джейн; Сантос, Клаудия (2015). «Мета-анализ микрочипов и кросс-платформенная нормализация: интегративная геномика для надежного обнаружения биомаркеров». Микрочипы. 4 (3): 389–406. Дои:10.3390 / микрочипов 4030389. ЧВК  4996376. PMID  27600230.
  7. ^ Суо, Чен; Гридзюшко, Ольга; Ли, Донхван; Прамана, Сетия; Сапутра, Дхани; Джоши, Химаншу; Кальца, Стефано; Павитан, Юди (24 марта 2015 г.). «Интеграция соматических мутаций, экспрессии и функциональных данных раскрывает потенциальные гены-драйверы, позволяющие прогнозировать выживаемость при раке груди». Биоинформатика. 31 (16): 2607–2613. Дои:10.1093 / биоинформатика / btv164. ISSN  1367-4803. PMID  25810432.
  8. ^ Тавазойе, Саид; Хьюз, Джейсон Д .; Кэмпбелл, Майкл Дж .; Чо, Раймонд Дж .; Церковь, Джордж М. (июль 1999 г.). «Систематическое определение архитектуры генетической сети». Природа Генетика. 22 (3): 281–285. Дои:10.1038/10343. PMID  10391217. S2CID  14688842.
  9. ^ а б Субраманиан, Аравинд; Тамайо, Пабло; Mootha, Vamsi K .; Мукерджи, Саян; Эберт, Бенджамин Л .; Gillette, Michael A .; Паулович, Аманда; и другие. (2005). «Анализ обогащения набора генов: основанный на знаниях подход для интерпретации профилей экспрессии в масштабе всего генома». Труды Национальной академии наук Соединенных Штатов Америки. 102 (43): 15545–50. Bibcode:2005ПНАС..10215545С. Дои:10.1073 / pnas.0506580102. ЧВК  1239896. PMID  16199517.
  10. ^ Котельникова Екатерина; Шкроб, Мария А .; Пятницкий, Михаил А .; Ферлини, Алессандра; Дараселия, Николай (2012). «Новый подход к метаанализу наборов данных микрочипов выявляет лекарственные мишени и биомаркеры, связанные с ремоделированием мышц, при мышечной дистрофии Дюшенна». PLOS вычислительная биология. 8 (2): e1002365. Bibcode:2012PLSCB ... 8E2365K. Дои:10.1371 / journal.pcbi.1002365. ЧВК  3271016. PMID  22319435.
  11. ^ Сантьяго, Хосе А .; Поташкин, Юдифь А. (2015). «Сетевой метаанализ определяет HNF4A и PTBP1 как продольные динамические биомаркеры болезни Паркинсона». Труды Национальной академии наук Соединенных Штатов Америки. 112 (7): 2257–62. Bibcode:2015ПНАС..112.2257С. Дои:10.1073 / pnas.1423573112. ЧВК  4343174. PMID  25646437.
  12. ^ Reynolds, Chandra A .; Хонг, Мун-Гван; Eriksson, Ulrika K .; Бленноу, Кай; Виклунд, Фредрик; Йоханссон, Бу; Мальмберг, Бо; Берг, Стиг; Алексеенко, Андрей; Грёнберг, Хенрик; Гац, Маргарет; Pedersen, Nancy L .; Принц, Джонатан А. (18 февраля 2010 г.). «Анализ генов липидного пути указывает на связь вариации последовательности около SREBF1 / TOM1L2 / ATPAF2 с риском деменции». Молекулярная генетика человека. 19 (10): 2068–2078. Дои:10.1093 / hmg / ddq079. ЧВК  2860895. PMID  20167577.
  13. ^ Беннет, Анна М .; Reynolds, Chandra A .; Eriksson, Ulrika K .; Хонг, Мун-Гван; Бленноу, Кай; Гац, Маргарет; Алексеенко, Андрей; Pedersen, Nancy L .; Принц, Джонатан А. (1 января 2011 г.). "Генетическая ассоциация вариантов последовательности, близких к AGER / NOTCH4 и деменции". Журнал болезни Альцгеймера. 24 (3): 475–484. Дои:10.3233 / jad-2011-101848. ЧВК  3477600. PMID  21297263.
  14. ^ Ogata, H .; Перейти к с.; Sato, K .; Fujibuchi, W .; Bono, H .; Канехиса, М. (1999). "KEGG: Киотская энциклопедия генов и геномов". Исследования нуклеиновых кислот. 27 (1): 29–34. Дои:10.1093 / nar / 27.1.29. ЧВК  148090. PMID  9847135.
  15. ^ Вастрик, Имре; Д'Эустахио, Питер; Шмидт, Эстер; Джоши-Топе, Гита; Гопинатх, Гопал; Крофт, Дэвид; де Боно, Бернар; и другие. (2007). «Reactome: база знаний о биологических путях и процессах». Геномная биология. 8 (3): R39. Дои:10.1186 / gb-2007-8-3-r39. ЧВК  1868929. PMID  17367534.
  16. ^ Путь Студия Пути
  17. ^ Путь Центральный
  18. ^ Джентльмен, R.C .; Кэри, В. Дж .; Бейтс, Д. М .; Bolstad, B .; Деттлинг, М .; Дудуа, С.; и другие. (2004). «Биокондуктор: открытая разработка программного обеспечения для вычислительной биологии и биоинформатики». Геном Биол. 5 (10): R80. Дои:10.1186 / gb-2004-5-10-r80. ЧВК  545600. PMID  15461798.
  19. ^ Даббиш, Л., Стюарт, К., Цай, Дж., И Хербслеб, Дж. (2012). "Социальное кодирование в github: прозрачность и совместная работа в открытом репозитории программного обеспечения, "в материалах конференции ACM 2012 по совместной работе с компьютерной поддержкой (Нью-Йорк, штат Нью-Йорк: ACM), 1277–1286
  20. ^ а б Хатри П., Сирота М., Батт А. Дж. Десять лет анализа пути: современные подходы и нерешенные проблемы. Plos Comput Biol. 2012; 8 (2)
  21. ^ Хендерсон-Макленнан Н.К., Папп Дж.С., Талбот С.К., МакКейб ERB, Прессон А.П. Программное обеспечение для анализа пути: ошибки аннотаций и решения. Mol Genet Metab. 2010 ноя; 101 (2–3): 134–40
  22. ^ Emmert-Streib, F .; Демер, М. (2011). «Сети для системной биологии: концептуальная связь данных и функций». Системная биология ИЭПП. 5 (3): 185–207. Дои:10.1049 / iet-syb.2010.0025. PMID  21639592.
  23. ^ Хатри, Пурвеш; Сирота, Марина; Butte, Atul J .; Узунис, Христос А. (23 февраля 2012 г.). «Десять лет анализа пути: современные подходы и нерешенные проблемы». PLOS вычислительная биология. 8 (2): e1002375. Bibcode:2012PLSCB ... 8E2375K. Дои:10.1371 / journal.pcbi.1002375. ЧВК  3285573. PMID  22383865.
  24. ^ а б Draghici, S .; Khatri, P .; Tarca, A. L .; Амин, К .; Готово, А .; Voichita, C .; Georgescu, C .; Ромеро, Р. (4 сентября 2007 г.). «Подход системной биологии для анализа на уровне путей». Геномные исследования. 17 (10): 1537–1545. Дои:10.1101 / гр.6202607. ЧВК  1987343. PMID  17785539.
  25. ^ а б Tarca, A. L .; Draghici, S .; Khatri, P .; Hassan, S. S .; Mittal, P .; Kim, J.-s .; Kim, C.J .; Kusanovic, J. P .; Ромеро, Р. (5 ноября 2008 г.). «Новый анализ воздействия на сигнальный путь». Биоинформатика. 25 (1): 75–82. Дои:10.1093 / биоинформатика / btn577. ЧВК  2732297. PMID  18990722.
  26. ^ Glaab, E .; Бодо, А .; Красногор, Н .; Schneider, R. S .; Валенсия, А. (15 сентября 2012 г.). «EnrichNet: сетевой анализ пополнения набора генов». Биоинформатика. 28 (18): i451 – i457. Дои:10.1093 / биоинформатика / bts389. ЧВК  3436816. PMID  22962466.
  27. ^ Geistlinger, L .; Csaba, G .; Küffner, R .; Mulder, N .; Циммер, Р. (2011). «От наборов к графикам: к реалистичному обогащающему анализу транскриптомных систем». Биоинформатика. 27 (13): i366 – i373. Дои:10.1093 / биоинформатика / btr228. ЧВК  3117393. PMID  21685094.
  28. ^ Glaab, E .; Бодо, А .; Красногор, Н .; Валенсия, А. (2012). «TopoGSA: Анализ топологического набора генов сети». Биоинформатика. 26 (18): 1271–1272. Дои:10.1093 / биоинформатика / btq131. ЧВК  2859135. PMID  20335277.
  29. ^ Шоджаи Али; Михайлидис, Джордж (22 мая 2010 г.). «Анализ сетевого обогащения в сложных экспериментах». Статистические приложения в генетике и молекулярной биологии. 9 (1). Дои:10.2202/1544-6115.1483. ISSN  1544-6115. ЧВК  2898649. PMID  20597848.
  30. ^ Хаттенхауэр, Кертис; Хейли, Эрин М .; Hibbs, Matthew A .; Дюмо, Ванесса; Barrett, Daniel R .; Коллер, Хилари А .; Троянская Ольга Григорьевна (26 февраля 2009 г.). «Изучение генома человека с помощью функциональных карт». Геномные исследования. 19 (6): 1093–1106. Дои:10.1101 / гр.082214.108. ISSN  1088-9051. PMID  19246570.
  31. ^ Алексеенко, А .; Lee, W .; Пернемальм М. (2012). «Анализ обогащения сети: распространение анализа обогащения набора генов на генные сети». BMC Биоинформатика. 13: 226. Дои:10.1186/1471-2105-13-226. ЧВК  3505158. PMID  22966941.
  32. ^ Синьорелли, Мирко; Винчиотти, Вероника; Вит, Эрнст К. (5 сентября 2016 г.). «NEAT: эффективный анализ анализа обогащения сети». BMC Биоинформатика. 17 (1): 352. arXiv:1604.01210. Дои:10.1186 / s12859-016-1203-6. ISSN  1471-2105. PMID  27597310. S2CID  2274758.
  33. ^ Суо, Чен; Гридзюшко, Ольга; Ли, Донхван; Прамана, Сетия; Сапутра, Дхани; Джоши, Химаншу; Кальца, Стефано; Павитан, Юди (15 августа 2015 г.). «Объединение соматических мутаций, экспрессии и функциональных данных раскрывает потенциальные гены-драйверы, позволяющие прогнозировать выживаемость при раке груди». Биоинформатика. 31 (16): 2607–2613. Дои:10.1093 / биоинформатика / btv164. PMID  25810432.
  34. ^ Jeggari, A .; Алексеенко, А (2017). «NEArender: пакет R для функциональной интерпретации данных 'omics' с помощью анализа обогащения сети». BMC Биоинформатика. 18 (Дополнение 5): 118. Дои:10.1186 / s12859-017-1534-у. ЧВК  5374688. PMID  28361684.
  35. ^ Hong, M .; Алексеенко, А .; Ламберт, Дж. (2010). «Полногеномный анализ пути вовлекает внутриклеточный трансмембранный транспорт белка в болезнь Альцгеймера». Журнал генетики человека. 55 (10): 707–709. Дои:10.1038 / jhg.2010.92. PMID  20668461. S2CID  27020289.
  36. ^ Джеггари, Ашвини; Алексеенко, Жанна; Петров Юрий; Dias, José M; Эриксон, Йохан; Алексеенко, Андрей (2 июля 2018). «EviNet: веб-платформа для анализа обогащения сети с гибким определением наборов генов». Исследования нуклеиновых кислот. 46 (W1): W163 – W170. Дои:10.1093 / нар / gky485. ЧВК  6030852. PMID  29893885.
  37. ^ «Изобретательность IPA - интеграция и понимание сложных данных». Изобретательность. Интернет. 8 апреля 2015 г. <http://www.ingenuity.com/products/ipa#/?tab=features >.
  38. ^ Студия Pathway
  39. ^ Наблюдатель Pathway Studio
  40. ^ а б Митрея, Кристина; Тагави, Зейнаб; Боканизад, Бехзад; Хануди, Самер; Тагетт, Ребекка; Донато, Микеле; Войчица, Кэлин; Drăghici, Сорин (2013). «Методы и подходы в топологическом анализе биологических путей». Границы физиологии. 4: 278. Дои:10.3389 / fphys.2013.00278. ЧВК  3794382. PMID  24133454.
  41. ^ Хендерсон-Макленнан, Николь К., Жанетт К. Папп, К. Коновер Талбот, Эдвард Р. Б. МакКейб и Анджела П. Прессон. «Программное обеспечение для анализа путей: ошибки аннотаций и решения». Молекулярная генетика и метаболизм (2010): 134–40. ЧВК. Интернет. 8 апреля 2015.