Обмен технологиями

Дайте вам золотой глаз - анализ обогащения и визуализация данных выражения

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Знакомство с пакетом Goplot

Пакет GOPlot используется для визуализации биологических данных. Скорее, этот пакет интегрирует и визуализирует данные экспрессии с результатами функционального анализа.Но будь остороженЭтот пакет нельзя использовать для выполнения такого анализа, он предназначен только для визуализации результатов. . Во всех областях науки трудно реалистично описывать вещи из-за нехватки места и простоты, необходимой для получения результатов, поэтому информацию необходимо визуализировать и использовать изображения для ее передачи. Хорошо продуманная графика предоставляет больше информации на меньшем пространстве. Идея пакета заключается в том, чтобы дать пользователям возможность быстро изучать большие объемы данных, выявлять тенденции в данных и находить закономерности и корреляции в данных.

Визуализация данных может помочь нам найти ответы на биологические вопросы, оценить определенную гипотезу и даже открыть разные точки зрения для исследования различных проблем. А функции построения графиков этого пакета разработаны на основе иерархической структуры данных, начиная с общих данных и заканчивая подмножеством выбранных генов и соответствующих путей.

Поясним это конкретно на примере.

например

Мы вызываем данные, которые поступают с GOplot, который поступает из GEOGSE47067, содержащий транскриптомную информацию эндотелиальных клеток из двух тканей (мозга и сердца). Дополнительную информацию см. в статье Nolan et al. https://www.ncbi.nlm.nih.gov/pubmed/23871589, а затемДанные нормализуются и обнаруживаются дифференциально экспрессируемые гены., а затем используйте инструмент аннотаций функций DAVID (данные аннотаций DAVID обновляются медленно и сейчас не рекомендуются. Рекомендуется использоватьGo East, лучший онлайн-инструмент для анализа обогащения GOиЭтот веб-сайт, который может выполнить анализ обогащения всего за один шаг, до его публикации был процитирован более 350 раз CNS и другими организациями.Провести анализ обогащения,Освойте GSEA в одной статье, суперподробное руководство) Генная аннотация дифференциально экспрессируемых генов (adjusted p-value < 0.05 ) и анализ функционального обогащения. Этот набор данных содержит следующие пять категорий данных:

имяописыватьРазмер набора данных
EC$esetНормализованная экспрессия генов в эндотелиальных клетках головного мозга и сердца (3 повтора)20644 х 7
EC$genelistДифференциально экспрессируемые гены (скорректированное значение p &lt;0,05)2039 х 7
EC$davidРезультаты анализа функционального обогащения дифференциальных генов с использованием DAVID174 х 5
EC$генГены и logFC37 х 2
EC$процессОтобранные векторы признаков для обогащенных биологических процессов7

Понимание форматов данных

Мы хотим увидеть обогащенные GO пути дифференциально экспрессируемых генов, но прежде чем мы начнем рисовать, нам необходимо предоставить данные, соответствующие требованиям формата.Вообще говоря, данные, необходимые для построения графика, предоставляете вы сами, ноВ этом пакете есть функцияcircle_datМожет помочь нам разобраться с форматом данныхcircle_datОн может комбинировать результаты анализа функционального обогащения выбранных генов и их значения logFC, в основном для дифференциально экспрессируемых генов.circle_dat Использование очень простое, просто прочитайте два данных. Первые данные содержат результаты анализа функционального обогащения, по крайней мере, с четырьмя столбцами (категория анализа функционального обогащения, путь, ген, скорректированное значение p).Вторые данные относятся к выбранному гену и его logFC, эти данные могут быть источником.limmaРезультаты статистического анализа (Примечание из биографий: Обязательно обратите внимание на два файлаКак называются геныБудьте последовательны, как и всеGene symbol ). Давайте рассмотрим упомянутые выше форматы данных на примерах.

  1. #安装已发布的稳定版本
  2. #install.packages('GOplot')
  3. #安装github上的开发版本
  4. #install_github('wencke/wencke.github.io')
  5. #载入包
  6. library(GOplot)
  7. #读入包内自带的数据
  8. data(EC)
  9. #查看功能富集分析结果的数据格式
  10. head(EC$david)
  11. ## Category ID Term
  12. ## 1 BP GO:0007507 heart development
  13. ## 2 BP GO:0001944 vasculature development
  14. ## 3 BP GO:0001568 blood vessel development
  15. ## 4 BP GO:0048729 tissue morphogenesis
  16. ## 5 BP GO:0048514 blood vessel morphogenesis
  17. ## 6 BP GO:0051336 regulation of hydrolase activity
  18. ## Genes
  19. ## 1 DLC1, NRP2, NRP1, EDN1, PDLIM3, GJA1, TTN, GJA5, ZIC3, TGFB2, CERKL, GATA6, COL4A3BP, GAB1, SEMA3C, MKL2, SLC22A5, MB, PTPRJ, RXRA, VANGL2, MYH6, TNNT2, HHEX, MURC, MIB1, FOXC2, FOXC1, ADAM19, MYL2, TCAP, EGLN1, SOX9, ITGB1, CHD7, HEXIM1, PKD2, NFATC4, PCSK5, ACTC1, TGFBR2, NF1, HSPG2, SMAD3, TBX1, TNNI3, CSRP3, FOXP1, KCNJ8, PLN, TSC2, ATP6V0A1, TGFBR3, HDAC9
  20. ## 2 GNA13, ACVRL1, NRP1, PGF, IL18, LEPR, EDN1, GJA1, FOXO1, GJA5, TGFB2, WARS, CERKL, APOE, CXCR4, ANG, SEMA3C, NOS2, MKL2, FGF2, RAPGEF1, PTPRJ, RECK, EFNB2, VASH1, PNPLA6, THY1, MIB1, NUS1, FOXC2, FOXC1, CAV1, CDH2, MEIS1, WT1, CDH5, PTK2, FBXW8, CHD7, PLCD1, PLXND1, FIGF, PPAP2B, MAP2K1, TBX4, TGFBR2, NF1, TBX1, TNNI3, LAMA4, MEOX2, ECSCR, HBEGF, AMOT, TGFBR3, HDAC7
  21. ## 3 GNA13, ACVRL1, NRP1, PGF, IL18, LEPR, EDN1, GJA1, FOXO1, GJA5, TGFB2, WARS, CERKL, APOE, CXCR4, ANG, SEMA3C, NOS2, MKL2, FGF2, RAPGEF1, PTPRJ, RECK, VASH1, PNPLA6, THY1, MIB1, NUS1, FOXC2, FOXC1, CAV1, CDH2, MEIS1, WT1, CDH5, PTK2, FBXW8, CHD7, PLCD1, PLXND1, FIGF, PPAP2B, MAP2K1, TBX4, TGFBR2, NF1, TBX1, TNNI3, LAMA4, MEOX2, ECSCR, HBEGF, AMOT, TGFBR3, HDAC7
  22. ## 4 DLC1, ENAH, NRP1, PGF, ZIC2, TGFB2, CD44, ILK, SEMA3C, RET, AR, RXRA, VANGL2, LEF1, TNNT2, HHEX, MIB1, NCOA3, FOXC2, FOXC1, TGFB1I1, WNT5A, COBL, BBS4, FGFR3, TNC, BMPR2, CTNND1, EGLN1, NR3C1, SOX9, TCF7L1, IGF1R, FOXQ1, MACF1, HOXA5, BCL2, PLXND1, CAR2, ACTC1, TBX4, SMAD3, FZD3, SHANK3, FZD6, HOXB4, FREM2, TSC2, ZIC5, TGFBR3, APAF1
  23. ## 5 GNA13, CAV1, ACVRL1, NRP1, PGF, IL18, LEPR, EDN1, GJA1, CDH2, MEIS1, WT1, TGFB2, WARS, PTK2, CERKL, APOE, CXCR4, ANG, SEMA3C, PLCD1, NOS2, MKL2, PLXND1, FIGF, FGF2, PTPRJ, TGFBR2, TBX4, NF1, TBX1, TNNI3, PNPLA6, VASH1, THY1, NUS1, MEOX2, ECSCR, AMOT, HBEGF, FOXC2, FOXC1, HDAC7
  24. ## 6 CAV1, XIAP, AGFG1, ADORA2A, TNNC1, TBC1D9, LEPR, ABHD5, EDN1, ASAP2, ASAP3, SMAP1, TBC1D12, ANG, TBC1D14, MTCH1, TBC1D13, TBC1D4, TBC1D30, DHCR24, HIP1, VAV3, NOS1, NF1, MYH6, RICTOR, TBC1D22A, THY1, PLCE1, RNF7, NDEL1, CHML, IFT57, ACAP2, TSC2, ERN1, APAF1, ARAP3, ARAP2, ARAP1, HTR2A, F2R
  25. ## adj_pval
  26. ## 1 0.000002170
  27. ## 2 0.000010400
  28. ## 3 0.000007620
  29. ## 4 0.000119000
  30. ## 5 0.000720000
  31. ## 6 0.001171166
  32. #查看基因的数据格式
  33. head(EC$genelist)
  34. ## ID logFC AveExpr t P.Value adj.P.Val B
  35. ## 1 Slco1a4 6.645388 1.2168670 88.65515 1.32e-18 2.73e-14 29.02715
  36. ## 2 Slc19a3 6.281525 1.1600468 69.95094 2.41e-17 2.49e-13 27.62917
  37. ## 3 Ddc 4.483338 0.8365231 65.57836 5.31e-17 3.65e-13 27.18476
  38. ## 4 Slco1c1 6.469384 1.3558865 59.87613 1.62e-16 8.34e-13 26.51242
  39. ## 5 Sema3c 5.515630 2.3252117 58.53141 2.14e-16 8.81e-13 26.33626
  40. ## 6 Slc38a3 4.761755 0.9218670 54.11559 5.58e-16 1.76e-12 25.70308

Поняв два формата входных данных, вы можете использоватьcirlce_datфункция для генерации данных чертежа.

  1. # 生成画图所需的数据格式
  2. circ <- circle_dat(EC$david, EC$genelist)
  3. head(circ)
  4. ## category ID term count genes logFC adj_pval
  5. ## 1 BP GO:0007507 heart development 54 DLC1 -0.9707875 2.17e-06
  6. ## 2 BP GO:0007507 heart development 54 NRP2 -1.5153173 2.17e-06
  7. ## 3 BP GO:0007507 heart development 54 NRP1 -1.1412315 2.17e-06
  8. ## 4 BP GO:0007507 heart development 54 EDN1 1.3813006 2.17e-06
  9. ## 5 BP GO:0007507 heart development 54 PDLIM3 -0.8876939 2.17e-06
  10. ## 6 BP GO:0007507 heart development 54 GJA1 -0.8179480 2.17e-06
  11. ## zscore
  12. ## 1 -0.8164966
  13. ## 2 -0.8164966
  14. ## 3 -0.8164966
  15. ## 4 -0.8164966
  16. ## 5 -0.8164966
  17. ## 6 -0.8164966

circОбъект имеет восемь столбцов данных, а именно

  • категория: BP (биологический процесс), CC (клеточный компонент) или MF (молекулярная функция)

  • ID: идентификатор GO (необязательный столбец; если вы хотите использовать инструмент функционального анализа, не основанный на идентификаторе GO, вы не можете выбрать столбец ID; идентификатор здесь также может быть идентификатором KEGG)

  • термин: путь GO

  • подсчет: количество генов в каждом пути

  • ген: имя гена - logFC: значение logFC каждого гена

  • adj_pval: скорректированное значение p, пути с adj_pval&lt;0,05 считаются значительно обогащенными.

  • zscore: zscore не относится к методу статистической нормализации, но представляет собой легко вычисляемое значение, позволяющее оценить, с большей вероятностью снижается биологический процесс (/молекулярная функция/клеточный компонент) (отрицательное значение) или увеличивается (положительное значение).Метод расчета представляет собой количество генов с повышенной регуляцией минус количество генов с пониженной регуляцией, разделенное на квадратный корень из числа генов в каждом пути.

Нарисуй картинку

GOBar – гистограмма

Когда мы впервые смотрим на данные, мы хотим показать на графике как можно больше путей, а также мы хотим найти ценные пути, поэтому нам нужны некоторые параметры для оценки важности. Гистограммы часто используются для описания выборочных данных, поэтому мы можем использовать функцию GOBar, чтобы быстро создать красивую гистограмму.

Сначала создается простая гистограмма. Горизонтальная ось.GO Terms, по их словамzscoreСортировка столбцов по вертикальной оси;-log(adj p-value);Цвет представляетzscore, синий указываетz-scoreявляется отрицательным значением, экспрессия гена в соответствующем пути с большей вероятностью снизится (обозначено красным).z-score является положительным значением, то экспрессия гена в соответствующем пути с большей вероятностью увеличится. При желании порядок можно изменить, установив для параметра order.by.zscore значение FALSE, в этом случае бары упорядочиваются в зависимости от их значимости.

  1. # 生成简单的条形图
  2. GOBar(subset(circ, category == 'BP'))

картина

#GOBar(subset(circ, category == 'BP',order.by.zscore=FALSE))

Кроме того, измените параметр отображения, чтобы построить гистограмму в соответствии с категорией канала.

  1. #根据通路的类别来绘制条形图
  2. GOBar(circ, display = 'multiple')

картина

Добавьте заголовок и используйте параметрыzsc.colИзменятьzscoreцвет.

  1. # Facet the barplot, add a title and change the colour scale for the z-score
  2. GOBar(circ, display = 'multiple', title = 'Z-score coloured barplot', zsc.col = c('yellow', 'black', 'cyan'))

картина

Гистограммы очень распространены и просты для понимания, но мы можем использовать пузырьковые диаграммы для отображения дополнительной информации о данных.

GOBubble – пузырьковая диаграмма

Горизонтальная осьzscore;Вертикальная ось-log(adj p-value), аналогично гистограмме, чем она выше, тем значительнее обогащение связано с количеством генов в соответствующем пути (;circ$count ); цвет соответствует категории, соответствующей пути, зеленый — биологический процесс, красный — клеточный компонент, синий — молекулярная функция.Может быть введен по?GOBubble См. страницу справки функции GOBubble, чтобы изменить все параметры изображения. По умолчанию каждый круг отмечен соответствующим идентификатором GO, а справа также отображается таблица, показывающая соответствующую взаимосвязь между идентификатором GO и термином GO.Параметры могут быть установлены с помощьюtable.legendдляFALSE чтобы скрыть это. Если вы хотите отобразить описание пути, установите для идентификатора параметра значение FALSE.Однако из-за ограниченного пространства и перекрывающихся кругов отмечены не все круги, а только-log(adj p-value) > 3(по умолчанию 5).

  1. # 生成泡泡图,并展示-log(adj p-value) > 3 的通路的GO ID
  2. GOBubble(circ, labels = 3)

картина

Если вы хотите добавить заголовок к пузырьковой диаграмме или указать цвет кружка и отобразить пути каждой категории отдельно, а также изменить отображаемый порог идентификатора GO ID, вы можете добавить следующие параметры:

GOBubble(circ, title = 'Bubble plot', colour = c('orange', 'darkred', 'gold'), display = 'multiple', labels = 3)

картина

Раскрасьте фон класса канала, установив для параметра bg.col значение TRUE.

GOBubble(circ, title = 'Bubble plot with background colour', display = 'multiple', bg.col = T, labels = 3)

картина

Новая версия пакета содержит новую функциюreduce_overlap , эта функция может уменьшить количество избыточных элементов, то есть она может удалить все пути, перекрытие генов которых больше или равно установленному порогу, и сохранить только один путь из каждой группы в качестве репрезентативного, независимо от отображения всех пути в ГО. За счет уменьшения количества избыточных терминов значительно улучшается читабельность графиков (например, пузырьковых).

  1. # reduce_overlap,参数设置为0.75
  2. reduced_circ <- reduce_overlap(circ, overlap = 0.75)
  3. GOBubble(reduced_circ, labels = 2.8)

картина

GOCircle – круговая диаграмма отображает результаты анализа функционального обогащения генов.

Хотя график, показывающий всю информацию, может помочь нам определить, какие пути являются наиболее значимыми, реальность по-прежнему зависит от гипотез и идей, которые вы хотите подтвердить с помощью данных, и наиболее важные пути не обязательно могут быть теми, которые вас интересуют. Таким образом, при ручном выборе ценного набора путей (EC$process ), нам нужна диаграмма, которая покажет нам более подробную информацию об этом конкретном наборе путей.Но с представлением этих цифр возникает проблема: иногда их трудно интерпретировать.zscore Информация предоставлена.В конце концов, этот метод расчета не является универсальным. Как показано выше, это просто количество генов с повышающей регуляцией минус количество генов с пониженной регуляцией, деленное на квадратный корень из числа генов в каждом пути, используя метод.GOCircleПолученный график также подчеркивает этот факт.

Внешний круг круговой диаграммы показывает значение logFC генов каждого пути в виде разбросанных точек. Красные круги указывают на усиление, а синие — на понижение.Параметры можно использоватьlfc.col Изменить цвет. Это также объясняет, почему в некоторых случаях очень важные пути имеют z-показатели, близкие к нулю. Нулевой zscore не означает, что канал неважен. Это просто показывает, что zscore является грубой мерой, поскольку очевидно, что zscore также не учитывает функциональный уровень и активационную зависимость отдельных генов в биологических процессах.

GOCircle(circ)

картина

nsub Параметры могут быть заданными числами или векторами символов. Если это вектор символов, он содержит идентификатор GO или путь для отображения;

  1. # 生成特定通路的圈图
  2. IDs <- c('GO:0007507', 'GO:0001568', 'GO:0001944', 'GO:0048729', 'GO:0048514', 'GO:0005886', 'GO:0008092', 'GO:0008047')
  3. GOCircle(circ, nsub = IDs)

картина

Если nsub — числовой вектор, число определяет отображаемый номер. Он начинается с первой строки входного фрейма данных. Эта визуализация работает только с меньшими данными. Максимальное количество каналов по умолчанию равно 12. Хотя количество каналов уменьшается, объем отображаемой информации увеличивается.

  1. # 圈图展示数据前十个通路
  2. GOCircle(circ, nsub = 10)

картина

GOChord - круговая диаграмма, показывающая взаимосвязь между генами и путями.

GOChord может отображать взаимосвязь между выбранными генами и путями, а также logFC генов.Сначала вам нужно ввести матрицу, которую вы можете построить самостоятельно.0-1Матрица, вы также можете использовать функцииchord_dat Построить. Эта функция имеет три параметра: данные, гены и процесс, из которых последние два параметра должны иметь хотя бы один параметр.Тогда функцияcircle_datОбъедините данные выражений с результатами функционального анализа.

Гистограммы и пузырьковые диаграммы могут дать вам первое представление о данных. Теперь вы можете выбрать некоторые гены и пути, которые, по нашему мнению, являются ценными. Хотя GOCircle добавляет слой для отображения значения экспрессии генов в путях, в нем отсутствует единая информация. о взаимоотношениях между генами и множественными путями. Нелегко выяснить, связаны ли определенные гены с несколькими процессами. GOChord компенсирует недостатки GOCircle. Строки сгенерированных данных — это гены, а столбцы — пути. «0» означает, что ген не присвоен пути, а «1» — наоборот.

  1. # 找到感兴趣的的基因,这里我们以EC$genes为例
  2. head(EC$genes)
  3. ## ID logFC
  4. ## 1 PTK2 -0.6527904
  5. ## 2 GNA13 0.3711599
  6. ## 3 LEPR 2.6539788
  7. ## 4 APOE 0.8698346
  8. ## 5 CXCR4 -2.5647537
  9. ## 6 RECK 3.6926860
  10. # 获得感兴趣基因的通路
  11. EC$process
  12. ## [1] "heart development" "phosphorylation"
  13. ## [3] "vasculature development" "blood vessel development"
  14. ## [5] "tissue morphogenesis" "cell adhesion"
  15. ## [7] "plasma membrane"
  16. # 使用chord_dat构建矩阵
  17. chord <- chord_dat(circ, EC$genes, EC$process)
  18. head(chord)
  19. ## heart development phosphorylation vasculature development
  20. ## PTK2 0 1 1
  21. ## GNA13 0 0 1
  22. ## LEPR 0 0 1
  23. ## APOE 0 0 1
  24. ## CXCR4 0 0 1
  25. ## RECK 0 0 1
  26. ## blood vessel development tissue morphogenesis cell adhesion
  27. ## PTK2 1 0 0
  28. ## GNA13 1 0 0
  29. ## LEPR 1 0 0
  30. ## APOE 1 0 0
  31. ## CXCR4 1 0 0
  32. ## RECK 1 0 0
  33. ## plasma membrane logFC
  34. ## PTK2 1 -0.6527904
  35. ## GNA13 1 0.3711599
  36. ## LEPR 1 2.6539788
  37. ## APOE 1 0.8698346
  38. ## CXCR4 1 -2.5647537
  39. ## RECK 1 3.6926860

В примере мы передали два параметра. Если указан только параметр генов, результатом будет список выбранных генов и всех конструкций процессов, в которых есть хотя бы один указанный ген.0-1матрица, если только указана;processпараметров, в результате все гены генерируют0-1 Матрица генов, присвоенных хотя бы одному процессу в списке. Имейте в виду, что указание только генов и параметров процесса может привести к очень большой матрице 0-1, что приведет к путанице в результатах визуализации.

картина

  1. head(circ)
  2. ## category ID term count genes logFC adj_pval
  3. ## 1 BP GO:0007507 heart development 54 DLC1 -0.9707875 2.17e-06
  4. ## 2 BP GO:0007507 heart development 54 NRP2 -1.5153173 2.17e-06
  5. ## 3 BP GO:0007507 heart development 54 NRP1 -1.1412315 2.17e-06
  6. ## 4 BP GO:0007507 heart development 54 EDN1 1.3813006 2.17e-06
  7. ## 5 BP GO:0007507 heart development 54 PDLIM3 -0.8876939 2.17e-06
  8. ## 6 BP GO:0007507 heart development 54 GJA1 -0.8179480 2.17e-06
  9. ## zscore
  10. ## 1 -0.8164966
  11. ## 2 -0.8164966
  12. ## 3 -0.8164966
  13. ## 4 -0.8164966
  14. ## 5 -0.8164966
  15. ## 6 -0.8164966
  16. # Generate the matrix with a list of selected genes
  17. chord_genes <- chord_dat(data = circ, genes = EC$genes)
  18. head(chord_genes)
  19. ## heart development vasculature development blood vessel development
  20. ## PTK2 0 1 1
  21. ## GNA13 0 1 1
  22. ## LEPR 0 1 1
  23. ## APOE 0 1 1
  24. ## CXCR4 0 1 1

Эта диаграмма предназначена для отображения меньшего подмножества многомерных данных. В основном можно регулировать два параметра:gene.orderиnlfc . Параметр генов может быть указан как «logFC», «алфавитный», «нет». Фактически, мы обычно указываем параметр генов как logFC; параметр nlfc является одним из наиболее важных параметров этой функции, поскольку он может обрабатывать то, что каждый ген имеет 0 или более значений logFC, представленных в матрице. Поэтому нам следует указать параметры, чтобы избежать ошибок.

Например, если у вас есть матрица без значений logFC, вы должны установитьnlfc=0 ; Или выполнить дифференциальный анализ экспрессии генов в нескольких условиях или партиях. В этом случае каждый ген содержит несколько значений logFC, и необходимо установить номер столбца nlfc=logFC. Значением по умолчанию является «1», поскольку считается, что в большинстве случаев для каждого гена будет только одно значение logFC. Используйте параметр space, чтобы определить пространство между цветными прямоугольниками, представляющими logFC. Параметр Gene.size определяет размер шрифта имени гена, а Gene.space определяет размер пробела между именами генов.

  1. chord <- chord_dat(data = circ, genes = EC$genes, process = EC$process)
  2. GOChord(chord, space = 0.02, gene.order = 'logFC', gene.space = 0.25, gene.size = 5)
  3. ## Warning: Using size for a discrete variable is not advised.
  4. ## Warning: Removed 7 rows containing missing values (geom_point).

картина

Может быть установлен в соответствии со значением logFC.gene.order=‘logFC’ гены сортируются в соответствии с их значениями logFC. Иногда изображение может стать немного перегруженным, и это можно автоматизировать, используя параметр limit, чтобы уменьшить количество отображаемых генов или путей. Limit — вектор с двумя значениями отсечки (по умолчанию — c(0,0)). Первое значение указывает минимальное количество путей, которым должен быть назначен ген. Второе значение определяет количество генов, назначенных этому пути.

  1. # 仅显示分配给至少三个通路的基因
  2. GOChord(chord, limit = c(3, 0), gene.order = 'logFC')
  3. ## Warning: Using size for a discrete variable is not advised.
  4. ## Warning: Removed 7 rows containing missing values (geom_point).

картина

GOHeat – тепловая карта, показывающая гены и пути

Функция GOHeat может отображать взаимосвязь между генами и путями с помощью тепловой карты, аналогичной GOChord. Биологические процессы отображаются горизонтально, а гены — вертикально. Каждый столбец разделен на небольшие прямоугольники, а цвет обычно зависит от значения logFC. Кроме того, были сгруппированы гены, имеющие схожие функциональные пути. Существует два режима выбора цвета тепловой карты, в зависимости от параметров nlfc. Если nlfc = 0, цвет обозначает количество обогащенных путей для каждого гена. Подробности смотрите в примерах:

  1. # First, we use the chord object without logFC column to create the heatmap
  2. GOHeat(chord[,-8], nlfc = 0)

картина

GOHeat(chord[,-8])

Цвет соответствует logFC гена в случае nlfc = 1.

GOHeat(chord, nlfc = 1, fill.col = c('red', 'yellow', 'green'))

картина

GOCluster–Золотой глаз

Идея функциональности GOCluster заключается в отображении как можно большего количества информации. Вот пример:

  1. GOCluster(circ, EC$process, clust.by = 'logFC', term.width = 2)
  2. ## Warning: Using size for a discrete variable is not advised.
  3. ## Warning: Removed 7 rows containing missing values (geom_point).

картина

Иерархическая кластеризация — это популярный метод неконтролируемого кластерного анализа экспрессии генов, который обеспечивает объективную группировку генов по характеру экспрессии, так что кластеры могут содержать несколько групп совместно регулируемых или функционально связанных генов. GOCluster используетhclust Метод осуществляет иерархическую кластеризацию профилей экспрессии генов. Если вы хотите изменить метрику расстояния или алгоритм кластеризации, используйте параметры metric и clust соответственно. Полученную дендрограмму можно преобразовать с помощью ggdendro и визуализировать с помощью ggplot2. Выбирайте круглую планировку, поскольку она не только эффективна, но и визуально привлекательна. Первый кружок рядом с дендрограммой представляет logFC гена, который на самом деле является листом дерева кластеризации. Если вас интересуют несколько контрастов, вы можете изменить параметр nlfc, по умолчанию он установлен на «1», поэтому рисуется только одно кольцо. Значения logFC имеют цветовую маркировку с использованием определяемой пользователем цветовой шкалы (lfc.col); следующий кружок представляет путь, присвоенный гену. Чтобы выглядеть хорошо, количество каналов было уменьшено, а цвет каналов можно изменить с помощью параметра term.col.до сих пор доступен?GOCluster чтобы увидеть, как изменить параметры. Наиболее важным параметром этой функции являетсяcluster.by, который можно указать для кластеризации по шаблонам экспрессии генов («logFC», как показано выше) или функциональным категориям («термины»).

  1. GOCluster(circ, EC$process, clust.by = 'term', lfc.col = c('darkgoldenrod1', 'black', 'cyan1'))
  2. ## Warning: Using size for a discrete variable is not advised.
  3. ## Warning: Removed 7 rows containing missing values (geom_point).

картина

GOVenn - Диаграмма Венна

Диаграммы Венна можно использовать для обнаружения взаимосвязей между различными списками дифференциально экспрессируемых генов или для изучения пересечения генов нескольких путей в функциональном анализе. Диаграммы Венна показывают не только количество перекрывающихся генов, но и информацию о характере экспрессии гена (обычно повышающая, часто понижающая или контррегулируемая). В настоящее время в качестве входных данных используется до трех наборов данных. Входные данные содержат как минимум два столбца: один для имен генов и один для значений logFC.

  1. l1 <- subset(circ, term == 'heart development', c(genes,logFC))
  2. l2 <- subset(circ, term == 'plasma membrane', c(genes,logFC))
  3. l3 <- subset(circ, term == 'tissue morphogenesis', c(genes,logFC))
  4. GOVenn(l1,l2,l3, label = c('heart development', 'plasma membrane', 'tissue morphogenesis'))

картина

Например, развитие сердца и морфогенез тканей имеют 22 гена, 12 из которых имеют повышенную экспрессию, а 10 — отрицательную. Важно отметить, что круговые диаграммы не отображают избыточную информацию. Следовательно, если сравниваются три набора данных, гены, общие для всех наборов данных (средняя круговая диаграмма), не включаются в другие круговые диаграммы. Этот инструмент доступен в ShinyApp https://wwalter.shinyapps.io/Venn/, веб-инструмент более интерактивный, площадь круга пропорциональна количеству генов в наборе данных, а ползунок можно использовать для перемещения небольшая круговая диаграмма и имеет функции GOVenn со всеми опциями для изменения макета графика, а также для загрузки изображений и списков генов.

Домашняя страница программного обеспечения: https://wencke.github.io/