Miso 분석이란 ?
MISO 분석은 Mixture Of Isoforms의 약자로 2개의 RNA-seq 데이터에서 Isoform이나 exon의 변화를 측정하고 확률을 계산해 주는 software를 이용한 분석입니다. 또한, Bayesian 통계방법을 기반으로 추정치에 대한 신뢰 구간과 신뢰성을 알 수 있습니다.(참고, Bayesian 통계는 Bioconductor의 Limma와 EdgeR등 생물학적 기반 분석에서 많이 활용됩니다.)
Miso분석 pipe line
-----RUNNING MISO-----
1. GFF format의 annotation file이 필요합니다. ( MISO 공식 사이트에서 제공해주는 것이나 개인이 가지고 있는 것도 가능. 단, MISO에서는 hg18, hg19, mm9, mm10만 제공해주는 것으로 파악됩니다.)
2. RNA-seq data에서 mapping이 끝나고 나오는 sorting된 BAM file Format의 파일이 필요합니다.
3. GFF file 과 BAM 파일을 이용해 MISO를 실행합니다.
결과로 miso.bf file을 얻을 수 있습니다. (참고, 결과 dataset)
-----ANALYZING RESULTS-----
- Skipped exons (SE)
- Alternative 3’/5’ splice sites (A3SS, A5SS)
- Mutually exclusive exons (MXE)
- Retained introns (RI)
Data를 splicing 유형에 따라 분석되게 되며 이러한 분류는 위에 명시된 mm9, mm10, hg18, hg19에서만 이용할 수 있습니다.
각 column을 살펴봅니다.
1. event_name : chromosome번호와 위치정보가 나타납니다.
2. sample1 | sample2_miso_posterior_mean: 각 샘플의 Ψ(psi) 값이 나타납니다.
3. sample1 | smaple2_ci_low | high : 샘플1 | 2 에 신뢰구간을 나타내 줍니다.
4. diff : 샘플1 & 샘플 2의 Ψ(psi) 값의 차이를 나타내 줍니다.
5. bayes_factor: 일종의 신뢰도로 일반적으로 p-value와 같은 의미
6. sample1_counts: sample1에 대한 raw count(아래의 그림을 참고)
7. sample1 | smaple2_assigned_counts: sample1 | 2 isoform에 할당된 reads 수 (0:330,1:34 first isoform에 330개, second isoform에 34개의 reads가 mapping 됨)
추가적으로 psi value와 ci value는 따로 정리해서 업로딩 할 것이며 MISO visualization figure인 sashimi_plot에 대해서도 추가적으로 업로딩하겠습니다.
reference
- Katz Y, Wang ET, Airoldi EM, Burge CB. (2010). Analysis and design of RNA sequencing experiments for identifying isoform regulation. Nature Methods 7, 1009-1015.
- Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008). Alternative Isoform Regulation in Human Tissue Transcriptomes. Nature 456, 470-476
'Bioinformatics' 카테고리의 다른 글
NCBI blast+ local install OS Linux (0) | 2018.12.13 |
---|---|
bedtools coverage (0) | 2018.12.04 |
SAM FILE Format (0) | 2018.10.18 |
BIGWIG FILE (0) | 2018.10.12 |
BED FILE FORMAT (0) | 2018.10.11 |