SAMFILE은 ?
SAM file은 NGS 시퀀싱 장비를 통해 나온 시퀀스를 reference Genome sequance에 mapping 한 text file입니다.
하지만 samfile을 이용하기에는 용량이 다소 크기때문에 분석 flow상에서는 시간이 오래 걸릴 수 있기때문에 indexing된 binary file인
BAM 파일을 많이 이용합니다. (보통 10배정도 용량 차이를 보입니다.)
반대로 말하자면 birnary file 이기 때문에 안에 있는 정보를 확인할 때는 samfile 을 사용합니다.
참고) BAMfile에서 SAMfile 변환
samtools view -h -o SRR330917.sam SRR330917.bam
SAMFILE 포맷
텍스트 문서로 보면 행과 열이 보기가 불편하기때문에 Excel로 불러왔습니다.
처음부터 보자면 @HD 는 HeaDer의 약자로 버전 정보를 나타내주고 있습니다.
@SQ 는 reference 정보입니다. 예를 들어 위의 사진 속에서 2번째줄에서는 chr1은 249250621개의 size를 가지고 있다고 판단할 수 있습니다.
Header부분 밑으로 가보면 템플릿들의 정보가 필드로 나눠져있습니다.
Col | Field | Type | Brief Description |
---|---|---|---|
1 | QNAME | String | Query template NAME |
2 | FLAG | Int | bitwise FLAG |
3 | RNAME | String | References sequence NAME |
4 | POS | Int | 1- based leftmost mapping POSition |
5 | MAPQ | Int | MAPping Quality |
6 | CIGAR | String | CIGAR String |
7 | RNEXT | String | Ref. name of the mate/next read |
8 | PNEXT | Int | Position of the mate/next read |
9 | TLEN | Int | observed Template LENgth |
10 | SEQ | String | segment SEQuence |
11 | QUAL | String | ASCII of Phred-scaled base QUALity+33 |
'Bioinformatics' 카테고리의 다른 글
NCBI blast+ local install OS Linux (0) | 2018.12.13 |
---|---|
bedtools coverage (0) | 2018.12.04 |
Miso Analysis (0) | 2018.10.29 |
BIGWIG FILE (0) | 2018.10.12 |
BED FILE FORMAT (0) | 2018.10.11 |