SAMFILE은 ?


SAM file은 NGS 시퀀싱 장비를 통해 나온 시퀀스를 reference Genome sequance에 mapping 한 text file입니다. 

하지만 samfile을 이용하기에는 용량이 다소 크기때문에 분석 flow상에서는 시간이 오래 걸릴 수 있기때문에 indexing된 binary file인 

BAM 파일을 많이 이용합니다. (보통 10배정도 용량 차이를 보입니다.)

반대로 말하자면 birnary file 이기 때문에 안에 있는 정보를 확인할 때는 samfile 을 사용합니다.



참고) BAMfile에서 SAMfile 변환 

samtools view -h -o SRR330917.sam SRR330917.bam




SAMFILE 포맷


텍스트 문서로 보면 행과 열이 보기가 불편하기때문에 Excel로 불러왔습니다.


처음부터 보자면 @HD 는 HeaDer의 약자로 버전 정보를 나타내주고 있습니다.

@SQ 는 reference 정보입니다. 예를 들어 위의 사진 속에서 2번째줄에서는 chr1은 249250621개의 size를 가지고 있다고 판단할 수 있습니다.


Header부분 밑으로 가보면 템플릿들의 정보가 필드로 나눠져있습니다. 


ColFieldTypeBrief Description
1QNAMEString

Query template NAME

2FLAGIntbitwise FLAG
3RNAMEStringReferences sequence NAME
4POSInt1- based leftmost mapping POSition
5MAPQIntMAPping Quality
6CIGARStringCIGAR String
7RNEXTStringRef. name of the mate/next read
8PNEXTIntPosition of the mate/next read
9TLENIntobserved Template LENgth
10SEQStringsegment SEQuence
11QUALStringASCII of Phred-scaled base QUALity+33








'Bioinformatics' 카테고리의 다른 글

NCBI blast+ local install OS Linux  (0) 2018.12.13
bedtools coverage  (0) 2018.12.04
Miso Analysis  (0) 2018.10.29
BIGWIG FILE  (0) 2018.10.12
BED FILE FORMAT  (0) 2018.10.11

+ Recent posts