SNP 란? 

유전자 다형 안에서 최근 주목을 받는 것이 SNP(Single Nucleotide Polymorphism, 1 염기다형)이다. SNP는 인구집단의 통상 1% 이상의 빈도에서 발생될 때 인정된다. 약 30억개의 염기를 가진 인간의 게놈에서는 여러 가지 유전적 다형마커가 인식되지만 그 중에서 80% 이상은 SNP로 알려져 있다. SNP는 게놈 안에서 개수가 아주 많기 때문에 마커로 적합하다.

 

 

SNP의 종류

SNP는 유전자영역을 중심으로 4가지로 분류된다.

  • rSNP : 전사 조절인자영역에서 발견되며 Regulatory SNP라고 칭한다. 유전자가 mRNA로 발현되는데 중요한 역할을 함
  • iSNP : Intron SNP이며 유전자나 단백질 형성에 중요한 역할은 하지 않지만 Exon가까이서 중요한 역할을 한다고 알려져 있음
  • cSNP : Coding SNP라고 불리며, 단백질 코딩영역에 염기 변이를 일으켜 아미노산 변화를 야기시킨다.
  • sSNP : Synonymous SNP라고 불리며, 닥백질 코딩영역에서 발견은 되나 아미노산 변화에 영향을 미치지는 않는다.

SNP 디스커버리와 SNP 타이핑 

SNP 연구의 흐름에는 SNP 발견 (디스커버리)과 SNP 해석 (타이핑)의 두 단계가 있다. SNP 디스커버리는 기본적으로 복수의 인간 게놈을 재시퀀싱해서 1 염기의 차이를 동정하는 작업이다. 이것은 많은 시퀀서를 늘어놓고 작동시켜 대량의 서열데이터를 얻는 큰 작업이 된다. 유용한 SNP 데이터베이스가 되기 위해서는 충분한 양의 SNP가 있어야할 뿐만 아니라 SNP의 염색체 상의 위치 (맵), 유전자 내의 위치, 기능 (아미노산 서열, 프로모터 기능, 스플라이싱에 영향이 있는가?) 등의 SNP annotation이 충실할 필요가 있다.

SNP 타이핑은 발견된 SNP을 이용해 특정 가계나 집단에서 SNP를 해석해서 유전자형을 결정하는 작업이다. 이 타이핑 결과와 집단의 데이터 (질환의 유무 등)를 해석해서 전체 SNP에서 목적하는 SNP를 추출하게 된다(population genomics, 집단게놈학). 현재 시퀀스의 자동화, 고속화 기술은 확립되었지만, SNP 타이핑의 자동화, 고속화는 아직 기술개발 단계이므로 발견된 SNP 수는 많아도 타이핑된 SNP 수는 한정되어 있다.

SNP Discovery Through NGS 

Santosh Kumar, Travis W.Banks, and Sylvie cloutier가 2012년 저술한 "SNP Discovery through Next-Generation sequencing and Its applications" 논문에 따르면 지금까지 식물에서 대규모 SNP 발굴은 maize, Arabidopsis, Rice에 제한되어 있었다.

Genetic applications은 linkage mapping, population structure, association 연구, map-based cloning, marker-assisted 식물 육종과 기능 연구가 대규모 SNP 데이터를 통해 이루어지고 있다.

NGS을 통해 데이터 량이 늘어나면서 다양한 식물 종으로부터 SNP 발굴이 이루어 지고 있다.

Applications of SNPs 

  • SNPs in Genetic Mapping

  • Genome-Wide Association Mapping

  • Evolutionary Studies

SNP 해석 

하나의 SNP는 대개 두 개 염기 중 어느 하나이며 예를 들면 A (아데닌)이나 G (구아닌) 중 어느 하나가 되지 3개의 염기가 오는 경우 (biallelic)는 거의 없다. 따라서 한 군데의 SNP에는 3 종류의 유전자형이 존재한다. 위의 예로 따지면 A/A homo, G/G homo, A/G hetero 이다. 특정 인구집단을 조사하면 이들 유전자형의 출현빈도를 구할 수 있다. 나아가 그 집단에서 어떤 질환을 가진 사람과 그렇지 않은 사람의 두 그룹을 나눠 각각의 유전자형 빈도를 계산해 그것이 통계적으로 유의하게 다른지를 조사할 수 있다. 단일 SNP으로 유의차가 나올 수도 있고, 복수의 SNP의 조합으로 유의차가 나올 수도 있을 것이다.

SNP는 유전 마커로 이용할 수 있을 뿐만 아니라 그 자체가 기능 변이를 일으키는 경우가 있다. 단백질 코드 영역에 있으면서 아미노산 변화를 일으키는 SNP도 빈도는 낮지만 (전체 SNP의 0.1% 정도) 많은 수가 알려져 있다.

SNP과 건강 

단일 유전자 변이에 의해 일어나는 고전적인 유전병과 달리 SNP가 해석대상으로 하는 것은 당뇨병, 고혈압, 비만 등의 생활습관병이다. 단일유전자성 질환과 달리 이러한 복합 리스크지수의 결정인자에 의한 다유전성질환 (polygenic disease)이라고 할 수 있다. 이러한 질환이 빠르게 변화된 현대 생활습관 (환경) 에 기인하는 것은 분명하지만, 그래도 발병되는 사람과 그렇지 않은 사람이 있으며 유전자의 관여가 농후하다고 여겨진다.

현재는 이들 질환관련 유전자가 어느 정도 개수가 있는지, 기여도가 높은 소수의 SNP들로 일어나는지 아니면 기여도가 낮은 SNP들이 다수 겹쳐서 일어나는지조차 모른다. 또한 질환관련 유전자에 민족차가 어느 정도 있는지 확인하는 것도 앞으로의 과제이다. 지금까지는 대개 하나나 소수의 유전자 다형을 조사해서 병에 걸리기 쉬운 정도의 odds ratio를 계산한다. 지금까지 얻어진 많은 결과들은 모여진 집단의 속성 (민족, 환경인자, 질환분류법 등) 에 따르며, 그냥 일반화하기는 어렵기도 하다.

유전자형의 대량해석에 의해 질환의 계층화 (stratification)가 진행되고 이것을 근거로 더 나은 evidence based medicine (EBM : 근거에 기준한 의료)이 구축될 것이다.

SNP 진단과 의료 

장기적인 전망으로 인간 게놈 전반의 조직적인 ‘SNP와 질환의 관련 데이터베이스’를 구축함으로써 현 시점에서는 복합적인 난병으로 보이는 많은 질환도 언젠가 원인인자 및 위험인자 등이 해명될 것이다. 그 결과 현재는 증상으로 따져 하나의 질환으로 생각되던 병이 분자유전학적으로는 서로 무관하게 보이는 복수의 질환의 복합체라는 것이 밝혀질 것이다.

수년 전 New England Journal of Medicine지에 동일 환자를 113명의 의사에게 보인 결과 88 종류의 서로 다른 진단과 치료법이 제출되었다고 보고됐다. 이것은 증상에서 하나인 질환이 분자유전학적으로는 복수의 서로 다른 원인이나 메커니즘으로 일어날 가능성이 높기 때문에 사고하는 의사들이 각자 여러 가지 진단결과를 낸 것으로 이상한 것이 아니다.

맞춤의학 (individualized medicine)의 현실에 가장 가까운 영역은 약리게놈학 (pharmacogenomics)이다. 이것은 약물의 대사나 동태에 관여하는 효소나 수용체의 유전자 변형의 영향을 연구해 그 성과를 합리적인 약물치료 개발과 선택 적용에 이용하는 것이다. 약물대사 (흡수, 분포, 대사, 배설, absorption, distribution, metabolism, excretion : ADME)의 개인차에 유전적 인자가 관여한다는 것은 1905년대부터 인식돼 있었다. 특정 약에 대한 대사의 개인차 (예를 들면 강대사능력자 (EM : Extensive Metabolizer) 또는 약대사능력자 (PM : Poor Metabolizer))는 주로 시토크롬 P450 (CYP450) 효소의 유전자 변형이 원인이다. 그 중에서도 CYP2A6, CYP2C9, CYP2C19 등의 SNPs에 대해서는 상당히 자세한 데이터베이스가 존재한다. 이러한 SNPs를 이용한 진단은 특정 환자에 대한 유해약물의 회피나 투여량의 가감 등 현재 다수 발생하고 있는 약물 부작용을 최소한으로 억제할 수 있을 것이다.

SNP data와 microarray data 

어떤 개인의 SNP 패턴은 microarray data와 달리 시간에 따라 쉽게 바뀌는 게 아니다. 따라서 어떤 환자의 SNP data는 그 사람 인생의 특정 시기, 병의 진행 정도에 의존하지 않고 사용할 수 있다는 장점이 있다. 두 번째 SNP data의 장점은 신체의 어느 조직에서 구해도 상관없다는 것이다. microarray data의 mRNA 샘플은 암환자를 대상으로 한 경우에는 암 조직에서 채취해야 하며 정상인에서도 건강한 같은 조직에서만 샘플을 구해야 한다. 또한 같은 암 조직이더라도 엄밀하게 따지면 더 세부적으로 나뉠 수도 있기 때문에 문제가 복잡하다 (같은 위암이더라도 사실은 위장의 어느 부분에서 샘플을 채취했느냐에 따라 문제가 다를 수도 있다). 즉 SNP data는 microarray data에 비해서 어떤 개인의 특정 질환에 관련된 본래의 유전적인 체질에 관해 좀 더 많은 데이터를 제공하는 셈이다. 하지만, 특정 질환부위에서 직접 샘플을 구하는 microarray data에 비해서는 컨트롤-케이스 예측 능력이 떨어질 것으로는 예상된다.

지금까지의 게놈 연구는 추상적인 ‘인간’의 게놈 (human genomics)이 대상이었지만 지금부터는 ‘집단’을 대상으로 한 게놈 (population genomics) 연구가 본격적으로 시작된다. 여기서 얻어진 결과는 피드백 되어 ‘개인’의 게놈 (personal genomics) 으로 이어질 것이다.

 

 

 

출처: http://www.incodom.kr/SNP

'Bioinformatics > SNP Analysis' 카테고리의 다른 글

SNP개발  (0) 2018.10.10

+ Recent posts