정규식을 사용하면 매우 편하게 원하는 정보를 획득할 수 있습니다.



>dme-miR-13b-2-5p MIMAT0020797 Drosophila melanogaster miR-13b-2-5p

GCGUCAAAAUGACUGUGAGCUAUG

>dme-miR-14-5p MIMAT0020798 Drosophila melanogaster miR-14-5p

GGGAGCGAGACGGGGACUCACU

>dme-miR-14-3p MIMAT0000120 Drosophila melanogaster miR-14-3p

UCAGUCUUUUUCUCUCUCCUAU

>mmu-let-7g-5p MIMAT0000121 Mus musculus let-7g-5p

UGAGGUAGUAGUUUGUACAGUU

>mmu-let-7g-3p MIMAT0004519 Mus musculus let-7g-3p

ACUGUACAGGCCACUGCCUUGC

>mmu-let-7i-5p MIMAT0000122 Mus musculus let-7i-5p

UGAGGUAGUAGUUUGUGCUGUU

>mmu-let-7i-3p MIMAT0004520 Mus musculus let-7i-3p

CUGCGCAAGCUACUGCCUUGCU

>mmu-miR-1a-1-5p MIMAT0016979 Mus musculus miR-1a-1-5p

ACAUACUUCUUUAUAUGCCCAUA


위와 같은 텍스트 파일에서  >mmu와 다음줄만 남기고 싶다면 많은 방법이 있겠지만 다음과 같은 코드로도 추출할 수 있습니다.


import re


f = open("mature.fa", "r") //원하는 파일을 불러옵니다

mmu = [] //빈배열을 만듭니다

lines = f.readlines()

count = 0

for line in lines :

    if count == 1 :

        mmu.append(line)

        count = 0

    if re.search('^>mmu',line):

        print("A")

        mmu.append(line)

        count = 1


결과

>mmu-let-7g-5p MIMAT0000121 Mus musculus let-7g-5p

UGAGGUAGUAGUUUGUACAGUU

>mmu-let-7g-3p MIMAT0004519 Mus musculus let-7g-3p

ACUGUACAGGCCACUGCCUUGC

>mmu-let-7i-5p MIMAT0000122 Mus musculus let-7i-5p

UGAGGUAGUAGUUUGUGCUGUU

>mmu-let-7i-3p MIMAT0004520 Mus musculus let-7i-3p

CUGCGCAAGCUACUGCCUUGCU

>mmu-miR-1a-1-5p MIMAT0016979 Mus musculus miR-1a-1-5p

ACAUACUUCUUUAUAUGCCCAUA

'Python' 카테고리의 다른 글

python 경로 지정  (0) 2018.10.25
파이썬 정규식  (0) 2018.10.25

R도 프로그래밍 언어이기 때문에 소프트웨어를 개발할 수 있습니다.


R에서 일반적으로 변수와 함수를 선언하고 값을 줄때,


a<-NULL

a<-"a" a<-1 

Info <- function(){} 과 같이 사용합니다.


하지만 모든 프로그래밍 언어에서는 함수(ex.Info)가 종료되게 되면 안에서 쓴 변수들은 메모리에서 삭제되기 때문에 필요한 경우 전역변수와 정적변수를 이용합니다.

간단하게 예를 들어보자면 다음과 같이 표현됩니다.

> Info <- function(){
+ abc<-1
+}
> Info<-function(){
+ abc<-1
+ }
> Info()
> abc
Error: object 'abc' not found
> Info<-function(){
+ abc<<-1
+ }
> Info()
> abc
[1] 1


하지만 전역 변수가 많아지면 내가 만든 프로그램이라고 할지라도 보수작업이 힘들기 때문에 프로젝트가 커지게 되면 상당히 조심스럽게 다뤄야합니다.  





'R' 카테고리의 다른 글

library(openxlsx) sheet 여러개 쓰기  (0) 2018.11.26
데이터프레임 column 위치(순서) 변경  (0) 2018.11.21
1차 자료형  (0) 2018.11.21
Bioconductor ShortRead  (0) 2018.11.15
엑셀 변환을 위한 R script  (0) 2018.10.29

Miso 분석이란 ?


MISO 분석은 Mixture Of Isoforms의 약자로 2개의 RNA-seq 데이터에서 Isoform이나 exon의 변화를 측정하고 확률을 계산해 주는 software를 이용한 분석입니다. 또한, Bayesian 통계방법을 기반으로 추정치에 대한 신뢰 구간과 신뢰성을 알 수 있습니다.(참고, Bayesian 통계는 Bioconductor의 Limma와 EdgeR등 생물학적 기반 분석에서 많이 활용됩니다.)




Miso분석 pipe line



-----RUNNING MISO-----


1. GFF format의 annotation file이 필요합니다. ( MISO 공식 사이트에서 제공해주는 것이나 개인이 가지고 있는 것도 가능. 단, MISO에서는 hg18, hg19, mm9, mm10만 제공해주는 것으로 파악됩니다.)


2. RNA-seq data에서 mapping이 끝나고 나오는 sorting된 BAM file Format의 파일이 필요합니다.


3. GFF file 과 BAM 파일을 이용해 MISO를 실행합니다.


결과로 miso.bf file을 얻을 수 있습니다. (참고, 결과 dataset)




-----ANALYZING RESULTS-----


  1. Skipped exons (SE)
  2. Alternative 3’/5’ splice sites (A3SS, A5SS)
  3. Mutually exclusive exons (MXE)
  4. Retained introns (RI)




Data를 splicing 유형에 따라 분석되게 되며 이러한 분류는 위에 명시된 mm9, mm10, hg18, hg19에서만 이용할 수 있습니다.


각 column을 살펴봅니다.


1. event_name : chromosome번호와 위치정보가 나타납니다.


2. sample1 | sample2_miso_posterior_mean: 각 샘플의 Ψ(psi) 값이 나타납니다.


3. sample1 | smaple2_ci_low | high : 샘플1 | 2 에 신뢰구간을 나타내 줍니다.


4. diff : 샘플1 & 샘플 2의 Ψ(psi) 값의 차이를 나타내 줍니다.


5. bayes_factor: 일종의 신뢰도로 일반적으로 p-value와 같은 의미


6. sample1_counts: sample1에 대한 raw count(아래의 그림을 참고)





7. sample1 | smaple2_assigned_counts: sample1 | 2 isoform에 할당된 reads 수 (0:330,1:34  first isoform에 330개, second isoform에 34개의 reads가 mapping 됨)



추가적으로 psi value와 ci value는 따로 정리해서 업로딩 할 것이며 MISO visualization figure인 sashimi_plot에 대해서도 추가적으로 업로딩하겠습니다.



reference


  1. Katz Y, Wang ET, Airoldi EM, Burge CB. (2010). Analysis and design of RNA sequencing experiments for identifying isoform regulation. Nature Methods 7, 1009-1015.
  2. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008). Alternative Isoform Regulation in Human Tissue Transcriptomes. Nature 456, 470-476


'Bioinformatics' 카테고리의 다른 글

NCBI blast+ local install OS Linux  (0) 2018.12.13
bedtools coverage  (0) 2018.12.04
SAM FILE Format  (0) 2018.10.18
BIGWIG FILE  (0) 2018.10.12
BED FILE FORMAT  (0) 2018.10.11

+ Recent posts