정규식을 사용하면 매우 편하게 원하는 정보를 획득할 수 있습니다.



>dme-miR-13b-2-5p MIMAT0020797 Drosophila melanogaster miR-13b-2-5p

GCGUCAAAAUGACUGUGAGCUAUG

>dme-miR-14-5p MIMAT0020798 Drosophila melanogaster miR-14-5p

GGGAGCGAGACGGGGACUCACU

>dme-miR-14-3p MIMAT0000120 Drosophila melanogaster miR-14-3p

UCAGUCUUUUUCUCUCUCCUAU

>mmu-let-7g-5p MIMAT0000121 Mus musculus let-7g-5p

UGAGGUAGUAGUUUGUACAGUU

>mmu-let-7g-3p MIMAT0004519 Mus musculus let-7g-3p

ACUGUACAGGCCACUGCCUUGC

>mmu-let-7i-5p MIMAT0000122 Mus musculus let-7i-5p

UGAGGUAGUAGUUUGUGCUGUU

>mmu-let-7i-3p MIMAT0004520 Mus musculus let-7i-3p

CUGCGCAAGCUACUGCCUUGCU

>mmu-miR-1a-1-5p MIMAT0016979 Mus musculus miR-1a-1-5p

ACAUACUUCUUUAUAUGCCCAUA


위와 같은 텍스트 파일에서  >mmu와 다음줄만 남기고 싶다면 많은 방법이 있겠지만 다음과 같은 코드로도 추출할 수 있습니다.


import re


f = open("mature.fa", "r") //원하는 파일을 불러옵니다

mmu = [] //빈배열을 만듭니다

lines = f.readlines()

count = 0

for line in lines :

    if count == 1 :

        mmu.append(line)

        count = 0

    if re.search('^>mmu',line):

        print("A")

        mmu.append(line)

        count = 1


결과

>mmu-let-7g-5p MIMAT0000121 Mus musculus let-7g-5p

UGAGGUAGUAGUUUGUACAGUU

>mmu-let-7g-3p MIMAT0004519 Mus musculus let-7g-3p

ACUGUACAGGCCACUGCCUUGC

>mmu-let-7i-5p MIMAT0000122 Mus musculus let-7i-5p

UGAGGUAGUAGUUUGUGCUGUU

>mmu-let-7i-3p MIMAT0004520 Mus musculus let-7i-3p

CUGCGCAAGCUACUGCCUUGCU

>mmu-miR-1a-1-5p MIMAT0016979 Mus musculus miR-1a-1-5p

ACAUACUUCUUUAUAUGCCCAUA

'Python' 카테고리의 다른 글

python 경로 지정  (0) 2018.10.25
파이썬 정규식  (0) 2018.10.25

+ Recent posts