정규식을 사용하면 매우 편하게 원하는 정보를 획득할 수 있습니다.
>dme-miR-13b-2-5p MIMAT0020797 Drosophila melanogaster miR-13b-2-5p
GCGUCAAAAUGACUGUGAGCUAUG
>dme-miR-14-5p MIMAT0020798 Drosophila melanogaster miR-14-5p
GGGAGCGAGACGGGGACUCACU
>dme-miR-14-3p MIMAT0000120 Drosophila melanogaster miR-14-3p
UCAGUCUUUUUCUCUCUCCUAU
>mmu-let-7g-5p MIMAT0000121 Mus musculus let-7g-5p
UGAGGUAGUAGUUUGUACAGUU
>mmu-let-7g-3p MIMAT0004519 Mus musculus let-7g-3p
ACUGUACAGGCCACUGCCUUGC
>mmu-let-7i-5p MIMAT0000122 Mus musculus let-7i-5p
UGAGGUAGUAGUUUGUGCUGUU
>mmu-let-7i-3p MIMAT0004520 Mus musculus let-7i-3p
CUGCGCAAGCUACUGCCUUGCU
>mmu-miR-1a-1-5p MIMAT0016979 Mus musculus miR-1a-1-5p
ACAUACUUCUUUAUAUGCCCAUA
위와 같은 텍스트 파일에서 >mmu와 다음줄만 남기고 싶다면 많은 방법이 있겠지만 다음과 같은 코드로도 추출할 수 있습니다.
import re
f = open("mature.fa", "r") //원하는 파일을 불러옵니다
mmu = [] //빈배열을 만듭니다
lines = f.readlines()
count = 0
for line in lines :
if count == 1 :
mmu.append(line)
count = 0
if re.search('^>mmu',line):
print("A")
mmu.append(line)
count = 1
결과
>mmu-let-7g-5p MIMAT0000121 Mus musculus let-7g-5p
UGAGGUAGUAGUUUGUACAGUU
>mmu-let-7g-3p MIMAT0004519 Mus musculus let-7g-3p
ACUGUACAGGCCACUGCCUUGC
>mmu-let-7i-5p MIMAT0000122 Mus musculus let-7i-5p
UGAGGUAGUAGUUUGUGCUGUU
>mmu-let-7i-3p MIMAT0004520 Mus musculus let-7i-3p
CUGCGCAAGCUACUGCCUUGCU
>mmu-miR-1a-1-5p MIMAT0016979 Mus musculus miR-1a-1-5p
ACAUACUUCUUUAUAUGCCCAUA
'Python' 카테고리의 다른 글
python 경로 지정 (0) | 2018.10.25 |
---|---|
파이썬 정규식 (0) | 2018.10.25 |