]> git.donarmstrong.com Git - biopieces.git/blob - code_ruby/lib/maasha/fasta.rb
c9ce43d6d0610d1e7e69603471eaa720849d4650
[biopieces.git] / code_ruby / lib / maasha / fasta.rb
1 # Copyright (C) 2007-2011 Martin A. Hansen.
2
3 # This program is free software; you can redistribute it and/or
4 # modify it under the terms of the GNU General Public License
5 # as published by the Free Software Foundation; either version 2
6 # of the License, or (at your option) any later version.
7
8 # This program is distributed in the hope that it will be useful,
9 # but WITHOUT ANY WARRANTY; without even the implied warranty of
10 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
11 # GNU General Public License for more details.
12
13 # You should have received a copy of the GNU General Public License
14 # along with this program; if not, write to the Free Software
15 # Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301, USA.
16
17 # http://www.gnu.org/copyleft/gpl.html
18
19 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
20
21 # This software is part of the Biopieces framework (www.biopieces.org).
22
23 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
24
25 require 'maasha/seq'
26 require 'maasha/filesys'
27
28 # Error class for all exceptions to do with FASTA.
29 class FastaError < StandardError; end
30
31 class Fasta < Filesys
32   # Method to get the next FASTA entry form an ios and return this
33   # as a Seq object. If no entry is found or eof then nil is returned.
34   def get_entry
35     block = @io.gets($/ + '>')
36     return nil if block.nil?
37
38     block.chomp!($/ + '>')
39
40     (seq_name, seq) = block.split($/, 2)
41
42     raise FastaError, "Bad FASTA format" if seq_name.nil? or seq.nil?
43
44     entry          = Seq.new
45     entry.seq      = seq.gsub(/\s/, '')
46     entry.seq_name = seq_name.sub(/^>/, '').rstrip
47     entry.type     = nil
48
49     raise FastaError, "Bad FASTA format" if entry.seq_name.empty?
50     raise FastaError, "Bad FASTA format" if entry.seq.empty?
51
52     entry
53   end
54
55   # Method to get the next pseudo FASTA entry consisting of a sequence name and
56   # space seperated quality scores in decimals instead of sequence. This is
57   # the quality format used by Sanger and 454.
58   def get_decimal_qual
59     block = @io.gets($/ + '>')
60     return nil if block.nil?
61
62     block.chomp!($/ + '>')
63
64     (seq_name, qual) = block.split($/, 2)
65
66     raise FastaError, "Bad FASTA qual format" if seq_name.nil? or qual.nil?
67
68     entry          = Seq.new
69     entry.seq_name = seq_name.sub(/^>/, '').rstrip
70     entry.seq      = nil
71     entry.type     = nil
72     entry.qual     = qual.tr("\n", " ").strip.split(" ").collect { |q| (q.to_i + SCORE_BASE).chr }.join("")
73
74     raise FastaError, "Bad FASTA format" if entry.seq_name.empty?
75     raise FastaError, "Bad FASTA format" if entry.qual.empty?
76
77     entry
78   end
79 end
80
81
82 __END__