]> git.donarmstrong.com Git - biopieces.git/blobdiff - bp_bin/read_fastq
rewrite of FASTQ internals
[biopieces.git] / bp_bin / read_fastq
index 4a94957f53b657990fcc92804dc18a898d5f901d..78a3fcceaf689bcf198e2544fb45316e8c92cb4b 100755 (executable)
@@ -1,6 +1,6 @@
 #!/usr/bin/env ruby
 
-# Copyright (C) 2007-2011 Martin A. Hansen.
+# Copyright (C) 2007-2013 Martin A. Hansen.
 
 # This program is free software; you can redistribute it and/or
 # modify it under the terms of the GNU General Public License
@@ -31,7 +31,7 @@
 require 'maasha/biopieces'
 require 'maasha/fastq'
 
-allowed_enc = 'auto,sanger,solexa,illumina13,illumina15,illumina18'
+allowed_enc = 'auto,base_33,base_64'
 
 casts = []
 casts << {:long=>'data_in',  :short=>'i', :type=>'files!', :mandatory=>false, :default=>nil,    :allowed=>nil,         :disallowed=>nil}
@@ -40,36 +40,45 @@ casts << {:long=>'encoding', :short=>'e', :type=>'string', :mandatory=>false, :d
 
 options = Biopieces.options_parse(ARGV, casts)
 
-num      = 0
-last     = false
-encoding = options[:encoding]
+MAX_TEST = 1_000
+
+num  = 0
+last = false
 
 Biopieces.open(options[:stream_in], options[:stream_out]) do |input, output|
-  unless options[:data_in].first == '-'
+  unless options[:data_in] and options[:data_in].first == '-'
     input.each_record do |record|
       output.puts record
     end
   end
 
-  if options.has_key? :data_in
+  if options[:data_in]
     options[:data_in].each do |file|
+      encoding = options[:encoding].downcase.to_sym
+
       Fastq.open(file, mode='r') do |fastq|
         fastq.each do |entry|
-          if encoding == 'auto'
-            if entry.qual.match(/[!-:]/) # sanger or illumina18
-              encoding = 'illumina18'
-            elsif entry.qual.match(/[K-h]/) # solexa or illumina13 or illumina15
-              encoding = 'illumina13'
+          if encoding == :auto
+            if entry.qual_base33?
+              encoding = :base_33
+            elsif entry.qual_base64?
+              encoding = :base_64
             else
               raise SeqError, "Could not auto-detect quality score encoding"
             end
           end
 
-          entry.convert_scores!(encoding, 'illumina13')
+          entry.qual_convert!(encoding, :base_33)
+          entry.qual_coerce!(:base_33)
+
+          if num < MAX_TEST
+            raise SeqError, "Quality score outside valid range" unless entry.qual_valid?(:base_33)
+          end
+
           output.puts entry.to_bp
           num += 1
 
-          if options.has_key? :num and options[:num] == num
+          if options[:num] == num
             last = true
             break
           end