]> git.donarmstrong.com Git - biopieces.git/blobdiff - bp_bin/split_seq
removed debug message
[biopieces.git] / bp_bin / split_seq
index 274e13306376b98be145540dc9b582519d66e746..790aa7cc3c7e32fb1fa86f2339bc534b8c062f2a 100755 (executable)
@@ -1,4 +1,4 @@
-#!/usr/bin/env perl -w
+#!/usr/bin/env perl
 
 # Copyright (C) 2007-2009 Martin A. Hansen.
 
 
 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> DESCRIPTION <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
 
-# Split sequences in the stream into overlapping subsequences.
+# Split sequences in the stream into subsequences.
 
 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
 
 
+use warnings;
 use strict;
 use Maasha::Biopieces;
 
@@ -33,48 +34,39 @@ use Maasha::Biopieces;
 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
 
 
-my ( $options, $in, $out, $record, $new_record, $i, $inc, $subseq, %lookup );
+my ( $options, $in, $out, $record, $new_record, $i, $step, $subseq, $subqual );
 
 $options = Maasha::Biopieces::parse_options(
     [
-        { long => 'word_size',       short => 'w', type => 'uint', mandatory => 'no', default => 7,     allowed => undef, disallowed => 0 },
-        { long => 'non_overlapping', short => 'n', type => 'flag', mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
-        { long => 'uniq',            short => 'u', type => 'flag', mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
+        { long => 'word_size', short => 'w', type => 'uint', mandatory => 'no', default => 7, allowed => undef, disallowed => 0 },
+        { long => 'step_size', short => 's', type => 'uint', mandatory => 'no', default => 1, allowed => undef, disallowed => 0 },
     ]   
 );
 
+if ( $options->{ "step_size" } > $options->{ "word_size" } ) {
+    Maasha::Common::error( qq(step_size > word_size: $options->{ "step_size" } > $options->{ "word_size" } ) );
+}
+
 $in  = Maasha::Biopieces::read_stream( $options->{ "stream_in" } );
 $out = Maasha::Biopieces::write_stream( $options->{ "stream_out" } );
 
-$inc = 1;
-$inc = $options->{ "word_size" } if $options->{ "non_overlapping" };
+$step = $options->{ "step_size" };
 
 while ( $record = Maasha::Biopieces::get_record( $in ) ) 
 {
     if ( $record->{ "SEQ_NAME" } and $record->{ "SEQ" } )
     {
-        for ( $i = 0; $i < length( $record->{ "SEQ" } ) - $options->{ "word_size" } + 1; $i += $inc )
+        for ( $i = 0; $i < length( $record->{ "SEQ" } ) - $options->{ "word_size" } + 1; $i += $step )
         {
-            $subseq = substr $record->{ "SEQ" }, $i, $options->{ "word_size" };
-
-            if ( $options->{ "uniq" } and not $lookup{ $subseq } )
-            {
-                $new_record->{ "SEQ_NAME" } = $record->{ "SEQ_NAME" } . "[" . ( $i + 1 ) . "-" . ( $i + $options->{ "word_size" } ) . "]";
-                $new_record->{ "SEQ" }      = $subseq;
-                $new_record->{ "SEQ_LEN" }  = $options->{ "word_size" };
-
-                Maasha::Biopieces::put_record( $new_record, $out );
-
-                $lookup{ $subseq } = 1;
-            }
-            else
-            {
-                $new_record->{ "SEQ_NAME" } = $record->{ "SEQ_NAME" } . "[" . ( $i + 1 ) . "-" . ( $i + $options->{ "word_size" } ) . "]";
-                $new_record->{ "SEQ" }      = $subseq;
-                $new_record->{ "SEQ_LEN" }  = $options->{ "word_size" };
-
-                Maasha::Biopieces::put_record( $new_record, $out );
-            }
+            $subseq  = substr $record->{ "SEQ" }, $i, $options->{ "word_size" };
+            $subqual = substr $record->{ "SCORES" }, $i, $options->{ "word_size" } if $record->{ "SCORES" };
+
+            $new_record->{ "SEQ_NAME" } = $record->{ "SEQ_NAME" } . "[" . ( $i + 1 ) . "-" . ( $i + $options->{ "word_size" } ) . "]";
+            $new_record->{ "SEQ" }      = $subseq;
+            $new_record->{ "SCORES" }   = $subqual if $record->{ "SCORES" };
+            $new_record->{ "SEQ_LEN" }  = $options->{ "word_size" };
+
+            Maasha::Biopieces::put_record( $new_record, $out );
         }
     }
     else