]> git.donarmstrong.com Git - biopieces.git/commitdiff
modified split_seq
authormartinahansen <martinahansen@74ccb610-7750-0410-82ae-013aeee3265d>
Thu, 29 Oct 2009 13:52:45 +0000 (13:52 +0000)
committermartinahansen <martinahansen@74ccb610-7750-0410-82ae-013aeee3265d>
Thu, 29 Oct 2009 13:52:45 +0000 (13:52 +0000)
git-svn-id: http://biopieces.googlecode.com/svn/trunk@718 74ccb610-7750-0410-82ae-013aeee3265d

bp_bin/split_seq

index 518565d299481bd69baab910f82d3133339dae2a..f6dbb16b96e11e16afca55a48386bc0aa1e49646 100755 (executable)
@@ -21,7 +21,7 @@
 
 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> DESCRIPTION <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
 
-# Split sequences in the stream into overlapping subsequences.
+# Split sequences in the stream into subsequences.
 
 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
 
@@ -34,48 +34,37 @@ use Maasha::Biopieces;
 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
 
 
-my ( $options, $in, $out, $record, $new_record, $i, $inc, $subseq, %lookup );
+my ( $options, $in, $out, $record, $new_record, $i, $step, $subseq );
 
 $options = Maasha::Biopieces::parse_options(
     [
-        { long => 'word_size',       short => 'w', type => 'uint', mandatory => 'no', default => 7,     allowed => undef, disallowed => 0 },
-        { long => 'non_overlapping', short => 'n', type => 'flag', mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
-        { long => 'uniq',            short => 'u', type => 'flag', mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
+        { long => 'word_size', short => 'w', type => 'uint', mandatory => 'no', default => 7, allowed => undef, disallowed => 0 },
+        { long => 'step_size', short => 's', type => 'uint', mandatory => 'no', default => 1, allowed => undef, disallowed => 0 },
     ]   
 );
 
+if ( $options->{ "step_size" } > $options->{ "word_size" } ) {
+    Maasha::Common::error( qq(step_size > word_size: $options->{ "step_size" } > $options->{ "word_size" } ) );
+}
+
 $in  = Maasha::Biopieces::read_stream( $options->{ "stream_in" } );
 $out = Maasha::Biopieces::write_stream( $options->{ "stream_out" } );
 
-$inc = 1;
-$inc = $options->{ "word_size" } if $options->{ "non_overlapping" };
+$step = $options->{ "step_size" };
 
 while ( $record = Maasha::Biopieces::get_record( $in ) ) 
 {
     if ( $record->{ "SEQ_NAME" } and $record->{ "SEQ" } )
     {
-        for ( $i = 0; $i < length( $record->{ "SEQ" } ) - $options->{ "word_size" } + 1; $i += $inc )
+        for ( $i = 0; $i < length( $record->{ "SEQ" } ) - $options->{ "word_size" } + 1; $i += $step )
         {
             $subseq = substr $record->{ "SEQ" }, $i, $options->{ "word_size" };
 
-            if ( $options->{ "uniq" } and not $lookup{ $subseq } )
-            {
-                $new_record->{ "SEQ_NAME" } = $record->{ "SEQ_NAME" } . "[" . ( $i + 1 ) . "-" . ( $i + $options->{ "word_size" } ) . "]";
-                $new_record->{ "SEQ" }      = $subseq;
-                $new_record->{ "SEQ_LEN" }  = $options->{ "word_size" };
-
-                Maasha::Biopieces::put_record( $new_record, $out );
-
-                $lookup{ $subseq } = 1;
-            }
-            else
-            {
-                $new_record->{ "SEQ_NAME" } = $record->{ "SEQ_NAME" } . "[" . ( $i + 1 ) . "-" . ( $i + $options->{ "word_size" } ) . "]";
-                $new_record->{ "SEQ" }      = $subseq;
-                $new_record->{ "SEQ_LEN" }  = $options->{ "word_size" };
+            $new_record->{ "SEQ_NAME" } = $record->{ "SEQ_NAME" } . "[" . ( $i + 1 ) . "-" . ( $i + $options->{ "word_size" } ) . "]";
+            $new_record->{ "SEQ" }      = $subseq;
+            $new_record->{ "SEQ_LEN" }  = $options->{ "word_size" };
 
-                Maasha::Biopieces::put_record( $new_record, $out );
-            }
+            Maasha::Biopieces::put_record( $new_record, $out );
         }
     }
     else