]> git.donarmstrong.com Git - biopieces.git/blobdiff - bp_bin/read_embl
adding bzip2 support in ruby
[biopieces.git] / bp_bin / read_embl
index e0ba8b76b98acb61a0d60e6d4a091a63625db64b..ca2839bb8e22b52f6dd2370c147b7289ce0e1d71 100755 (executable)
@@ -1,6 +1,6 @@
-#!/usr/bin/env perl -w
+#!/usr/bin/env ruby
 
-# Copyright (C) 2007-2009 Martin A. Hansen.
+# Copyright (C) 2007-2011 Martin A. Hansen.
 
 # This program is free software; you can redistribute it and/or
 # modify it under the terms of the GNU General Public License
 
 # http://www.gnu.org/copyleft/gpl.html
 
-
-# >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> DESCRIPTION <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
-
-# Read EMBL entries from one or more files.
-
-# >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
-
-
-use strict;
-use Maasha::Biopieces;
-use Maasha::Filesys;
-use Maasha::EMBL;
-
-
 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
 
+# This program is part of the Biopieces framework (www.biopieces.org).
 
-my ( $run_time_beg, $run_time_end, $options, $in, $out, %options2, $file, $data_in, $num, $entry, $record );
-
-$options = Maasha::Biopieces::parse_options(
-    [
-        { long => 'data_in', short => 'i', type => 'files!', mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
-        { long => 'num',     short => 'n', type => 'uint',   mandatory => 'no', default => undef, allowed => undef, disallowed => '0' },
-        { long => 'keys',    short => 'k', type => 'list',   mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
-        { long => 'feats',   short => 'f', type => 'list',   mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
-        { long => 'quals',   short => 'q', type => 'list',   mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
-    ]   
-);
-
-$in  = Maasha::Biopieces::read_stream( $options->{ "stream_in" } );
-$out = Maasha::Biopieces::write_stream( $options->{ "stream_out" } );
-
-map { $options2{ "keys" }{ $_ } = 1 }  @{ $options->{ "keys" } };
-map { $options2{ "feats" }{ $_ } = 1 } @{ $options->{ "feats" } };
-map { $options2{ "quals" }{ $_ } = 1 } @{ $options->{ "quals" } };
-
-while ( $record = Maasha::Biopieces::get_record( $in ) ) {
-    Maasha::Biopieces::put_record( $record, $out );
-}
-
-if ( $options->{ 'data_in' } )
-{
-    $data_in = Maasha::Filesys::files_read_open( $options->{ 'data_in' } );
-
-    $num = 1;
-
-    while ( $entry = Maasha::EMBL::get_embl_entry( $data_in ) ) 
-    {
-        $record = Maasha::EMBL::parse_embl_entry( $entry, \%options2 );
-
-        my ( $feat, $feat2, $qual, $qual_val, $record_copy );
-
-        $record_copy = dclone $record;
-
-        delete $record_copy->{ "FT" };
-
-        Maasha::Biopieces::put_record( $record_copy, $out );
-
-        delete $record_copy->{ "SEQ" };
-
-        foreach $feat ( keys %{ $record->{ "FT" } } )
-        {
-            $record_copy->{ "FEAT_TYPE" } = $feat;
-
-            foreach $feat2 ( @{ $record->{ "FT" }->{ $feat } } )
-            {
-                foreach $qual ( keys %{ $feat2 } )
-                {
-                    $qual_val = join "; ", @{ $feat2->{ $qual } };
-
-                    $qual =~ s/^_//;
-                    $qual = uc $qual;
-
-                    $record_copy->{ $qual } = $qual_val;
-                }
-
-                Maasha::Biopieces::put_record( $record_copy, $out );
-            }
-        }
-
-        last if $options->{ "num" } and $num == $options->{ "num" };
-
-        $num++;
-    }
-
-    close $data_in;
-}
+# >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> DESCRIPTION <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
 
+# Read EMBL entries from one or more files.
 
 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
 
-
-BEGIN
-{
-    $run_time_beg = Maasha::Biopieces::run_time();
-
-    Maasha::Biopieces::log_biopiece();
-}
-
-END
-{
-    Maasha::Biopieces::close_stream( $in );
-    Maasha::Biopieces::close_stream( $out );
-
-    $run_time_end = Maasha::Biopieces::run_time();
-
-    Maasha::Biopieces::run_time_print( $run_time_beg, $run_time_end, $options );
-}
+require 'maasha/biopieces'
+require 'maasha/embl'
+
+casts = []
+casts << {:long=>'data_in',    :short=>'i', :type=>'files!', :mandatory=>false, :default=>nil, :allowed=>nil, :disallowed=>nil}
+casts << {:long=>'num',        :short=>'n', :type=>'uint',   :mandatory=>false, :default=>nil, :allowed=>nil, :disallowed=>'0'}
+casts << {:long=>'keys',       :short=>'k', :type=>'list',   :mandatory=>false, :default=>nil, :allowed=>nil, :disallowed=>nil}
+casts << {:long=>'features',   :short=>'f', :type=>'list',   :mandatory=>false, :default=>nil, :allowed=>nil, :disallowed=>nil}
+casts << {:long=>'qualifiers', :short=>'q', :type=>'list',   :mandatory=>false, :default=>nil, :allowed=>nil, :disallowed=>nil}
+
+options = Biopieces.options_parse(ARGV, casts)
+
+hash_keys  = options[:keys].inject(Hash.new)       { |h,k| h[k.upcase.to_sym] = true; h } if options[:keys]
+hash_feats = options[:features].inject(Hash.new)   { |h,k| h[k.upcase.to_sym] = true; h } if options[:features]
+hash_quals = options[:qualifiers].inject(Hash.new) { |h,k| h[k.upcase.to_sym] = true; h } if options[:qualifiers]
+
+Biopieces.open(options[:stream_in], options[:stream_out]) do |input, output|
+  input.each_record do |record|
+    output.puts record
+  end
+
+  num  = 0
+  last = false
+
+  if options[:data_in]
+    options[:data_in].each do |file|
+      EMBL.open(file, 'r') do |embl_io|
+        embl_io.each(hash_keys, hash_feats, hash_quals) do |entry|
+          output.puts entry
+
+          num += 1
+
+          if options[:num] and options[:num] == num
+            last = true
+            break
+          end
+        end
+      end
+
+      break if last
+    end
+  end
+end
 
 
 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<