]> git.donarmstrong.com Git - biopieces.git/blob - bp_bin/grab
fixed seq qual length check
[biopieces.git] / bp_bin / grab
1 #!/usr/bin/env perl
2
3 # Copyright (C) 2007-2009 Martin A. Hansen.
4
5 # This program is free software; you can redistribute it and/or
6 # modify it under the terms of the GNU General Public License
7 # as published by the Free Software Foundation; either version 2
8 # of the License, or (at your option) any later version.
9
10 # This program is distributed in the hope that it will be useful,
11 # but WITHOUT ANY WARRANTY; without even the implied warranty of
12 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
13 # GNU General Public License for more details.
14
15 # You should have received a copy of the GNU General Public License
16 # along with this program; if not, write to the Free Software
17 # Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301, USA.
18
19 # http://www.gnu.org/copyleft/gpl.html
20
21
22 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> DESCRIPTION <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
23
24 # Grab records in stream.
25
26 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
27
28
29 use warnings;
30 use strict;
31 use Data::Dumper;
32 use Maasha::Biopieces;
33 use Maasha::Common;
34 use Maasha::Patscan;
35
36
37 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
38
39
40 my ( $options, $in, $out, $record, $keys, $vals_only, $keys_only, $invert,
41      $patterns, $regex, %lookup_hash, $key, $op, $val, $found, $total, $grabbed );
42
43 $options = Maasha::Biopieces::parse_options(
44     [
45         { long => 'patterns',         short => 'p', type => 'list',   mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
46         { long => 'patterns_in',      short => 'P', type => 'file!',  mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
47         { long => 'regex',            short => 'r', type => 'string', mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
48         { long => 'eval',             short => 'e', type => 'string', mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
49         { long => 'exact_in',         short => 'E', type => 'file!',  mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
50         { long => 'invert',           short => 'i', type => 'flag',   mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
51         { long => 'case_insensitive', short => 'c', type => 'flag',   mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
52         { long => 'keys',             short => 'k', type => 'list',   mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
53         { long => 'keys_only',        short => 'K', type => 'flag',   mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
54         { long => 'vals_only',        short => 'V', type => 'flag',   mandatory => 'no', default => undef, allowed => undef, disallowed => undef },
55     ]   
56 );
57
58 $in  = Maasha::Biopieces::read_stream( $options->{ "stream_in" } );
59 $out = Maasha::Biopieces::write_stream( $options->{ "stream_out" } );
60
61 $keys      = $options->{ 'keys' };
62 $vals_only = $options->{ 'vals_only' };
63 $keys_only = $options->{ 'keys_only' };
64 $invert    = $options->{ 'invert' };
65
66 if ( $options->{ 'patterns' } )
67 {
68     $patterns = $options->{ 'patterns' };
69 }
70 elsif ( defined $options->{ 'patterns_in' } and -f $options->{ 'patterns_in' } )
71 {
72     $patterns = Maasha::Patscan::read_patterns( $options->{ 'patterns_in' } );
73 }
74 elsif ( $options->{ 'regex' } )
75 {
76     if ( $options->{ 'case_insensitive' } ) {
77         $regex = qr/$options->{ 'regex' }/i;
78     } else {
79         $regex = qr/$options->{ 'regex' }/;
80     }
81 }
82 elsif ( defined $options->{ 'exact_in' } and -f $options->{ 'exact_in' } )
83 {
84     $patterns = Maasha::Patscan::read_patterns( $options->{ 'exact_in' } );
85
86     map { $lookup_hash{ $_ } = 1 } @{ $patterns };
87
88     undef $patterns;
89 }
90 elsif ( $options->{ 'eval' } )
91 {
92     if ( $options->{ 'eval' } =~ /^([^><=! ]+)\s*(>=|<=|>|<|==|=|!=|eq|ne)\s*(.+)$/ )
93     {
94         $key = $1;
95         $op  = $2;
96         $val = $3;
97     }
98     else
99     {
100         Maasha::Common::error( qq(Bad eval string: $options->{ 'eval' }) );
101     }
102
103
104 $total   = 0;
105 $grabbed = 0;
106
107 while ( $record = Maasha::Biopieces::get_record( $in ) ) 
108 {
109     $found = 0;
110
111     if ( %lookup_hash ) {
112         $found = grab_lookup( \%lookup_hash, $record, $keys, $vals_only, $keys_only );
113     } elsif ( $patterns ) {
114         $found = grab_patterns( $patterns, $record, $keys, $vals_only, $keys_only );
115     } elsif ( $regex ) {
116         $found = grab_regex( $regex, $record, $keys, $vals_only, $keys_only );
117     } elsif ( $op ) {
118         $found = grab_eval( $key, $op, $val, $record );
119     }
120
121     if ( $found and not $invert )
122     {
123         Maasha::Biopieces::put_record( $record, $out );
124         $grabbed += 1;
125     }
126     elsif ( not $found and $invert )
127     {
128         Maasha::Biopieces::put_record( $record, $out );
129         $grabbed += 1;
130     }
131
132     $total += 1;
133 }
134
135 Maasha::Biopieces::close_stream( $in );
136 Maasha::Biopieces::close_stream( $out );
137
138 if ( $options->{ 'verbose' } )
139 {
140     print STDERR "Records grabbed: $grabbed\n";
141     print STDERR "Records missed: " . ( $total - $grabbed ) . "\n";
142     print STDERR "Patterns used: " . ( scalar @{$patterns} ) . "\n" if defined $patterns;
143     print STDERR "Patterns used: " . ( scalar keys %lookup_hash ) . "\n" if %lookup_hash;
144 }
145
146
147 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> SUBROUTINES <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
148
149
150 sub grab_lookup
151 {
152     # Martin A. Hansen, November 2009.
153
154     # Uses keys from a lookup hash to search records. Optionally, a list of
155     # keys can be given so the lookup is limited to these, also, flags
156     # can be given to limit lookup to keys or vals only. Returns 1 if lookup
157     # succeeded, else 0.
158
159     my ( $lookup_hash,   # hashref with patterns
160          $record,        # hashref
161          $keys,          # list of keys   - OPTIONAL
162          $vals_only,     # only vals flag - OPTIONAL
163          $keys_only,     # only keys flag - OPTIONAL
164        ) = @_;
165
166     # Returns boolean.
167
168     if ( $keys )
169     {
170         map { return 1 if defined $record->{ $_ } and exists $lookup_hash->{ $record->{ $_ } } } @{ $keys };
171     }
172     else
173     {
174         if ( not $vals_only ) {
175             map { return 1 if exists $lookup_hash->{ $_ } } keys %{ $record };
176         }
177
178         if ( not $keys_only ) {
179             map { return 1 if defined $record->{ $_ } and exists $lookup_hash->{ $record->{ $_ } } } keys %{ $record };
180         }
181     }
182
183     return 0;
184 }
185
186
187 sub grab_patterns
188 {
189     # Martin A. Hansen, November 2009.
190
191     # Uses patterns to match records containing the pattern as a substring.
192     # Returns 1 if the record is matched, else 0.
193
194     my ( $patterns,   # list of patterns
195          $record,     # hashref
196          $keys,       # list of keys   - OPTIONAL
197          $vals_only,  # only vals flag - OPTIONAL
198          $keys_only,  # only keys flag - OPTIONAL
199        ) = @_;
200
201     # Returns boolean.
202
203     my ( $pattern, $key );
204
205     foreach $pattern ( @{ $patterns } )
206     {
207         if ( $keys )
208         {
209             foreach $key ( @{ $keys } )
210             {
211                 return 0 if not exists $record->{ $key };
212                 return 1 if index( $record->{ $key }, $pattern ) >= 0;
213             }
214         }
215         else
216         {
217             if ( not $vals_only ) {
218                 map { return 1 if index( $_, $pattern ) >= 0 } keys %{ $record };
219             }
220
221             if ( not $keys_only ) {
222                 map { return 1 if index( $record->{ $_ }, $pattern ) >= 0 } keys %{ $record };
223             }
224         }
225     }
226
227     return 0;
228 }
229
230
231 sub grab_regex
232 {
233     # Martin A. Hansen, November 2009.
234
235     # Uses regex to match records.
236     # Returns 1 if the record is matched, else 0.
237
238     my ( $regex,      # regex to match
239          $record,     # hashref
240          $keys,       # list of keys   - OPTIONAL
241          $vals_only,  # only vals flag - OPTIONAL
242          $keys_only,  # only keys flag - OPTIONAL
243        ) = @_;
244
245     # Returns boolean.
246
247     if ( $keys )
248     {
249         map { return 1 if exists $record->{ $_ } and $record->{ $_ } =~ /$regex/ } @{ $keys };
250     }
251     else
252     {
253         if ( not $vals_only ) {
254             map { return 1 if $_ =~ /$regex/ } keys %{ $record };
255         }
256
257         if ( not $keys_only ) {
258             map { return 1 if $record->{ $_ } =~ /$regex/ } keys %{ $record };
259         }
260     }
261
262     return 0;
263 }
264
265
266 sub grab_eval
267 {
268     # Martin A. Hansen, November 2009.
269
270     # Test if the value of a given record key evaluates according
271     # to a given operator. Returns 1 if eval is OK, else 0.
272
273     my ( $key,     # record key
274          $op,      # operator
275          $val,     # value
276          $record,  # hashref
277        ) = @_;
278     
279     # Returns boolean.
280
281     if ( defined $record->{ $key } ) 
282     {
283         return 1 if ( $op eq "<"  and $record->{ $key } <  $val );
284         return 1 if ( $op eq ">"  and $record->{ $key } >  $val );
285         return 1 if ( $op eq ">=" and $record->{ $key } >= $val );
286         return 1 if ( $op eq "<=" and $record->{ $key } <= $val );
287         return 1 if ( $op eq "="  and $record->{ $key } == $val );
288         return 1 if ( $op eq "==" and $record->{ $key } == $val );
289         return 1 if ( $op eq "!=" and $record->{ $key } != $val );
290         return 1 if ( $op eq "eq" and $record->{ $key } eq $val );
291         return 1 if ( $op eq "ne" and $record->{ $key } ne $val );
292     }
293
294     return 0;
295 }
296
297
298 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
299
300
301 BEGIN
302 {
303     Maasha::Biopieces::status_set();
304 }
305
306
307 END
308 {
309     Maasha::Biopieces::status_log();
310 }
311
312
313 # >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
314
315
316 __END__