]> git.donarmstrong.com Git - biopieces.git/commitdiff
added remove_mids
authormartinahansen <martinahansen@74ccb610-7750-0410-82ae-013aeee3265d>
Wed, 13 Apr 2011 11:31:43 +0000 (11:31 +0000)
committermartinahansen <martinahansen@74ccb610-7750-0410-82ae-013aeee3265d>
Wed, 13 Apr 2011 11:31:43 +0000 (11:31 +0000)
git-svn-id: http://biopieces.googlecode.com/svn/trunk@1322 74ccb610-7750-0410-82ae-013aeee3265d

bp_bin/remove_mids [new file with mode: 0755]

diff --git a/bp_bin/remove_mids b/bp_bin/remove_mids
new file mode 100755 (executable)
index 0000000..aee66e4
--- /dev/null
@@ -0,0 +1,106 @@
+#!/usr/bin/env ruby
+
+# Copyright (C) 2007-2011 Martin A. Hansen.
+
+# This program is free software; you can redistribute it and/or
+# modify it under the terms of the GNU General Public License
+# as published by the Free Software Foundation; either version 2
+# of the License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU General Public License for more details.
+
+# You should have received a copy of the GNU General Public License
+# along with this program; if not, write to the Free Software
+# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301, USA.
+
+# http://www.gnu.org/copyleft/gpl.html
+
+# >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
+
+# This program is part of the Biopieces framework (www.biopieces.org).
+
+# >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> DESCRIPTION <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
+
+# Find and remove MID tags in sequences in the stream.
+
+# >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
+
+
+require 'biopieces'
+require 'pp'
+
+MID_LEN = 10
+
+mids = %w{ ACGAGTGCGT ACGCTCGACA AGACGCACTC AGCACTGTAG ATCAGACACG
+           ATATCGCGAG CGTGTCTCTA CTCGCGTGTC TAGTATCAGC TCTCTATGCG
+           TGATACGTCT TACTGAGCTA CATAGTAGTG CGAGAGATAC ATACGACGTA
+           TCACGTACTA CGTCTAGTAC TCTACGTAGC TGTACTACTC ACGACTACAG
+           CGTAGACTAG TACGAGTATG TACTCTCGTG TAGAGACGAG TCGTCGCTCG
+           ACATACGCGT ACGCGAGTAT ACTACTATGT ACTGTACAGT AGACTATACT
+           AGCGTCGTCT AGTACGCTAT ATAGAGTACT CACGCTACGT CAGTAGACGT
+           CGACGTGACT TACACACACT TACACGTGAT TACAGATCGT TACGCTGTCT
+           TAGTGTAGAT TCGATCACGT TCGCACTAGT TCTAGCGACT TCTATACTAT
+           TGACGTATGT TGTGAGTAGT ACAGTATATA ACGCGATCGA ACTAGCAGTA
+           AGCTCACGTA AGTATACATA AGTCGAGAGA AGTGCTACGA CGATCGTATA
+           CGCAGTACGA CGCGTATACA CGTACAGTCA CGTACTCAGA CTACGCTCTA
+           CTATAGCGTA TACGTCATCA TAGTCGCATA TATATATACA TATGCTAGTA
+           TCACGCGAGA TCGATAGTGA TCGCTGCGTA TCTGACGTCA TGAGTCAGTA
+           TGTAGTGTGA TGTCACACGA TGTCGTCGCA ACACATACGC ACAGTCGTGC
+           ACATGACGAC ACGACAGCTC ACGTCTCATC ACTCATCTAC ACTCGCGCAC
+           AGAGCGTCAC AGCGACTAGC AGTAGTGATC AGTGACACAC AGTGTATGTC
+           ATAGATAGAC ATATAGTCGC ATCTACTGAC CACGTAGATC CACGTGTCGC
+           CATACTCTAC CGACACTATC CGAGACGCGC CGTATGCGAC CGTCGATCTC
+           CTACGACTGC CTAGTCACTC CTCTACGCTC CTGTACATAC TAGACTGCAC
+           TAGCGCGCGC TAGCTCTATC TATAGACATC TATGATACGC TCACTCATAC
+           TCATCGAGTC TCGAGCTCTC TCGCAGACAC TCTGTCTCGC TGAGTGACGC
+           TGATGTGTAC TGCTATAGAC TGCTCGCTAC ACGTGCAGCG ACTCACAGAG
+           AGACTCAGCG AGAGAGTGTG AGCTATCGCG AGTCTGACTG AGTGAGCTCG
+           ATAGCTCTCG ATCACGTGCG ATCGTAGCAG ATCGTCTGTG ATGTACGATG
+           ATGTGTCTAG CACACGATAG CACTCGCACG CAGACGTCTG CAGTACTGCG
+           CGACAGCGAG CGATCTGTCG CGCGTGCTAG CGCTCGAGTG CGTGATGACG
+           CTATGTACAG CTCGATATAG CTCGCACGCG CTGCGTCACG CTGTGCGTCG
+           TAGCATACTG TATACATGTG TATCACTCAG TATCTGATAG TCGTGACATG
+           TCTGATCGAG TGACATCTCG TGAGCTAGAG TGATAGAGCG TGCGTGTGCG
+           TGCTAGTCAG TGTATCACAG TGTGCGCGTG ACACGACGAC ACACGTAGTA
+           ACACTACTCG ACGACACGTA ACGAGTAGAC ACGCGTCTAG ACGTACACAC
+           ACGTACTGTG ACGTAGATCG ACTACGTCTC ACTATACGAG ACTCGCGTCG
+}
+
+
+mid_hash = {}
+
+mids.each_with_index do |mid, i|
+  mid_hash[mid] = i
+end
+
+casts = []
+casts << {:long=>'pos', :short=>'p', :type=>'uint', :mandatory=>false, :default=>0, :allowed=>nil, :disallowed=>nil}
+
+bp = Biopieces.new
+
+options = bp.parse(ARGV, casts)
+
+pos = options[:pos]
+
+bp.each_record do |record|
+  if record.has_key? :SEQ
+    tag = record[:SEQ][pos ... pos + MID_LEN].upcase
+
+    if mid_hash[tag]
+      record[:SEQ]     = record[:SEQ][pos + MID_LEN ... record[:SEQ].length]
+      record[:MID]     = tag
+      record[:MID_NUM] = mid_hash[tag] + 1
+      record[:SEQ_LEN] = record[:SEQ].length
+    end
+  end
+
+  bp.puts record
+end
+
+# >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
+
+
+__END__