handle combining based on aliases better; adjust autoweight

author Don Armstrong <don@donarmstrong.com>

Tue, 26 Feb 2008 01:09:08 +0000 (01:09 +0000)

committer Don Armstrong <don@donarmstrong.com>

Tue, 26 Feb 2008 01:09:08 +0000 (01:09 +0000)
author Don Armstrong <don@donarmstrong.com>
Tue, 26 Feb 2008 01:09:08 +0000 (01:09 +0000)
committer Don Armstrong <don@donarmstrong.com>
Tue, 26 Feb 2008 01:09:08 +0000 (01:09 +0000)
diff --git a/bin/combine_results b/bin/combine_results

index a365620a6a99f923bf946d0e7060014f6a1600ed..3760b3e0a03ab2e2223624d390f78878356a47ba 100755 (executable)
--- a/bin/combine_results
+++ b/bin/combine_results
@@ -152,11 +152,37 @@ if (@{$options{keywords}}) {
  
  
  
+my %alias_reverse;
+
  for my $file_name (@ARGV) {
       my $file = new IO::File $file_name, 'r' or die "Unable to open file $file_name $!";
       while (<$file>) {
           next if /^"Name"/;
           my @gene = map {s/^\"//; s/\"$//; $_;} split /(?<=\")\,(?=\")/, $_;
+         # check to see if there's a different name we should be using
+         if (not exists $genes{$gene[NAME]}) {
+              # if the gene has a valid name, we do at least one test.
+              my $num_tested = $gene[NAME] ne 'NO NAME' ? 1 : 0;
+              my %candidates;
+              if ($gene[NAME] ne 'NO NAME' and exists $alias_reverse{$gene[NAME]} and $alias_reverse{$gene[NAME]} ne '') {
+                   $candidates{$alias_reverse{$gene[NAME]}}++;
+              }
+              else {
+                   for my $alias (grep {$_ !~ /^NO (ALIASES|NAME)$/} split(/; /, $gene[ALIAS])) {
+                        if (exists $alias_reverse{$alias} and $alias_reverse{$alias} ne '') {
+                             $candidates{$alias_reverse{$alias}}++;
+                        }
+                        $num_tested++;
+                   }
+              }
+              #print STDERR "Choosing $alias_reverse{$gene[NAME]} for $gene[NAME]\n";
+              for my $candidate (keys %candidates) {
+                   if ($candidates{$candidate} > ($num_tested/2)) {
+                        print STDERR "Choosing $candidate for '$gene[NAME]', as it matched $candidates{$candidate} of $num_tested tests\n";
+                        $gene[NAME] = $candidate;
+                   }
+              }
+         }
           $genes{$gene[NAME]}{name} = $gene[NAME];
           $genes{$gene[NAME]}{database}{$gene[DBNAME]}++;
           $genes{$gene[NAME]}{hits}++;
@@ -166,7 +192,19 @@ for my $file_name (@ARGV) {
           add_if_better($genes{$gene[NAME]},'description',$gene[DESCRIPTION]);
           add_if_better($genes{$gene[NAME]},'location',$gene[LOCATION]);
           add_unique_parts($genes{$gene[NAME]},'function',split(/; /, $gene[FUNCTION]));
-         add_unique_parts($genes{$gene[NAME]},'alias', split(/; /, $gene[ALIAS]));
+         my @aliases = grep {$_ ne 'NO ALIASES'} split(/; /, $gene[ALIAS]);
+         add_unique_parts($genes{$gene[NAME]},'alias', @aliases);
+         if ($gene[NAME] ne 'NO NAME') {
+              for my $alias (@aliases) {
+                   if (not exists $alias_reverse{$alias}) {
+                        $alias_reverse{$alias} = $gene[NAME];
+                   }
+                   elsif ($alias_reverse{$alias} ne $gene[NAME]) {
+                        print STDERR "Alias $alias for $gene[NAME] also points at $alias_reverse{$alias} [".join(',',@aliases).".]\n";
+                        $alias_reverse{$alias} = '';
+                   }
+              }
+         }
       }
  }
  
@@ -238,6 +276,11 @@ for my $keyword (keys %keyword_keyword) {
       $auto_weight{$keyword} = $results_by_this_keyword/$results_combined;
  }
  
+my $max_weight = max(values %auto_weight);
+for my $keyword (keys %auto_weight) {
+     $auto_weight{$keyword} = $auto_weight{$keyword}/$max_weight;
+}
+
  print {$results_fh} join(',',map {qq("$_")} @csv_fields),qq(\n);
  for my $gene (keys %genes) {
       $genes{$gene}{rzscore} = scalar grep {$_ !~ /\[/} keys %{$genes{$gene}{terms}};
@@ -280,6 +323,7 @@ sub add_unique_parts{
           $$hr{$key} = [@values];
       }
       else {
+         return unless @values;
           my %temp_hash;
           @temp_hash{@{$$hr{$key}}} = (1) x scalar @{$$hr{$key}};
           $temp_hash{@values} = (1) x scalar @values;
author	Don Armstrong <don@donarmstrong.com>
	Tue, 26 Feb 2008 01:09:08 +0000 (01:09 +0000)
committer	Don Armstrong <don@donarmstrong.com>
	Tue, 26 Feb 2008 01:09:08 +0000 (01:09 +0000)