ccode.cpp

   1 /*
   2  *  ccode.cpp
   3  *  Mothur
   4  *
   5  *  Created by westcott on 8/24/09.
   6  *  Copyright 2009 Schloss Lab. All rights reserved.
   7  *
   8  */
   9
  10 #include "ccode.h"
  11 #include "ignoregaps.h"
  12 #include "eachgapdist.h"
  13
  14
  15 //***************************************************************************************************************
  16 Ccode::Ccode(string filename, string o) {
  17         fastafile = filename;  outputDir = o;
  18         distCalc = new eachGapDist();
  19         decalc = new DeCalculator();
  20
  21         mapInfo = outputDir + getRootName(getSimpleName(fastafile)) + "mapinfo";
  22         ofstream out2;
  23         openOutputFile(mapInfo, out2);
  24
  25         out2 << "Place in masked, filtered and trimmed sequence\tPlace in original alignment" << endl;
  26         out2.close();
  27 }
  28 //***************************************************************************************************************
  29 Ccode::~Ccode() {
  30         delete distCalc;
  31         delete decalc;
  32 }
  33 //***************************************************************************************************************
  34 void Ccode::printHeader(ostream& out) {
  35         out << "For full window mapping info refer to " << mapInfo << endl << endl;
  36 }
  37 //***************************************************************************************************************
  38 void Ccode::print(ostream& out, ostream& outAcc) {
  39         try {
  40
  41                 mothurOutEndLine();
  42
  43                 ofstream out2;
  44                 openOutputFileAppend(mapInfo, out2);
  45
  46                 out2 << querySeq->getName() << endl;
  47                 for (it = spotMap.begin(); it!= spotMap.end(); it++) {
  48                         out2 << it->first << '\t' << it->second << endl;
  49                 }
  50                 out2.close();
  51                 out << querySeq->getName() << endl << endl << "Reference sequences used and distance to query:" << endl;
  52
  53                 for (int j = 0; j < closest.size(); j++) {
  54                         out << closest[j].seq->getName() << '\t' << closest[j].dist << endl;
  55                 }
  56                 out << endl << endl;
  57
  58                 //for each window
  59                 //window mapping info.
  60                 out << "Mapping information: ";
  61                 //you mask and did not filter
  62                 if ((seqMask != "") && (!filter)) { out << "mask and trim."; }
  63
  64                 //you filtered and did not mask
  65                 if ((seqMask == "") && (filter)) { out << "filter and trim."; }
  66
  67                 //you masked and filtered
  68                 if ((seqMask != "") && (filter)) { out << "mask, filter and trim."; }
  69
  70                 out << endl << "Window\tStartPos\tEndPos" << endl;
  71                 it = trim.begin();
  72                 for (int k = 0; k < windows.size()-1; k++) {
  73                         out << k+1 << '\t' << spotMap[windows[k]-it->first] << '\t' << spotMap[windows[k]-it->first+windowSizes] << endl;
  74                 }
  75
  76                 out << windows.size() << '\t' << spotMap[windows[windows.size()-1]-it->first] << '\t' << spotMap[it->second-it->first-1] << endl;
  77                 out << endl;
  78                 out << "Window\tAvgQ\t(sdQ)\tAvgR\t(sdR)\tRatio\tAnova" << endl;
  79                 for (int k = 0; k < windows.size(); k++) {
  80                         float ds = averageQuery[k] / averageRef[k];
  81                         out << k+1 << '\t' << averageQuery[k] << '\t' << sdQuery[k] << '\t' << averageRef[k] << '\t'<< sdRef[k] << '\t' << ds << '\t' << anova[k] << endl;
  82                 }
  83                 out << endl;
  84
  85                 //varRef
  86                 //varQuery
  87                 /* F test for differences among variances.
  88                 * varQuery is expected to be higher or similar than varRef */
  89                 //float fs = varQuery[query] / varRef[query];   /* F-Snedecor, test for differences of variances */
  90
  91                 bool results = false;
  92
  93                 //confidence limit, t - Student, anova
  94                 out << "Window\tConfidenceLimit\tt-Student\tAnova" << endl;
  95
  96                 for (int k = 0; k < windows.size(); k++) {
  97                         string temp = "";
  98                         if (isChimericConfidence[k]) {  temp += "*\t"; }
  99                         else { temp += "\t"; }
 100
 101                         if (isChimericTStudent[k]) {  temp += "*\t"; }
 102                         else { temp += "\t"; }
 103
 104                         if (isChimericANOVA[k]) {  temp += "*\t"; }
 105                         else { temp += "\t"; }
 106
 107                         out << k+1 << '\t' << temp << endl;
 108
 109                         if (temp == "*\t*\t*\t") {  results = true;  }
 110                 }
 111                 out << endl;
 112
 113                 if (results) {
 114                         mothurOut(querySeq->getName() + " was found have at least one chimeric window."); mothurOutEndLine();
 115                         outAcc << querySeq->getName() << endl;
 116                 }
 117
 118                 //free memory
 119                 for (int i = 0; i < closest.size(); i++) {  delete closest[i].seq;  }
 120
 121
 122         }
 123         catch(exception& e) {
 124                 errorOut(e, "Ccode", "print");
 125                 exit(1);
 126         }
 127 }
 128 //***************************************************************************************************************
 129 int Ccode::getChimeras(Sequence* query) {
 130         try {
 131
 132                 closest.clear();
 133                 refCombo = 0;
 134                 sumRef.clear();
 135                 varRef.clear();
 136                 varQuery.clear();
 137                 sdRef.clear();
 138                 sdQuery.clear();
 139                 sumQuery.clear();
 140                 sumSquaredRef.clear();
 141                 sumSquaredQuery.clear();
 142                 averageRef.clear();
 143                 averageQuery.clear();
 144                 anova.clear();
 145                 isChimericConfidence.clear();
 146                 isChimericTStudent.clear();
 147                 isChimericANOVA.clear();
 148                 trim.clear();
 149                 spotMap.clear();
 150                 windowSizes = window;
 151                 windows.clear();
 152
 153
 154                 querySeq = query;
 155
 156                 //find closest matches to query
 157                 closest = findClosest(query, numWanted);
 158
 159                 //initialize spotMap
 160                 for (int i = 0; i < query->getAligned().length(); i++) {        spotMap[i] = i;         }
 161
 162                 //mask sequences if the user wants to
 163                 if (seqMask != "") {
 164                         decalc->setMask(seqMask);
 165
 166                         decalc->runMask(query);
 167
 168                         //mask closest
 169                         for (int i = 0; i < closest.size(); i++) {      decalc->runMask(closest[i].seq);        }
 170
 171                         spotMap = decalc->getMaskMap();
 172                 }
 173
 174                 if (filter) {
 175                         vector<Sequence*> temp;
 176                         for (int i = 0; i < closest.size(); i++) { temp.push_back(closest[i].seq);  }
 177                         temp.push_back(query);
 178
 179                         createFilter(temp, 0.5);
 180
 181                         for (int i = 0; i < temp.size(); i++) { runFilter(temp[i]);  }
 182
 183                         //update spotMap
 184                         map<int, int> newMap;
 185                         int spot = 0;
 186
 187                         for (int i = 0; i < filterString.length(); i++) {
 188                                 if (filterString[i] == '1') {
 189                                         //add to newMap
 190                                         newMap[spot] = spotMap[i];
 191                                         spot++;
 192                                 }
 193                         }
 194                         spotMap = newMap;
 195                 }
 196
 197                 //trim sequences - this follows ccodes remove_extra_gaps
 198                 trimSequences(query);
 199
 200
 201                 //windows are equivalent to words - ccode paper recommends windows are between 5% and 20% on alignment length().
 202                 //Our default will be 10% and we will warn if user tries to use a window above or below these recommendations
 203                 windows = findWindows();
 204
 205
 206                 //remove sequences that are more than 20% different and less than 0.5% different - may want to allow user to specify this later
 207                 removeBadReferenceSeqs(closest);
 208
 209
 210                 //find the averages for each querys references
 211                 getAverageRef(closest);  //fills sumRef, averageRef, sumSquaredRef and refCombo.
 212                 getAverageQuery(closest, query);  //fills sumQuery, averageQuery, sumSquaredQuery.
 213
 214
 215                 //find the averages for each querys references
 216                 findVarianceRef();  //fills varRef and sdRef also sets minimum error rate to 0.001 to avoid divide by 0.
 217
 218
 219                 //find the averages for the query
 220                 findVarianceQuery();  //fills varQuery and sdQuery also sets minimum error rate to 0.001 to avoid divide by 0.
 221
 222                 determineChimeras();  //fills anova, isChimericConfidence, isChimericTStudent and isChimericANOVA.
 223
 224                 return 0;
 225         }
 226         catch(exception& e) {
 227                 errorOut(e, "Ccode", "getChimeras");
 228                 exit(1);
 229         }
 230 }
 231 /***************************************************************************************************************/
 232 //ccode algo says it does this to "Removes the initial and final gaps to avoid biases due to incomplete sequences."
 233 void Ccode::trimSequences(Sequence* query) {
 234         try {
 235
 236                 int frontPos = 0;  //should contain first position in all seqs that is not a gap character
 237                 int rearPos = query->getAligned().length();
 238
 239                 //********find first position in closest seqs that is a non gap character***********//
 240                 //find first position all query seqs that is a non gap character
 241                 for (int i = 0; i < closest.size(); i++) {
 242
 243                         string aligned = closest[i].seq->getAligned();
 244                         int pos = 0;
 245
 246                         //find first spot in this seq
 247                         for (int j = 0; j < aligned.length(); j++) {
 248                                 if (isalpha(aligned[j])) {
 249                                         pos = j;
 250                                         break;
 251                                 }
 252                         }
 253
 254                         //save this spot if it is the farthest
 255                         if (pos > frontPos) { frontPos = pos; }
 256                 }
 257
 258                 //find first position all querySeq[query] that is a non gap character
 259                 string aligned = query->getAligned();
 260                 int pos = 0;
 261
 262                 //find first spot in this seq
 263                 for (int j = 0; j < aligned.length(); j++) {
 264                         if (isalpha(aligned[j])) {
 265                                 pos = j;
 266                                 break;
 267                         }
 268                 }
 269
 270                 //save this spot if it is the farthest
 271                 if (pos > frontPos) { frontPos = pos; }
 272
 273
 274                 //********find last position in closest seqs that is a non gap character***********//
 275                 for (int i = 0; i < closest.size(); i++) {
 276
 277                         string aligned = closest[i].seq->getAligned();
 278                         int pos = aligned.length();
 279
 280                         //find first spot in this seq
 281                         for (int j = aligned.length()-1; j >= 0; j--) {
 282                                 if (isalpha(aligned[j])) {
 283                                         pos = j;
 284                                         break;
 285                                 }
 286                         }
 287
 288                         //save this spot if it is the farthest
 289                         if (pos < rearPos) { rearPos = pos; }
 290                 }
 291
 292                 //find last position all querySeqs[query] that is a non gap character
 293                 aligned = query->getAligned();
 294                 pos = aligned.length();
 295
 296                 //find first spot in this seq
 297                 for (int j = aligned.length()-1; j >= 0; j--) {
 298                         if (isalpha(aligned[j])) {
 299                                 pos = j;
 300                                 break;
 301                         }
 302                 }
 303
 304                 //save this spot if it is the farthest
 305                 if (pos < rearPos) { rearPos = pos; }
 306
 307
 308                 //check to make sure that is not whole seq
 309                 if ((rearPos - frontPos - 1) <= 0) {  mothurOut("Error, when I trim your sequences, the entire sequence is trimmed."); mothurOutEndLine(); exit(1);  }
 310
 311                 map<int, int> tempTrim;
 312                 tempTrim[frontPos] = rearPos;
 313
 314                 //save trimmed locations
 315                 trim = tempTrim;
 316
 317                 //update spotMask
 318                 map<int, int> newMap;
 319                 int spot = 0;
 320
 321                 for (int i = frontPos; i < rearPos; i++) {
 322                         //add to newMap
 323                         newMap[spot] = spotMap[i];
 324                         spot++;
 325                 }
 326                 spotMap = newMap;
 327         }
 328         catch(exception& e) {
 329                 errorOut(e, "Ccode", "trimSequences");
 330                 exit(1);
 331         }
 332 }
 333 /***************************************************************************************************************/
 334 vector<int> Ccode::findWindows() {
 335         try {
 336
 337                 vector<int> win;
 338                 it = trim.begin();
 339
 340                 int length = it->second - it->first;
 341
 342                 //default is wanted = 10% of total length
 343                 if (windowSizes > length) {
 344                         mothurOut("You have slected a window larger than your sequence length after all filters, masks and trims have been done. I will use the default 10% of sequence length.");
 345                         windowSizes = length / 10;
 346                 }else if (windowSizes == 0) { windowSizes = length / 10;  }
 347                 else if (windowSizes > (length * 0.20)) {
 348                         mothurOut("You have selected a window that is larger than 20% of your sequence length.  This is not recommended, but I will continue anyway."); mothurOutEndLine();
 349                 }else if (windowSizes < (length * 0.05)) {
 350                         mothurOut("You have selected a window that is smaller than 5% of your sequence length.  This is not recommended, but I will continue anyway."); mothurOutEndLine();
 351                 }
 352
 353                 //save starting points of each window
 354                 for (int m = it->first;  m < (it->second-windowSizes); m+=windowSizes) {  win.push_back(m);  }
 355
 356                 //save last window
 357                 if (win[win.size()-1] < (it->first+length)) {
 358                         win.push_back(win[win.size()-1]+windowSizes); // ex. string length is 115, window is 25, without this you would get 0, 25, 50, 75
 359                 }                                                                                                                                                                                                       //with this you would get 1,25,50,75,100
 360
 361                 return win;
 362         }
 363         catch(exception& e) {
 364                 errorOut(e, "Ccode", "findWindows");
 365                 exit(1);
 366         }
 367 }
 368 //***************************************************************************************************************
 369 int Ccode::getDiff(string seqA, string seqB) {
 370         try {
 371
 372                 int numDiff = 0;
 373
 374                 for (int i = 0; i < seqA.length(); i++) {
 375                         //if you are both not gaps
 376                         //if (isalpha(seqA[i]) && isalpha(seqA[i])) {
 377                                 //are you different
 378                                 if (seqA[i] != seqB[i]) {
 379                                          int ok; /* ok=1 means equivalent base. Checks for degenerate bases */
 380
 381                                         /* the char in base_a and base_b have been checked and they are different */
 382                                         if ((seqA[i] == 'N') && (seqB[i] != '-')) ok = 1;
 383                                         else if ((seqB[i] == 'N') && (seqA[i] != '-')) ok = 1;
 384                                         else if ((seqA[i] == 'Y') && ((seqB[i] == 'C') || (seqB[i] == 'T'))) ok = 1;
 385                                         else if ((seqB[i] == 'Y') && ((seqA[i] == 'C') || (seqA[i] == 'T'))) ok = 1;
 386                                         else if ((seqA[i] == 'R') && ((seqB[i] == 'G') || (seqB[i] == 'A'))) ok = 1;
 387                                         else if ((seqB[i] == 'R') && ((seqA[i] == 'G') || (seqA[i] == 'A'))) ok = 1;
 388                                         else if ((seqA[i] == 'S') && ((seqB[i] == 'C') || (seqB[i] == 'G'))) ok = 1;
 389                                         else if ((seqB[i] == 'S') && ((seqA[i] == 'C') || (seqA[i] == 'G'))) ok = 1;
 390                                         else if ((seqA[i] == 'W') && ((seqB[i] == 'T') || (seqB[i] == 'A'))) ok = 1;
 391                                         else if ((seqB[i] == 'W') && ((seqA[i] == 'T') || (seqA[i] == 'A'))) ok = 1;
 392                                         else if ((seqA[i] == 'M') && ((seqB[i] == 'A') || (seqB[i] == 'C'))) ok = 1;
 393                                         else if ((seqB[i] == 'M') && ((seqA[i] == 'A') || (seqA[i] == 'C'))) ok = 1;
 394                                         else if ((seqA[i] == 'K') && ((seqB[i] == 'T') || (seqB[i] == 'G'))) ok = 1;
 395                                         else if ((seqB[i] == 'K') && ((seqA[i] == 'T') || (seqA[i] == 'G'))) ok = 1;
 396                                         else if ((seqA[i] == 'V') && ((seqB[i] == 'C') || (seqB[i] == 'A') || (seqB[i] == 'G'))) ok = 1;
 397                                         else if ((seqB[i] == 'V') && ((seqA[i] == 'C') || (seqA[i] == 'A') || (seqA[i] == 'G'))) ok = 1;
 398                                         else if ((seqA[i] == 'H') && ((seqB[i] == 'T') || (seqB[i] == 'A') || (seqB[i] == 'C'))) ok = 1;
 399                                         else if ((seqB[i] == 'H') && ((seqA[i] == 'T') || (seqA[i] == 'A') || (seqA[i] == 'C'))) ok = 1;
 400                                         else if ((seqA[i] == 'D') && ((seqB[i] == 'T') || (seqB[i] == 'A') || (seqB[i] == 'G'))) ok = 1;
 401                                         else if ((seqB[i] == 'D') && ((seqA[i] == 'T') || (seqA[i] == 'A') || (seqA[i] == 'G'))) ok = 1;
 402                                         else if ((seqA[i] == 'B') && ((seqB[i] == 'C') || (seqB[i] == 'T') || (seqB[i] == 'G'))) ok = 1;
 403                                         else if ((seqB[i] == 'B') && ((seqA[i] == 'C') || (seqA[i] == 'T') || (seqA[i] == 'G'))) ok = 1;
 404                                         else ok = 0;  /* the bases are different and not equivalent */
 405
 406                                         //check if they are both blanks
 407                                         if ((seqA[i] == '.') && (seqB[i] == '-')) ok = 1;
 408                                         else if ((seqB[i] == '.') && (seqA[i] == '-')) ok = 1;
 409
 410                                         if (ok == 0) {  numDiff++;  }
 411                                 }
 412                         //}
 413                 }
 414
 415                 return numDiff;
 416
 417         }
 418         catch(exception& e) {
 419                 errorOut(e, "Ccode", "getDiff");
 420                 exit(1);
 421         }
 422 }
 423 //***************************************************************************************************************
 424 //tried to make this look most like ccode original implementation
 425 void Ccode::removeBadReferenceSeqs(vector<SeqDist>& seqs) {
 426         try {
 427
 428                 vector< vector<int> > numDiffBases;
 429                 numDiffBases.resize(seqs.size());
 430                 //initialize to 0
 431                 for (int i = 0; i < numDiffBases.size(); i++) { numDiffBases[i].resize(seqs.size(),0); }
 432
 433                 it = trim.begin();
 434                 int length = it->second - it->first;
 435
 436                 //calc differences from each sequence to everyother seq in the set
 437                 for (int i = 0; i < seqs.size(); i++) {
 438
 439                         string seqA = seqs[i].seq->getAligned().substr(it->first, length);
 440
 441                         //so you don't calc i to j and j to i since they are the same
 442                         for (int j = 0; j < i; j++) {
 443
 444                                 string seqB = seqs[j].seq->getAligned().substr(it->first, length);
 445
 446                                 //compare strings
 447                                 int numDiff = getDiff(seqA, seqB);
 448
 449                                 numDiffBases[i][j] = numDiff;
 450                                 numDiffBases[j][i] = numDiff;
 451                         }
 452                 }
 453
 454                 //initailize remove to 0
 455                 vector<int> remove;  remove.resize(seqs.size(), 0);
 456                 float top = ((20*length) / (float) 100);
 457                 float bottom = ((0.5*length) / (float) 100);
 458
 459                 //check each numDiffBases and if any are higher than threshold set remove to 1 so you can remove those seqs from the closest set
 460                 for (int i = 0; i < numDiffBases.size(); i++) {
 461                         for (int j = 0; j < i; j++) {
 462                                 //are you more than 20% different
 463                                 if (numDiffBases[i][j] > top)           {  remove[j] = 1;  }
 464                                 //are you less than 0.5% different
 465                                 if (numDiffBases[i][j] < bottom)        {  remove[j] = 1;  }
 466                         }
 467                 }
 468
 469                 int numSeqsLeft = 0;
 470
 471                 //count seqs that are not going to be removed
 472                 for (int i = 0; i < remove.size(); i++) {
 473                         if (remove[i] == 0)  { numSeqsLeft++;  }
 474                 }
 475
 476                 //if you have enough then remove bad ones
 477                 if (numSeqsLeft >= 3) {
 478                         vector<SeqDist> goodSeqs;
 479                         //remove bad seqs
 480                         for (int i = 0; i < remove.size(); i++) {
 481                                 if (remove[i] == 0) {
 482                                         goodSeqs.push_back(seqs[i]);
 483                                 }
 484                         }
 485
 486                         seqs = goodSeqs;
 487
 488                 }else { //warn, but dont remove any
 489                         mothurOut(querySeq->getName() + " does not have an adaquate number of reference sequences that are within 20% and 0.5% similarity.  I will continue, but please check."); mothurOutEndLine();
 490                 }
 491
 492         }
 493         catch(exception& e) {
 494                 errorOut(e, "Ccode", "removeBadReferenceSeqs");
 495                 exit(1);
 496         }
 497 }
 498 //***************************************************************************************************************
 499 //makes copy of templateseq for filter
 500 vector<SeqDist>  Ccode::findClosest(Sequence* q, int numWanted) {
 501         try{
 502
 503                 vector<SeqDist>  topMatches;
 504
 505                 Sequence query = *(q);
 506
 507                 //calc distance to each sequence in template seqs
 508                 for (int i = 0; i < templateSeqs.size(); i++) {
 509
 510                         Sequence ref = *(templateSeqs[i]);
 511
 512                         //find overall dist
 513                         distCalc->calcDist(query, ref);
 514                         float dist = distCalc->getDist();
 515
 516                         //save distance
 517                         SeqDist temp;
 518                         temp.seq = new Sequence(templateSeqs[i]->getName(), templateSeqs[i]->getAligned());
 519                         temp.dist = dist;
 520
 521                         topMatches.push_back(temp);
 522                 }
 523
 524                 sort(topMatches.begin(), topMatches.end(), compareSeqDist);
 525
 526                 for (int i = numWanted; i < topMatches.size(); i++) {  delete topMatches[i].seq;  }
 527
 528                 topMatches.resize(numWanted);
 529
 530                 return topMatches;
 531
 532         }
 533         catch(exception& e) {
 534                 errorOut(e, "Ccode", "findClosestSides");
 535                 exit(1);
 536         }
 537 }
 538 /**************************************************************************************************/
 539 //find the distances from each reference sequence to every other reference sequence for each window for this query
 540 void Ccode::getAverageRef(vector<SeqDist> ref) {
 541         try {
 542
 543                 vector< vector< vector<int> > >  diffs;  //diffs[0][1][2] is the number of differences between ref seq 0 and ref seq 1 at window 2.
 544
 545                 //initialize diffs vector
 546                 diffs.resize(ref.size());
 547                 for (int i = 0; i < diffs.size(); i++) {
 548                         diffs[i].resize(ref.size());
 549                         for (int j = 0; j < diffs[i].size(); j++) {
 550                                 diffs[i][j].resize(windows.size(), 0);
 551                         }
 552                 }
 553
 554                 it = trim.begin();
 555
 556                 //find the distances from each reference sequence to every other reference sequence for each window for this query
 557                 for (int i = 0; i < ref.size(); i++) {
 558
 559                         string refI = ref[i].seq->getAligned();
 560
 561                         //j<i, so you don't find distances from i to j and then j to i.
 562                         for (int j = 0; j < i; j++) {
 563
 564                                 string refJ = ref[j].seq->getAligned();
 565
 566                                 for (int k = 0; k < windows.size(); k++) {
 567
 568                                         string refIWindowk, refJWindowk;
 569
 570                                         if (k < windows.size()-1) {
 571                                                 //get window strings
 572                                                 refIWindowk = refI.substr(windows[k], windowSizes);
 573                                                 refJWindowk = refJ.substr(windows[k], windowSizes);
 574                                         }else { //last window may be smaller than rest - see findwindows
 575                                                 //get window strings
 576                                                 refIWindowk = refI.substr(windows[k], (it->second-windows[k]));
 577                                                 refJWindowk = refJ.substr(windows[k], (it->second-windows[k]));
 578                                         }
 579
 580                                         //find differences
 581                                         int diff = getDiff(refIWindowk, refJWindowk);
 582
 583                                         //save differences in [i][j][k] and [j][i][k] since they are the same
 584                                         diffs[i][j][k] = diff;
 585                                         diffs[j][i][k] = diff;
 586
 587                                 }//k
 588
 589                         }//j
 590
 591                 }//i
 592
 593                 //initialize sumRef for this query
 594                 sumRef.resize(windows.size(), 0);
 595                 sumSquaredRef.resize(windows.size(), 0);
 596                 averageRef.resize(windows.size(), 0);
 597
 598                 //find the sum of the differences for hte reference sequences
 599                 for (int i = 0; i < diffs.size(); i++) {
 600                         for (int j = 0; j < i; j++) {
 601
 602                                 //increment this querys reference sequences combos
 603                                 refCombo++;
 604
 605                                 for (int k = 0; k < diffs[i][j].size(); k++) {
 606                                         sumRef[k] += diffs[i][j][k];
 607                                         sumSquaredRef[k] += (diffs[i][j][k]*diffs[i][j][k]);
 608                                 }//k
 609
 610                         }//j
 611                 }//i
 612
 613
 614                 //find the average of the differences for the references for each window
 615                 for (int i = 0; i < windows.size(); i++) {
 616                         averageRef[i] = sumRef[i] / (float) refCombo;
 617                 }
 618
 619         }
 620         catch(exception& e) {
 621                 errorOut(e, "Ccode", "getAverageRef");
 622                 exit(1);
 623         }
 624 }
 625 /**************************************************************************************************/
 626 void Ccode::getAverageQuery (vector<SeqDist> ref, Sequence* query) {
 627         try {
 628
 629                 vector< vector<int> >  diffs;  //diffs[1][2] is the number of differences between querySeqs[query] and ref seq 1 at window 2.
 630
 631                 //initialize diffs vector
 632                 diffs.resize(ref.size());
 633                 for (int j = 0; j < diffs.size(); j++) {
 634                         diffs[j].resize(windows.size(), 0);
 635                 }
 636
 637                 it = trim.begin();
 638
 639                 string refQuery = query->getAligned();
 640
 641                 //j<i, so you don't find distances from i to j and then j to i.
 642                 for (int j = 0; j < ref.size(); j++) {
 643
 644                          string refJ = ref[j].seq->getAligned();
 645
 646                          for (int k = 0; k < windows.size(); k++) {
 647
 648                                         string QueryWindowk, refJWindowk;
 649
 650                                         if (k < windows.size()-1) {
 651                                                 //get window strings
 652                                                 QueryWindowk = refQuery.substr(windows[k], windowSizes);
 653                                                 refJWindowk = refJ.substr(windows[k], windowSizes);
 654                                         }else { //last window may be smaller than rest - see findwindows
 655                                                 //get window strings
 656                                                 QueryWindowk = refQuery.substr(windows[k], (it->second-windows[k]));
 657                                                 refJWindowk = refJ.substr(windows[k], (it->second-windows[k]));
 658                                         }
 659
 660                                         //find differences
 661                                         int diff = getDiff(QueryWindowk, refJWindowk);
 662
 663                                         //save differences
 664                                         diffs[j][k] = diff;
 665
 666                          }//k
 667                 }//j
 668
 669
 670                 //initialize sumRef for this query
 671                 sumQuery.resize(windows.size(), 0);
 672                 sumSquaredQuery.resize(windows.size(), 0);
 673                 averageQuery.resize(windows.size(), 0);
 674
 675                 //find the sum of the differences
 676                 for (int j = 0; j < diffs.size(); j++) {
 677                         for (int k = 0; k < diffs[j].size(); k++) {
 678                                 sumQuery[k] += diffs[j][k];
 679                                 sumSquaredQuery[k] += (diffs[j][k]*diffs[j][k]);
 680                         }//k
 681                 }//j
 682
 683
 684                 //find the average of the differences for the references for each window
 685                 for (int i = 0; i < windows.size(); i++) {
 686                         averageQuery[i] = sumQuery[i] / (float) ref.size();
 687                 }
 688         }
 689         catch(exception& e) {
 690                 errorOut(e, "Ccode", "getAverageQuery");
 691                 exit(1);
 692         }
 693 }
 694 /**************************************************************************************************/
 695 void Ccode::findVarianceRef() {
 696         try {
 697
 698                 varRef.resize(windows.size(), 0);
 699                 sdRef.resize(windows.size(), 0);
 700
 701                 //for each window
 702                 for (int i = 0; i < windows.size(); i++) {
 703                         varRef[i] = (sumSquaredRef[i] - ((sumRef[i]*sumRef[i])/(float)refCombo)) / (float)(refCombo-1);
 704                         sdRef[i] = sqrt(varRef[i]);
 705
 706                         //set minimum error rate to 0.001 - to avoid potential divide by zero - not sure if this is necessary but it follows ccode implementation
 707                         if (averageRef[i] < 0.001)                      {       averageRef[i] = 0.001;          }
 708                         if (sumRef[i] < 0.001)                          {       sumRef[i] = 0.001;                      }
 709                         if (varRef[i] < 0.001)                          {       varRef[i] = 0.001;                      }
 710                         if (sumSquaredRef[i] < 0.001)           {       sumSquaredRef[i] = 0.001;       }
 711                         if (sdRef[i] < 0.001)                           {       sdRef[i] = 0.001;                       }
 712
 713                 }
 714         }
 715         catch(exception& e) {
 716                 errorOut(e, "Ccode", "findVarianceRef");
 717                 exit(1);
 718         }
 719 }
 720 /**************************************************************************************************/
 721 void Ccode::findVarianceQuery() {
 722         try {
 723                 varQuery.resize(windows.size(), 0);
 724                 sdQuery.resize(windows.size(), 0);
 725
 726                 //for each window
 727                 for (int i = 0; i < windows.size(); i++) {
 728                         varQuery[i] = (sumSquaredQuery[i] - ((sumQuery[i]*sumQuery[i])/(float) closest.size())) / (float) (closest.size()-1);
 729                         sdQuery[i] = sqrt(varQuery[i]);
 730
 731                         //set minimum error rate to 0.001 - to avoid potential divide by zero - not sure if this is necessary but it follows ccode implementation
 732                         if (averageQuery[i] < 0.001)                    {       averageQuery[i] = 0.001;                }
 733                         if (sumQuery[i] < 0.001)                                {       sumQuery[i] = 0.001;                    }
 734                         if (varQuery[i] < 0.001)                                {       varQuery[i] = 0.001;                    }
 735                         if (sumSquaredQuery[i] < 0.001)         {       sumSquaredQuery[i] = 0.001;     }
 736                         if (sdQuery[i] < 0.001)                         {       sdQuery[i] = 0.001;                     }
 737                 }
 738
 739         }
 740         catch(exception& e) {
 741                 errorOut(e, "Ccode", "findVarianceQuery");
 742                 exit(1);
 743         }
 744 }
 745 /**************************************************************************************************/
 746 void Ccode::determineChimeras() {
 747         try {
 748
 749                 isChimericConfidence.resize(windows.size(), false);
 750                 isChimericTStudent.resize(windows.size(), false);
 751                 isChimericANOVA.resize(windows.size(), false);
 752                 anova.resize(windows.size());
 753
 754
 755                 //for each window
 756                 for (int i = 0; i < windows.size(); i++) {
 757
 758                         //get confidence limits
 759                         float t = getT(closest.size()-1);  //how many seqs you are comparing to this querySeq
 760                         float dsUpper = (averageQuery[i] + (t * sdQuery[i])) / averageRef[i];
 761                         float dsLower = (averageQuery[i] - (t * sdQuery[i])) / averageRef[i];
 762
 763                         if ((dsUpper > 1.0) && (dsLower > 1.0) && (averageQuery[i] > averageRef[i])) {  /* range does not include 1 */
 764                                         isChimericConfidence[i] = true;   /* significantly higher at P<0.05 */
 765
 766                         }
 767
 768                         //student t test
 769                         int degreeOfFreedom = refCombo + closest.size() - 2;
 770                         float denomForT = (((refCombo-1) * varQuery[i] + (closest.size() - 1) * varRef[i]) / (float) degreeOfFreedom) * ((refCombo + closest.size()) / (float) (refCombo * closest.size()));    /* denominator, without sqrt(), for ts calculations */
 771
 772                         float ts = fabs((averageQuery[i] - averageRef[i]) / (sqrt(denomForT)));  /* value of ts for t-student test */
 773                         t = getT(degreeOfFreedom);
 774
 775                         if ((ts >= t) && (averageQuery[i] > averageRef[i])) {
 776                                 isChimericTStudent[i] = true;   /* significantly higher at P<0.05 */
 777                         }
 778
 779                         //anova test
 780                         float value1 = sumQuery[i] + sumRef[i];
 781                         float value2 = sumSquaredQuery[i] + sumSquaredRef[i];
 782                         float value3 = ((sumQuery[i]*sumQuery[i]) / (float) (closest.size())) + ((sumRef[i] * sumRef[i]) / (float) refCombo);
 783                         float value4 = (value1 * value1) / ( (float) (closest.size() + refCombo) );
 784                         float value5 = value2 - value4;
 785                         float value6 = value3 - value4;
 786                         float value7 = value5 - value6;
 787                         float value8 = value7 / ((float) degreeOfFreedom);
 788                         float anovaValue = value6 / value8;
 789
 790                         float f = getF(degreeOfFreedom);
 791
 792                          if ((anovaValue >= f) && (averageQuery[i] > averageRef[i]))  {
 793                        isChimericANOVA[i] = true;   /* significant P<0.05 */
 794                 }
 795
 796                         if (isnan(anovaValue) || isinf(anovaValue)) { anovaValue = 0.0; }
 797
 798                         anova[i] = anovaValue;
 799                 }
 800
 801         }
 802         catch(exception& e) {
 803                 errorOut(e, "Ccode", "determineChimeras");
 804                 exit(1);
 805         }
 806 }
 807 /**************************************************************************************************/
 808 float Ccode::getT(int numseq) {
 809         try {
 810
 811                 float tvalue = 0;
 812
 813                 /* t-student critical values for different degrees of freedom and alpha 0.1 in one-tail tests (equivalent to 0.05) */
 814                 if (numseq > 120) tvalue = 1.645;
 815                 else if (numseq > 60) tvalue = 1.658;
 816         else if (numseq > 40) tvalue = 1.671;
 817         else if (numseq > 30) tvalue = 1.684;
 818         else if (numseq > 29) tvalue = 1.697;
 819         else if (numseq > 28) tvalue = 1.699;
 820         else if (numseq > 27) tvalue = 1.701;
 821         else if (numseq > 26) tvalue = 1.703;
 822         else if (numseq > 25) tvalue = 1.706;
 823         else if (numseq > 24) tvalue = 1.708;
 824         else if (numseq > 23) tvalue = 1.711;
 825         else if (numseq > 22) tvalue = 1.714;
 826         else if (numseq > 21) tvalue = 1.717;
 827         else if (numseq > 20) tvalue = 1.721;
 828         else if (numseq > 19) tvalue = 1.725;
 829         else if (numseq > 18) tvalue = 1.729;
 830         else if (numseq > 17) tvalue = 1.734;
 831         else if (numseq > 16) tvalue = 1.740;
 832         else if (numseq > 15) tvalue = 1.746;
 833         else if (numseq > 14) tvalue = 1.753;
 834         else if (numseq > 13) tvalue = 1.761;
 835         else if (numseq > 12) tvalue = 1.771;
 836         else if (numseq > 11) tvalue = 1.782;
 837         else if (numseq > 10) tvalue = 1.796;
 838         else if (numseq > 9) tvalue = 1.812;
 839         else if (numseq > 8) tvalue = 1.833;
 840         else if (numseq > 7) tvalue = 1.860;
 841         else if (numseq > 6) tvalue = 1.895;
 842         else if (numseq > 5) tvalue = 1.943;
 843         else if (numseq > 4) tvalue = 2.015;
 844         else if (numseq > 3) tvalue = 2.132;
 845         else if (numseq > 2) tvalue = 2.353;
 846         else if (numseq > 1) tvalue = 2.920;
 847                 else if (numseq <= 1) {
 848                         mothurOut("Two or more reference sequences are required, your data will be flawed.\n"); mothurOutEndLine();
 849                 }
 850
 851                 return tvalue;
 852         }
 853         catch(exception& e) {
 854                 errorOut(e, "Ccode", "getT");
 855                 exit(1);
 856         }
 857 }
 858 /**************************************************************************************************/
 859 float Ccode::getF(int numseq) {
 860         try {
 861
 862                 float fvalue = 0;
 863
 864                  /* F-Snedecor critical values for v1=1 and different degrees of freedom v2 and alpha 0.05 */
 865         if (numseq > 120) fvalue = 3.84;
 866         else if (numseq > 60) fvalue = 3.92;
 867         else if (numseq > 40) fvalue = 4.00;
 868         else if (numseq > 30) fvalue = 4.08;
 869         else if (numseq > 29) fvalue = 4.17;
 870         else if (numseq > 28) fvalue = 4.18;
 871         else if (numseq > 27) fvalue = 4.20;
 872         else if (numseq > 26) fvalue = 4.21;
 873         else if (numseq > 25) fvalue = 4.23;
 874         else if (numseq > 24) fvalue = 4.24;
 875         else if (numseq > 23) fvalue = 4.26;
 876         else if (numseq > 22) fvalue = 4.28;
 877         else if (numseq > 21) fvalue = 4.30;
 878         else if (numseq > 20) fvalue = 4.32;
 879         else if (numseq > 19) fvalue = 4.35;
 880         else if (numseq > 18) fvalue = 4.38;
 881         else if (numseq > 17) fvalue = 4.41;
 882         else if (numseq > 16) fvalue = 4.45;
 883         else if (numseq > 15) fvalue = 4.49;
 884         else if (numseq > 14) fvalue = 4.54;
 885         else if (numseq > 13) fvalue = 4.60;
 886         else if (numseq > 12) fvalue = 4.67;
 887         else if (numseq > 11) fvalue = 4.75;
 888         else if (numseq > 10) fvalue = 4.84;
 889         else if (numseq > 9) fvalue = 4.96;
 890         else if (numseq > 8) fvalue = 5.12;
 891         else if (numseq > 7) fvalue = 5.32;
 892         else if (numseq > 6) fvalue = 5.59;
 893         else if (numseq > 5) fvalue = 5.99;
 894         else if (numseq > 4) fvalue = 6.61;
 895         else if (numseq > 3) fvalue = 7.71;
 896         else if (numseq > 2) fvalue = 10.1;
 897         else if (numseq > 1) fvalue = 18.5;
 898         else if (numseq > 0) fvalue = 161;
 899                 else if (numseq <= 0) {
 900                         mothurOut("Two or more reference sequences are required, your data will be flawed.\n"); mothurOutEndLine();
 901         }
 902
 903                 return fvalue;
 904         }
 905         catch(exception& e) {
 906                 errorOut(e, "Ccode", "getF");
 907                 exit(1);
 908         }
 909 }
 910 //***************************************************************************************************************
 911
 912
 913