]> git.donarmstrong.com Git - samtools.git/blobdiff - phase.c
works
[samtools.git] / phase.c
diff --git a/phase.c b/phase.c
index 5fc4ce77d94ed3046082abf7a9525caf3362f7c3..ef4eff952bed637e4e9f89ad1b8c10619869c59f 100644 (file)
--- a/phase.c
+++ b/phase.c
@@ -17,6 +17,7 @@ KSTREAM_INIT(gzFile, gzread, 16384)
 
 #define FLAG_FIX_CHIMERA 0x1
 #define FLAG_LIST_EXCL   0x4
+#define FLAG_DROP_AMBI   0x8
 
 typedef struct {
        // configurations, initialized in the main function
@@ -34,7 +35,7 @@ typedef struct {
 typedef struct {
        int8_t seq[MAX_VARS]; // TODO: change to dynamic memory allocation!
        int vpos, beg, end;
-       uint32_t vlen:16, single:1, flip:1, phase:1, phased:1;
+       uint32_t vlen:16, single:1, flip:1, phase:1, phased:1, ambig:1;
        uint32_t in:16, out:16; // in-phase and out-phase
 } frag_t, *frag_p;
 
@@ -176,7 +177,8 @@ static uint64_t *fragphase(int vpos, const int8_t *path, nseq_t *hash, int flip)
                        }
                        f->phase = c[0] > c[1]? 0 : 1;
                        f->in = c[f->phase]; f->out = c[1 - f->phase];
-                       if (f->in && f->out && f->in <= f->out + 1) f->phased = 0;
+                       f->phased = f->in == f->out? 0 : 1;
+                       f->ambig = (f->in && f->out && f->out < 3 && f->in <= f->out + 1)? 1 : 0;
                        // fix chimera
                        f->flip = 0;
                        if (flip && c[0] >= 3 && c[1] >= 3) {
@@ -307,7 +309,8 @@ static int clean_seqs(int vpos, nseq_t *hash)
 
 static void dump_aln(phaseg_t *g, int min_pos, const nseq_t *hash)
 {
-       int i, is_flip;
+       int i, is_flip, drop_ambi;
+       drop_ambi = g->flag & FLAG_DROP_AMBI;
        is_flip = (drand48() < 0.5);
        for (i = 0; i < g->n; ++i) {
                int end, which;
@@ -321,8 +324,9 @@ static void dump_aln(phaseg_t *g, int min_pos, const nseq_t *hash)
                if (k == kh_end(hash)) which = 3;
                else {
                        frag_t *f = &kh_val(hash, k);
-                       if (f->phased && f->flip) which = 2;
-                       else if (f->phased == 0) which = 2;
+                       if (f->ambig) which = drop_ambi? 2 : 3;
+                       else if (f->phased && f->flip) which = 2;
+                       else if (f->phased == 0) which = 3;
                        else { // phased and not flipped
                                char c = 'Y';
                                which = f->phase;
@@ -519,7 +523,7 @@ int main_phase(int argc, char *argv[])
        memset(&g, 0, sizeof(phaseg_t));
        g.flag = FLAG_FIX_CHIMERA;
        g.min_varLOD = 37; g.k = 13; g.min_baseQ = 13; g.max_depth = 256;
-       while ((c = getopt(argc, argv, "Q:eFq:k:b:l:D:")) >= 0) {
+       while ((c = getopt(argc, argv, "Q:eFq:k:b:l:D:A:")) >= 0) {
                switch (c) {
                        case 'D': g.max_depth = atoi(optarg); break;
                        case 'q': g.min_varLOD = atoi(optarg); break;
@@ -527,6 +531,7 @@ int main_phase(int argc, char *argv[])
                        case 'k': g.k = atoi(optarg); break;
                        case 'F': g.flag &= ~FLAG_FIX_CHIMERA; break;
                        case 'e': g.flag |= FLAG_LIST_EXCL; break;
+                       case 'A': g.flag |= FLAG_DROP_AMBI; break;
                        case 'b': g.pre = strdup(optarg); break;
                        case 'l': fn_list = strdup(optarg); break;
                }
@@ -541,6 +546,7 @@ int main_phase(int argc, char *argv[])
                fprintf(stderr, "         -D INT    max read depth [%d]\n", g.max_depth);
 //             fprintf(stderr, "         -l FILE   list of sites to phase [null]\n");
                fprintf(stderr, "         -F        do not attempt to fix chimeras\n");
+               fprintf(stderr, "         -A        drop reads with ambiguous phase\n");
 //             fprintf(stderr, "         -e        do not discover SNPs (effective with -l)\n");
                fprintf(stderr, "\n");
                return 1;
@@ -652,7 +658,7 @@ int main_phase(int argc, char *argv[])
                                memset(f->seq, 0, MAX_VARS);
                                f->beg = p->b->core.pos;
                                f->end = bam_calend(&p->b->core, bam1_cigar(p->b));
-                               f->vpos = vpos, f->vlen = 1, f->seq[0] = c, f->single = f->phased = f->flip = 0;
+                               f->vpos = vpos, f->vlen = 1, f->seq[0] = c, f->single = f->phased = f->flip = f->ambig = 0;
                        }
                }
                if (dophase) {