]> git.donarmstrong.com Git - samtools.git/blobdiff - bam_mcns.c
NOT ready yet. Going to make further changes...
[samtools.git] / bam_mcns.c
index d337e5a290aa76a1f1faa2c8a687db4639962a16..4bef70d58a20909124bc7a431d0107aa77b7cf8c 100644 (file)
@@ -12,7 +12,7 @@
 
 struct __mc_aux_t {
        int n, M;
-       int ref, alt;
+       int ref, alt, alt2;
        double *q2p, *pdg; // pdg -> P(D|g)
        double *alpha, *beta;
        double *z, *zswap; // aux for afs
@@ -26,6 +26,9 @@ void mc_init_prior(mc_aux_t *ma, int type, double theta)
        if (type == MC_PTYPE_COND2) {
                for (i = 0; i <= 2 * ma->n; ++i)
                        ma->alpha[i] = 2. * (i + 1) / (2 * ma->n + 1) / (2 * ma->n + 2);
+       } else if (type == MC_PTYPE_FLAT) {
+               for (i = 0; i <= ma->M; ++i)
+                       ma->alpha[i] = 1. / (ma->M + 1);
        } else {
                double sum;
                for (i = 0, sum = 0.; i < 2 * ma->n; ++i)
@@ -111,9 +114,13 @@ static void set_allele(int ref, mc_aux_t *ma)
        for (i = 1; i < 4; ++i) // insertion sort
                for (j = i; j > 0 && sum[j] < sum[j-1]; --j)
                        tmp = sum[j], sum[j] = sum[j-1], sum[j-1] = tmp;
-       ma->ref = sum[3]&3; ma->alt = sum[2]&3;
-       if (ref == ma->alt) tmp = ma->ref, ma->ref = ma->alt, ma->alt = tmp;
-       // note that ma->ref might not be ref in case of triallele
+       ma->ref = sum[3]&3; ma->alt = sum[2]&3; ma->alt2 = -1;
+       if (ma->ref != ref) { // the best base is not ref
+               if (ref >= 0 && ref <= 3) { // ref is not N
+                       if (ma->alt == ref) tmp = ma->ref, ma->ref = ma->alt, ma->alt = tmp; // then switch alt and ref
+                       else ma->alt2 = ma->alt, ma->alt = ma->ref, ma->ref = ref; // then set ref as ref
+               } else ma->alt2 = ma->alt, ma->alt = ma->ref, ma->ref = sum[0]&3; // then set the weakest as ref
+       }
 }
 
 static void cal_pdg(mc_aux_t *ma)
@@ -219,6 +226,57 @@ int mc_call_gt(const mc_aux_t *ma, double f0, int k)
        if (q > 99) q = 99;
        return q<<2|max_i;
 }
+static void mc_cal_z2(mc_aux_t *ma)
+{
+       double *z[2], *tmp, *pdg;
+       int i, j;
+       z[0] = ma->z;
+       z[1] = ma->zswap;
+       pdg = ma->pdg;
+       z[0][0] = 1.; z[0][1] = z[0][2] = 0.;
+       for (j = 0; j < ma->n; ++j) {
+               int max = (j + 1) * 2;
+               double p[3];
+               pdg = ma->pdg + j * 3;
+               p[0] = pdg[0]; p[1] = 2. * pdg[1]; p[2] = pdg[2];
+               z[1][0] = p[0] * z[0][0];
+               z[1][1] = p[0] * z[0][1] + p[1] * z[0][0];
+               for (i = 2; i <= max; ++i)
+                       z[1][i] = p[0] * z[0][i] + p[1] * z[0][i-1] + p[2] * z[0][i-2];
+               if (j < ma->n - 1) z[1][max+1] = z[1][max+2] = 0.;
+               tmp = z[0]; z[0] = z[1]; z[1] = tmp;
+       }
+       if (z[0] != ma->z) memcpy(ma->z, z[0], sizeof(double) * (2 * ma->n + 1));
+}
+static void mc_add_afs2(mc_aux_t *ma, double PD, double *f_map, double *p_map)
+{
+       int k, l;
+       double sum = 0.;
+       memset(ma->afs1, 0, sizeof(double) * (2 * ma->n + 1));
+       *f_map = *p_map = -1.;
+       mc_cal_z2(ma);
+       for (k = 0; k <= ma->M; ++k) {
+               for (l = 0, sum = 0.; l <= ma->M; ++l)
+                       sum += ma->alpha[l] * pow((double)l / ma->M, k) * pow(1. - (double)l / ma->M, ma->M - k);
+               ma->afs1[k] = ma->z[k] * sum / PD;
+       }
+       for (k = 0; k <= ma->M; ++k)
+               if (isnan(ma->afs1[k]) || isinf(ma->afs1[k])) return;
+       for (k = 0, sum = 0.; k <= 2 * ma->n; ++k) {
+               ma->afs[k] += ma->afs1[k];
+               sum += ma->afs1[k];
+       }
+       {
+               int max_k = 0;
+               double max = -1., e = 0.;
+               for (k = 0; k <= 2 * ma->n; ++k) {
+                       if (ma->afs1[k] > max) max = ma->afs1[k], max_k = k;
+                       e += k * ma->afs1[k];
+               }
+               *f_map = .5 * max_k / ma->n; *p_map = max; // e should equal mc_rst_t::f_exp
+               printf(" * %.3lg:%.3lg:%.3lg:%.3lg * ", sum, 1.-.5*max_k/ma->n, max, 1.-.5*e/ma->n);
+       }
+}
 // calculate z_{nr}^{(k)}
 static void mc_cal_z(mc_aux_t *ma, int k)
 {
@@ -248,11 +306,14 @@ static void mc_add_afs(mc_aux_t *ma, double PD, double *f_map, double *p_map)
        int k, l;
        double sum = 0.;
        memset(ma->afs1, 0, sizeof(double) * (2 * ma->n + 1));
+       *f_map = *p_map = -1.;
        for (k = 0; k <= 2 * ma->n; ++k) {
                mc_cal_z(ma, k);
                for (l = 0; l <= 2 * ma->n; ++l)
                        ma->afs1[l] += ma->alpha[k] * ma->z[l] / PD;
        }
+       for (k = 0; k <= ma->M; ++k)
+               if (isnan(ma->afs1[k]) || isinf(ma->afs1[k])) return;
        for (k = 0; k <= 2 * ma->n; ++k) {
                ma->afs[k] += ma->afs1[k];
                sum += ma->afs1[k];
@@ -265,7 +326,7 @@ static void mc_add_afs(mc_aux_t *ma, double PD, double *f_map, double *p_map)
                        e += k * ma->afs1[k];
                }
                *f_map = .5 * max_k / ma->n; *p_map = max; // e should equal mc_rst_t::f_exp
-//             printf(" * %.3lg:%.3lg:%.3lg:%.3lg * ", sum, 1.-.5*max_k/ma->n, max, 1.-.5*e/ma->n);
+               printf(" * %.3lg:%.3lg:%.3lg:%.3lg * ", sum, 1.-.5*max_k/ma->n, max, 1.-.5*e/ma->n);
        }
 }
 
@@ -280,7 +341,7 @@ int mc_cal(int ref, int *n, const bam_pileup1_t **plp, mc_aux_t *ma, mc_rst_t *r
        set_allele(ref, ma);
        cal_pdg(ma);
        // set ref/major allele
-       rst->ref = ma->ref; rst->alt = ma->alt;
+       rst->ref = ma->ref; rst->alt = ma->alt; rst->alt2 = ma->alt2;
        // calculate naive and Nielsen's freq
        rst->f_naive = mc_freq0(ma, &rst->f_nielsen);
        { // calculate f_em
@@ -293,8 +354,10 @@ int mc_cal(int ref, int *n, const bam_pileup1_t **plp, mc_aux_t *ma, mc_rst_t *r
        }
        if (level >= 2) // quadratic-time calculations; necessary for genotyping
                rst->p_ref = mc_ref_prob(ma, &rst->PD, &rst->f_exp);
-       if (level >= 3)
+       if (level >= 3) {
+               mc_add_afs2(ma, rst->PD, &rst->f_map, &rst->p_map);
                mc_add_afs(ma, rst->PD, &rst->f_map, &rst->p_map);
+       }
        return tot;
 }