]> git.donarmstrong.com Git - samtools.git/blob - bam_tview.c
New -p option to start tview at desired position
[samtools.git] / bam_tview.c
1 #undef _HAVE_CURSES
2
3 #if _CURSES_LIB == 0
4 #elif _CURSES_LIB == 1
5 #include <curses.h>
6 #ifndef NCURSES_VERSION
7 #warning "_CURSES_LIB=1 but NCURSES_VERSION not defined; tview is NOT compiled"
8 #else
9 #define _HAVE_CURSES
10 #endif
11 #elif _CURSES_LIB == 2
12 #include <xcurses.h>
13 #define _HAVE_CURSES
14 #else
15 #warning "_CURSES_LIB is not 0, 1 or 2; tview is NOT compiled"
16 #endif
17
18 #ifdef _HAVE_CURSES
19 #include <ctype.h>
20 #include <assert.h>
21 #include <string.h>
22 #include <math.h>
23 #include "bam.h"
24 #include "faidx.h"
25 #include "bam2bcf.h"
26 #include "sam_header.h"
27
28 char bam_aux_getCEi(bam1_t *b, int i);
29 char bam_aux_getCSi(bam1_t *b, int i);
30 char bam_aux_getCQi(bam1_t *b, int i);
31
32 #define TV_MIN_ALNROW 2
33 #define TV_MAX_GOTO  40
34 #define TV_LOW_MAPQ  10
35
36 #define TV_COLOR_MAPQ   0
37 #define TV_COLOR_BASEQ  1
38 #define TV_COLOR_NUCL   2
39 #define TV_COLOR_COL    3
40 #define TV_COLOR_COLQ   4
41
42 #define TV_BASE_NUCL 0
43 #define TV_BASE_COLOR_SPACE 1
44
45 typedef struct {
46         int mrow, mcol;
47         WINDOW *wgoto, *whelp;
48
49         bam_index_t *idx;
50         bam_lplbuf_t *lplbuf;
51         bam_header_t *header;
52         bamFile fp;
53         int curr_tid, left_pos;
54         faidx_t *fai;
55         bcf_callaux_t *bca;
56
57         int ccol, last_pos, row_shift, base_for, color_for, is_dot, l_ref, ins, no_skip, show_name;
58         char *ref;
59     char *sample;   //TODO: multiple samples and read groups
60     void *rg2sm;
61 } tview_t;
62
63 int tv_pl_func(uint32_t tid, uint32_t pos, int n, const bam_pileup1_t *pl, void *data)
64 {
65         extern unsigned char bam_nt16_table[256];
66         tview_t *tv = (tview_t*)data;
67         int i, j, c, rb, attr, max_ins = 0;
68         uint32_t call = 0;
69         if (pos < tv->left_pos || tv->ccol > tv->mcol) return 0; // out of screen
70         // print referece
71         rb = (tv->ref && pos - tv->left_pos < tv->l_ref)? tv->ref[pos - tv->left_pos] : 'N';
72         for (i = tv->last_pos + 1; i < pos; ++i) {
73                 if (i%10 == 0 && tv->mcol - tv->ccol >= 10) mvprintw(0, tv->ccol, "%-d", i+1);
74                 c = tv->ref? tv->ref[i - tv->left_pos] : 'N';
75                 mvaddch(1, tv->ccol++, c);
76         }
77         if (pos%10 == 0 && tv->mcol - tv->ccol >= 10) mvprintw(0, tv->ccol, "%-d", pos+1);
78         { // call consensus
79                 bcf_callret1_t bcr;
80                 int qsum[4], a1, a2, tmp;
81                 double p[3], prior = 30;
82                 bcf_call_glfgen(n, pl, bam_nt16_table[rb], tv->bca, &bcr);
83                 for (i = 0; i < 4; ++i) qsum[i] = bcr.qsum[i]<<2 | i;
84                 for (i = 1; i < 4; ++i) // insertion sort
85                         for (j = i; j > 0 && qsum[j] > qsum[j-1]; --j)
86                                 tmp = qsum[j], qsum[j] = qsum[j-1], qsum[j-1] = tmp;
87                 a1 = qsum[0]&3; a2 = qsum[1]&3;
88                 p[0] = bcr.p[a1*5+a1]; p[1] = bcr.p[a1*5+a2] + prior; p[2] = bcr.p[a2*5+a2];
89                 if ("ACGT"[a1] != toupper(rb)) p[0] += prior + 3;
90                 if ("ACGT"[a2] != toupper(rb)) p[2] += prior + 3;
91                 if (p[0] < p[1] && p[0] < p[2]) call = (1<<a1)<<16 | (int)((p[1]<p[2]?p[1]:p[2]) - p[0] + .499);
92                 else if (p[2] < p[1] && p[2] < p[0]) call = (1<<a2)<<16 | (int)((p[0]<p[1]?p[0]:p[1]) - p[2] + .499);
93                 else call = (1<<a1|1<<a2)<<16 | (int)((p[0]<p[2]?p[0]:p[2]) - p[1] + .499);
94         }
95         attr = A_UNDERLINE;
96         c = ",ACMGRSVTWYHKDBN"[call>>16&0xf];
97         i = (call&0xffff)/10+1;
98         if (i > 4) i = 4;
99         attr |= COLOR_PAIR(i);
100         if (c == toupper(rb)) c = '.';
101         attron(attr);
102         mvaddch(2, tv->ccol, c);
103         attroff(attr);
104         if(tv->ins) {
105                 // calculate maximum insert
106                 for (i = 0; i < n; ++i) {
107                         const bam_pileup1_t *p = pl + i;
108                         if (p->indel > 0 && max_ins < p->indel) max_ins = p->indel;
109                 }
110         }
111         // core loop
112         for (j = 0; j <= max_ins; ++j) {
113                 for (i = 0; i < n; ++i) {
114                         const bam_pileup1_t *p = pl + i;
115                         int row = TV_MIN_ALNROW + p->level - tv->row_shift;
116                         if (j == 0) {
117                                 if (!p->is_del) {
118                                         if (tv->base_for == TV_BASE_COLOR_SPACE && 
119                                                         (c = bam_aux_getCSi(p->b, p->qpos))) {
120                                                 // assume that if we found one color, we will be able to get the color error
121                                                 if (tv->is_dot && '-' == bam_aux_getCEi(p->b, p->qpos)) c = bam1_strand(p->b)? ',' : '.';
122                                         } else {
123                                                 if (tv->show_name) {
124                                                         char *name = bam1_qname(p->b);
125                                                         c = (p->qpos + 1 >= p->b->core.l_qname)? ' ' : name[p->qpos];
126                                                 } else {
127                                                         c = bam_nt16_rev_table[bam1_seqi(bam1_seq(p->b), p->qpos)];
128                                                         if (tv->is_dot && toupper(c) == toupper(rb)) c = bam1_strand(p->b)? ',' : '.';
129                                                 }
130                                         }
131                                 } else c = p->is_refskip? (bam1_strand(p->b)? '<' : '>') : '*';
132                         } else { // padding
133                                 if (j > p->indel) c = '*';
134                                 else { // insertion
135                                         if (tv->base_for ==  TV_BASE_NUCL) {
136                                                 if (tv->show_name) {
137                                                         char *name = bam1_qname(p->b);
138                                                         c = (p->qpos + j + 1 >= p->b->core.l_qname)? ' ' : name[p->qpos + j];
139                                                 } else {
140                                                         c = bam_nt16_rev_table[bam1_seqi(bam1_seq(p->b), p->qpos + j)];
141                                                         if (j == 0 && tv->is_dot && toupper(c) == toupper(rb)) c = bam1_strand(p->b)? ',' : '.';
142                                                 }
143                                         } else {
144                                                 c = bam_aux_getCSi(p->b, p->qpos + j);
145                                                 if (tv->is_dot && '-' == bam_aux_getCEi(p->b, p->qpos + j)) c = bam1_strand(p->b)? ',' : '.';
146                                         }
147                                 }
148                         }
149                         if (row > TV_MIN_ALNROW && row < tv->mrow) {
150                                 int x;
151                                 attr = 0;
152                                 if (((p->b->core.flag&BAM_FPAIRED) && !(p->b->core.flag&BAM_FPROPER_PAIR))
153                                                 || (p->b->core.flag & BAM_FSECONDARY)) attr |= A_UNDERLINE;
154                                 if (tv->color_for == TV_COLOR_BASEQ) {
155                                         x = bam1_qual(p->b)[p->qpos]/10 + 1;
156                                         if (x > 4) x = 4;
157                                         attr |= COLOR_PAIR(x);
158                                 } else if (tv->color_for == TV_COLOR_MAPQ) {
159                                         x = p->b->core.qual/10 + 1;
160                                         if (x > 4) x = 4;
161                                         attr |= COLOR_PAIR(x);
162                                 } else if (tv->color_for == TV_COLOR_NUCL) {
163                                         x = bam_nt16_nt4_table[bam1_seqi(bam1_seq(p->b), p->qpos)] + 5;
164                                         attr |= COLOR_PAIR(x);
165                                 } else if(tv->color_for == TV_COLOR_COL) {
166                                         x = 0;
167                                         switch(bam_aux_getCSi(p->b, p->qpos)) {
168                                                 case '0': x = 0; break;
169                                                 case '1': x = 1; break;
170                                                 case '2': x = 2; break;
171                                                 case '3': x = 3; break;
172                                                 case '4': x = 4; break;
173                                                 default: x = bam_nt16_nt4_table[bam1_seqi(bam1_seq(p->b), p->qpos)]; break;
174                                         }
175                                         x+=5;
176                                         attr |= COLOR_PAIR(x);
177                                 } else if(tv->color_for == TV_COLOR_COLQ) {
178                                         x = bam_aux_getCQi(p->b, p->qpos);
179                                         if(0 == x) x = bam1_qual(p->b)[p->qpos];
180                                         x = x/10 + 1;
181                                         if (x > 4) x = 4;
182                                         attr |= COLOR_PAIR(x);
183                                 }
184                                 attron(attr);
185                                 mvaddch(row, tv->ccol, bam1_strand(p->b)? tolower(c) : toupper(c));
186                                 attroff(attr);
187                         }
188                 }
189                 c = j? '*' : rb;
190                 if (c == '*') {
191                         attr = COLOR_PAIR(8);
192                         attron(attr);
193                         mvaddch(1, tv->ccol++, c);
194                         attroff(attr);
195                 } else mvaddch(1, tv->ccol++, c);
196         }
197         tv->last_pos = pos;
198         return 0;
199 }
200
201 tview_t *tv_init(const char *fn, const char *fn_fa, char *samples)
202 {
203         tview_t *tv = (tview_t*)calloc(1, sizeof(tview_t));
204         tv->is_dot = 1;
205         tv->fp = bam_open(fn, "r");
206         bgzf_set_cache_size(tv->fp, 8 * 1024 *1024);
207         assert(tv->fp);
208         tv->header = bam_header_read(tv->fp);
209         tv->idx = bam_index_load(fn);
210         if (tv->idx == 0) exit(1);
211         tv->lplbuf = bam_lplbuf_init(tv_pl_func, tv);
212         if (fn_fa) tv->fai = fai_load(fn_fa);
213         tv->bca = bcf_call_init(0.83, 13);
214         tv->ins = 1;
215
216     if ( samples ) 
217     {
218         tv->sample = samples;
219         tv->header->dict = sam_header_parse2(tv->header->text);
220         tv->rg2sm = sam_header2tbl(tv->header->dict, "RG", "ID", "SM");
221     }
222
223         initscr();
224         keypad(stdscr, TRUE);
225         clear();
226         noecho();
227         cbreak();
228         tv->mrow = 24; tv->mcol = 80;
229         getmaxyx(stdscr, tv->mrow, tv->mcol);
230         tv->wgoto = newwin(3, TV_MAX_GOTO + 10, 10, 5);
231         tv->whelp = newwin(29, 40, 5, 5);
232         tv->color_for = TV_COLOR_MAPQ;
233         start_color();
234         init_pair(1, COLOR_BLUE, COLOR_BLACK);
235         init_pair(2, COLOR_GREEN, COLOR_BLACK);
236         init_pair(3, COLOR_YELLOW, COLOR_BLACK);
237         init_pair(4, COLOR_WHITE, COLOR_BLACK);
238         init_pair(5, COLOR_GREEN, COLOR_BLACK);
239         init_pair(6, COLOR_CYAN, COLOR_BLACK);
240         init_pair(7, COLOR_YELLOW, COLOR_BLACK);
241         init_pair(8, COLOR_RED, COLOR_BLACK);
242         init_pair(9, COLOR_BLUE, COLOR_BLACK);
243         return tv;
244 }
245
246 void tv_destroy(tview_t *tv)
247 {
248         delwin(tv->wgoto); delwin(tv->whelp);
249         endwin();
250
251         bam_lplbuf_destroy(tv->lplbuf);
252         bcf_call_destroy(tv->bca);
253         bam_index_destroy(tv->idx);
254         if (tv->fai) fai_destroy(tv->fai);
255         free(tv->ref);
256         bam_header_destroy(tv->header);
257         bam_close(tv->fp);
258         free(tv);
259 }
260
261 int tv_fetch_func(const bam1_t *b, void *data)
262 {
263         tview_t *tv = (tview_t*)data;
264     if ( tv->sample )
265     {
266         const uint8_t *rg = bam_aux_get(b, "RG");
267         if ( !rg ) return 0; 
268         const char *sm = sam_tbl_get(tv->rg2sm, (const char*)(rg + 1));
269         if ( !sm ) return 0;
270         if ( strcmp(sm,tv->sample) ) return 0;
271     }
272         if (tv->no_skip) {
273                 uint32_t *cigar = bam1_cigar(b); // this is cheating...
274                 int i;
275                 for (i = 0; i <b->core.n_cigar; ++i) {
276                         if ((cigar[i]&0xf) == BAM_CREF_SKIP)
277                                 cigar[i] = cigar[i]>>4<<4 | BAM_CDEL;
278                 }
279         }
280         bam_lplbuf_push(b, tv->lplbuf);
281         return 0;
282 }
283
284 int tv_draw_aln(tview_t *tv, int tid, int pos)
285 {
286         // reset
287         clear();
288         tv->curr_tid = tid; tv->left_pos = pos;
289         tv->last_pos = tv->left_pos - 1;
290         tv->ccol = 0;
291         // print ref and consensus
292         if (tv->fai) {
293                 char *str;
294                 if (tv->ref) free(tv->ref);
295                 str = (char*)calloc(strlen(tv->header->target_name[tv->curr_tid]) + 30, 1);
296                 sprintf(str, "%s:%d-%d", tv->header->target_name[tv->curr_tid], tv->left_pos + 1, tv->left_pos + tv->mcol);
297                 tv->ref = fai_fetch(tv->fai, str, &tv->l_ref);
298                 free(str);
299         }
300         // draw aln
301         bam_lplbuf_reset(tv->lplbuf);
302         bam_fetch(tv->fp, tv->idx, tv->curr_tid, tv->left_pos, tv->left_pos + tv->mcol, tv, tv_fetch_func);
303         bam_lplbuf_push(0, tv->lplbuf);
304
305         while (tv->ccol < tv->mcol) {
306                 int pos = tv->last_pos + 1;
307                 if (pos%10 == 0 && tv->mcol - tv->ccol >= 10) mvprintw(0, tv->ccol, "%-d", pos+1);
308                 mvaddch(1, tv->ccol++, (tv->ref && pos < tv->l_ref)? tv->ref[pos - tv->left_pos] : 'N');
309                 ++tv->last_pos;
310         }
311         return 0;
312 }
313
314 static void tv_win_goto(tview_t *tv, int *tid, int *pos)
315 {
316         char str[256], *p;
317         int i, l = 0;
318         wborder(tv->wgoto, '|', '|', '-', '-', '+', '+', '+', '+');
319         mvwprintw(tv->wgoto, 1, 2, "Goto: ");
320         for (;;) {
321                 int c = wgetch(tv->wgoto);
322                 wrefresh(tv->wgoto);
323                 if (c == KEY_BACKSPACE || c == '\010' || c == '\177') {
324                         if(l > 0) --l;
325                 } else if (c == KEY_ENTER || c == '\012' || c == '\015') {
326                         int _tid = -1, _beg, _end;
327                         if (str[0] == '=') {
328                                 _beg = strtol(str+1, &p, 10) - 1;
329                                 if (_beg > 0) {
330                                         *pos = _beg;
331                                         return;
332                                 }
333                         } else {
334                                 bam_parse_region(tv->header, str, &_tid, &_beg, &_end);
335                                 if (_tid >= 0) {
336                                         *tid = _tid; *pos = _beg;
337                                         return;
338                                 }
339                         }
340                 } else if (isgraph(c)) {
341                         if (l < TV_MAX_GOTO) str[l++] = c;
342                 } else if (c == '\027') l = 0;
343                 else if (c == '\033') return;
344                 str[l] = '\0';
345                 for (i = 0; i < TV_MAX_GOTO; ++i) mvwaddch(tv->wgoto, 1, 8 + i, ' ');
346                 mvwprintw(tv->wgoto, 1, 8, "%s", str);
347         }
348 }
349
350 static void tv_win_help(tview_t *tv) {
351         int r = 1;
352         WINDOW *win = tv->whelp;
353         wborder(win, '|', '|', '-', '-', '+', '+', '+', '+');
354         mvwprintw(win, r++, 2, "        -=-    Help    -=- ");
355         r++;
356         mvwprintw(win, r++, 2, "?          This window");
357         mvwprintw(win, r++, 2, "Arrows     Small scroll movement");
358         mvwprintw(win, r++, 2, "h,j,k,l    Small scroll movement");
359         mvwprintw(win, r++, 2, "H,J,K,L    Large scroll movement");
360         mvwprintw(win, r++, 2, "ctrl-H     Scroll 1k left");
361         mvwprintw(win, r++, 2, "ctrl-L     Scroll 1k right");
362         mvwprintw(win, r++, 2, "space      Scroll one screen");
363         mvwprintw(win, r++, 2, "backspace  Scroll back one screen");
364         mvwprintw(win, r++, 2, "g          Go to specific location");
365         mvwprintw(win, r++, 2, "m          Color for mapping qual");
366         mvwprintw(win, r++, 2, "n          Color for nucleotide");
367         mvwprintw(win, r++, 2, "b          Color for base quality");
368         mvwprintw(win, r++, 2, "c          Color for cs color");
369         mvwprintw(win, r++, 2, "z          Color for cs qual");
370         mvwprintw(win, r++, 2, ".          Toggle on/off dot view");
371         mvwprintw(win, r++, 2, "s          Toggle on/off ref skip");
372         mvwprintw(win, r++, 2, "r          Toggle on/off rd name");
373         mvwprintw(win, r++, 2, "N          Turn on nt view");
374         mvwprintw(win, r++, 2, "C          Turn on cs view");
375         mvwprintw(win, r++, 2, "i          Toggle on/off ins");
376         mvwprintw(win, r++, 2, "q          Exit");
377         r++;
378         mvwprintw(win, r++, 2, "Underline:      Secondary or orphan");
379         mvwprintw(win, r++, 2, "Blue:    0-9    Green: 10-19");
380         mvwprintw(win, r++, 2, "Yellow: 20-29   White: >=30");
381         wrefresh(win);
382         wgetch(win);
383 }
384
385 void tv_loop(tview_t *tv)
386 {
387         int tid, pos;
388         tid = tv->curr_tid; pos = tv->left_pos;
389         while (1) {
390                 int c = getch();
391                 switch (c) {
392                         case '?': tv_win_help(tv); break;
393                         case '\033':
394                         case 'q': goto end_loop;
395                         case '/': 
396                         case 'g': tv_win_goto(tv, &tid, &pos); break;
397                         case 'm': tv->color_for = TV_COLOR_MAPQ; break;
398                         case 'b': tv->color_for = TV_COLOR_BASEQ; break;
399                         case 'n': tv->color_for = TV_COLOR_NUCL; break;
400                         case 'c': tv->color_for = TV_COLOR_COL; break;
401                         case 'z': tv->color_for = TV_COLOR_COLQ; break;
402                         case 's': tv->no_skip = !tv->no_skip; break;
403                         case 'r': tv->show_name = !tv->show_name; break;
404                         case KEY_LEFT:
405                         case 'h': --pos; break;
406                         case KEY_RIGHT:
407                         case 'l': ++pos; break;
408                         case KEY_SLEFT:
409                         case 'H': pos -= 20; break;
410                         case KEY_SRIGHT:
411                         case 'L': pos += 20; break;
412                         case '.': tv->is_dot = !tv->is_dot; break;
413                         case 'N': tv->base_for = TV_BASE_NUCL; break;
414                         case 'C': tv->base_for = TV_BASE_COLOR_SPACE; break;
415                         case 'i': tv->ins = !tv->ins; break;
416                         case '\010': pos -= 1000; break;
417                         case '\014': pos += 1000; break;
418                         case ' ': pos += tv->mcol; break;
419                         case KEY_UP:
420                         case 'j': --tv->row_shift; break;
421                         case KEY_DOWN:
422                         case 'k': ++tv->row_shift; break;
423                         case KEY_BACKSPACE:
424                         case '\177': pos -= tv->mcol; break;
425                         case KEY_RESIZE: getmaxyx(stdscr, tv->mrow, tv->mcol); break;
426                         default: continue;
427                 }
428                 if (pos < 0) pos = 0;
429                 if (tv->row_shift < 0) tv->row_shift = 0;
430                 tv_draw_aln(tv, tid, pos);
431         }
432 end_loop:
433         return;
434 }
435
436 void error(const char *format, ...)
437 {
438     if ( !format )
439     {
440         fprintf(stderr, "\n");
441         fprintf(stderr, "Usage: bamtk tview [options] <aln.bam> [ref.fasta]\n");
442         fprintf(stderr, "Options:\n");
443         fprintf(stderr, "   -p chr:pos      go directly to this position\n");
444         fprintf(stderr, "   -s STR          display only reads from this sample\n");
445         fprintf(stderr, "\n\n");
446     }
447     else
448     {
449         va_list ap;
450         va_start(ap, format);
451         vfprintf(stderr, format, ap);
452         va_end(ap);
453     }
454     exit(-1);
455 }
456
457
458 int bam_tview_main(int argc, char *argv[])
459 {
460         tview_t *tv;
461     char *samples=NULL, *position=NULL;
462     int c;
463     while ((c = getopt(argc, argv, "s:p:")) >= 0) {
464         switch (c) {
465             case 's': samples=optarg; break;
466             case 'p': position=optarg; break;
467             default: error(NULL);
468         }
469     }
470         if (argc==optind) error(NULL);
471         tv = tv_init(argv[optind], (optind+1>=argc)? 0 : argv[optind+1], samples);
472     if ( position )
473     {
474         int _tid = -1, _beg, _end;
475         bam_parse_region(tv->header, position, &_tid, &_beg, &_end);
476         if (_tid >= 0) { tv->curr_tid = _tid; tv->left_pos = _beg; }
477     }
478         tv_draw_aln(tv, tv->curr_tid, tv->left_pos);
479         tv_loop(tv);
480         tv_destroy(tv);
481         return 0;
482 }
483 #else // #ifdef _HAVE_CURSES
484 #include <stdio.h>
485 #warning "No curses library is available; tview is disabled."
486 int bam_tview_main(int argc, char *argv[])
487 {
488         fprintf(stderr, "[bam_tview_main] The ncurses library is unavailable; tview is not compiled.\n");
489         return 1;
490 }
491 #endif // #ifdef _HAVE_CURSES