]> git.donarmstrong.com Git - samtools.git/blobdiff - bam_plcmd.c
bam_plcmd.c: added sanity check in read_file_list, complain if file list is not a...
[samtools.git] / bam_plcmd.c
index ed00d2e80202fde96d5c5aecfc28aa8ff39e5bd6..a51e7731b0616a8dcf0c4f709f20544f4997ca47 100644 (file)
@@ -4,6 +4,7 @@
 #include <ctype.h>
 #include <string.h>
 #include <errno.h>
+#include <sys/stat.h>
 #include "sam.h"
 #include "faidx.h"
 #include "kstring.h"
@@ -208,6 +209,11 @@ static int mpileup(mplp_conf_t *conf, int n, char **fn)
                bam_header_t *h_tmp;
                data[i] = calloc(1, sizeof(mplp_aux_t));
                data[i]->fp = strcmp(fn[i], "-") == 0? bam_dopen(fileno(stdin), "r") : bam_open(fn[i], "r");
+        if ( !data[i]->fp )
+        {
+            fprintf(stderr, "[%s] failed to open %s: %s\n", __func__, fn[i], strerror(errno));
+            exit(1);
+        }
                data[i]->conf = conf;
                h_tmp = bam_header_read(data[i]->fp);
                data[i]->h = i? h : h_tmp; // for i==0, "h" has not been set yet
@@ -218,11 +224,11 @@ static int mpileup(mplp_conf_t *conf, int n, char **fn)
                        bam_index_t *idx;
                        idx = bam_index_load(fn[i]);
                        if (idx == 0) {
-                               fprintf(stderr, "[%s] fail to load index for %d-th input.\n", __func__, i+1);
+                               fprintf(stderr, "[%s] fail to load index for %s\n", __func__, fn[i]);
                                exit(1);
                        }
                        if (bam_parse_region(h_tmp, conf->reg, &tid, &beg, &end) < 0) {
-                               fprintf(stderr, "[%s] malformatted region or wrong seqname for %d-th input.\n", __func__, i+1);
+                               fprintf(stderr, "[%s] malformatted region or wrong seqname for %s\n", __func__, fn[i]);
                                exit(1);
                        }
                        if (i == 0) tid0 = tid, beg0 = beg, end0 = end;
@@ -391,8 +397,12 @@ static int mpileup(mplp_conf_t *conf, int n, char **fn)
 static int read_file_list(const char *file_list,int *n,char **argv[])
 {
     char buf[MAX_PATH_LEN];
-    int len, nfiles;
-    char **files;
+    int len, nfiles = 0;
+    char **files = NULL;
+    struct stat sb;
+
+    *n = 0;
+    *argv = NULL;
 
     FILE *fh = fopen(file_list,"r");
     if ( !fh )
@@ -401,28 +411,33 @@ static int read_file_list(const char *file_list,int *n,char **argv[])
         return 1;
     }
 
-    // Speed is not an issue here, determine the number of files by reading the file twice
-    nfiles = 0;
-    while ( fgets(buf,MAX_PATH_LEN,fh) ) nfiles++;
-
-    if ( fseek(fh, 0L, SEEK_SET) )
-    {
-        fprintf(stderr,"%s: %s\n", file_list,strerror(errno));
-        return 1;
-    }
-
     files = calloc(nfiles,sizeof(char*));
     nfiles = 0;
     while ( fgets(buf,MAX_PATH_LEN,fh) ) 
     {
+        // allow empty lines and trailing spaces
         len = strlen(buf);
         while ( len>0 && isspace(buf[len-1]) ) len--;
         if ( !len ) continue;
 
-        files[nfiles] = malloc(sizeof(char)*(len+1)); 
-        strncpy(files[nfiles],buf,len);
-        files[nfiles][len] = 0;
+        // check sanity of the file list
+        buf[len] = 0;
+        if (stat(buf, &sb) != 0)
+        {
+            // no such file, check if it is safe to print its name
+            int i, safe_to_print = 1;
+            for (i=0; i<len; i++)
+                if (!isprint(buf[i])) { safe_to_print = 0; break; } 
+            if ( safe_to_print )
+                fprintf(stderr,"The file list \"%s\" appears broken, could not locate: %s\n", file_list,buf);
+            else
+                fprintf(stderr,"Does the file \"%s\" really contain a list of files and do all exist?\n", file_list);
+            return 1;
+        }
+
         nfiles++;
+        files = realloc(files,nfiles*sizeof(char*));
+        files[nfiles-1] = strdup(buf);
     }
     fclose(fh);
     if ( !nfiles )