]> git.donarmstrong.com Git - samtools.git/blob - knetfile.c
* samtools-0.1.5-4 (r394)
[samtools.git] / knetfile.c
1 #include <time.h>
2 #include <stdio.h>
3 #include <netdb.h>
4 #include <ctype.h>
5 #include <stdlib.h>
6 #include <string.h>
7 #include <unistd.h>
8 #include <sys/types.h>
9 #include <arpa/inet.h>
10 #include <sys/socket.h>
11 #include "knetfile.h"
12
13 static int socket_wait(int fd, int is_read)
14 {
15         fd_set fds, *fdr = 0, *fdw = 0;
16         struct timeval tv;
17         int ret;
18         tv.tv_sec = 5; tv.tv_usec = 0; // 5 seconds time out
19         FD_ZERO(&fds);
20         FD_SET(fd, &fds);
21         if (is_read) fdr = &fds;
22         else fdw = &fds;
23         ret = select(fd+1, fdr, fdw, 0, &tv);
24         if (ret == -1) perror("select");
25         return ret;
26 }
27
28 static int socket_connect(const char *host, const char *port)
29 {
30 #define __err_connect(func) do { perror(func); freeaddrinfo(res); return -1; } while (0)
31
32         int on = 1, fd;
33         struct linger lng = { 0, 0 };
34         struct addrinfo hints, *res;
35         memset(&hints, 0, sizeof(struct addrinfo));
36         hints.ai_family = AF_UNSPEC;
37         hints.ai_socktype = SOCK_STREAM;
38         if (getaddrinfo(host, port, &hints, &res) != 0) __err_connect("getaddrinfo");
39         if ((fd = socket(res->ai_family, res->ai_socktype, res->ai_protocol)) == -1) __err_connect("socket");
40         if (setsockopt(fd, SOL_SOCKET, SO_REUSEADDR, &on, sizeof(on)) == -1) __err_connect("setsockopt");
41         if (setsockopt(fd, SOL_SOCKET, SO_LINGER, &lng, sizeof(lng)) == -1) __err_connect("setsockopt");
42         if (connect(fd, res->ai_addr, res->ai_addrlen) != 0) __err_connect("connect");
43         freeaddrinfo(res);
44         return fd;
45 }
46
47 static off_t my_read(int fd, void *buf, off_t len)
48 {
49         off_t rest = len, curr, l = 0;
50         while (rest) {
51                 if (socket_wait(fd, 1) <= 0) break; // socket is not ready for reading
52                 curr = read(fd, buf + l, rest);
53                 if (curr == 0) break;
54                 l += curr; rest -= curr;
55         }
56         return l;
57 }
58
59 /*************************
60  * FTP specific routines *
61  *************************/
62
63 static int kftp_get_response(knetFile *ftp)
64 {
65         unsigned char c;
66         int n = 0;
67         char *p;
68         if (socket_wait(ftp->ctrl_fd, 1) <= 0) return 0;
69         while (read(ftp->ctrl_fd, &c, 1)) { // FIXME: this is *VERY BAD* for unbuffered I/O
70                 //fputc(c, stderr);
71                 if (n >= ftp->max_response) {
72                         ftp->max_response = ftp->max_response? ftp->max_response<<1 : 256;
73                         ftp->response = realloc(ftp->response, ftp->max_response);
74                 }
75                 ftp->response[n++] = c;
76                 if (c == '\n') {
77                         if (n >= 4 && isdigit(ftp->response[0]) && isdigit(ftp->response[1]) && isdigit(ftp->response[2])
78                                 && ftp->response[3] != '-') break;
79                         n = 0;
80                         continue;
81                 }
82         }
83         if (n < 2) return -1;
84         ftp->response[n-2] = 0;
85         return strtol(ftp->response, &p, 0);
86 }
87
88 static int kftp_send_cmd(knetFile *ftp, const char *cmd, int is_get)
89 {
90         if (socket_wait(ftp->ctrl_fd, 0) <= 0) return -1; // socket is not ready for writing
91         write(ftp->ctrl_fd, cmd, strlen(cmd));
92         return is_get? kftp_get_response(ftp) : 0;
93 }
94
95 static int kftp_pasv_prep(knetFile *ftp)
96 {
97         char *p;
98         int v[6];
99         kftp_send_cmd(ftp, "PASV\r\n", 1);
100         for (p = ftp->response; *p && *p != '('; ++p);
101         if (*p != '(') return -1;
102         ++p;
103         sscanf(p, "%d,%d,%d,%d,%d,%d", &v[0], &v[1], &v[2], &v[3], &v[4], &v[5]);
104         memcpy(ftp->pasv_ip, v, 4 * sizeof(int));
105         ftp->pasv_port = (v[4]<<8&0xff00) + v[5];
106         return 0;
107 }
108
109
110 static int kftp_pasv_connect(knetFile *ftp)
111 {
112         char host[80], port[10];
113         if (ftp->pasv_port == 0) {
114                 fprintf(stderr, "[kftp_pasv_connect] kftp_pasv_prep() is not called before hand.\n");
115                 return -1;
116         }
117         sprintf(host, "%d.%d.%d.%d", ftp->pasv_ip[0], ftp->pasv_ip[1], ftp->pasv_ip[2], ftp->pasv_ip[3]);
118         sprintf(port, "%d", ftp->pasv_port);
119         ftp->fd = socket_connect(host, port);
120         if (ftp->fd == -1) return -1;
121         return 0;
122 }
123
124 int kftp_connect(knetFile *ftp)
125 {
126         ftp->ctrl_fd = socket_connect(ftp->host, ftp->port);
127         if (ftp->ctrl_fd == -1) return -1;
128         kftp_get_response(ftp);
129         kftp_send_cmd(ftp, "USER anonymous\r\n", 1);
130         kftp_send_cmd(ftp, "PASS kftp@\r\n", 1);
131         kftp_send_cmd(ftp, "TYPE I\r\n", 1);
132         return 0;
133 }
134
135 int kftp_reconnect(knetFile *ftp)
136 {
137         if (ftp->ctrl_fd >= 0) {
138                 close(ftp->ctrl_fd);
139                 ftp->ctrl_fd = -1;
140         }
141         close(ftp->fd);
142         return kftp_connect(ftp);
143 }
144
145 // initialize ->type, ->host and ->retr
146 knetFile *kftp_parse_url(const char *fn, const char *mode)
147 {
148         knetFile *fp;
149         char *p;
150         int l;
151         if (strstr(fn, "ftp://") != fn) return 0;
152         for (p = (char*)fn + 6; *p && *p != '/'; ++p);
153         if (*p != '/') return 0;
154         l = p - fn - 6;
155         fp = calloc(1, sizeof(knetFile));
156         fp->type = KNF_TYPE_FTP;
157         fp->fd = -1;
158         fp->port = strdup("ftp");
159         fp->host = calloc(l + 1, 1);
160         if (strchr(mode, 'c')) fp->no_reconnect = 1;
161         strncpy(fp->host, fn + 6, l);
162         fp->retr = calloc(strlen(p) + 8, 1);
163         sprintf(fp->retr, "RETR %s\r\n", p);
164         fp->seek_offset = -1;
165         return fp;
166 }
167 // place ->fd at offset off
168 int kftp_connect_file(knetFile *fp)
169 {
170         int ret;
171         if (fp->fd >= 0) {
172                 close(fp->fd);
173                 if (fp->no_reconnect) kftp_get_response(fp);
174         }
175         kftp_pasv_prep(fp);
176         if (fp->offset) {
177                 char tmp[32];
178                 sprintf(tmp, "REST %lld\r\n", (long long)fp->offset);
179                 kftp_send_cmd(fp, tmp, 1);
180         }
181         kftp_send_cmd(fp, fp->retr, 0);
182         kftp_pasv_connect(fp);
183         ret = kftp_get_response(fp);
184         if (ret != 150) {
185                 fprintf(stderr, "[kftp_connect_file] %s\n", fp->response);
186                 close(fp->fd);
187                 fp->fd = -1;
188                 return -1;
189         }
190         fp->is_ready = 1;
191         return 0;
192 }
193
194 /**************************
195  * HTTP specific routines *
196  **************************/
197
198 knetFile *khttp_parse_url(const char *fn, const char *mode)
199 {
200         knetFile *fp;
201         char *p, *proxy, *q;
202         int l;
203         if (strstr(fn, "http://") != fn) return 0;
204         // set ->http_host
205         for (p = (char*)fn + 7; *p && *p != '/'; ++p);
206         l = p - fn - 7;
207         fp = calloc(1, sizeof(knetFile));
208         fp->http_host = calloc(l + 1, 1);
209         strncpy(fp->http_host, fn + 7, l);
210         fp->http_host[l] = 0;
211         for (q = fp->http_host; *q && *q != ':'; ++q);
212         if (*q == ':') *q++ = 0;
213         // get http_proxy
214         proxy = getenv("http_proxy");
215         // set ->host, ->port and ->path
216         if (proxy == 0) {
217                 fp->host = strdup(fp->http_host); // when there is no proxy, server name is identical to http_host name.
218                 fp->port = strdup(*q? q : "http");
219                 fp->path = strdup(*p? p : "/");
220         } else {
221                 fp->host = (strstr(proxy, "http://") == proxy)? strdup(proxy + 7) : strdup(proxy);
222                 for (q = fp->host; *q && *q != ':'; ++q);
223                 if (*q == ':') *q++ = 0; 
224                 fp->port = strdup(*q? q : "http");
225                 fp->path = strdup(fn);
226         }
227         fp->type = KNF_TYPE_HTTP;
228         fp->ctrl_fd = fp->fd = -1;
229         fp->seek_offset = -1;
230         return fp;
231 }
232
233 int khttp_connect_file(knetFile *fp)
234 {
235         int ret, l = 0;
236         char *buf, *p;
237         if (fp->fd >= 0) close(fp->fd);
238         fp->fd = socket_connect(fp->host, fp->port);
239         buf = calloc(0x10000, 1); // FIXME: I am lazy... But in principle, 64KB should be large enough.
240         l += sprintf(buf + l, "GET %s HTTP/1.0\r\nHost: %s\r\n", fp->path, fp->http_host);
241         if (fp->offset)
242                 l += sprintf(buf + l, "Range: bytes=%lld-\r\n", (long long)fp->offset);
243         l += sprintf(buf + l, "\r\n");
244         write(fp->fd, buf, l);
245         l = 0;
246         while (read(fp->fd, buf + l, 1)) { // read HTTP header; FIXME: bad efficiency
247                 if (buf[l] == '\n' && l >= 3)
248                         if (strncmp(buf + l - 3, "\r\n\r\n", 4) == 0) break;
249                 ++l;
250         }
251         buf[l] = 0;
252         if (l < 14) { // prematured header
253                 close(fp->fd);
254                 fp->fd = -1;
255                 return -1;
256         }
257         ret = strtol(buf + 8, &p, 0); // HTTP return code
258         if (ret == 200 && fp->offset) { // 200 (complete result); then skip beginning of the file
259                 off_t rest = fp->offset;
260                 while (rest) {
261                         off_t l = rest < 0x10000? rest : 0x10000;
262                         rest -= my_read(fp->fd, buf, l);
263                 }
264         } else if (ret != 206 && ret != 200) {
265                 free(buf);
266                 fprintf(stderr, "[khttp_connect_file] fail to open file (HTTP code: %d).\n", ret);
267                 close(fp->fd);
268                 fp->fd = -1;
269                 return -1;
270         }
271         free(buf);
272         fp->is_ready = 1;
273         return 0;
274 }
275
276 /********************
277  * Generic routines *
278  ********************/
279
280 knetFile *knet_open(const char *fn, const char *mode)
281 {
282         knetFile *fp = 0;
283         if (mode[0] != 'r') {
284                 fprintf(stderr, "[kftp_open] only mode \"r\" is supported.\n");
285                 return 0;
286         }
287         if (strstr(fn, "ftp://") == fn) {
288                 fp = kftp_parse_url(fn, mode);
289                 if (fp == 0) return 0;
290                 if (kftp_connect(fp) == -1) {
291                         knet_close(fp);
292                         return 0;
293                 }
294                 kftp_connect_file(fp);
295         } else if (strstr(fn, "http://") == fn) {
296                 fp = khttp_parse_url(fn, mode);
297                 if (fp == 0) return 0;
298                 khttp_connect_file(fp);
299         } else { // local file
300                 int fd = open(fn, O_RDONLY);
301                 if (fd == -1) {
302                         perror("open");
303                         return 0;
304                 }
305                 fp = (knetFile*)calloc(1, sizeof(knetFile));
306                 fp->type = KNF_TYPE_LOCAL;
307                 fp->fd = fd;
308                 fp->ctrl_fd = -1;
309         }
310         if (fp && fp->fd < 0) {
311                 knet_close(fp);
312                 return 0;
313         }
314         return fp;
315 }
316
317 knetFile *knet_dopen(int fd, const char *mode)
318 {
319         knetFile *fp = (knetFile*)calloc(1, sizeof(knetFile));
320         fp->type = KNF_TYPE_LOCAL;
321         fp->fd = fd;
322         return fp;
323 }
324
325 off_t knet_read(knetFile *fp, void *buf, off_t len)
326 {
327         off_t l = 0;
328         if (fp->fd < 0) return 0;
329         if (fp->type == KNF_TYPE_FTP) {
330                 if (fp->is_ready == 0) {
331                         if (!fp->no_reconnect) kftp_reconnect(fp);
332                         kftp_connect_file(fp);
333                 }
334         } else if (fp->type == KNF_TYPE_HTTP) {
335                 if (fp->is_ready == 0)
336                         khttp_connect_file(fp);
337         }
338         l = my_read(fp->fd, buf, len);
339         fp->offset += l;
340         return l;
341 }
342
343 int knet_seek(knetFile *fp, off_t off, int whence)
344 {
345         if (whence == SEEK_SET && off == fp->offset) return 0;
346         if (fp->type == KNF_TYPE_LOCAL) {
347                 if (lseek(fp->fd, off, whence) == -1) {
348                         perror("lseek");
349                         return -1;
350                 }
351                 fp->offset = off;
352                 return 0;
353         } else if (fp->type == KNF_TYPE_FTP || fp->type == KNF_TYPE_HTTP) {
354                 if (whence != SEEK_SET) { // FIXME: we can surely allow SEEK_CUR and SEEK_END in future
355                         fprintf(stderr, "[knet_seek] only SEEK_SET is supported for FTP/HTTP. Offset is unchanged.\n");
356                         return -1;
357                 }
358                 fp->offset = off;
359                 fp->is_ready = 0;
360                 return 0;
361         }
362         return -1;
363 }
364
365 int knet_close(knetFile *fp)
366 {
367         if (fp == 0) return 0;
368         if (fp->ctrl_fd >= 0) close(fp->ctrl_fd); // FTP specific
369         if (fp->fd >= 0) close(fp->fd);
370         free(fp->host); free(fp->port);
371         free(fp->response); free(fp->retr); // FTP specific
372         free(fp->path); free(fp->http_host); // HTTP specific
373         free(fp);
374         return 0;
375 }
376
377 #ifdef KNETFILE_MAIN
378 int main(void)
379 {
380         char *buf;
381         knetFile *fp;
382         int type = 4, l;
383         buf = calloc(0x100000, 1);
384         if (type == 0) {
385                 fp = knet_open("knetfile.c", "r");
386                 knet_seek(fp, 1000, SEEK_SET);
387         } else if (type == 1) { // NCBI FTP, large file
388                 fp = knet_open("ftp://ftp.ncbi.nih.gov/1000genomes/ftp/data/NA12878/alignment/NA12878.chrom6.SLX.SRP000032.2009_06.bam", "r");
389                 knet_seek(fp, 2500000000ll, SEEK_SET);
390                 l = knet_read(fp, buf, 255);
391         } else if (type == 2) {
392                 fp = knet_open("ftp://ftp.sanger.ac.uk/pub4/treefam/tmp/index.shtml", "r");
393                 knet_seek(fp, 1000, SEEK_SET);
394         } else if (type == 3) {
395                 fp = knet_open("http://www.sanger.ac.uk/Users/lh3/index.shtml", "r");
396                 knet_seek(fp, 1000, SEEK_SET);
397         } else if (type == 4) {
398                 fp = knet_open("http://www.sanger.ac.uk/Users/lh3/ex1.bam", "r");
399                 knet_read(fp, buf, 10000);
400                 knet_seek(fp, 20000, SEEK_SET);
401                 knet_seek(fp, 10000, SEEK_SET);
402                 l = knet_read(fp, buf+10000, 10000000) + 10000;
403         }
404         if (type != 4 && type != 1) {
405                 knet_read(fp, buf, 255);
406                 buf[255] = 0;
407                 printf("%s\n", buf);
408         } else write(fileno(stdout), buf, l);
409         knet_close(fp);
410         free(buf);
411         return 0;
412 }
413 #endif