]> git.donarmstrong.com Git - samtools.git/blob - knetfile.c
3ed3b2c436ccc13a0847fae4812b2daf0fa6a369
[samtools.git] / knetfile.c
1 #include <time.h>
2 #include <stdio.h>
3 #include <ctype.h>
4 #include <stdlib.h>
5 #include <string.h>
6 #include <unistd.h>
7 #include <sys/types.h>
8
9 #ifdef _WIN32
10 #include <winsock.h>
11 #else
12 #include <netdb.h>
13 #include <arpa/inet.h>
14 #include <sys/socket.h>
15 #endif
16
17 #include "knetfile.h"
18
19 static int socket_wait(int fd, int is_read)
20 {
21         fd_set fds, *fdr = 0, *fdw = 0;
22         struct timeval tv;
23         int ret;
24         tv.tv_sec = 5; tv.tv_usec = 0; // 5 seconds time out
25         FD_ZERO(&fds);
26         FD_SET(fd, &fds);
27         if (is_read) fdr = &fds;
28         else fdw = &fds;
29         ret = select(fd+1, fdr, fdw, 0, &tv);
30         if (ret == -1) perror("select");
31         return ret;
32 }
33
34 #ifndef _WIN32
35 static int socket_connect(const char *host, const char *port)
36 {
37 #define __err_connect(func) do { perror(func); freeaddrinfo(res); return -1; } while (0)
38
39         int on = 1, fd;
40         struct linger lng = { 0, 0 };
41         struct addrinfo hints, *res;
42         memset(&hints, 0, sizeof(struct addrinfo));
43         hints.ai_family = AF_UNSPEC;
44         hints.ai_socktype = SOCK_STREAM;
45         if (getaddrinfo(host, port, &hints, &res) != 0) __err_connect("getaddrinfo");
46         if ((fd = socket(res->ai_family, res->ai_socktype, res->ai_protocol)) == -1) __err_connect("socket");
47         if (setsockopt(fd, SOL_SOCKET, SO_REUSEADDR, &on, sizeof(on)) == -1) __err_connect("setsockopt");
48         if (setsockopt(fd, SOL_SOCKET, SO_LINGER, &lng, sizeof(lng)) == -1) __err_connect("setsockopt");
49         if (connect(fd, res->ai_addr, res->ai_addrlen) != 0) __err_connect("connect");
50         freeaddrinfo(res);
51         return fd;
52 }
53 #else
54 int knet_win32_init()
55 {
56         WSADATA wsaData;
57         return WSAStartup(MAKEWORD(2, 2), &wsaData);
58 }
59 void knet_win32_destroy()
60 {
61         WSACleanup();
62 }
63 static SOCKET socket_connect(const char *host, const char *port)
64 {
65 #define __err_connect(func) do { perror(func); return -1; } while (0)
66
67         int on = 1;
68         SOCKET fd;
69         struct linger lng = { 0, 0 };
70         struct sockaddr_in server;
71         struct hostent *hp = 0;
72         // open socket
73         if ((fd = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP)) == INVALID_SOCKET) __err_connect("socket");
74         if (setsockopt(fd, SOL_SOCKET, SO_REUSEADDR, (char*)&on, sizeof(on)) == -1) __err_connect("setsockopt");
75         if (setsockopt(fd, SOL_SOCKET, SO_LINGER, (char*)&lng, sizeof(lng)) == -1) __err_connect("setsockopt");
76         // get host info
77         if (isalpha(host[0])) hp = gethostbyname(host);
78         else {
79                 struct in_addr addr;
80                 addr.s_addr = inet_addr(host);
81                 hp = gethostbyaddr((char*)&addr, 4, AF_INET);
82         }
83         if (hp == 0) __err_connect("gethost");
84         // connect
85         server.sin_addr.s_addr = *((unsigned long*)hp->h_addr);
86         server.sin_family= AF_INET;
87         server.sin_port = htons(atoi(port));
88         if (connect(fd, (struct sockaddr*)&server, sizeof(server)) != 0) __err_connect("connect");
89         // freehostent(hp); // strangely in MSDN, hp is NOT freed (memory leak?!)
90         return fd;
91 }
92 #endif
93
94 static off_t my_netread(int fd, void *buf, off_t len)
95 {
96         off_t rest = len, curr, l = 0;
97         while (rest) {
98                 if (socket_wait(fd, 1) <= 0) break; // socket is not ready for reading
99                 curr = netread(fd, buf + l, rest);
100                 if (curr == 0) break;
101                 l += curr; rest -= curr;
102         }
103         return l;
104 }
105
106 /*************************
107  * FTP specific routines *
108  *************************/
109
110 static int kftp_get_response(knetFile *ftp)
111 {
112         unsigned char c;
113         int n = 0;
114         char *p;
115         if (socket_wait(ftp->ctrl_fd, 1) <= 0) return 0;
116         while (netread(ftp->ctrl_fd, &c, 1)) { // FIXME: this is *VERY BAD* for unbuffered I/O
117                 //fputc(c, stderr);
118                 if (n >= ftp->max_response) {
119                         ftp->max_response = ftp->max_response? ftp->max_response<<1 : 256;
120                         ftp->response = realloc(ftp->response, ftp->max_response);
121                 }
122                 ftp->response[n++] = c;
123                 if (c == '\n') {
124                         if (n >= 4 && isdigit(ftp->response[0]) && isdigit(ftp->response[1]) && isdigit(ftp->response[2])
125                                 && ftp->response[3] != '-') break;
126                         n = 0;
127                         continue;
128                 }
129         }
130         if (n < 2) return -1;
131         ftp->response[n-2] = 0;
132         return strtol(ftp->response, &p, 0);
133 }
134
135 static int kftp_send_cmd(knetFile *ftp, const char *cmd, int is_get)
136 {
137         if (socket_wait(ftp->ctrl_fd, 0) <= 0) return -1; // socket is not ready for writing
138         netwrite(ftp->ctrl_fd, cmd, strlen(cmd));
139         return is_get? kftp_get_response(ftp) : 0;
140 }
141
142 static int kftp_pasv_prep(knetFile *ftp)
143 {
144         char *p;
145         int v[6];
146         kftp_send_cmd(ftp, "PASV\r\n", 1);
147         for (p = ftp->response; *p && *p != '('; ++p);
148         if (*p != '(') return -1;
149         ++p;
150         sscanf(p, "%d,%d,%d,%d,%d,%d", &v[0], &v[1], &v[2], &v[3], &v[4], &v[5]);
151         memcpy(ftp->pasv_ip, v, 4 * sizeof(int));
152         ftp->pasv_port = (v[4]<<8&0xff00) + v[5];
153         return 0;
154 }
155
156
157 static int kftp_pasv_connect(knetFile *ftp)
158 {
159         char host[80], port[10];
160         if (ftp->pasv_port == 0) {
161                 fprintf(stderr, "[kftp_pasv_connect] kftp_pasv_prep() is not called before hand.\n");
162                 return -1;
163         }
164         sprintf(host, "%d.%d.%d.%d", ftp->pasv_ip[0], ftp->pasv_ip[1], ftp->pasv_ip[2], ftp->pasv_ip[3]);
165         sprintf(port, "%d", ftp->pasv_port);
166         ftp->fd = socket_connect(host, port);
167         if (ftp->fd == -1) return -1;
168         return 0;
169 }
170
171 int kftp_connect(knetFile *ftp)
172 {
173         ftp->ctrl_fd = socket_connect(ftp->host, ftp->port);
174         if (ftp->ctrl_fd == -1) return -1;
175         kftp_get_response(ftp);
176         kftp_send_cmd(ftp, "USER anonymous\r\n", 1);
177         kftp_send_cmd(ftp, "PASS kftp@\r\n", 1);
178         kftp_send_cmd(ftp, "TYPE I\r\n", 1);
179         return 0;
180 }
181
182 int kftp_reconnect(knetFile *ftp)
183 {
184         if (ftp->ctrl_fd != -1) {
185                 netclose(ftp->ctrl_fd);
186                 ftp->ctrl_fd = -1;
187         }
188         netclose(ftp->fd);
189         return kftp_connect(ftp);
190 }
191
192 // initialize ->type, ->host and ->retr
193 knetFile *kftp_parse_url(const char *fn, const char *mode)
194 {
195         knetFile *fp;
196         char *p;
197         int l;
198         if (strstr(fn, "ftp://") != fn) return 0;
199         for (p = (char*)fn + 6; *p && *p != '/'; ++p);
200         if (*p != '/') return 0;
201         l = p - fn - 6;
202         fp = calloc(1, sizeof(knetFile));
203         fp->type = KNF_TYPE_FTP;
204         fp->fd = -1;
205         fp->port = strdup("21");
206         fp->host = calloc(l + 1, 1);
207         if (strchr(mode, 'c')) fp->no_reconnect = 1;
208         strncpy(fp->host, fn + 6, l);
209         fp->retr = calloc(strlen(p) + 8, 1);
210         sprintf(fp->retr, "RETR %s\r\n", p);
211         fp->seek_offset = -1;
212         return fp;
213 }
214 // place ->fd at offset off
215 int kftp_connect_file(knetFile *fp)
216 {
217         int ret;
218         if (fp->fd != -1) {
219                 netclose(fp->fd);
220                 if (fp->no_reconnect) kftp_get_response(fp);
221         }
222         kftp_pasv_prep(fp);
223         if (fp->offset) {
224                 char tmp[32];
225                 sprintf(tmp, "REST %lld\r\n", (long long)fp->offset);
226                 kftp_send_cmd(fp, tmp, 1);
227         }
228         kftp_send_cmd(fp, fp->retr, 0);
229         kftp_pasv_connect(fp);
230         ret = kftp_get_response(fp);
231         if (ret != 150) {
232                 fprintf(stderr, "[kftp_connect_file] %s\n", fp->response);
233                 netclose(fp->fd);
234                 fp->fd = -1;
235                 return -1;
236         }
237         fp->is_ready = 1;
238         return 0;
239 }
240
241 /**************************
242  * HTTP specific routines *
243  **************************/
244
245 knetFile *khttp_parse_url(const char *fn, const char *mode)
246 {
247         knetFile *fp;
248         char *p, *proxy, *q;
249         int l;
250         if (strstr(fn, "http://") != fn) return 0;
251         // set ->http_host
252         for (p = (char*)fn + 7; *p && *p != '/'; ++p);
253         l = p - fn - 7;
254         fp = calloc(1, sizeof(knetFile));
255         fp->http_host = calloc(l + 1, 1);
256         strncpy(fp->http_host, fn + 7, l);
257         fp->http_host[l] = 0;
258         for (q = fp->http_host; *q && *q != ':'; ++q);
259         if (*q == ':') *q++ = 0;
260         // get http_proxy
261         proxy = getenv("http_proxy");
262         // set ->host, ->port and ->path
263         if (proxy == 0) {
264                 fp->host = strdup(fp->http_host); // when there is no proxy, server name is identical to http_host name.
265                 fp->port = strdup(*q? q : "80");
266                 fp->path = strdup(*p? p : "/");
267         } else {
268                 fp->host = (strstr(proxy, "http://") == proxy)? strdup(proxy + 7) : strdup(proxy);
269                 for (q = fp->host; *q && *q != ':'; ++q);
270                 if (*q == ':') *q++ = 0; 
271                 fp->port = strdup(*q? q : "80");
272                 fp->path = strdup(fn);
273         }
274         fp->type = KNF_TYPE_HTTP;
275         fp->ctrl_fd = fp->fd = -1;
276         fp->seek_offset = -1;
277         return fp;
278 }
279
280 int khttp_connect_file(knetFile *fp)
281 {
282         int ret, l = 0;
283         char *buf, *p;
284         if (fp->fd != -1) netclose(fp->fd);
285         fp->fd = socket_connect(fp->host, fp->port);
286         buf = calloc(0x10000, 1); // FIXME: I am lazy... But in principle, 64KB should be large enough.
287         l += sprintf(buf + l, "GET %s HTTP/1.0\r\nHost: %s\r\n", fp->path, fp->http_host);
288         if (fp->offset)
289                 l += sprintf(buf + l, "Range: bytes=%lld-\r\n", (long long)fp->offset);
290         l += sprintf(buf + l, "\r\n");
291         netwrite(fp->fd, buf, l);
292         l = 0;
293         while (netread(fp->fd, buf + l, 1)) { // read HTTP header; FIXME: bad efficiency
294                 if (buf[l] == '\n' && l >= 3)
295                         if (strncmp(buf + l - 3, "\r\n\r\n", 4) == 0) break;
296                 ++l;
297         }
298         buf[l] = 0;
299         if (l < 14) { // prematured header
300                 netclose(fp->fd);
301                 fp->fd = -1;
302                 return -1;
303         }
304         ret = strtol(buf + 8, &p, 0); // HTTP return code
305         if (ret == 200 && fp->offset) { // 200 (complete result); then skip beginning of the file
306                 off_t rest = fp->offset;
307                 while (rest) {
308                         off_t l = rest < 0x10000? rest : 0x10000;
309                         rest -= my_netread(fp->fd, buf, l);
310                 }
311         } else if (ret != 206 && ret != 200) {
312                 free(buf);
313                 fprintf(stderr, "[khttp_connect_file] fail to open file (HTTP code: %d).\n", ret);
314                 netclose(fp->fd);
315                 fp->fd = -1;
316                 return -1;
317         }
318         free(buf);
319         fp->is_ready = 1;
320         return 0;
321 }
322
323 /********************
324  * Generic routines *
325  ********************/
326
327 knetFile *knet_open(const char *fn, const char *mode)
328 {
329         knetFile *fp = 0;
330         if (mode[0] != 'r') {
331                 fprintf(stderr, "[kftp_open] only mode \"r\" is supported.\n");
332                 return 0;
333         }
334         if (strstr(fn, "ftp://") == fn) {
335                 fp = kftp_parse_url(fn, mode);
336                 if (fp == 0) return 0;
337                 if (kftp_connect(fp) == -1) {
338                         knet_close(fp);
339                         return 0;
340                 }
341                 kftp_connect_file(fp);
342         } else if (strstr(fn, "http://") == fn) {
343                 fp = khttp_parse_url(fn, mode);
344                 if (fp == 0) return 0;
345                 khttp_connect_file(fp);
346         } else { // local file
347 #ifdef _WIN32
348                 int fd = open(fn, O_RDONLY | O_BINARY);
349 #else           
350                 int fd = open(fn, O_RDONLY);
351 #endif
352                 if (fd == -1) {
353                         perror("open");
354                         return 0;
355                 }
356                 fp = (knetFile*)calloc(1, sizeof(knetFile));
357                 fp->type = KNF_TYPE_LOCAL;
358                 fp->fd = fd;
359                 fp->ctrl_fd = -1;
360         }
361         if (fp && fp->fd == -1) {
362                 knet_close(fp);
363                 return 0;
364         }
365         return fp;
366 }
367
368 knetFile *knet_dopen(int fd, const char *mode)
369 {
370         knetFile *fp = (knetFile*)calloc(1, sizeof(knetFile));
371         fp->type = KNF_TYPE_LOCAL;
372         fp->fd = fd;
373         return fp;
374 }
375
376 off_t knet_read(knetFile *fp, void *buf, off_t len)
377 {
378         off_t l = 0;
379         if (fp->fd == -1) return 0;
380         if (fp->type == KNF_TYPE_FTP) {
381                 if (fp->is_ready == 0) {
382                         if (!fp->no_reconnect) kftp_reconnect(fp);
383                         kftp_connect_file(fp);
384                 }
385         } else if (fp->type == KNF_TYPE_HTTP) {
386                 if (fp->is_ready == 0)
387                         khttp_connect_file(fp);
388         }
389         if (fp->type == KNF_TYPE_LOCAL) { // on Windows, the following block is necessary; not on UNIX
390                 off_t rest = len, curr;
391                 while (rest) {
392                         curr = read(fp->fd, buf + l, rest);
393                         if (curr == 0) break;
394                         l += curr; rest -= curr;
395                 }
396         } else l = my_netread(fp->fd, buf, len);
397         fp->offset += l;
398         return l;
399 }
400
401 int knet_seek(knetFile *fp, off_t off, int whence)
402 {
403         if (whence == SEEK_SET && off == fp->offset) return 0;
404         if (fp->type == KNF_TYPE_LOCAL) {
405                 off_t offset = lseek(fp->fd, off, whence);
406                 if (offset == -1) {
407                         perror("lseek");
408                         return -1;
409                 }
410                 fp->offset = offset;
411                 return 0;
412         } else if (fp->type == KNF_TYPE_FTP || fp->type == KNF_TYPE_HTTP) {
413                 if (whence != SEEK_SET) { // FIXME: we can surely allow SEEK_CUR and SEEK_END in future
414                         fprintf(stderr, "[knet_seek] only SEEK_SET is supported for FTP/HTTP. Offset is unchanged.\n");
415                         return -1;
416                 }
417                 fp->offset = off;
418                 fp->is_ready = 0;
419                 return 0;
420         }
421         return -1;
422 }
423
424 int knet_close(knetFile *fp)
425 {
426         if (fp == 0) return 0;
427         if (fp->ctrl_fd != -1) netclose(fp->ctrl_fd); // FTP specific
428         if (fp->fd != -1) {
429                 if (fp->type == KNF_TYPE_LOCAL) close(fp->fd);
430                 else netclose(fp->fd);
431         }
432         free(fp->host); free(fp->port);
433         free(fp->response); free(fp->retr); // FTP specific
434         free(fp->path); free(fp->http_host); // HTTP specific
435         free(fp);
436         return 0;
437 }
438
439 #ifdef KNETFILE_MAIN
440 int main(void)
441 {
442         char *buf;
443         knetFile *fp;
444         int type = 4, l;
445 #ifdef _WIN32
446         knet_win32_init();
447 #endif
448         buf = calloc(0x100000, 1);
449         if (type == 0) {
450                 fp = knet_open("knetfile.c", "r");
451                 knet_seek(fp, 1000, SEEK_SET);
452         } else if (type == 1) { // NCBI FTP, large file
453                 fp = knet_open("ftp://ftp.ncbi.nih.gov/1000genomes/ftp/data/NA12878/alignment/NA12878.chrom6.SLX.SRP000032.2009_06.bam", "r");
454                 knet_seek(fp, 2500000000ll, SEEK_SET);
455                 l = knet_read(fp, buf, 255);
456         } else if (type == 2) {
457                 fp = knet_open("ftp://ftp.sanger.ac.uk/pub4/treefam/tmp/index.shtml", "r");
458                 knet_seek(fp, 1000, SEEK_SET);
459         } else if (type == 3) {
460                 fp = knet_open("http://www.sanger.ac.uk/Users/lh3/index.shtml", "r");
461                 knet_seek(fp, 1000, SEEK_SET);
462         } else if (type == 4) {
463                 fp = knet_open("http://www.sanger.ac.uk/Users/lh3/ex1.bam", "r");
464                 knet_read(fp, buf, 10000);
465                 knet_seek(fp, 20000, SEEK_SET);
466                 knet_seek(fp, 10000, SEEK_SET);
467                 l = knet_read(fp, buf+10000, 10000000) + 10000;
468         }
469         if (type != 4 && type != 1) {
470                 knet_read(fp, buf, 255);
471                 buf[255] = 0;
472                 printf("%s\n", buf);
473         } else write(fileno(stdout), buf, l);
474         knet_close(fp);
475         free(buf);
476         return 0;
477 }
478 #endif