]> git.donarmstrong.com Git - don.git/blob - posts/supercomputer_wishlist.mdwn
update dla cv
[don.git] / posts / supercomputer_wishlist.mdwn
1 [[!meta title="Bioinformatic Supercomputer Wishlist"]]
2
3 Many bioinformatic problems require large amounts of memory and
4 processor time to complete. For example, running WGCNA across 10⁶ CpG
5 sites requires 10⁶ choose 2 or 10¹³ comparisons, which needs 10 TB
6 to store the resulting matrix. While embarrassingly parallel, the
7 dataset upon which the regressions are calculated is very large, and
8 cannot fit into main memory of most existing supercomputers, which are
9 often tuned for small-data fast-interconnect problems.
10
11 Another problem which I am interested in is computing ancestral trees
12 from whole human genomes. This involves running maximum likelihood
13 calculations across 10⁹ bases and thousands of samples. The matrix
14 itself could potentially take 1 TB, and calculating the likelihood
15 across that many positions is computationally expensive. Furthermore,
16 an exhaustive search of trees for 2000 individuals requires 2000!!
17 comparisons, or 10²⁸⁶⁸; even searching a small fraction of that
18 subspace requires lots of computational time.
19
20 Some things that a future supercomputer could have that would enable
21 better solutions to bioinformatic problems include:
22
23 1. Fast local storage
24 2. Better hierarchical storage with smarter caching. Data should
25    ideally move easily between local memory, shared memory, local
26    storage, and remote storage.
27 3. Fault-tolerant, storage affinity aware schedulers. 
28 4. GPUs and/or other coprocessors with larger memory and faster memory
29    interconnects.
30 5. Larger memory (at least on some nodes)
31 6. Support for docker (or similar) images. 
32 7. Better bioinformatics software which can actually take advantage of
33    advances in computer architecture.
34
35 [[!tag biology bioinformatics bluewaters]]