]> git.donarmstrong.com Git - don.git/blob - resume/research_statement.mdwn
70283a36fa30367b785085ae36eae4334e8b2fe4
[don.git] / resume / research_statement.mdwn
1
2
3 # Research Objectives
4
5 ## Uncovering genetic causes of diseases using a multidisciplinary bioinformatics-driven approach
6
7
8
9 My research focuses on designing and using bioinformatics techniques
10 to identify causes and mechanisms underlying human diseases such as
11 Systemic Lupus Erythematosus, Glioblastoma Multiforme, and
12 Arteriovenous Malformations followed be designing appropriate
13 diagnostics and treatment methods. Once identified, I work with
14 collaborators to verify the bioinformatics-discovered mechanisms
15 utilizing *in silico*, *in vitro*, and *in vivo* techniques, and
16 develop therapeutic and diagnostic techniques to identify and treat
17 the underlying human disorder. Cell-culture-based methods are utilized
18 as the first step in designing multi-target treatments, followed by
19 appropriate animal models..
20
21 # Unique Qualifications
22
23 ## Straddling Biology, Computer Science, and Statistics
24
25 In addition to being a cellular and molecular biologist, I have
26 extensive experience in algorithm design, computer programming, and
27 statistics. The combination of these areas enables me to handle
28 biological problems which involve large numbers of samples and data
29 and require statistical analysis which can address confounders which
30 are often present in non-laboratory settings. It also gives me a
31 unique perspective which enables me to design novel methods to analyze
32 and interpret large amounts of data.
33
34 ## Multidisciplinary approach
35
36 I have published in multiple disciplines, including membrane
37 biophysics, bioinformatics, genetics, and cellular biology. My
38 experiences in these fields and my experiences while transitioning
39 fields has allowed me to apply unique insights garnered from my
40 previous work to new topics leading to novel approaches and
41 breakthrough discoveries.
42
43 # Previous Research Projects
44
45
46
47 ## Genetic Basis of System Lupus Erythematosus (SLE)
48
49 I developed novel bioinformatic methods which increase 
50
51
52 likelihood of identifying reproducible genetic associations using
53 prior knowledge from publicly available databases and expert
54 information [#Armstrong2008:function2gene]. Using these methods, I was
55 able to identify genes previously unassociated with SLE in a
56 trio-based study [#Jacob2007:ar_lupus]. These genes were then
57 replicated in a larger case-control study which was funded by the NIH
58 on the basis of the original findings [#Jacob2009:sle_irak1] ,
59 [#Armstrong2009:sle_gi]. Among other findings, this larger study
60 identified a missense allele in NCF2 (H389Q, rs17849502) which was
61 associated with SLE. Collaborative work indicated that H389Q altered
62 the binding energy of NCF2 with VAV1 using docking simulations, and in
63 vitro experiments confirmed that H389Q altered NADPH oxidase function
64 [#Jacob2012:sle_ncf2], thus identifying it as a causative SLE
65 mutation.
66
67 ## Cancer Stem Cells in Glioblastoma
68
69 Glioblastoma is a almost invariably fatal form of brain cancer[^survival_rate] which is
70 diagnosed in \(\approx\) 9,000 people in the US annually. It is typified
71 by high levels of chemotherapeutic-resistant recurrences, some of
72 which is likely caused by cancer stem cells which are insensitive to
73 many chemotherapeutic agents. In collaboration with Florence Hoffman
74 at USC, I have classified glioblastoma-derived cancer stem cells and
75 cancer cell lines into distinct classes using gene microarrays and
76 various clustering approaches, which will enable the design of a
77 class-specific treatment of this devastating disease.
78
79 ## Regulatory pathways underlying cranial arteriovenous malformations
80
81 The mechanisms underlying the formation of arteriovenous
82 malformations[^avm_definition] (AVMs) which occur in the brain are
83 unknown. Using gene microarrays, qtPCR, and *in vitro* experiments on
84 primary human endothelial cells cultured from resected AVMs, I
85 indentified multiple gene regulation pathways, many of them novel,
86 including the Id1/Thsb1 inhibitory pathway. Additional experiments
87 indicated that the *in vitro* pathology of endothelial cells could be
88 partially rescued using extracellular Thsb1
89 [#Stapleton2011:thbs1].
90
91 # Future research directions
92
93 ## Identification of causal mutations in SLE
94
95 While many regions and SNPs which are associated with SLE have been
96 identified, few of those regions have identified causal alleles with
97 known function. Furthermore, even for regions with identified causal
98 alleles, no systematic searches have been performed to identify
99 additional causal regions. Continuing my existing collaboration with
100 Chaim O. Jacob, I will rectify this by
101
102 1.  Deep sequencing the associated regions in 500 lupus cases and 1000 controls
103
104 2.  Identifying which newly found variants are associated with SLE
105
106 3.  Selecting variants with a high likelihood of producing functional variants
107
108 4.  Verifying biological relevance of variants by *in vitro* study
109
110 5.  Verifying functional relevance in human subjects
111
112 ## Developing analysis tools for massive amounts of sequencing data
113
114 The ability to cheaply and rapidly sequence large numbers of samples
115 has massively increased the amount of data processing required by
116 researchers. Compounding this increase in data, most existing tools
117 have not been designed to take full advantage of the current advances
118 in computer architecture, which parallel solutions to problems which
119 can be run on architectures with vastly differing computational
120 abilities (such as GPUs).
121
122 To resolve this, I am in the process of actively developing new open
123 source tools[^extending_note] which are capable of running on
124 massively parallel architectures using both multiple computers
125 (openMPI) and multiple GPUs on the same computer (Nvidia's CUDA) to
126
127 1.  Develop an open source massively parallel imputation method which
128     can combine existing GWAS results with new deep sequencing
129     and genetic profiling results.
130
131 2.  Extend same tools to call SNPs both incrementally and in parallel.
132
133 I am currently working on extending samtools (an Open Source SNP
134 calling suite) to support running on multiple computers.
135
136 ## Gut microbiota alteration in SLE
137
138 Many autoimmune disorders are known to be affected by gut microbiota.
139 Preliminary evidence suggests that mice which develop SLE have
140 differences in gut microbiota from mice which do not develop SLE,
141 which suggests that SLE severity may also be affected by differences
142 in human gut microbiota. I am currently developing novel methods to
143
144 1.  Determine which gut microbiota differ between mice with and
145     without SLE and using 16S sequencing
146
147 2.  Determine which gut microbiota differ between humans with and
148     without SLE using 16S sequencing, given #1.
149
150 ## Continuous, incremental analysis
151
152 Just as science requires continuous testing of hypotheses,
153 bioinformatics is slowly moving towards continuous incremental
154 analysis of data. Most current tools use iterative analysis, where
155 analyses must be completely re-run with each new piece of data that is
156 obtained. When the amount of data remains small relative to the
157 overall computing power available, this is a feasible approach.
158 However, as the amount of data increases, it stops being feasible to
159 completely reanalyze data as new data is obtained, and incremental
160 analysis approaches are necessary. I will be working to extend
161 existing analysis pipelines to handle the incremental analysis of
162 data.
163
164 # Research Funding
165
166 ## Funding Opportunities
167
168 I anticipate obtaining funding from the following sources to pursue
169 the research goals outlined previously: 
170
171 1.  National Institute of Health
172     
173     1.  [Research Project Grant (RO1)](http://grants.nih.gov/grants/guide/pa-files/PA-13-302.html) (NHGRI, NIAID, BISTI)
174     
175     2.  [NLM Career Development Award in Biomedical Informatics (K01)](http://grants.nih.gov/grants/guide/pa-files/PAR-13-284.html)
176     
177     3.  [Continued Development and Maintenance of Software (R01)](http://grants.nih.gov/grants/guide/pa-files/PAR-11-028.html) (extending existing biofinformatics software)
178
179 2.  Alliance for Lupus Research
180     
181     1.  [Target Identification in Lupus](http://www.lupusresearch.org/news-and-events/press-releases/til.html)
182
183 3.  Institution specific funding
184
185 ## Track Record of Funding
186
187 The projects that I am proposing have a strong track record of being
188 funded by both the NIH and the Alliance for Lupus Research.
189
190 # Wider impact of research agenda
191
192
193 My research will identify genetic variants and pathways underlying SLE
194 and other important human diseases, leading to better methodologies
195 for both the diagnosis and treatment of those diseases, and resulting
196 in significant decreases is patient morbidity and mortality.
197 Secondarily, the tools that I develop to effect this work will enable
198 researchers in other fields to more rapidly and cheaply identify
199 relevant factors for economically and environmentally important
200 phenotypes, such as pathogen-resistance in crops or
201 disease-susceptibility in thylocenes. Furthermore, as all of my tools
202 will be released under Open Source licenses, external researchers will
203 be able to build upon and improve my tools without being forced to
204 reinvent them.
205
206
207 [#Armstrong2009:sle_gi]: D L Armstrong et al. “Identification of new SLE-associated genes with a two-step
208     Bayesian study design”. In: Genes Immun. 10.5 (July 2009), pp. 446–456. doi:
209     [10.1038/gene.2009.38](http://dx.doi.org/10.1038/gene.2009.38).
210     
211 [#Armstrong2008:function2gene]: Don L Armstrong, Chaim O Jacob, and Raphael Zidovetzki. “Function2Gene: a
212     gene selection tool to increase the power of genetic association studies by utilizing
213     public databases and expert knowledge”. In: BMC Bioinformatics 9 (2008), p. 311.
214     doi: [10.1186/1471-2105-9-311](http://dx.doi.org/10.1186/1471-2105-9-311).
215     
216 [#Jacob2009:sle_irak1]: Chaim O Jacob et al. “Identification of IRAK1 as a risk gene with critical role
217     in the pathogenesis of systemic lupus erythematosus”. In: Proc. Natl. Acad. Sci.
218     U.S.A. 106.15 (Apr. 2009), pp. 6256–6261. doi: [10.1073/pnas.0901181106](http://dx.doi.org/10.1073/pnas.0901181106).
219
220 [#Jacob2007:ar_lupus]: Chaim O Jacob et al. “Identification of novel susceptibility genes in childhood-
221     onset systemic lupus erythematosus using a uniquely designed candidate gene
222     pathway platform”. In: Arthritis Rheum. 56.12 (Dec. 2007), pp. 4164–4173. doi:
223     [10.1002/art.23060](http://dx.doi.org/10.1002/art.23060).
224
225 [#Jacob2012:sle_ncf2]: Chaim O Jacob et al. “Lupus-associated causal mutation in neutrophil cytosolic
226     factor 2 (NCF2) brings unique insights to the structure and function of NADPH
227     oxidase”. In: Proc. Natl. Acad. Sci. U.S.A. 109.2 (Jan. 2012), pp. 59–67. doi:
228        [10.1073/pnas.1113251108](http://dx.doi.org/10.1073/pnas.1113251108).
229
230 [#Stapleton2011:thbs1]: Christopher J Stapleton et al.
231      “Thrombospondin-1 modulates the angiogenic phe- notype of human
232      cerebral arteriovenous malformation endothelial cells”. In:
233      Neurosurgery 68.5 (May 2011), pp. 1342–1353.
234      doi: [10.1227/NEU.0b013e31820c0a68](http://dx.doi.org/10.1227/NEU.0b013e31820c0a68).
235
236 [survival_rate]: Only 4% of patients survive to 5 years after diagnosis
237
238 [avm_definition]: Direct artery to vein connection without an
239     intervening capilary bed; leads to high pressure arterial flow in
240     venous tissue and can lead to hemmorrhage and death.
241
242 [extending_note]: and extending existing open source tools where they
243     exist
244