]> git.donarmstrong.com Git - rsem.git/blobdiff - README.md
Added --version option for rsem-calculate-expression
[rsem.git] / README.md
index ed5acc050230fd50a1803e31d24790a8919ce8fd..1e64574d8683f73779cad2bc95a32eb9001c1d52 100644 (file)
--- a/README.md
+++ b/README.md
@@ -15,6 +15,7 @@ Table of Contents
 * [Simulation](#simulation)
 * [Generate Transcript-to-Gene-Map from Trinity Output](#gen_trinity)
 * [Differential Expression Analysis](#de)
+* [Authors](#authors)
 * [Acknowledgements](#acknowledgements)
 * [License](#license)
 
@@ -50,13 +51,11 @@ variable.
 
 ### Prerequisites
 
-C++ and Perl are required to be installed. 
+C++, Perl and R are required to be installed. 
 
 To take advantage of RSEM's built-in support for the Bowtie alignment
 program, you must have [Bowtie](http://bowtie-bio.sourceforge.net) installed.
 
-If you want to plot model learned by RSEM, you should also install R. 
-
 ## <a name="usage"></a> Usage
 
 ### I. Preparing Reference Sequences
@@ -158,11 +157,12 @@ plot, run the 'rsem-bam2wig' program on the
 
 Usage:    
 
-    rsem-bam2wig sorted_bam_input wig_output wiggle_name
+    rsem-bam2wig sorted_bam_input wig_output wiggle_name [--no-fractional-weight]
 
-sorted_bam_input: sorted bam file   
-wig_output: output file name, e.g. output.wig   
-wiggle_name: the name the user wants to use for this wiggle plot  
+sorted_bam_input        : Input BAM format file, must be sorted  
+wig_output              : Output wiggle file's name, e.g. output.wig  
+wiggle_name             : the name of this wiggle plot  
+--no-fractional-weight  : If this is set, RSEM will not look for "ZW" tag and each alignment appeared in the BAM file has weight 1. Set this if your BAM file is not generated by RSEM. Please note that this option must be at the end of the command line.
 
 #### b) Loading a BAM and/or Wiggle file into the UCSC Genome Browser or Integrative Genomics Viewer(IGV)
 
@@ -174,7 +174,7 @@ Here are some guidance for visualizing transcript coordinate files using IGV:
 
 1) Import the transcript sequences as a genome 
 
-Select File -> Import Genome, then fill in ID, Name and Fasta file. Fasta file should be 'reference_name.transcripts.fa'. After that, click Save button. Suppose ID is filled as 'reference_name', a file called 'reference_name.genome' will be generated. Next time, we can use: File -> Load Genome, then select 'reference_name.genome'.
+Select File -> Import Genome, then fill in ID, Name and Fasta file. Fasta file should be 'reference_name.idx.fa'. After that, click Save button. Suppose ID is filled as 'reference_name', a file called 'reference_name.genome' will be generated. Next time, we can use: File -> Load Genome, then select 'reference_name.genome'.
 
 2) Load visualization files
 
@@ -289,23 +289,26 @@ consideration. Because read mapping ambiguity is prevalent among
 isoforms and de novo assembled transcripts, these tools are not ideal
 for DE detection in such conditions. 
 
-**EBSeq**, an empirical Bayesian DE
-analysis tool developed in UW-Madison, can take variance due to read
-mapping ambiguity into consideration by grouping isoforms with parent
-gene's number of isoforms. In addition, it is more robust to
-outliers. RSEM includes the newest version of EBSeq in the folder
-named 'EBSeq'.
-
-For more information about EBSeq (including the paper describing their
-method), please visit <a
+**EBSeq**, an empirical Bayesian DE analysis tool developed in
+UW-Madison, can take variance due to read mapping ambiguity into
+consideration by grouping isoforms with parent gene's number of
+isoforms. In addition, it is more robust to outliers. For more
+information about EBSeq (including the paper describing their method),
+please visit <a
 href="http://www.biostat.wisc.edu/~ningleng/EBSeq_Package">EBSeq
-website</a>. You can also find a local version of vignette under
-'EBSeq/inst/doc/EBSeq_Vignette.pdf'.
+website</a>.
+
+RSEM includes the newest version of EBSeq in its folder
+named 'EBSeq'. To use it, first type
+
+    make ebseq
+
+to compile the EBSeq related codes. 
 
 EBSeq requires gene-isoform relationship for its isoform DE
 detection. However, for de novo assembled transcriptome, it is hard to
 obtain an accurate gene-isoform relationship. Instead, RSEM provides a
-script 'rsem-generate-ngvector', which clusters isoforms based on
+script 'rsem-generate-ngvector', which clusters transcripts based on
 measures directly relating to read mappaing ambiguity. First, it
 calcualtes the 'unmappability' of each transcript. The 'unmappability'
 of a transcript is the ratio between the number of k mers with at
@@ -335,20 +338,54 @@ section 3.2.5 (Page 10) of EBSeq's vignette:
     IsoEBres=EBTest(Data=IsoMat, NgVector=NgVec, ...)
 
 For users' convenience, RSEM also provides a script
-'rsem-form-counts-matrix' to extract input matrix from expression
+'rsem-generate-data-matrix' to extract input matrix from expression
 results:
 
-    rsem-form-counts-matrix sampleA.[genes/isoforms].results sampleB.[genes/isoforms].results ... > output_name.counts.matrix
+    rsem-generate-data-matrix sampleA.[genes/isoforms].results sampleB.[genes/isoforms].results ... > output_name.counts.matrix
 
 The results files are required to be either all gene level results or
 all isoform level results. You can load the matrix into R by
 
-    IsoMat <- read.table(file="output_name.counts.matrix")
+    IsoMat <- data.matrix(read.table(file="output_name.counts.matrix"))
 
 before running function 'EBTest'.
 
-Questions related to EBSeq should be sent to <a href="mailto:nleng@wisc.edu">Ning Leng</a>.
+At last, RSEM provides a R script, 'rsem-find-DE', which run EBSeq for
+you. 
+
+Usage: 
+
+    rsem-find-DE data_matrix_file [--ngvector ngvector_file] number_sample_condition1 FDR_rate output_file
+
+This script calls EBSeq to find differentially expressed genes/transcripts in two conditions.
+
+data_matrix_file: m by n matrix containing expected counts, m is the number of transcripts/genes, n is the number of total samples.
+[--ngvector ngvector_file]: optional field. 'ngvector_file' is calculated by 'rsem-generate-ngvector'. Having this field is recommended for transcript data.
+number_sample_condition1: the number of samples in condition 1. A condition's samples must be adjacent. The left group of samples are defined as condition 1.
+FDR_rate: false discovery rate.
+output_file: the output file.
+
+The results are written as a matrix with row and column names. The row names are the differentially expressed transcripts'/genes' ids. The column names are 'PPEE', 'PPDE', 'PostFC' and 'RealFC'.
+
+PPEE: posterior probability of being equally expressed.
+PPDE: posterior probability of being differentially expressed.
+PostFC: posterior fold change (condition 1 over condition2).
+RealFC: real fold change (condition 1 over condition2).
+
+To get the above usage information, type 
+
+    rsem-find-DE
+
+Note: any wrong parameter setting will lead 'rsem-find-DE' to output
+usage information and halt.
+
+Questions related to EBSeq should
+be sent to <a href="mailto:nleng@wisc.edu">Ning Leng</a>.
+
+## <a name="authors"></a> Authors
+
+RSEM is developed by Bo Li, with substaintial technical input from Colin Dewey.
+
 ## <a name="acknowledgements"></a> Acknowledgements
 
 RSEM uses the [Boost C++](http://www.boost.org) and