]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blobdiff - current/r/varcon/README
[svn-upgrade] new version scowl (7.1)
[deb_pkgs/scowl.git] / current / r / varcon / README
index bc25ad9695a327dfe7f64d861687e1d31b33209d..c69c206c5819fd4a4ec5af9e123efcaf6855cd2e 100644 (file)
-Variant Conversion Info (VARCON)
+Variant Conversion Info (VarCon)
 
 
-Revision 4.1
+Revision 5.1 (SVN Revision 161)
 
 
-August 10, 2004
+January 6, 2011
 
 
-Copyright 2000-2004 by Kevin Atkinson (kevina@gnu.org)
+Copyright 2000-2011 by Kevin Atkinson (kevina@gnu.org)
 
 
-This package contains tables to convert between American, British, and
-Canadian spellings and vocabulary as well as well as a table listing the 
-equivalent forms of other variants.
+This package contains information to convert between American,
+British, and Canadian spellings and vocabulary as well and other
+variant information.
 
 The latest version can be found at http://wordlist.sourceforge.net/.
 
 
 The latest version can be found at http://wordlist.sourceforge.net/.
 
-The abbc.tab contains mappings between American, British with "ise"
-spelling, British with "ize" spelling, and Canadian spellings.  The
-fields are separated by a tab character and have the Unix EOL
-character.  The first four columns are the spellings respectively.
-The last column is used to mark words where the American or British
-spelling is also used in the British or American spelling but only
-when the word has a certain meaning.  American words that are also
-used in British / Canadian spellings are marked with a "A" while
-British words that are also used in American / Canadian spellings are
-marked with a "B".
-
-The file voc.tab is like abbc.tab except that it converts between
-vocabulary instead of spelling.  If more than one word if often uses to
-describe the same thing the words are separated with commas.  The last
-column contains additional notes on when the word is used.  Unlike
-abbc.tab it is generally not suitable for automatic conversion.
+The main data file is varcon.txt.  It contains information on the
+preferred American, British, and Canadian spelling of a word as well
+as other variant information.
+
+Each line contains a mapping between the various spellings of a word.
+Words are tageed to indicate where the spelling is used, and each
+word/tag pair is separated with a " / ".  For example in the line:
+  A Cv: acknowledgment / Av B C: acknowledgement
+"acknowledgment" and "acknowledgement" are two spellings of the same
+word and "A", "Cv", "B", etc are the tags.  Tags are seperated by
+spaces and the group of tags is seperated from the word with a ": ".
+Here, "acknowledgment" is the preferred American spelling (as
+indicated by the "A") of the word, and "acknowledgement" is the
+preferred Canadian and British spelling ("B" and "C").  However the
+American spelling is sometimes used in Canada (as indicated by "Cv",
+where the lowercase "v" indicated a variant form) and the British
+spelling is sometimes used in America (as indicated the the "Av").
+
+More generally each tag consists of a spelling category (for example
+"A") followed possible by a variant indicator.  The spelling
+categories are as follows:
+  A: American
+  B: British "ise" spelling
+  Z: British "ize" spelling or OED prefered Spelling
+  C: Canadian
+  _: Other (Variant info based on American dictionaries, never used
+            with any of the above).
+and the variants tags are as follows:
+  .: equal
+  v: variant
+  V: seldom used variant
+  -: possible variant, should generally not used
+  x: improper variant (should not use)
+
+The "." or equal variant tags are reserved for special cases when
+there is little agreement between dictionaries or when I think the
+dictionary is wrong.  The "v" indicator is used for most words marked
+as variants in the dictionary.  However, some variants will be demoted
+to a "V".  For example, if the variant is marked as "also" by
+Merriam-Webster, or also if only some dictionaries acknowledge the
+existence the variant.  "-" is used when the variant is generally not
+listed is the dictionary but I could find some evidence of it use, or
+when it is it marked as as a archaic spelling for the word.  The "x"
+is used when the spelling is almost generally considered a
+misspelling, and is only included for completeness.
+
+If there are no tags with the 'Z' spelling category on the line than
+'B' implies 'Z'.  Similarly if there are no 'C' tags than 'Z' implies
+'C'.
+
+For ease of reading and maintaining the data file, each line is
+grouped in a cluster of closely related words.  Each cluster is
+uniquely identifed by a headword, which is generally the American
+spelling of word on the first line of the cluster.  Each cluster is
+started with a '#' and is followed by the headword with some
+additional information after it.  For example the cluster for
+acknowledgment is:
+  # acknowledgment <verified> (level 35)
+  A Cv: acknowledgment / Av B C: acknowledgement
+  A Cv: acknowledgments / Av B C: acknowledgements
+  A Cv: acknowledgment's / Av B C: acknowledgement's
+The "<verified>" tag will be explained latter, and "(level 35)"
+indictated what level in SCOWL (see http://wordlist.sourceforge.net) 
+the headword is found in.  The levels generaly mean the following:
+  <= 35: Very common word
+  <= 70: Can be found in the dictionary
+     80: Likely a valid word, can likely be found in an
+         unabridged dictionary
+   > 80: May not even be a legal word
+
+Sometimes the spelling of a word depends on the usage.  If so the word
+is listed more than once within a cluster, with any usage information
+being indicated after a " | ".  For example here is part of the cluser
+for prize:
+  A B: prize | reward
+  A B: prizes | reward
+  A C: prize / B: prise | otherwise
+  A C: prizes / B: prises | otherwise
+which indicated than the preferred spelling of prize is always with a
+"z" when meaning a reward, but otherwise is spelled with a "s" is
+British English.  In the example above a brief definition of the word
+is given, but often no such attempt is made, and the definition simply
+consists of a number, for example:
+  A B: sake | :1
+  A C: sake / Av B Cv: saki | :2
+
+Sometimes part-of-speach (POS) info is given to help distinguish which
+form is used.  For example:
+  A B C: practice / AV Cv: practise | <N>
+  A Cv: practice / AV B C: practise | <V>
+POS info is always given given in the form "<POS>" and if a definition
+is also given the the POS info is always first.  The POS tags used are as
+follows:
+  <N>: Noun
+  <V>: Verb
+  <Adj>: Adjective
+  <Adv>: Adverb
+
+A "(-)" before the definition indicated a rarly used or archaic form
+of a word, for example:
+  A B: bark | :1
+  A: bark / Av B: barque | (-) ship
+
+A "--" indicates a note rather than definition.  This is generally
+used to indicate that the spelling of the plural form not depend on
+the spelling of the root word, for example:
+  _: cabby / _.: cabbie
+  _: cabbies | -- plural
+
+Misc. notes on a particular form of a word are given after a "#" on
+the same line.  Misc. notes for the cluster are given at the end of
+the cluster and are prefixed with "##", for example:
+  # coloration <verified> (level 50)
+  A B C: coloration / B. Cv: colouration
+  A B C: colorations / B. Cv: colourations
+  A B C: coloration's / B. Cv: colouration's
+  ## OED has coloration as the prefered spelling and discolouration as a
+  ## variant for British Engl or some reason
+In the notes ODE (not to be confused with OED) stands for Oxford
+Dictionary of English, "Ox" is used for any Oxford dictionary, and
+"M-W" for Merriam-Webster.
+
+Earlier versions of varcon contained numerous errors.  With version
+5.0 massive effort has been made to correct many of these errors.
+Clusters that have undergone some form of verification (and likely
+correction) are marked with "<verified>".  As of version 5.0, most
+clusters with headwords word in common usage (SCOWL level 35 and
+below) should now be checked, as well as many others.  No effort was
+made to check clusters with headwords in SCOWL level 80 and above;
+many of those entries are unlikely to be in the dictionary anyway.
 
 The file variant-also.tab contains additional mappings between various
 
 The file variant-also.tab contains additional mappings between various
-spellings of a word which are not necessarily region dependent.  Only
-mappings that are not listed in abbc.tab are included in this mapping.
-No attempt is made to distinguish the primary form of a word.  The
-file variant-infl.tab is like variant-also.tab except that it is
-created automatically from the AGID inflection database.  The file
+spellings of a word which are not yet in varcon.txt.  No attempt is
+made to distinguish the primary form of a word.  The file
+variant-infl.tab is like variant-also.tab except that it is created
+automatically from the AGID inflection database.  The file
 variant-wroot.tab is like variant-infl.tab except that it also
 included the root form of the word.
 
 variant-wroot.tab is like variant-infl.tab except that it also
 included the root form of the word.
 
-Both the translation array and variant table includes a lot of strange
-affixations of words which I have no intention of removing as some
-people might find them useful.
-
-The "make-variant" Perl script will combine abbc.tab, variant-also.tab,
-and variant-infl.tab into one huge mapping and will output the result
-to "variant.tab".  If the "no-infl" option is given than
-variant-infl.tab will not be included.
-
-The "split" script will create 5 words lists from abbc.tab:
-american.lst, british.lst, british_z.lst, canadian.lst, and
-common.lst.  The common.lst file contains words that were marked in
-the last column as explained above and the other four contain all the
-possible words that might be used by that particular country, included
-some of the words marked in the last column.
+The file voc.tab is similar to varcon.txt but converts between
+vocabulary instead of spelling.  Unlike varcon.tab it is a simple tab
+seperated file with the fields correspoding to the American, British,
+and Canadian words.  If more than one word if often used to describe
+the same thing the words are separated with commas.  The last column
+contains additional notes on when the word is used.  Unlike varcon.txt
+it is generally not suitable for automatic conversion.
+
+The "make-variant" Perl script will combine varcon.txt,
+variant-also.tab, and variant-infl.tab into one huge mapping and will
+output the result to "variant.tab".  If the "no-infl" option is given
+than variant-infl.tab will not be included.
+
+The "split" script will split out the information in varcon.txt into
+several word lists named as follows:
+  <spelling>[-v<variant level>][-uncommon].lst
+where <spelling> is one of: american, british, british_z, canadian,
+common, or other.  "common" is used for words which appear in
+varcon.txt, yet are used in all versions of english, such as "prize",
+and "other" is used for the "_" spelling category.  The mapping from
+the variant indicators in varcon.txt to the numberic variant level is
+as follows:
+  v => 0
+  V => 1
+  - => 2
+"-uncommon" is used for forms marked with "(-)" as already described.
 
 The "translate" Perl script will translate a text file from one
 spelling to another. Its usage is:
 
 The "translate" Perl script will translate a text file from one
 spelling to another. Its usage is:
@@ -71,9 +195,14 @@ Text is read in from standard input and is outputted to standard out.
 Words are marked with a '?' before and after the questionable word
 when the option is enabled.
 
 Words are marked with a '?' before and after the questionable word
 when the option is enabled.
 
-If you discover any errors in these mappings, besides the strange
-affixations, or have suggestions for additions be sure and let me know
-at kevina@gnu.org.
+The file varcon.pm contains some library routines for parsing
+varcon.txt and is used by many of the scripts above.
+
+If you discover any errors in these mappings or have suggestions for
+additions please file a bug report, which you can find instructions
+for at http://wordlist.sourceforge.net/, or alternativly email me
+directly at kevina@gnu.org, but I will likely tell you to file a bug
+report so that I don't forget about it.
 
 SOURCE:
 
 
 SOURCE:
 
@@ -120,11 +249,65 @@ As well as several online dicionaries:
   American Heritage: http://www.bartleby.com/61/
   Cambridge (ESL): http://dictionary.cambridge.org/
 
   American Heritage: http://www.bartleby.com/61/
   Cambridge (ESL): http://dictionary.cambridge.org/
 
+In version 5.0 a massive effort to correct the numerous errors in
+VarCon was done.  The primary sources used for verification where:
+
+  Marriam-Webster: http://www.m-w.com/
+  Free version of Oxford Dictionaries Online: 
+    http://www.oxforddictionaries.com/
+  Oxford dictionaries available via Oxford Reference Online
+    (subscription service, http://www.oxfordreference.com/):
+    The New Oxford American Dictionary (2nd edition, 2006)
+      and sometimes: The Oxford American Dictionary of Current English (2002)
+    The Concise Oxford English Dictionary (11th edition revised, 2008)
+      and sometimes: The Oxford Dictionary of English (2nd edition revised, 2005)
+    The Canadian Oxford Dictionary (2004)
+
+I also used Tysto UK vs US spelling list available at:
+  http://www.tysto.com/articles05/q1/20050324uk-us.shtml
+to make sure I didn't leave out any information in VarCon, however any
+additions from his lists where verified using the dictionaries
+mentioned above as his lists contained numerous errors (such as
+including archaic spellings of words)
+
+I also made indirect use of Luke's Canadian, British and American
+Spelling page available at:
+  http://www.lukemastin.com/testing/spelling/cgi-bin/database.cgi?database=spelling
+but only to perform some initial verification, in the end I rechecked
+his data using the dictionaries above.  (However, his data is, by far,
+more accurate than Tysto's)
+
 CHANGELOG:
 
 CHANGELOG:
 
+From Revision 5.0 to Revision 5.1 (January 6, 2010)
+
+   - Corrected numerous errors after running various forms
+     of verification on varcon.txt.
+
+   - Reordered the clusters in varcon.txt so that they are
+     mostly in alphabetic order based on the headword.
+  
+From Revision 4.1 to Revision 5.0 (December 27, 2010)
+
+  - Completely new format for the main table which, in addition to
+    providing the preferred spelling of a word for various forms of
+    English, also records variant and other information.  To reflect
+    this change, the name of the file was renamed from abbc.tab to
+    varcon.txt.
+
+  - Massive effort to verify the variant information against
+    authoritative sources (mainly Oxford dictionaries).  Most entries
+    for common words (SCOWL level 35 and below) have been checked
+    against at least a British and Canadian dictionary.
+
+  - Added variant information for numerous other words, even when
+    there is no difference between the various forms on English.
+
+  - Other changes corresponding to the new format.
+
 From Revision 4 to Revision 4.1 (August 10, 2004)
 
 From Revision 4 to Revision 4.1 (August 10, 2004)
 
-  - Fixed various errors ib abbc.tab
+  - Fixed various errors in abbc.tab
 
   - Removed clause 4 from the Ispell copyright with permission of Geoff
     Kuenning.
 
   - Removed clause 4 from the Ispell copyright with permission of Geoff
     Kuenning.
@@ -156,7 +339,7 @@ From Revision 1 to Revision 2 (January 27, 2001)
 
 COPYRIGHT:
 
 
 COPYRIGHT:
 
-Copyright 2000-2004 by Kevin Atkinson
+Copyright 2000-2010 by Kevin Atkinson
 
 Permission to use, copy, modify, distribute and sell this array, the
 associated software, and its documentation for any purpose is hereby
 
 Permission to use, copy, modify, distribute and sell this array, the
 associated software, and its documentation for any purpose is hereby