]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blob - 7.1/r/varcon/README
[svn-upgrade] Tagging scowl (7.1)
[deb_pkgs/scowl.git] / 7.1 / r / varcon / README
1 Variant Conversion Info (VarCon)
2
3 Revision 5.1 (SVN Revision 161)
4
5 January 6, 2011
6
7 Copyright 2000-2011 by Kevin Atkinson (kevina@gnu.org)
8
9 This package contains information to convert between American,
10 British, and Canadian spellings and vocabulary as well and other
11 variant information.
12
13 The latest version can be found at http://wordlist.sourceforge.net/.
14
15 The main data file is varcon.txt.  It contains information on the
16 preferred American, British, and Canadian spelling of a word as well
17 as other variant information.
18
19 Each line contains a mapping between the various spellings of a word.
20 Words are tageed to indicate where the spelling is used, and each
21 word/tag pair is separated with a " / ".  For example in the line:
22   A Cv: acknowledgment / Av B C: acknowledgement
23 "acknowledgment" and "acknowledgement" are two spellings of the same
24 word and "A", "Cv", "B", etc are the tags.  Tags are seperated by
25 spaces and the group of tags is seperated from the word with a ": ".
26 Here, "acknowledgment" is the preferred American spelling (as
27 indicated by the "A") of the word, and "acknowledgement" is the
28 preferred Canadian and British spelling ("B" and "C").  However the
29 American spelling is sometimes used in Canada (as indicated by "Cv",
30 where the lowercase "v" indicated a variant form) and the British
31 spelling is sometimes used in America (as indicated the the "Av").
32
33 More generally each tag consists of a spelling category (for example
34 "A") followed possible by a variant indicator.  The spelling
35 categories are as follows:
36   A: American
37   B: British "ise" spelling
38   Z: British "ize" spelling or OED prefered Spelling
39   C: Canadian
40   _: Other (Variant info based on American dictionaries, never used
41             with any of the above).
42 and the variants tags are as follows:
43   .: equal
44   v: variant
45   V: seldom used variant
46   -: possible variant, should generally not used
47   x: improper variant (should not use)
48
49 The "." or equal variant tags are reserved for special cases when
50 there is little agreement between dictionaries or when I think the
51 dictionary is wrong.  The "v" indicator is used for most words marked
52 as variants in the dictionary.  However, some variants will be demoted
53 to a "V".  For example, if the variant is marked as "also" by
54 Merriam-Webster, or also if only some dictionaries acknowledge the
55 existence the variant.  "-" is used when the variant is generally not
56 listed is the dictionary but I could find some evidence of it use, or
57 when it is it marked as as a archaic spelling for the word.  The "x"
58 is used when the spelling is almost generally considered a
59 misspelling, and is only included for completeness.
60
61 If there are no tags with the 'Z' spelling category on the line than
62 'B' implies 'Z'.  Similarly if there are no 'C' tags than 'Z' implies
63 'C'.
64
65 For ease of reading and maintaining the data file, each line is
66 grouped in a cluster of closely related words.  Each cluster is
67 uniquely identifed by a headword, which is generally the American
68 spelling of word on the first line of the cluster.  Each cluster is
69 started with a '#' and is followed by the headword with some
70 additional information after it.  For example the cluster for
71 acknowledgment is:
72   # acknowledgment <verified> (level 35)
73   A Cv: acknowledgment / Av B C: acknowledgement
74   A Cv: acknowledgments / Av B C: acknowledgements
75   A Cv: acknowledgment's / Av B C: acknowledgement's
76 The "<verified>" tag will be explained latter, and "(level 35)"
77 indictated what level in SCOWL (see http://wordlist.sourceforge.net) 
78 the headword is found in.  The levels generaly mean the following:
79   <= 35: Very common word
80   <= 70: Can be found in the dictionary
81      80: Likely a valid word, can likely be found in an
82          unabridged dictionary
83    > 80: May not even be a legal word
84
85 Sometimes the spelling of a word depends on the usage.  If so the word
86 is listed more than once within a cluster, with any usage information
87 being indicated after a " | ".  For example here is part of the cluser
88 for prize:
89   A B: prize | reward
90   A B: prizes | reward
91   A C: prize / B: prise | otherwise
92   A C: prizes / B: prises | otherwise
93 which indicated than the preferred spelling of prize is always with a
94 "z" when meaning a reward, but otherwise is spelled with a "s" is
95 British English.  In the example above a brief definition of the word
96 is given, but often no such attempt is made, and the definition simply
97 consists of a number, for example:
98   A B: sake | :1
99   A C: sake / Av B Cv: saki | :2
100
101 Sometimes part-of-speach (POS) info is given to help distinguish which
102 form is used.  For example:
103   A B C: practice / AV Cv: practise | <N>
104   A Cv: practice / AV B C: practise | <V>
105 POS info is always given given in the form "<POS>" and if a definition
106 is also given the the POS info is always first.  The POS tags used are as
107 follows:
108   <N>: Noun
109   <V>: Verb
110   <Adj>: Adjective
111   <Adv>: Adverb
112
113 A "(-)" before the definition indicated a rarly used or archaic form
114 of a word, for example:
115   A B: bark | :1
116   A: bark / Av B: barque | (-) ship
117
118 A "--" indicates a note rather than definition.  This is generally
119 used to indicate that the spelling of the plural form not depend on
120 the spelling of the root word, for example:
121   _: cabby / _.: cabbie
122   _: cabbies | -- plural
123
124 Misc. notes on a particular form of a word are given after a "#" on
125 the same line.  Misc. notes for the cluster are given at the end of
126 the cluster and are prefixed with "##", for example:
127   # coloration <verified> (level 50)
128   A B C: coloration / B. Cv: colouration
129   A B C: colorations / B. Cv: colourations
130   A B C: coloration's / B. Cv: colouration's
131   ## OED has coloration as the prefered spelling and discolouration as a
132   ## variant for British Engl or some reason
133 In the notes ODE (not to be confused with OED) stands for Oxford
134 Dictionary of English, "Ox" is used for any Oxford dictionary, and
135 "M-W" for Merriam-Webster.
136
137 Earlier versions of varcon contained numerous errors.  With version
138 5.0 massive effort has been made to correct many of these errors.
139 Clusters that have undergone some form of verification (and likely
140 correction) are marked with "<verified>".  As of version 5.0, most
141 clusters with headwords word in common usage (SCOWL level 35 and
142 below) should now be checked, as well as many others.  No effort was
143 made to check clusters with headwords in SCOWL level 80 and above;
144 many of those entries are unlikely to be in the dictionary anyway.
145
146 The file variant-also.tab contains additional mappings between various
147 spellings of a word which are not yet in varcon.txt.  No attempt is
148 made to distinguish the primary form of a word.  The file
149 variant-infl.tab is like variant-also.tab except that it is created
150 automatically from the AGID inflection database.  The file
151 variant-wroot.tab is like variant-infl.tab except that it also
152 included the root form of the word.
153
154 The file voc.tab is similar to varcon.txt but converts between
155 vocabulary instead of spelling.  Unlike varcon.tab it is a simple tab
156 seperated file with the fields correspoding to the American, British,
157 and Canadian words.  If more than one word if often used to describe
158 the same thing the words are separated with commas.  The last column
159 contains additional notes on when the word is used.  Unlike varcon.txt
160 it is generally not suitable for automatic conversion.
161
162 The "make-variant" Perl script will combine varcon.txt,
163 variant-also.tab, and variant-infl.tab into one huge mapping and will
164 output the result to "variant.tab".  If the "no-infl" option is given
165 than variant-infl.tab will not be included.
166
167 The "split" script will split out the information in varcon.txt into
168 several word lists named as follows:
169   <spelling>[-v<variant level>][-uncommon].lst
170 where <spelling> is one of: american, british, british_z, canadian,
171 common, or other.  "common" is used for words which appear in
172 varcon.txt, yet are used in all versions of english, such as "prize",
173 and "other" is used for the "_" spelling category.  The mapping from
174 the variant indicators in varcon.txt to the numberic variant level is
175 as follows:
176   v => 0
177   V => 1
178   - => 2
179 "-uncommon" is used for forms marked with "(-)" as already described.
180
181 The "translate" Perl script will translate a text file from one
182 spelling to another. Its usage is:
183
184 translate <options> [<translation array>] <from> <to>
185 <options> is any of
186   -?,-h,--help this screen
187   -m,--mark     mark words where the translation is questionable
188   -i,--include  include words where the translation is questionable
189 <translation array> is the file name of the translation array,
190                     defaults to "abbc.tab".
191 <from> and <to> are one of: american, british, british_z, or canadian.
192 british-ise and british-ize can also be used.
193
194 Text is read in from standard input and is outputted to standard out.
195 Words are marked with a '?' before and after the questionable word
196 when the option is enabled.
197
198 The file varcon.pm contains some library routines for parsing
199 varcon.txt and is used by many of the scripts above.
200
201 If you discover any errors in these mappings or have suggestions for
202 additions please file a bug report, which you can find instructions
203 for at http://wordlist.sourceforge.net/, or alternativly email me
204 directly at kevina@gnu.org, but I will likely tell you to file a bug
205 report so that I don't forget about it.
206
207 SOURCE:
208
209 These mappings were compiled from numerous sources.
210
211 The abc.tab was originally created from the American and British word
212 lists found in the Ispell distribution and the Canadian word list
213 created by Garst R. Reese <reese@isn.net>:
214
215   What I have discovered is that Canadian is a modification of British.
216   Canadians use ize ization, izing izable like Americans, and gram instead
217   of gramme. The one exception I found was practise. It does not go to
218   practize.  Otherwise they use British spelling. So, what I am currently
219   checking books with is a an edited version of British, where I have
220   changed all occurrences of ise to ize, isab to izab, isation to ization,
221   ising to izing, and gramme to gram except I allow programme, which is
222   sometimes proper unless you are talking about a computer program. I did
223   bunches of greps to be sure these substitutions would work as expected.
224
225 Many other words have been added to abc.tab which were not in the
226 original Ispell word lists.
227
228 Many different web sources were consuled when crating the tables.  They
229 include:
230
231   The American-British British-American Dictionary
232     http://www.peak.org/~jeremy/dictionary/dictionary.html
233     American and British Spelling Differences
234       http://www.peak.org/~jeremy/dictionary/spellcat.html
235   Dave (VE7CNV)'s Truly Canadian Dictionary of Canadian Spelling
236     http://www.luther.bc.ca/~dave7cnv/cdnspelling/cdnspelling.html
237   Canadian Spelling Convention
238     http://imej.wfu.edu/articles/1999/1/02/demo/tutorial/canas.html
239   Cornerstone's Canadian English Page
240     http://www.web.net/cornerstone/cdneng.htm
241   Inter-Play Translation: British/Canadian/American Spelling
242     http://www.inter-play.com/translation/spel-ukus.htm
243   Inter-Play Translation: British/Canadian/American Vocabulary
244     http://www.inter-play.com/translation/voc-ukus.htm
245
246 As well as several online dicionaries:
247
248   Marriam-Webster: http://www.m-w.com/
249   American Heritage: http://www.bartleby.com/61/
250   Cambridge (ESL): http://dictionary.cambridge.org/
251
252 In version 5.0 a massive effort to correct the numerous errors in
253 VarCon was done.  The primary sources used for verification where:
254
255   Marriam-Webster: http://www.m-w.com/
256   Free version of Oxford Dictionaries Online: 
257     http://www.oxforddictionaries.com/
258   Oxford dictionaries available via Oxford Reference Online
259     (subscription service, http://www.oxfordreference.com/):
260     The New Oxford American Dictionary (2nd edition, 2006)
261       and sometimes: The Oxford American Dictionary of Current English (2002)
262     The Concise Oxford English Dictionary (11th edition revised, 2008)
263       and sometimes: The Oxford Dictionary of English (2nd edition revised, 2005)
264     The Canadian Oxford Dictionary (2004)
265
266 I also used Tysto UK vs US spelling list available at:
267   http://www.tysto.com/articles05/q1/20050324uk-us.shtml
268 to make sure I didn't leave out any information in VarCon, however any
269 additions from his lists where verified using the dictionaries
270 mentioned above as his lists contained numerous errors (such as
271 including archaic spellings of words)
272
273 I also made indirect use of Luke's Canadian, British and American
274 Spelling page available at:
275   http://www.lukemastin.com/testing/spelling/cgi-bin/database.cgi?database=spelling
276 but only to perform some initial verification, in the end I rechecked
277 his data using the dictionaries above.  (However, his data is, by far,
278 more accurate than Tysto's)
279
280 CHANGELOG:
281
282 From Revision 5.0 to Revision 5.1 (January 6, 2010)
283
284    - Corrected numerous errors after running various forms
285      of verification on varcon.txt.
286
287    - Reordered the clusters in varcon.txt so that they are
288      mostly in alphabetic order based on the headword.
289   
290 From Revision 4.1 to Revision 5.0 (December 27, 2010)
291
292   - Completely new format for the main table which, in addition to
293     providing the preferred spelling of a word for various forms of
294     English, also records variant and other information.  To reflect
295     this change, the name of the file was renamed from abbc.tab to
296     varcon.txt.
297
298   - Massive effort to verify the variant information against
299     authoritative sources (mainly Oxford dictionaries).  Most entries
300     for common words (SCOWL level 35 and below) have been checked
301     against at least a British and Canadian dictionary.
302
303   - Added variant information for numerous other words, even when
304     there is no difference between the various forms on English.
305
306   - Other changes corresponding to the new format.
307
308 From Revision 4 to Revision 4.1 (August 10, 2004)
309
310   - Fixed various errors in abbc.tab
311
312   - Removed clause 4 from the Ispell copyright with permission of Geoff
313     Kuenning.
314
315 From Revision 3 to Revision 4 (August 7, 2004)
316
317   - Added a column to "abc.tab" for the British "ize" spelling and
318     renamed the file to abbc.tab.
319   - Added verb forms of prize/prise to abbc.tab, removed from
320     variant-also.tab
321
322 From Revision 2 to Revision 3 (January 2, 2003)
323
324   - Added an option for not including variant-infl.tab for the
325     make-variant perl script
326   - Added the file variant-wroot.tab
327   - Added a few entries given to me by Francis Bond and Edward Betts
328
329 From Revision 1 to Revision 2 (January 27, 2001)
330
331   - Removed all "B" markers because I could not find any evidence for
332     them
333   - Corrected a few Canadian entries, especially those with the "B"
334     markers
335   - Added some more entries by trying fixed changes (such as ize to
336     ise) to words in SCOWL and hand-checking over the ones with semi-common
337     words in them. 
338   - Added variant-infl.tab
339
340 COPYRIGHT:
341
342 Copyright 2000-2010 by Kevin Atkinson
343
344 Permission to use, copy, modify, distribute and sell this array, the
345 associated software, and its documentation for any purpose is hereby
346 granted without fee, provided that the above copyright notice appears
347 in all copies and that both that copyright notice and this permission
348 notice appear in supporting documentation. Kevin Atkinson makes no
349 representations about the suitability of this array for any
350 purpose. It is provided "as is" without express or implied warranty.
351
352 Since the original words lists come from the Ispell distribution:
353
354 Copyright 1993, Geoff Kuenning, Granada Hills, CA
355 All rights reserved.
356
357 Redistribution and use in source and binary forms, with or without
358 modification, are permitted provided that the following conditions
359 are met:
360
361 1. Redistributions of source code must retain the above copyright
362    notice, this list of conditions and the following disclaimer.
363 2. Redistributions in binary form must reproduce the above copyright
364    notice, this list of conditions and the following disclaimer in the
365    documentation and/or other materials provided with the distribution.
366 3. All modifications to the source code must be clearly marked as
367    such.  Binary redistributions based on modified source code
368    must be clearly marked as modified versions in the documentation
369    and/or other materials provided with the distribution.
370 (clause 4 removed with permission from Geoff Kuenning)
371 5. The name of Geoff Kuenning may not be used to endorse or promote
372    products derived from this software without specific prior
373    written permission.
374
375 THIS SOFTWARE IS PROVIDED BY GEOFF KUENNING AND CONTRIBUTORS ``AS IS'' AND
376 ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
377 IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
378 ARE DISCLAIMED.  IN NO EVENT SHALL GEOFF KUENNING OR CONTRIBUTORS BE LIABLE
379 FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
380 DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
381 OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
382 HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
383 LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
384 OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
385 SUCH DAMAGE.