]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blob - r/varcon/README
75fa22c3693bd720fcf981c4913bd49b11961d15
[deb_pkgs/scowl.git] / r / varcon / README
1 Variant Conversion Info (VarCon)
2
3 Version 2015.08.24
4
5 Copyright 2000-2015 by Kevin Atkinson (kevina@gnu.org)
6
7 This package contains information to convert between American,
8 British, and Canadian spellings and vocabulary as well and other
9 variant information.
10
11 The latest version can be found at http://wordlist.aspell.net/.
12
13 The main data file is varcon.txt.  It contains information on the
14 preferred American, British, and Canadian spelling of a word as well
15 as other variant information.
16
17 Each line contains a mapping between the various spellings of a word.
18 Words are tagged to indicate where the spelling is used, and each
19 word/tag pair is separated with a " / ".  For example in the line:
20   A Cv: acknowledgment / Av B C: acknowledgement
21 "acknowledgment" and "acknowledgement" are two spellings of the same
22 word and "A", "Cv", "B", etc are the tags.  Tags are separated by
23 spaces and the group of tags is separated from the word with a ": ".
24 Here, "acknowledgment" is the preferred American spelling (as
25 indicated by the "A") of the word, and "acknowledgement" is the
26 preferred Canadian and British spelling ("B" and "C").  However the
27 American spelling is sometimes used in Canada (as indicated by "Cv",
28 where the lowercase "v" indicated a variant form) and the British
29 spelling is sometimes used in America (as indicated the the "Av").
30
31 More generally each tag consists of a spelling category (for example
32 "A") followed possible by a variant indicator.  The spelling
33 categories are as follows:
34   A: American
35   B: British "ise" spelling
36   Z: British "ize" spelling or OED preferred Spelling
37   C: Canadian
38   _: Other (Variant info based on American dictionaries, never used
39             with any of the above).
40 and the variants tags are as follows:
41   .: equal
42   v: variant
43   V: seldom used variant
44   -: possible variant, should generally not used
45   x: improper variant (should not use)
46
47 The "." or equal variant tags are reserved for special cases when
48 there is little agreement between dictionaries or when I think the
49 dictionary is wrong.  The "v" indicator is used for most words marked
50 as variants in the dictionary.  However, some variants will be demoted
51 to a "V".  For example, if the variant is marked as "also" by
52 Merriam-Webster, or also if only some dictionaries acknowledge the
53 existence the variant.  "-" is used when the variant is generally not
54 listed is the dictionary but I could find some evidence of it use, or
55 when it is it marked as as a archaic spelling for the word.  The "x"
56 is used when the spelling is almost generally considered a
57 misspelling, and is only included for completeness.
58
59 If there are no tags with the 'Z' spelling category on the line than
60 'B' implies 'Z'.  Similarly if there are no 'C' tags than 'Z' implies
61 'C'.
62
63 For ease of reading and maintaining the data file, each line is
64 grouped in a cluster of closely related words.  Each cluster is
65 uniquely identified by a headword, which is generally the American
66 spelling of word on the first line of the cluster.  Each cluster is
67 started with a '#' and is followed by the headword with some
68 additional information after it.  For example the cluster for
69 acknowledgment is:
70   # acknowledgment <verified> (level 35)
71   A Cv: acknowledgment / Av B C: acknowledgement
72   A Cv: acknowledgments / Av B C: acknowledgements
73   A Cv: acknowledgment's / Av B C: acknowledgement's
74 The "<verified>" tag will be explained latter, and "(level 35)"
75 indicate what level in SCOWL (see http://wordlist.sourceforge.net) 
76 the headword is found in.  The levels generally mean the following:
77   <= 35: Very common word
78   <= 70: Can be found in the dictionary
79      80: Likely a valid word, can likely be found in an
80          unabridged dictionary
81    > 80: May not even be a legal word
82
83 Sometimes the spelling of a word depends on the usage.  If so the word
84 is listed more than once within a cluster, with any usage information
85 being indicated after a " | ".  For example here is part of the cluster
86 for prize:
87   A B: prize | reward
88   A B: prizes | reward
89   A C: prize / B: prise | otherwise
90   A C: prizes / B: prises | otherwise
91 which indicated than the preferred spelling of prize is always with a
92 "z" when meaning a reward, but otherwise is spelled with a "s" is
93 British English.  In the example above a brief definition of the word
94 is given, but often no such attempt is made, and the definition simply
95 consists of a number, for example:
96   A B: sake | :1
97   A C: sake / Av B Cv: saki | :2
98
99 Sometimes part-of-speech (POS) info is given to help distinguish which
100 form is used.  For example:
101   A B C: practice / AV Cv: practise | <N>
102   A Cv: practice / AV B C: practise | <V>
103 POS info is always given given in the form "<POS>" and if a definition
104 is also given the the POS info is always first.  The POS tags used are as
105 follows:
106   <N>: Noun
107   <V>: Verb
108   <Adj>: Adjective
109   <Adv>: Adverb
110
111 A "(-)" before the definition indicated a rarely used or archaic form
112 of a word, for example:
113   A B: bark | :1
114   A: bark / Av B: barque | (-) ship
115
116 A "--" indicates a note rather than definition.  This is generally
117 used to indicate that the spelling of the plural form not depend on
118 the spelling of the root word, for example:
119   _: cabby / _.: cabbie
120   _: cabbies | -- plural
121
122 Misc. notes on a particular form of a word are given after a "#" on
123 the same line.  Misc. notes for the cluster are given at the end of
124 the cluster and are prefixed with "##", for example:
125   # coloration <verified> (level 50)
126   A B C: coloration / B. Cv: colouration
127   A B C: colorations / B. Cv: colourations
128   A B C: coloration's / B. Cv: colouration's
129   ## OED has coloration as the prefered spelling and discolouration as a
130   ## variant for British Engl or some reason
131 In the notes ODE (not to be confused with OED) stands for Oxford
132 Dictionary of English, "Ox" is used for any Oxford dictionary, and
133 "M-W" for Merriam-Webster.
134
135 Earlier versions of varcon contained numerous errors.  With version
136 5.0 massive effort has been made to correct many of these errors.
137 Clusters that have undergone some form of verification (and likely
138 correction) are marked with "<verified>".  As of version 5.0, most
139 clusters with headwords word in common usage (SCOWL level 35 and
140 below) should now be checked, as well as many others.  No effort was
141 made to check clusters with headwords in SCOWL level 80 and above;
142 many of those entries are unlikely to be in the dictionary anyway.
143
144 The file variant-also.tab contains additional mappings between various
145 spellings of a word which are not yet in varcon.txt.  No attempt is
146 made to distinguish the primary form of a word.  The file
147 variant-infl.tab is like variant-also.tab except that it is created
148 automatically from the AGID inflection database.  The file
149 variant-wroot.tab is like variant-infl.tab except that it also
150 included the root form of the word.
151
152 The file voc.tab is similar to varcon.txt but converts between
153 vocabulary instead of spelling.  Unlike varcon.tab it is a simple tab
154 separated file with the fields corresponding to the American, British,
155 and Canadian words.  If more than one word if often used to describe
156 the same thing the words are separated with commas.  The last column
157 contains additional notes on when the word is used.  Unlike varcon.txt
158 it is generally not suitable for automatic conversion.
159
160 The "make-variant" Perl script will combine varcon.txt,
161 variant-also.tab, and variant-infl.tab into one huge mapping and will
162 output the result to "variant.tab".  If the "no-infl" option is given
163 than variant-infl.tab will not be included.
164
165 The "split" script will split out the information in varcon.txt into
166 several word lists named as follows:
167   <spelling>[-v<variant level>][-uncommon].lst
168 where <spelling> is one of: american, british, british_z, canadian,
169 common, or other.  "common" is used for words which appear in
170 varcon.txt, yet are used in all versions of english, such as "prize",
171 and "other" is used for the "_" spelling category.  The mapping from
172 the variant indicators in varcon.txt to the numeric variant level is
173 as follows:
174   v => 0
175   V => 1
176   - => 2
177 "-uncommon" is used for forms marked with "(-)" as already described.
178
179 The "translate" Perl script will translate a text file from one
180 spelling to another. Its usage is:
181
182 translate <options> [<translation array>] <from> <to>
183 <options> is any of
184   -?,-h,--help this screen
185   -m,--mark     mark words where the translation is questionable
186   -i,--include  include words where the translation is questionable
187 <translation array> is the file name of the translation array,
188                     defaults to "abbc.tab".
189 <from> and <to> are one of: american, british, british_z, or canadian.
190 british-ise and british-ize can also be used.
191
192 Text is read in from standard input and is outputted to standard out.
193 Words are marked with a '?' before and after the questionable word
194 when the option is enabled.
195
196 The file varcon.pm contains some library routines for parsing
197 varcon.txt and is used by many of the scripts above.
198
199 If you discover any errors in these mappings or have suggestions for
200 additions please file a bug report at
201 https://github.com/kevina/wordlist/issues, or alternatively email me
202 directly at kevina@gnu.org, but I will likely tell you to file a bug
203 report so that I don't forget about it.
204
205 SOURCE:
206
207 These mappings were compiled from numerous sources.
208
209 The abc.tab was originally created from the American and British word
210 lists found in the Ispell distribution and the Canadian word list
211 created by Garst R. Reese <reese@isn.net>:
212
213   What I have discovered is that Canadian is a modification of British.
214   Canadians use ize ization, izing izable like Americans, and gram instead
215   of gramme. The one exception I found was practise. It does not go to
216   practize.  Otherwise they use British spelling. So, what I am currently
217   checking books with is a an edited version of British, where I have
218   changed all occurrences of ise to ize, isab to izab, isation to ization,
219   ising to izing, and gramme to gram except I allow programme, which is
220   sometimes proper unless you are talking about a computer program. I did
221   bunches of greps to be sure these substitutions would work as expected.
222
223 Many other words have been added to abc.tab which were not in the
224 original Ispell word lists.
225
226 Many different web sources were consulted when crating the tables.  They
227 include:
228
229   The American-British British-American Dictionary
230     http://www.peak.org/~jeremy/dictionary/dictionary.html
231     American and British Spelling Differences
232       http://www.peak.org/~jeremy/dictionary/spellcat.html
233   Dave (VE7CNV)'s Truly Canadian Dictionary of Canadian Spelling
234     http://www.luther.bc.ca/~dave7cnv/cdnspelling/cdnspelling.html
235   Canadian Spelling Convention
236     http://imej.wfu.edu/articles/1999/1/02/demo/tutorial/canas.html
237   Cornerstone's Canadian English Page
238     http://www.web.net/cornerstone/cdneng.htm
239   Inter-Play Translation: British/Canadian/American Spelling
240     http://www.inter-play.com/translation/spel-ukus.htm
241   Inter-Play Translation: British/Canadian/American Vocabulary
242     http://www.inter-play.com/translation/voc-ukus.htm
243
244 As well as several online dictionaries:
245
246   Marriam-Webster: http://www.m-w.com/
247   American Heritage: http://www.bartleby.com/61/
248   Cambridge (ESL): http://dictionary.cambridge.org/
249
250 In version 5.0 a massive effort to correct the numerous errors in
251 VarCon was done.  The primary sources used for verification where:
252
253   Marriam-Webster: http://www.m-w.com/
254   Free version of Oxford Dictionaries Online: 
255     http://www.oxforddictionaries.com/
256   Oxford dictionaries available via Oxford Reference Online
257     (subscription service, http://www.oxfordreference.com/):
258     The New Oxford American Dictionary (2nd edition, 2006)
259       and sometimes: The Oxford American Dictionary of Current English (2002)
260     The Concise Oxford English Dictionary (11th edition revised, 2008)
261       and sometimes: The Oxford Dictionary of English (2nd edition revised, 2005)
262     The Canadian Oxford Dictionary (2004)
263
264 I also used Tysto UK vs US spelling list available at:
265   http://www.tysto.com/articles05/q1/20050324uk-us.shtml
266 to make sure I didn't leave out any information in VarCon, however any
267 additions from his lists where verified using the dictionaries
268 mentioned above as his lists contained numerous errors (such as
269 including archaic spellings of words)
270
271 I also made indirect use of Luke's Canadian, British and American
272 Spelling page available at:
273   http://www.lukemastin.com/testing/spelling/cgi-bin/database.cgi?database=spelling
274 but only to perform some initial verification, in the end I rechecked
275 his data using the dictionaries above.  (However, his data is, by far,
276 more accurate than Tysto's)
277
278 CHANGELOG:
279
280 From 2014.02.15 to 2015.08.24 (Aug 24, 2015)
281
282    - Added entry for Koran/Koranic.
283
284    - Tweaked "adviser" cluster.
285
286    - Fix formatting problems.
287
288 From 2015.01.28 to 2014.02.15 (February 15, 2015)
289
290    - Various new entries
291
292 From 2014.11.17 to 2015.01.28 (January 28, 2015)
293
294    - Minor adjustments to a few entries (analytic, amid)
295
296    - Added entry for shareable
297
298    - Remove a junk entry (ted/taed).
299
300 From 2014.08.11 to 2014.11.17 (November 17, 2014)
301
302    - Fix typos in README
303
304    - Enhancement to VarCon translate script.  It will now, by default,
305      filter clusters with a SCOWL level > 80.  This behavior can be
306      controlled with the new "--thresh" option.
307
308    - Remove a few junk entries.
309
310 From Revision 5.1 to Version 2014.08.11 (August 8, 2014)
311
312    - Various corrections.  Most of them minor.  Two notable exceptions:
313
314        - Added an entry for furor as the correct British spelling is furore
315
316        - Fixed racket entries as Canadians still use racquet even
317          though it is a British English (at least according to the
318          Oxford dictionaries)
319
320    - Other minor changes.
321
322 From Revision 5.0 to Revision 5.1 (January 6, 2010)
323
324    - Corrected numerous errors after running various forms
325      of verification on varcon.txt.
326
327    - Reordered the clusters in varcon.txt so that they are
328      mostly in alphabetic order based on the headword.
329   
330 From Revision 4.1 to Revision 5.0 (December 27, 2010)
331
332   - Completely new format for the main table which, in addition to
333     providing the preferred spelling of a word for various forms of
334     English, also records variant and other information.  To reflect
335     this change, the name of the file was renamed from abbc.tab to
336     varcon.txt.
337
338   - Massive effort to verify the variant information against
339     authoritative sources (mainly Oxford dictionaries).  Most entries
340     for common words (SCOWL level 35 and below) have been checked
341     against at least a British and Canadian dictionary.
342
343   - Added variant information for numerous other words, even when
344     there is no difference between the various forms on English.
345
346   - Other changes corresponding to the new format.
347
348 From Revision 4 to Revision 4.1 (August 10, 2004)
349
350   - Fixed various errors in abbc.tab
351
352   - Removed clause 4 from the Ispell copyright with permission of Geoff
353     Kuenning.
354
355 From Revision 3 to Revision 4 (August 7, 2004)
356
357   - Added a column to "abc.tab" for the British "ize" spelling and
358     renamed the file to abbc.tab.
359   - Added verb forms of prize/prise to abbc.tab, removed from
360     variant-also.tab
361
362 From Revision 2 to Revision 3 (January 2, 2003)
363
364   - Added an option for not including variant-infl.tab for the
365     make-variant perl script
366   - Added the file variant-wroot.tab
367   - Added a few entries given to me by Francis Bond and Edward Betts
368
369 From Revision 1 to Revision 2 (January 27, 2001)
370
371   - Removed all "B" markers because I could not find any evidence for
372     them
373   - Corrected a few Canadian entries, especially those with the "B"
374     markers
375   - Added some more entries by trying fixed changes (such as ize to
376     ise) to words in SCOWL and hand-checking over the ones with semi-common
377     words in them. 
378   - Added variant-infl.tab
379
380 COPYRIGHT:
381
382 Copyright 2000-2010 by Kevin Atkinson
383
384 Permission to use, copy, modify, distribute and sell this array, the
385 associated software, and its documentation for any purpose is hereby
386 granted without fee, provided that the above copyright notice appears
387 in all copies and that both that copyright notice and this permission
388 notice appear in supporting documentation. Kevin Atkinson makes no
389 representations about the suitability of this array for any
390 purpose. It is provided "as is" without express or implied warranty.
391
392 Since the original words lists come from the Ispell distribution:
393
394 Copyright 1993, Geoff Kuenning, Granada Hills, CA
395 All rights reserved.
396
397 Redistribution and use in source and binary forms, with or without
398 modification, are permitted provided that the following conditions
399 are met:
400
401 1. Redistributions of source code must retain the above copyright
402    notice, this list of conditions and the following disclaimer.
403 2. Redistributions in binary form must reproduce the above copyright
404    notice, this list of conditions and the following disclaimer in the
405    documentation and/or other materials provided with the distribution.
406 3. All modifications to the source code must be clearly marked as
407    such.  Binary redistributions based on modified source code
408    must be clearly marked as modified versions in the documentation
409    and/or other materials provided with the distribution.
410 (clause 4 removed with permission from Geoff Kuenning)
411 5. The name of Geoff Kuenning may not be used to endorse or promote
412    products derived from this software without specific prior
413    written permission.
414
415 THIS SOFTWARE IS PROVIDED BY GEOFF KUENNING AND CONTRIBUTORS ``AS IS'' AND
416 ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
417 IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
418 ARE DISCLAIMED.  IN NO EVENT SHALL GEOFF KUENNING OR CONTRIBUTORS BE LIABLE
419 FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
420 DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
421 OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
422 HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
423 LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
424 OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
425 SUCH DAMAGE.