]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blob - r/varcon/README
a72b515a1bff7b19700034c2e088c725eb3d8095
[deb_pkgs/scowl.git] / r / varcon / README
1 Variant Conversion Info (VarCon)
2
3 Version 2019.10.06
4
5 Copyright 2000-2016 by Kevin Atkinson (kevina@gnu.org) and Benjamin
6 Titze (btitze@protonmail.ch).
7
8 This package contains information to convert between American,
9 British, Canadian, and Australian spellings and vocabulary as well as
10 other variant information.
11
12 The latest version can be found at http://wordlist.aspell.net/.
13
14 The main data file is varcon.txt.  It contains information on the
15 preferred American, British, and Canadian spelling of a word as well
16 as other variant information.
17
18 Each line contains a mapping between the various spellings of a word.
19 Words are tagged to indicate where the spelling is used, and each
20 word/tag pair is separated with a " / ".  For example in the line:
21   A Cv: acknowledgment / Av B C: acknowledgement
22 "acknowledgment" and "acknowledgement" are two spellings of the same
23 word and "A", "Cv", "B", etc are the tags.  Tags are separated by
24 spaces and the group of tags is separated from the word with a ": ".
25 Here, "acknowledgment" is the preferred American spelling (as
26 indicated by the "A") of the word, and "acknowledgement" is the
27 preferred Canadian and British spelling ("B" and "C").  However the
28 American spelling is sometimes used in Canada (as indicated by "Cv",
29 where the lowercase "v" indicated a variant form) and the British
30 spelling is sometimes used in America (as indicated the "Av").
31
32 More generally each tag consists of a spelling category (for example
33 "A") followed possible by a variant indicator.  The spelling
34 categories are as follows:
35   A: American
36   B: British "ise" spelling
37   Z: British "ize" spelling or OED preferred Spelling
38   C: Canadian
39   D: Australian
40   _: Other (Variant info based on American dictionaries, never used
41             with any of the above).
42 and the variants tags are as follows:
43   .: equal
44   v: variant
45   V: seldom used variant
46   -: possible variant, should generally not used
47   x: improper variant (should not use)
48
49 The "." or equal variant tags are reserved for special cases when
50 there is little agreement between dictionaries or when I think the
51 dictionary is wrong.  The "v" indicator is used for most words marked
52 as variants in the dictionary.  However, some variants will be demoted
53 to a "V".  For example, if the variant is marked as "also" by
54 Merriam-Webster, or also if only some dictionaries acknowledge the
55 existence the variant.  "-" is used when the variant is generally not
56 listed is the dictionary but I could find some evidence of its use, or
57 when it is marked as an archaic spelling for the word.  The "x"
58 is used when the spelling is almost generally considered a
59 misspelling, and is only included for completeness.
60
61 For Australian English "v" was used for variants that are widely used,
62 but not preferred, and "V" for all "-or" (vs. "-our") variants and 
63 variants considered "chiefly US".
64
65 If there are no tags with the 'Z' spelling category on the line then
66 'B' implies 'Z'.  Similarly if there are no 'C' tags then 'Z' implies
67 'C'.  If there are no 'D' tags then 'B' implies 'D'.
68
69 For ease of reading and maintaining the data file, each line is
70 grouped in a cluster of closely related words.  Each cluster is
71 uniquely identified by a headword, which is generally the American
72 spelling of word on the first line of the cluster.  Each cluster is
73 started with a '#' and is followed by the headword with some
74 additional information after it.  For example the cluster for
75 acknowledgment is:
76   # acknowledgment <verified> (level 35)
77   A Cv: acknowledgment / Av B C: acknowledgement
78   A Cv: acknowledgments / Av B C: acknowledgements
79   A Cv: acknowledgment's / Av B C: acknowledgement's
80 The "<verified>" tag will be explained latter, and "(level 35)"
81 indicate what level in SCOWL (see http://wordlist.sourceforge.net) 
82 the headword is found in.  The levels generally mean the following:
83   <= 35: Very common word
84   <= 70: Can be found in the dictionary
85      80: Likely a valid word, can likely be found in an
86          unabridged dictionary
87    > 80: May not even be a legal word
88
89 Sometimes the spelling of a word depends on the usage.  If so the word
90 is listed more than once within a cluster, with any usage information
91 being indicated after a " | ".  For example here is part of the cluster
92 for prize:
93   A B: prize | reward
94   A B: prizes | reward
95   A C: prize / B: prise | otherwise
96   A C: prizes / B: prises | otherwise
97 which indicated than the preferred spelling of prize is always with a
98 "z" when meaning a reward, but otherwise is spelled with a "s" is
99 British English.  In the example above a brief definition of the word
100 is given, but often no such attempt is made, and the definition simply
101 consists of a number, for example:
102   A B: sake | :1
103   A C: sake / Av B Cv: saki | :2
104
105 Sometimes part-of-speech (POS) info is given to help distinguish which
106 form is used.  For example:
107   A B C: practice / AV Cv: practise | <N>
108   A Cv: practice / AV B C: practise | <V>
109 POS info is always given in the form "<POS>" and if a definition
110 is also given the POS info is always first.  The POS tags used are as
111 follows:
112   <N>: Noun
113   <V>: Verb
114   <Adj>: Adjective
115   <Adv>: Adverb
116
117 A "(-)" before the definition indicated a rarely used or archaic form
118 of a word, for example:
119   A B: bark | :1
120   A: bark / Av B: barque | (-) ship
121
122 A "--" indicates a note rather than definition.  This is generally
123 used to indicate that the spelling of the plural form not depend on
124 the spelling of the root word, for example:
125   _: cabby / _.: cabbie
126   _: cabbies | -- plural
127
128 Misc. notes on a particular form of a word are given after a "#" on
129 the same line.  Misc. notes for the cluster are given at the end of
130 the cluster and are prefixed with "##", for example:
131   # coloration <verified> (level 50)
132   A B C: coloration / B. Cv: colouration
133   A B C: colorations / B. Cv: colourations
134   A B C: coloration's / B. Cv: colouration's
135   ## OED has coloration as the preferred spelling and discolouration as a
136   ## variant for British Engl or some reason
137 In the notes ODE (not to be confused with OED) stands for Oxford
138 Dictionary of English, "Ox" is used for any Oxford dictionary, and
139 "M-W" for Merriam-Webster.
140
141 Earlier versions of varcon contained numerous errors.  With version
142 5.0 massive effort has been made to correct many of these errors.
143 Clusters that have undergone some form of verification (and likely
144 correction) are marked with "<verified>".  As of version 5.0, most
145 clusters with headwords word in common usage (SCOWL level 35 and
146 below) should now be checked, as well as many others.  No effort was
147 made to check clusters with headwords in SCOWL level 80 and above;
148 many of those entries are unlikely to be in the dictionary anyway.
149
150 The file variant-also.tab contains additional mappings between various
151 spellings of a word which are not yet in varcon.txt.  No attempt is
152 made to distinguish the primary form of a word.  The file
153 variant-infl.tab is like variant-also.tab except that it is created
154 automatically from the AGID inflection database.  The file
155 variant-wroot.tab is like variant-infl.tab except that it also
156 included the root form of the word.
157
158 The file voc.tab is similar to varcon.txt but converts between
159 vocabulary instead of spelling.  Unlike varcon.tab it is a simple tab
160 separated file with the fields corresponding to the American, British,
161 and Canadian words.  If more than one word if often used to describe
162 the same thing the words are separated with commas.  The last column
163 contains additional notes on when the word is used.  Unlike varcon.txt
164 it is generally not suitable for automatic conversion.
165
166 The "make-variant" Perl script will combine varcon.txt,
167 variant-also.tab, and variant-infl.tab into one huge mapping and will
168 output the result to "variant.tab".  If the "no-infl" option is given
169 than variant-infl.tab will not be included.
170
171 The "split" script will split out the information in varcon.txt into
172 several word lists named as follows:
173   <spelling>[-v<variant level>][-uncommon].lst
174 where <spelling> is one of: american, british, british_z, canadian,
175 common, or other.  "common" is used for words which appear in
176 varcon.txt, yet are used in all versions of english, such as "prize",
177 and "other" is used for the "_" spelling category.  The mapping from
178 the variant indicators in varcon.txt to the numeric variant level is
179 as follows:
180   v => 0
181   V => 1
182   - => 2
183 "-uncommon" is used for forms marked with "(-)" as already described.
184
185 The "translate" Perl script will translate a text file from one
186 spelling to another. Its usage is:
187
188 translate <options> [<translation array>] <from> <to>
189 <options> is any of
190   -?,-h,--help this screen
191   -m,--mark     mark words where the translation is questionable
192   -i,--include  include words where the translation is questionable
193 <translation array> is the file name of the translation array,
194                     defaults to "abbc.tab".
195 <from> and <to> are one of: american, british, british_z, or canadian.
196 british-ise and british-ize can also be used.
197
198 Text is read in from standard input and is outputted to standard out.
199 Words are marked with a '?' before and after the questionable word
200 when the option is enabled.
201
202 The file varcon.pm contains some library routines for parsing
203 varcon.txt and is used by many of the scripts above.
204
205 If you discover any errors in these mappings or have suggestions for
206 additions please file a bug report at
207 https://github.com/kevina/wordlist/issues, or alternatively email me
208 directly at kevina@gnu.org, but I will likely tell you to file a bug
209 report so that I don't forget about it.
210
211 SOURCE:
212
213 These mappings were compiled from numerous sources.
214
215 The abc.tab was originally created from the American and British word
216 lists found in the Ispell distribution and the Canadian word list
217 created by Garst R. Reese <reese@isn.net>:
218
219   What I have discovered is that Canadian is a modification of British.
220   Canadians use ize ization, izing izable like Americans, and gram instead
221   of gramme. The one exception I found was practise. It does not go to
222   practize.  Otherwise they use British spelling. So, what I am currently
223   checking books with is a an edited version of British, where I have
224   changed all occurrences of ise to ize, isab to izab, isation to ization,
225   ising to izing, and gramme to gram except I allow programme, which is
226   sometimes proper unless you are talking about a computer program. I did
227   bunches of greps to be sure these substitutions would work as expected.
228
229 Many other words have been added to abc.tab which were not in the
230 original Ispell word lists.
231
232 Many different web sources were consulted when crating the tables.  They
233 include:
234
235   The American-British British-American Dictionary
236     http://www.peak.org/~jeremy/dictionary/dictionary.html
237     American and British Spelling Differences
238       http://www.peak.org/~jeremy/dictionary/spellcat.html
239   Dave (VE7CNV)'s Truly Canadian Dictionary of Canadian Spelling
240     http://www.luther.bc.ca/~dave7cnv/cdnspelling/cdnspelling.html
241   Canadian Spelling Convention
242     http://imej.wfu.edu/articles/1999/1/02/demo/tutorial/canas.html
243   Cornerstone's Canadian English Page
244     http://www.web.net/cornerstone/cdneng.htm
245   Inter-Play Translation: British/Canadian/American Spelling
246     http://www.inter-play.com/translation/spel-ukus.htm
247   Inter-Play Translation: British/Canadian/American Vocabulary
248     http://www.inter-play.com/translation/voc-ukus.htm
249
250 As well as several online dictionaries:
251
252   Marriam-Webster: http://www.m-w.com/
253   American Heritage: http://www.bartleby.com/61/
254   Cambridge (ESL): http://dictionary.cambridge.org/
255
256 In version 5.0 a massive effort to correct the numerous errors in
257 VarCon was done.  The primary sources used for verification were:
258
259   Marriam-Webster: http://www.m-w.com/
260   Free version of Oxford Dictionaries Online: 
261     http://www.oxforddictionaries.com/
262   Oxford dictionaries available via Oxford Reference Online
263     (subscription service, http://www.oxfordreference.com/):
264     The New Oxford American Dictionary (2nd edition, 2006)
265       and sometimes: The Oxford American Dictionary of Current English (2002)
266     The Concise Oxford English Dictionary (11th edition revised, 2008)
267       and sometimes: The Oxford Dictionary of English (2nd edition revised, 2005)
268     The Canadian Oxford Dictionary (2004)
269
270 I also used Tysto UK vs US spelling list available at:
271   http://www.tysto.com/articles05/q1/20050324uk-us.shtml
272 to make sure I didn't leave out any information in VarCon, however any
273 additions from his lists where verified using the dictionaries
274 mentioned above as his lists contained numerous errors (such as
275 including archaic spellings of words)
276
277 I also made indirect use of Luke's Canadian, British and American
278 Spelling page available at:
279   http://www.lukemastin.com/testing/spelling/cgi-bin/database.cgi?database=spelling
280 but only to perform some initial verification, in the end I rechecked
281 his data using the dictionaries above.  (However, his data is, by far,
282 more accurate than Tysto's)
283     
284 In Version 2016.11.20 Benjamin Titze added support for Australian English.
285 The primary sources for this addition were:
286
287   The Macquarie Dictionary: https://www.macquariedictionary.com.au/
288   Style Manual: For Authors, Editors and Printers, 6th Edition. DCITA.
289   University of Technology Sydney Publications Style Guide:
290     http://www.gsu.uts.edu.au/publications/styleguide/spelling.html
291   Style Manual, Department of Treasury and Finance, Tasmania:
292     http://conference.tasa.org.au/wp-content/uploads/2015/03/Style-Manual.pdf
293   Editor Australia - Style Guide: 
294     http://www.editoraustralia.com/styleguide_spelling.html
295   Webster in Australia (history of "our"/"or" spelling variants): 
296     http://blogs.usyd.edu.au/elac/2008/01/webster_in_australia.html
297
298
299 CHANGELOG:
300
301 From 2017.08.24 to 2018.10.06
302
303    - Added entries for: eukaryote, prokaryote, virtualization, volcanism
304
305 From 2016.11.20 to 2017.08.24
306
307    - Typo fixes thanks to Jakub Wilk
308
309 From 2016.06.26 to 2016.11.20
310
311    - New Australian spelling category thanks to the work of Benjamin
312      Titze.
313
314    - Various other fixes.
315
316 From 2016.01.19 to 2016.06.26
317
318    - Fix plural of "bus".
319
320 From 2015.08.24 to 2016.01.19
321
322    - Undo the effects of PERL_UNICODE in the translate script.
323
324    - Other minor fixes and new entries.
325
326 From 2014.02.15 to 2015.08.24 (Aug 24, 2015)
327
328    - Added entry for Koran/Koranic.
329
330    - Tweaked "adviser" cluster.
331
332    - Fix formatting problems.
333
334 From 2015.01.28 to 2014.02.15 (February 15, 2015)
335
336    - Various new entries
337
338 From 2014.11.17 to 2015.01.28 (January 28, 2015)
339
340    - Minor adjustments to a few entries (analytic, amid)
341
342    - Added entry for shareable
343
344    - Remove a junk entry (ted/taed).
345
346 From 2014.08.11 to 2014.11.17 (November 17, 2014)
347
348    - Fix typos in README
349
350    - Enhancement to VarCon translate script.  It will now, by default,
351      filter clusters with a SCOWL level > 80.  This behavior can be
352      controlled with the new "--thresh" option.
353
354    - Remove a few junk entries.
355
356 From Revision 5.1 to Version 2014.08.11 (August 8, 2014)
357
358    - Various corrections.  Most of them minor.  Two notable exceptions:
359
360        - Added an entry for furor as the correct British spelling is furore
361
362        - Fixed racket entries as Canadians still use racquet even
363          though it is a British English (at least according to the
364          Oxford dictionaries)
365
366    - Other minor changes.
367
368 From Revision 5.0 to Revision 5.1 (January 6, 2010)
369
370    - Corrected numerous errors after running various forms
371      of verification on varcon.txt.
372
373    - Reordered the clusters in varcon.txt so that they are
374      mostly in alphabetic order based on the headword.
375   
376 From Revision 4.1 to Revision 5.0 (December 27, 2010)
377
378   - Completely new format for the main table which, in addition to
379     providing the preferred spelling of a word for various forms of
380     English, also records variant and other information.  To reflect
381     this change, the name of the file was renamed from abbc.tab to
382     varcon.txt.
383
384   - Massive effort to verify the variant information against
385     authoritative sources (mainly Oxford dictionaries).  Most entries
386     for common words (SCOWL level 35 and below) have been checked
387     against at least a British and Canadian dictionary.
388
389   - Added variant information for numerous other words, even when
390     there is no difference between the various forms on English.
391
392   - Other changes corresponding to the new format.
393
394 From Revision 4 to Revision 4.1 (August 10, 2004)
395
396   - Fixed various errors in abbc.tab
397
398   - Removed clause 4 from the Ispell copyright with permission of Geoff
399     Kuenning.
400
401 From Revision 3 to Revision 4 (August 7, 2004)
402
403   - Added a column to "abc.tab" for the British "ize" spelling and
404     renamed the file to abbc.tab.
405   - Added verb forms of prize/prise to abbc.tab, removed from
406     variant-also.tab
407
408 From Revision 2 to Revision 3 (January 2, 2003)
409
410   - Added an option for not including variant-infl.tab for the
411     make-variant perl script
412   - Added the file variant-wroot.tab
413   - Added a few entries given to me by Francis Bond and Edward Betts
414
415 From Revision 1 to Revision 2 (January 27, 2001)
416
417   - Removed all "B" markers because I could not find any evidence for
418     them
419   - Corrected a few Canadian entries, especially those with the "B"
420     markers
421   - Added some more entries by trying fixed changes (such as ize to
422     ise) to words in SCOWL and hand-checking over the ones with semi-common
423     words in them. 
424   - Added variant-infl.tab
425
426 COPYRIGHT:
427
428 Copyright 2000-2018 by Kevin Atkinson
429
430 Permission to use, copy, modify, distribute and sell this array, the
431 associated software, and its documentation for any purpose is hereby
432 granted without fee, provided that the above copyright notice appears
433 in all copies and that both that copyright notice and this permission
434 notice appear in supporting documentation. Kevin Atkinson makes no
435 representations about the suitability of this array for any
436 purpose. It is provided "as is" without express or implied warranty.
437
438 Copyright 2016 by Benjamin Titze
439
440 Permission to use, copy, modify, distribute and sell this array, the
441 associated software, and its documentation for any purpose is hereby
442 granted without fee, provided that the above copyright notice appears
443 in all copies and that both that copyright notice and this permission
444 notice appear in supporting documentation. Benjamin Titze makes no
445 representations about the suitability of this array for any
446 purpose. It is provided "as is" without express or implied warranty.
447
448 Since the original words lists come from the Ispell distribution:
449
450 Copyright 1993, Geoff Kuenning, Granada Hills, CA
451 All rights reserved.
452
453 Redistribution and use in source and binary forms, with or without
454 modification, are permitted provided that the following conditions
455 are met:
456
457 1. Redistributions of source code must retain the above copyright
458    notice, this list of conditions and the following disclaimer.
459 2. Redistributions in binary form must reproduce the above copyright
460    notice, this list of conditions and the following disclaimer in the
461    documentation and/or other materials provided with the distribution.
462 3. All modifications to the source code must be clearly marked as
463    such.  Binary redistributions based on modified source code
464    must be clearly marked as modified versions in the documentation
465    and/or other materials provided with the distribution.
466 (clause 4 removed with permission from Geoff Kuenning)
467 5. The name of Geoff Kuenning may not be used to endorse or promote
468    products derived from this software without specific prior
469    written permission.
470
471 THIS SOFTWARE IS PROVIDED BY GEOFF KUENNING AND CONTRIBUTORS ``AS IS'' AND
472 ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
473 IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
474 ARE DISCLAIMED.  IN NO EVENT SHALL GEOFF KUENNING OR CONTRIBUTORS BE LIABLE
475 FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
476 DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
477 OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
478 HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
479 LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
480 OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
481 SUCH DAMAGE.