]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blob - r/varcon/README
Include hunspell .bdic files for qtwebengine and maybe others
[deb_pkgs/scowl.git] / r / varcon / README
1 Variant Conversion Info (VarCon)
2 ********************************
3
4 Version 2020.12.07
5
6 Copyright 2000-2020 by Kevin Atkinson (kevina@gnu.org) and Benjamin
7 Titze (btitze@protonmail.ch).
8
9 This package contains information to convert between American,
10 British, Canadian, and Australian spellings and vocabulary as well as
11 other variant information.
12
13 The latest version can be found at http://wordlist.aspell.net/.
14
15
16 File Format
17 ===========
18
19 The main data file is varcon.txt.  It contains information on the
20 preferred American, British, Canadian and Australian spelling of a
21 word as well as other variant information.
22
23
24 Varcon Lines
25 ------------
26
27 Each line contains a mapping between the various spellings of a word.
28 Words are tagged to indicate where the spelling is used, and each
29 word/tag pair is separated with a " / ".  For example in the line:
30   A Cv: acknowledgment / Av B C: acknowledgement
31 "acknowledgment" and "acknowledgement" are two spellings of the same
32 word and "A", "Cv", "B", etc are the tags.  Tags are separated by
33 spaces and the group of tags is separated from the word with a ": ".
34 Here, "acknowledgment" is the preferred American spelling (as
35 indicated by the "A") of the word, and "acknowledgement" is the
36 preferred Canadian and British spelling ("B" and "C").  However the
37 American spelling is sometimes used in Canada (as indicated by "Cv",
38 where the lowercase "v" indicated a variant form) and the British
39 spelling is sometimes used in America (as indicated the "Av").
40
41 More generally each tag consists of a spelling category (for example
42 "A") followed possible by a variant indicator.  The spelling
43 categories are as follows:
44
45   A: American
46   B: British "ise" spelling
47   Z: British "ize" spelling or OED preferred Spelling
48   C: Canadian
49   D: Australian
50   _: Other (Variant info based on American dictionaries, never used
51             with any of the above).
52
53 and the variants tags are as follows:
54
55   .: equal
56   v: variant
57   V: seldom used variant
58   -: possible variant, should generally not used
59   x: improper variant (should not use)
60
61 The "." or equal variant tags are reserved for special cases when
62 there is little agreement between dictionaries or when I think the
63 dictionary is wrong.  The "v" indicator is used for most words marked
64 as variants in the dictionary.  However, some variants will be demoted
65 to a "V".  For example, if the variant is marked as "also" by
66 Merriam-Webster, or also if only some dictionaries acknowledge the
67 existence the variant.  "-" is used when the variant is generally not
68 listed is the dictionary but I could find some evidence of its use, or
69 when it is marked as an archaic spelling for the word.  The "x"
70 is used when the spelling is almost generally considered a
71 misspelling, and is only included for completeness.
72
73 For Australian English "v" was used for variants that are widely used,
74 but not preferred, and "V" for all "-or" (vs. "-our") variants and 
75 variants considered "chiefly US".
76
77 If there are no tags with the 'Z' spelling category on the line then
78 'B' implies 'Z'.  Similarly if there are no 'C' tags then 'Z' implies
79 'C'.  If there are no 'D' tags then 'B' implies 'D'.
80
81 Some entries may have a number after the tags, this is a column
82 number and will be explained later.
83
84
85 Varcon Clusters
86 ---------------
87
88 For ease of reading and maintaining the data file, each line is
89 grouped in a cluster of closely related words.  Each cluster is
90 uniquely identified by a headword, which is generally the American
91 spelling of word on the first line of the cluster.  Each cluster is
92 started with a '#' and is followed by the headword with some
93 additional information after it.  For example the cluster for
94 acknowledgment is:
95   # acknowledgment <verified> (level 35)
96   A Cv: acknowledgment / Av B C: acknowledgement
97   A Cv: acknowledgments / Av B C: acknowledgements
98   A Cv: acknowledgment's / Av B C: acknowledgement's
99 The "<verified>" tag will be explained latter, and "(level 35)"
100 indicate what level in SCOWL (see http://wordlist.sourceforge.net) 
101 the headword is found in.  The levels generally mean the following:
102   <= 35: Very common word
103   <= 70: Can be found in the dictionary
104      80: Likely a valid word, can likely be found in an
105          unabridged dictionary
106    > 80: May not even be a legal word
107
108 Earlier versions of varcon contained numerous errors.  With version
109 5.0 massive effort has been made to correct many of these errors.
110 Clusters that have undergone some form of verification (and likely
111 correction) are marked with "<verified>".  As of version 5.0, most
112 clusters with headwords word in common usage (SCOWL level 35 and
113 below) should now be checked, as well as many others.  No effort was
114 made to check clusters with headwords in SCOWL level 80 and above;
115 many of those entries are unlikely to be in the dictionary anyway.
116
117
118 Varcon Groups
119 -------------
120
121 Sometimes the spelling of a word depends on the usage in which case a
122 cluster is split into multiple groups with each group represting one
123 usage of a word.  Usage annotations and/or pos tags are used to
124 distinguish one group from another.
125
126 Usage information is given after a " | ".  For example here is part of
127 the cluster for prize:
128   A B: prize | reward
129   A B: prizes | reward
130   A C: prize / B: prise | otherwise
131   A C: prizes / B: prises | otherwise
132 which indicated than the preferred spelling of prize is always with a
133 "z" when meaning a reward, but otherwise is spelled with a "s" is
134 British English.  In the example above a brief definition of the word
135 is given, but often no such attempt is made, and the definition simply
136 consists of a number, for example:
137   A B: sake | :1
138   A C: sake / Av B Cv: saki | :2
139
140 A part-of-speech (POS) tag may also given after a " | ", for example:
141   A B C: practice / AV Cv: practise | <N>
142   A Cv: practice / AV B C: practise | <V>
143 POS tags are always given in the form "<POS>" and if a definition
144 is also given the POS info is always first.  The POS tags used are as
145 follows:
146   <N>: Noun
147   <V>: Verb
148   <Adj>: Adjective
149   <Adv>: Adverb
150   <A>: Adjective or Adverb
151   <Inj>
152   <Prep>
153   <abbr>
154
155
156 Additional Annotations
157 ----------------------
158
159 A "(-)" before the definition indicated a rarely used or archaic form
160 of a word, for example:
161   A B: bark | :1
162   A: bark / Av B: barque | (-) ship
163
164 A "| -- pl: someword" indicates that the word is a plural and the root
165 is someword.
166
167 A plain "| -- pl" indicates that the word is a plural and the root is
168 elsewhere within the group.  It is used when one form of the plural is
169 the same as the root word, for example:
170   _1: yak | :1
171   _ 1: yaks / _V 1: yak | :1 | -- pl
172   _ 1: yak's | :1
173
174 A "| --" otherwise indicates a note which gives additional context but
175 does not create it's own group like a definition does.
176
177 A "#" after a line indicates a comment that is often used to indicate
178 why.  A "##" after a cluster indicates the the comment applies to the
179 entire cluster, for example:
180   # coloration <verified> (level 50)
181   A B C: coloration / B. Cv: colouration
182   A B C: colorations / B. Cv: colourations
183   A B C: coloration's / B. Cv: colouration's
184   ## OED has coloration as the preferred spelling and discolouration as a
185   ## variant for British Engl or some reason
186 In the comments ODE (not to be confused with OED) stands for Oxford
187 Dictionary of English, "Ox" is used for any Oxford dictionary, and
188 "M-W" for Merriam-Webster.
189
190
191 Varcon Columns
192 --------------
193
194 Varcon does not directly expresses the relation of words within a
195 group as it is normally easy to derive.  For example given a simple
196 group of:
197   A: acknowledgment / B: acknowledgement
198   A: acknowledgments / B: acknowledgements
199   A: acknowledgment's / B: acknowledgement's
200 it is clear that acknowledgments is the plural form of acknowledgment
201 since they are both the American spelling of a word.  While
202 acknowledgEments is the plural form of acknowledgEment since they are
203 both the British forms of a word.  Within a group each varcon line
204 is considered a row in a table and each entry within a line is considered
205 a column.  Within this group the first column is the American spelling
206 and the second is the British.
207
208 Sometime the column assignment unclear, when they are explicit column
209 numbers may be given.  For example:
210   A B: caulk / Av: calk / AV Bv 1: caulking / AV 2: calking | <N> :3
211   A B: caulks / Av: calks / AV Bv 1: caulkings / AV 2: calkings | <N> :3
212   A B: caulk's / Av: calk's / AV Bv 1: caulking's / AV 2: calking's | <N> :3
213
214 Each column must contain exactly one spelling of the base form of a
215 word, however a column may contain multiple derived forms for a single
216 spelling of the base form, for example:
217   A B D 1: amoeba / Av Dv 2: ameba
218   A B D 1: amoebas / Av Bv Dv 1: amoebae / Av Dv 2: amebas / Av Dv 2: amebae
219   A B D 1: amoeba's / Av Dv 2: ameba's
220
221
222 Additional Files
223 ================
224
225 The file variant-also.tab contains additional mappings between various
226 spellings of a word which are not yet in varcon.txt.  No attempt is
227 made to distinguish the primary form of a word.  The file
228 variant-infl.tab is like variant-also.tab except that it is created
229 automatically from the AGID inflection database.  The file
230 variant-wroot.tab is like variant-infl.tab except that it also
231 included the root form of the word.
232
233
234 The file voc.tab is similar to varcon.txt but converts between
235 vocabulary instead of spelling.  Unlike varcon.tab it is a simple tab
236 separated file with the fields corresponding to the American, British,
237 and Canadian words.  If more than one word if often used to describe
238 the same thing the words are separated with commas.  The last column
239 contains additional notes on when the word is used.  Unlike varcon.txt
240 it is generally not suitable for automatic conversion.
241
242
243 The "make-variant" Perl script will combine varcon.txt,
244 variant-also.tab, and variant-infl.tab into one huge mapping and will
245 output the result to "variant.tab".  If the "no-infl" option is given
246 than variant-infl.tab will not be included.
247
248
249 The "split" script will split out the information in varcon.txt into
250 several word lists named as follows:
251   <spelling>[-v<variant level>][-uncommon].lst
252 where <spelling> is one of: american, british, british_z, canadian,
253 common, or other.  "common" is used for words which appear in
254 varcon.txt, yet are used in all versions of english, such as "prize",
255 and "other" is used for the "_" spelling category.  The mapping from
256 the variant indicators in varcon.txt to the numeric variant level is
257 as follows:
258   v => 0
259   V => 1
260   - => 2
261 "-uncommon" is used for forms marked with "(-)" as already described.
262
263
264 The "translate" Perl script will translate a text file from one
265 spelling to another. Its usage is:
266
267 translate <options> [<translation array>] <from> <to>
268 <options> is any of
269   -?,-h,--help this screen
270   -m,--mark     mark words where the translation is questionable
271   -i,--include  include words where the translation is questionable
272 <translation array> is the file name of the translation array,
273                     defaults to "abbc.tab".
274 <from> and <to> are one of: american, british, british_z, or canadian.
275 british-ise and british-ize can also be used.
276
277 Text is read in from standard input and is outputted to standard out.
278 Words are marked with a '?' before and after the questionable word
279 when the option is enabled.
280
281
282 The file varcon.pm contains some library routines for parsing
283 varcon.txt and is used by many of the scripts above.
284
285
286 Feedback
287 ========
288
289 If you discover any errors in these mappings or have suggestions for
290 additions please file a bug report at
291 https://github.com/kevina/wordlist/issues, or alternatively email me
292 directly at kevina@gnu.org, but I will likely tell you to file a bug
293 report so that I don't forget about it.
294
295
296 Sources
297 =======
298
299 These mappings were compiled from numerous sources.
300
301 The abc.tab was originally created from the American and British word
302 lists found in the Ispell distribution and the Canadian word list
303 created by Garst R. Reese <reese@isn.net>:
304
305   What I have discovered is that Canadian is a modification of British.
306   Canadians use ize ization, izing izable like Americans, and gram instead
307   of gramme. The one exception I found was practise. It does not go to
308   practize.  Otherwise they use British spelling. So, what I am currently
309   checking books with is a an edited version of British, where I have
310   changed all occurrences of ise to ize, isab to izab, isation to ization,
311   ising to izing, and gramme to gram except I allow programme, which is
312   sometimes proper unless you are talking about a computer program. I did
313   bunches of greps to be sure these substitutions would work as expected.
314
315 Many other words have been added to abc.tab which were not in the
316 original Ispell word lists.
317
318 Many different web sources were consulted when crating the tables.  They
319 include:
320
321   The American-British British-American Dictionary
322     http://www.peak.org/~jeremy/dictionary/dictionary.html
323     American and British Spelling Differences
324       http://www.peak.org/~jeremy/dictionary/spellcat.html
325   Dave (VE7CNV)'s Truly Canadian Dictionary of Canadian Spelling
326     http://www.luther.bc.ca/~dave7cnv/cdnspelling/cdnspelling.html
327   Canadian Spelling Convention
328     http://imej.wfu.edu/articles/1999/1/02/demo/tutorial/canas.html
329   Cornerstone's Canadian English Page
330     http://www.web.net/cornerstone/cdneng.htm
331   Inter-Play Translation: British/Canadian/American Spelling
332     http://www.inter-play.com/translation/spel-ukus.htm
333   Inter-Play Translation: British/Canadian/American Vocabulary
334     http://www.inter-play.com/translation/voc-ukus.htm
335
336 As well as several online dictionaries:
337
338   Marriam-Webster: http://www.m-w.com/
339   American Heritage: http://www.bartleby.com/61/
340   Cambridge (ESL): http://dictionary.cambridge.org/
341
342 In version 5.0 a massive effort to correct the numerous errors in
343 VarCon was done.  The primary sources used for verification were:
344
345   Marriam-Webster: http://www.m-w.com/
346   Free version of Oxford Dictionaries Online: 
347     http://www.oxforddictionaries.com/
348   Oxford dictionaries available via Oxford Reference Online
349     (subscription service, http://www.oxfordreference.com/):
350     The New Oxford American Dictionary (2nd edition, 2006)
351       and sometimes: The Oxford American Dictionary of Current English (2002)
352     The Concise Oxford English Dictionary (11th edition revised, 2008)
353       and sometimes: The Oxford Dictionary of English (2nd edition revised, 2005)
354     The Canadian Oxford Dictionary (2004)
355
356 I also used Tysto UK vs US spelling list available at:
357   http://www.tysto.com/articles05/q1/20050324uk-us.shtml
358 to make sure I didn't leave out any information in VarCon, however any
359 additions from his lists where verified using the dictionaries
360 mentioned above as his lists contained numerous errors (such as
361 including archaic spellings of words)
362
363 I also made indirect use of Luke's Canadian, British and American
364 Spelling page available at:
365   http://www.lukemastin.com/testing/spelling/cgi-bin/database.cgi?database=spelling
366 but only to perform some initial verification, in the end I rechecked
367 his data using the dictionaries above.  (However, his data is, by far,
368 more accurate than Tysto's)
369     
370 In Version 2016.11.20 Benjamin Titze added support for Australian English.
371 The primary sources for this addition were:
372
373   The Macquarie Dictionary: https://www.macquariedictionary.com.au/
374   Style Manual: For Authors, Editors and Printers, 6th Edition. DCITA.
375   University of Technology Sydney Publications Style Guide:
376     http://www.gsu.uts.edu.au/publications/styleguide/spelling.html
377   Style Manual, Department of Treasury and Finance, Tasmania:
378     http://conference.tasa.org.au/wp-content/uploads/2015/03/Style-Manual.pdf
379   Editor Australia - Style Guide: 
380     http://www.editoraustralia.com/styleguide_spelling.html
381   Webster in Australia (history of "our"/"or" spelling variants): 
382     http://blogs.usyd.edu.au/elac/2008/01/webster_in_australia.html
383
384
385 Changelog
386 =========
387
388 From 2018.10.06 to 2020.12.07
389
390    - Additional documentation on file format
391
392    - Minor change in file format
393
394    - Fix scripts to work with modern versions of Perl.
395
396    - Various new entries
397
398    - Additional cleanups
399
400 From 2017.08.24 to 2019.10.06
401
402    - Added entries for: eukaryote, prokaryote, virtualization, volcanism
403
404 From 2016.11.20 to 2017.08.24
405
406    - Typo fixes thanks to Jakub Wilk
407
408 From 2016.06.26 to 2016.11.20
409
410    - New Australian spelling category thanks to the work of Benjamin
411      Titze.
412
413    - Various other fixes.
414
415 From 2016.01.19 to 2016.06.26
416
417    - Fix plural of "bus".
418
419 From 2015.08.24 to 2016.01.19
420
421    - Undo the effects of PERL_UNICODE in the translate script.
422
423    - Other minor fixes and new entries.
424
425 From 2014.02.15 to 2015.08.24 (Aug 24, 2015)
426
427    - Added entry for Koran/Koranic.
428
429    - Tweaked "adviser" cluster.
430
431    - Fix formatting problems.
432
433 From 2015.01.28 to 2014.02.15 (February 15, 2015)
434
435    - Various new entries
436
437 From 2014.11.17 to 2015.01.28 (January 28, 2015)
438
439    - Minor adjustments to a few entries (analytic, amid)
440
441    - Added entry for shareable
442
443    - Remove a junk entry (ted/taed).
444
445 From 2014.08.11 to 2014.11.17 (November 17, 2014)
446
447    - Fix typos in README
448
449    - Enhancement to VarCon translate script.  It will now, by default,
450      filter clusters with a SCOWL level > 80.  This behavior can be
451      controlled with the new "--thresh" option.
452
453    - Remove a few junk entries.
454
455 From Revision 5.1 to Version 2014.08.11 (August 8, 2014)
456
457    - Various corrections.  Most of them minor.  Two notable exceptions:
458
459        - Added an entry for furor as the correct British spelling is furore
460
461        - Fixed racket entries as Canadians still use racquet even
462          though it is a British English (at least according to the
463          Oxford dictionaries)
464
465    - Other minor changes.
466
467 From Revision 5.0 to Revision 5.1 (January 6, 2010)
468
469    - Corrected numerous errors after running various forms
470      of verification on varcon.txt.
471
472    - Reordered the clusters in varcon.txt so that they are
473      mostly in alphabetic order based on the headword.
474   
475 From Revision 4.1 to Revision 5.0 (December 27, 2010)
476
477   - Completely new format for the main table which, in addition to
478     providing the preferred spelling of a word for various forms of
479     English, also records variant and other information.  To reflect
480     this change, the name of the file was renamed from abbc.tab to
481     varcon.txt.
482
483   - Massive effort to verify the variant information against
484     authoritative sources (mainly Oxford dictionaries).  Most entries
485     for common words (SCOWL level 35 and below) have been checked
486     against at least a British and Canadian dictionary.
487
488   - Added variant information for numerous other words, even when
489     there is no difference between the various forms on English.
490
491   - Other changes corresponding to the new format.
492
493 From Revision 4 to Revision 4.1 (August 10, 2004)
494
495   - Fixed various errors in abbc.tab
496
497   - Removed clause 4 from the Ispell copyright with permission of Geoff
498     Kuenning.
499
500 From Revision 3 to Revision 4 (August 7, 2004)
501
502   - Added a column to "abc.tab" for the British "ize" spelling and
503     renamed the file to abbc.tab.
504   - Added verb forms of prize/prise to abbc.tab, removed from
505     variant-also.tab
506
507 From Revision 2 to Revision 3 (January 2, 2003)
508
509   - Added an option for not including variant-infl.tab for the
510     make-variant perl script
511   - Added the file variant-wroot.tab
512   - Added a few entries given to me by Francis Bond and Edward Betts
513
514 From Revision 1 to Revision 2 (January 27, 2001)
515
516   - Removed all "B" markers because I could not find any evidence for
517     them
518   - Corrected a few Canadian entries, especially those with the "B"
519     markers
520   - Added some more entries by trying fixed changes (such as ize to
521     ise) to words in SCOWL and hand-checking over the ones with semi-common
522     words in them. 
523   - Added variant-infl.tab
524
525
526 Copyright
527 =========
528
529 Copyright 2000-2019 by Kevin Atkinson
530
531 Permission to use, copy, modify, distribute and sell this array, the
532 associated software, and its documentation for any purpose is hereby
533 granted without fee, provided that the above copyright notice appears
534 in all copies and that both that copyright notice and this permission
535 notice appear in supporting documentation. Kevin Atkinson makes no
536 representations about the suitability of this array for any
537 purpose. It is provided "as is" without express or implied warranty.
538
539 Copyright 2016 by Benjamin Titze
540
541 Permission to use, copy, modify, distribute and sell this array, the
542 associated software, and its documentation for any purpose is hereby
543 granted without fee, provided that the above copyright notice appears
544 in all copies and that both that copyright notice and this permission
545 notice appear in supporting documentation. Benjamin Titze makes no
546 representations about the suitability of this array for any
547 purpose. It is provided "as is" without express or implied warranty.
548
549 Since the original words lists come from the Ispell distribution:
550
551 Copyright 1993, Geoff Kuenning, Granada Hills, CA
552 All rights reserved.
553
554 Redistribution and use in source and binary forms, with or without
555 modification, are permitted provided that the following conditions
556 are met:
557
558 1. Redistributions of source code must retain the above copyright
559    notice, this list of conditions and the following disclaimer.
560 2. Redistributions in binary form must reproduce the above copyright
561    notice, this list of conditions and the following disclaimer in the
562    documentation and/or other materials provided with the distribution.
563 3. All modifications to the source code must be clearly marked as
564    such.  Binary redistributions based on modified source code
565    must be clearly marked as modified versions in the documentation
566    and/or other materials provided with the distribution.
567 (clause 4 removed with permission from Geoff Kuenning)
568 5. The name of Geoff Kuenning may not be used to endorse or promote
569    products derived from this software without specific prior
570    written permission.
571
572 THIS SOFTWARE IS PROVIDED BY GEOFF KUENNING AND CONTRIBUTORS ``AS IS'' AND
573 ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
574 IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
575 ARE DISCLAIMED.  IN NO EVENT SHALL GEOFF KUENNING OR CONTRIBUTORS BE LIABLE
576 FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
577 DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
578 OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
579 HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
580 LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
581 OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
582 SUCH DAMAGE.