]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blobdiff - README
refresh patches
[deb_pkgs/scowl.git] / README
diff --git a/README b/README
index fc328faf344c35556897754c61485acac7034574..95774aac5291e07cb49b7a1c4ad77da8ff3a5fd2 100644 (file)
--- a/README
+++ b/README
@@ -1,6 +1,6 @@
 Spell Checking Oriented Word Lists (SCOWL)
-Version 2015.08.24
-Mon Aug 24 16:39:36 2015 -0400 [39cf19d]
+Version 2019.10.06
+Sun Oct 6 20:44:03 2019 -0400 [755d6dd]
 by Kevin Atkinson (kevina@gnu.org)
 
 The SCOWL is a collection of word lists split up in various sizes, and
@@ -27,10 +27,11 @@ Except for the special word lists the files follow the following
 naming convention:
   <spelling category>-<sub-category>.<size>
 Where the spelling category is one of
-  english, american, british, british_z, canadian, 
+  english, american, british, british_z, canadian, australian
   variant_1, variant_2, variant_3,
-  british_variant_1, british_variant_2,
+  british_variant_1, british_variant_2, 
   canadian_variant_1, canadian_variant_2,
+  australian_variant_1, australian_variant_2
 Sub-category is one of
   abbreviations, contractions, proper-names, upper, words
 And size is one of
@@ -54,21 +55,22 @@ word list.  If you rather see what files will be included, use the
 
 When manually combining the words lists the "english" spelling
 category should be used as well as one of "american", "british",
-"british_z" (british with ize spelling), or "canadian".  Great care
-has been taken so that only one spelling for any particular word
-is included in the main list (with some minor exceptions).  When two
-variants were considered equal I randomly picked one for inclusion in
-the main word list.  Unfortunately this means that my choice in how to
-spell a word may not match your choice.  If this is the case you can
-try including one of the "variant_1" spelling categories which
+"british_z" (british with ize spelling), "canadian" or "australian".
+Great care has been taken so that only one spelling for any particular
+word is included in the main list (with some minor exceptions).  When
+two variants were considered equal I randomly picked one for inclusion
+in the main word list.  Unfortunately this means that my choice in how
+to spell a word may not match your choice.  If this is the case you
+can try including one of the "variant_1" spelling categories which
 includes most variants which are considered almost equal.  The
 "variant_1" spelling category corresponds mostly to American variants,
-while the "british_variant_1" and "canadian_variant_1" are for British
-and Canadian variants, respectively.  The "variant_2" spelling
-categories include variants which are also generally considered
-acceptable, and "variant_3" contains variants which are seldom used
-and may not even be considered correct.  There is no
-"british_variant_3" or "canadian_variant_3" spelling category since
+while the "british_variant_1", "canadian_variant_1" and
+"australian_variant_1" are for British, Canadian and Australian
+variants, respectively.  The "variant_2" spelling categories include
+variants which are also generally considered acceptable, and
+"variant_3" contains variants which are seldom used and may not even
+be considered correct.  There is no "british_variant_3",
+"canadian_variant_3" or "australian_variant_3" spelling category since
 the distinction would be almost meaningless.
 
 The "abbreviation" category includes abbreviations and acronyms which
@@ -81,96 +83,141 @@ Finally the "words" category contains all the normal English words.
 To give you an idea of what the words in the various sizes look like
 here is a sample of 25 random words found only in that size:
 
-10: agreement analysis anyplace associated command covers danger domain
-    established fairly falls gasoline generally hiding implement improving
-    obvious origin partially proof prospect publication shop threat welcomes 
-
-20: apologizing approximation arc catalogs debates defend deserted graduated
-    harmony humane interacted interviewed lightninged marker merge passion
-    questionnaire radical sentient signatures strips stupidity timer
-    undergone weaknesses 
-
-35: absurdity afar blinkers chairperson colloquial curvature effusive
-    ejecting hoards investor kickback lapsed monstrous outstripped oxidation
-    pointlessly pores reveler reverberation seclude tanked tasseling
-    terminators uncovered understatement 
-
-40: activism aphrodisiacs apocalypse approbations assholes baa checkmate
-    collectibles commentated defection deforestation elates euphemistic
-    flubbed gunrunners platefuls procreated resonate saxes seminal shortcut
-    stripteasing unfairness upstage yep 
-
-50: agilely antipodes bandoleers boasters complainant comporting
-    concertmaster counterclaiming dishrag distaff fatalists inconceivably
-    joshed junker marmosets pachyderm reassembling rectifiable selectivity
-    shadowboxing stammerer subjoined tackler unhorsing wacks 
-
-55: ambulancewoman behaviorist behindhand bookstall cochineal commies
-    commissionaire crabwise craftswoman denationalized eponymous girly plenum
-    racegoers remolded sadhu samosa shorthanded slurry snobbishly
-    turbochargers twilit vaginas waterborne yellowness 
-
-60: antiquarianism barterers bivalent calciferous cambial cermet
-    collateralize discrepant femininely frolickers fustiness grandnieces
-    noncumulative nonfictional nonparticipants nonredeemable obsolesce
-    overdecorates overexertion reinsertion rewashing tonging unfiltered
-    ungraceful venturousness 
-
-70: acyl bandoline capote conjunctival disheartenment disprize gyrostatics
-    hylomorphism incoercible martlet monochromatism mucoprotein nympha
-    paraphiliac perichondrium phenazine standoffishness subtypes televisor
-    tramontane trustily tyrannicidal ultramicrometer underusing zootoxin 
-
-80: angularnesses arrantly busher cornborers cosentient cotehardie
-    deglamorizing erythorbates gefülltefish gramash gunkholing logie
-    lovelornness mousmee murry nielled opisthotonic partitioners quietsome
-    shedhand specificate tacrine unearmarked vavassor veridicous 
-
-95: amphigean apionol besugo blunnen centriciput comblessness dipleiodoscope
-    friskest galloflavine harpylike insupposable microchiropteran
-    nongeographic nontradition oxygas porcelanite precompelled presubdue
-    receptitious semiliberal sheetwriting thermolyzing trifoliata
-    unsyllogistical zephiran 
+10: anyone arrives asks calculate change compromise cost discussed doubtful
+    encountering external feed images isolate materials necessary owner phase
+    precisely programmer reflected regular sex sound trap 
+
+20: brave cage commit cooked courier crunches dashes disconnect fantasy
+    fights filter inclination leak noticeably overseas rotating sights
+    socially sole song spit swallowing triumph trousers unwise 
+
+35: awaking creeping crucifix defacing dome ethically garnish granular hedges
+    hushing impotence jaunt lifeboat militated nearsightedness notations pew
+    rawer repulse sardines scoffs tripping tweaked upholds viability 
+
+40: alohas badmouths chump clobber cockiness deviants disfigurements fests
+    fuck gassiest geologic gizmo impersonator masseuse monochromes peppy
+    pigsties piss publicists rethinks slushier smooching sweltered
+    telecommuter yeps 
+
+50: acquirable aquanauts blinders circlet condoling despoil dormouse
+    emulsification fetishist hansoms interrogative misapply miscounting
+    naysayers ovulation palefaces pasha phoneyed photosensitive
+    significations skylark squiggle supremacist tiresomeness wildfowl 
+
+55: anglicize aquatically autobahns beanpole bevvies centralism cuboids
+    drapers footballing ghettoizes gorgons hoofer immobilizers magicked
+    neckband neckbands prezzies scorekeepers spymasters syllabubs tinplate
+    treacly uncomprehendingly yellowness yuppified 
+
+60: activator airbuses beadles chevalier comfortableness consulship dabber
+    daces inexpiable marriageability nondisclosure palatine pantywaists
+    postmeridian preformed rabbeted reedit rezoning satori terrycloth
+    thrombotic tradeswomen unapproved versa whippletree 
+
+70: adactylous aerometry animalism chalcedonic crownpiece downburst
+    electrocorticogram foreshowed irenicism irresponsibleness jacklighting
+    lewis lippiness naumachias nihil nonobedience normalizer pipage pyas
+    rickettsias secco superrich tetanize thromboembolisms ultramodernism 
+
+80: burhels convivialists defeudalizing détraquée explosivenesses fies
+    flagrancies fluidifies gratillity houdah indigolite lamaistic multiagency
+    oporice paupered preappointed progressionism radicating reccy sheriffdom
+    sloebushes southeasts steening tourings unpresuming 
+
+95: acierations comminator coumbite deligated foremisgiving impalmed kerrite
+    laverocked mirandous nearaways nonceremonial nonlyrical pbxes
+    periependymal preinsinuate quistron somatognostic taxodont terebate thisn
+    tracksick transubstantiationalists unresembling unstrategically verquire 
 
 
 And here is a count on the number of words in each spelling category
 (american + english spelling category):
 
   Size   Words       Names    Running Total  %
-   10    4,427          13        4,440     0.7
-   20    8,122           0       12,562     1.9
-   35   37,259         222       50,043     7.6
-   40    6,846         491       57,380     8.7
-   50   25,129      18,213      100,722    15.3
-   55    6,509           0      107,231    16.3
-   60   13,895         745      121,871    18.5
-   70   35,634       7,934      165,439    25.2
-   80  144,343      33,371      343,153    52.2
-   95  227,730      86,651      657,534   100.0
+   10    4,425          13        4,438     0.7
+   20    8,128           0       12,566     1.9
+   35   37,259         222       50,047     7.6
+   40    6,853         491       57,391     8.7
+   50   25,238      18,680      101,309    15.4
+   55    6,489           0      107,798    16.4
+   60   14,516         850      123,164    18.7
+   70   35,303       7,897      166,364    25.3
+   80  144,178      33,367      343,909    52.3
+   95  227,641      86,631      658,181   100.0
 
 
 (The "Words" column does not include the name count.)
 
 Size 35 is the recommended small size, 50 the medium and 70 the large.
-For spell checking I recommend using 60.  Sizes 70 and below contain
-words found in most dictionaries while the 80 size contains all the
-strange and unusual words people like to use in word games such as
-Scrabble (TM).  While a lot of the words in the 80 size are not
-used very often, they are all generally considered valid words in the
-English language.  The 95 contains just about every English word in
-existence and then some.  Many of the words at the 95 level will
-probably not be considered valid English words by most people.  I use
-the 60 size for the English dictionary for Aspell, and I don't
-recommend anyone use levels above 70 for spell checking.  Levels above
-70 contain rarely used words which can hide misspellings of similar
-more commonly used words.  For example the word "ort" can hide a
-common typo of "or".  No one should need to use a size larger than 80,
-the 95 size is labeled insane for a reason.
+Sizes 70 and below contain words found in most dictionaries while the
+80 size contains all the strange and unusual words people like to use
+in word games such as Scrabble (TM).  While a lot of the words in the
+80 size are not used very often, they are all generally considered
+valid words in the English language.  The 95 contains just about every
+English word in existence and then some.  Many of the words at the 95
+level will probably not be considered valid English words by most
+people.
+
+For spell checking I recommend using size 60.  This size is the
+largest size that I am fairly confident does not contain any
+misspellings or invalid words.  In addition an effort is made to
+exclude valid yet problematic words (such as "calender") from the 60
+size that are likely to be a misspelling of a more common word.  The
+70 size is reasonable for those wanting a larger list and don't mind a
+few errors.  The 80 or larger sizes are not reasonable for spell
+checking.
 
 Accents are present on certain words such as café in iso8859-1 format.
 
 CHANGES:
 
+From Version 2018.04.16 to 2019.10.06
+
+  Various new words.
+
+  Remove compare's and fail's.
+
+From Version 2017.08.24 to 2018.04.16
+
+  Various new words.
+
+  Fix build problems on macOS.
+
+From Version 2017.01.22 to 2017.08.24
+
+  Various new words.
+
+From Version 2016.11.20 to 2017.01.22
+
+  Various new words.
+
+From Version 2016.06.26 to 2016.11.20
+
+  New Australian spelling category thanks to the work of Benjamin
+  Titze (btitze@protonmail.ch)
+
+  Various new words.
+
+From Version 2016.01.19 to 2016.06.26
+
+  Various new words.
+
+  Updated to Version 6.0.2 of 12dicts
+
+  Other minor changes.
+
+From Version 2015.08.24 to 2016.01.19
+
+  Various new words.
+
+  Clarified README to indicate why the 60 size is the preferred size
+  for spell checking.
+
+  Remove some very uncommon possessive forms.
+
+  Change "SET UTF8" to "SET UTF-8" in hunspell affix file.
+
 From Version 2015.05.18 to 2015.08.24 (Aug 24, 2015)
 
   Various new words.
@@ -244,7 +291,7 @@ From Revision 7.1 to Version 2014.08.11 (August 11, 2014)
 
   Add schema and scripts for creating a SQLite database from SCOWL.
   Add some utility and library functions using them.  This database is
-  used by the new web app's (http://app.aspel.net/lookup & create).
+  used by the new web app's (http://app.aspell.net/lookup & create).
 
   Enhance speller/make-hunspell-dict.  The biggest improvement is that
   it that it now generates several more dictionaries in addition to
@@ -312,11 +359,6 @@ From Revision 4a to 5 (January 3, 2002)
 
   Moved rarely used inflections of a word into higher number lists.
 
-From 7.1
-
-  Shifted the variant levels so that level 0 is now 1, level 1 now 2,
-  and level 2 now 3.
-
   Added other inflections of a words based on the following criteria
     If the word is in the base form: only include that word.
     If the word is in a plural form: include the base word and the plural
@@ -373,10 +415,10 @@ From Revision 1 to 2 (August 5, 2000)
 
 COPYRIGHT, SOURCES, and CREDITS:
 
-The collective work is Copyright 2000-2015 by Kevin Atkinson as well
+The collective work is Copyright 2000-2018 by Kevin Atkinson as well
 as any of the copyrights mentioned below:
 
-  Copyright 2000-2015 by Kevin Atkinson
+  Copyright 2000-2018 by Kevin Atkinson
 
   Permission to use, copy, modify, distribute and sell these word
   lists, the associated scripts, the output created from the scripts,
@@ -564,11 +606,30 @@ found anywhere else.
 
 Accent information was taken from UKACD.
 
-My VARCON package was used to create the American, British, and
-Canadian word list. 
+The VarCon package was used to create the American, British, Canadian,
+and Australian word list.  It is under the following copyright:
+
+  Copyright 2000-2016 by Kevin Atkinson
+
+  Permission to use, copy, modify, distribute and sell this array, the
+  associated software, and its documentation for any purpose is hereby
+  granted without fee, provided that the above copyright notice appears
+  in all copies and that both that copyright notice and this permission
+  notice appear in supporting documentation. Kevin Atkinson makes no
+  representations about the suitability of this array for any
+  purpose. It is provided "as is" without express or implied warranty.
+
+  Copyright 2016 by Benjamin Titze
+
+  Permission to use, copy, modify, distribute and sell this array, the
+  associated software, and its documentation for any purpose is hereby
+  granted without fee, provided that the above copyright notice appears
+  in all copies and that both that copyright notice and this permission
+  notice appear in supporting documentation. Benjamin Titze makes no
+  representations about the suitability of this array for any
+  purpose. It is provided "as is" without express or implied warranty.
 
-Since the original word lists used in the VARCON package came
-from the Ispell distribution they are under the Ispell copyright:
+  Since the original words lists come from the Ispell distribution:
 
   Copyright 1993, Geoff Kuenning, Granada Hills, CA
   All rights reserved.
@@ -591,18 +652,17 @@ from the Ispell distribution they are under the Ispell copyright:
      products derived from this software without specific prior
      written permission.
 
-  THIS SOFTWARE IS PROVIDED BY GEOFF KUENNING AND CONTRIBUTORS ``AS
-  IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-  LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
-  FOR A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL GEOFF
-  KUENNING OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
-  INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
-  BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
-  LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-  CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
-  LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
-  ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
-  POSSIBILITY OF SUCH DAMAGE.
+  THIS SOFTWARE IS PROVIDED BY GEOFF KUENNING AND CONTRIBUTORS ``AS IS'' AND
+  ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+  IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+  ARE DISCLAIMED.  IN NO EVENT SHALL GEOFF KUENNING OR CONTRIBUTORS BE LIABLE
+  FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+  DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
+  OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
+  HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
+  LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
+  OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
+  SUCH DAMAGE.
 
 
 The variant word lists were created from a list of variants found in