]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blob - r/infl/README
Merge tag 'upstream/2017.01.22'
[deb_pkgs/scowl.git] / r / infl / README
1 Automatically Generated Inflection Database (AGID)
2
3 Version 2016.01.19
4
5 Copyright 2000-2016 by Kevin Atkinson <kevina@gnu.org>
6
7 The file "infl.txt" is an automatically created database of the
8 inflected forms of words from a rather large word list.
9
10 The latest version can be found at http://wordlist.aspell.net
11
12 Entries are in the following form.
13
14 <word><sp><pos>[?]:<sp><inflected forms>
15 <word>             := [[A-Za-z']]+
16 <sp>               := <literal space>
17 <pos>              := [[VNA]]
18 <inflected forms>  := <inflected form><sp>|<sp>...<sp>|<sp><inflected form>
19 <inflected form>   := <individual entry>,<sp>...,<sp><individual entry>
20 <individual entry> := <word><word tags>[<sp><variant level>][<sp>{<explanation>}]
21 <word tags>        := [~][<][!][?]
22 <explanation>      := [<explanation text>][:<distinguishing number>]
23 <explanation text> := [[A-Za-z'_/]]+
24
25 where stuff between [ ] is optional, stuff between [[ ]] indicate a
26 range of possible characters for that entry.  If a [[ ]] is followed by
27 a + it means the entry can consist of one or more characters in
28 that range. { } are literal.
29
30 A typical entry will look like
31
32 WORD V: WORDed, WORed 2, WORD {EXPL} | WORDing, WORing 2 | WORDs
33
34 <pos> is V for verb, N for noun, or A or adjective or adverb.
35 If <pos> is followed by a ? that means that the part-of-speech was not
36 in the part-of-speech database however the inflected forms of the word
37 where found in the word list.
38
39 The inflected forms are in the following order for verbs (except for
40 a few special verbs):
41   <past tense> [<past participle>] <-ing form> <-s form> 
42 and for adjective or adverbs:
43   <-er form> <-est form>
44 Each form is seperated by a ' | '.
45
46 Special cases:
47 be:
48   <past 1st & 3d singular> <2d singular, plural, past subjunctive>
49   <past participle> <present participle> <present 1st singular>
50   <2d singular> <3d singular> <plural present>
51 wit:
52   <past & past participle> <present participle> <present participle>
53   <present 1st & 3d singular> <2d singular> <plural present>
54
55 An absence of a variant level implies a variant level of 0.  Two words
56 with the same whole number variant level are considered almost equal
57 with a slight preference given to the entry with a lower number.  A
58 whole number variant level of 1 indicates a less preferred form of the
59 word.  A whole number variant level of 2 indicates any number of
60 things.  It could mean that it is from an archaic use of the word, or
61 a variant that is hardly ever used or for an extremely obscure meaning
62 of the word, or finally it could mean that the word looked like it
63 could possibly be a inflected form of the base word but I could not
64 find any evidence for them.  If two words have the same variant level
65 and explanation it means that both inflections were found and the
66 script was not sure which one to use.
67
68 Sometimes the inflected form to use depends on the meaning of the
69 word.  If this is the case the two entries will have different
70 explanations.  If the distinction can be made in a few words it is
71 given with underscores (_) replacing spaces.  Otherwise the two
72 entries will have different distinguishing numbers.
73
74 A < after a word means that there is a good change that this is an
75 inflected form of the word, a ~ after a word means that there is a
76 slight chance.  A ! after a word indicates that the word is likely an
77 inflections of a similar word (generally one ending in e) and not the
78 current word.  A ? after a word means that the word was not in the
79 word list but if it was it would be considered an inflected form of
80 the base word.
81
82 This verson is now almost as accurate as Alan Beale's 2of12id file
83 distributed with the "Unofficial Alternate 12 Dicts Package" for the
84 base words which have an entry in 2of12id.txt with a few notable
85 exceptions.  The most obvious one is the "person" entry.  Alan Beale
86 considers, based on what his sources have told him, that "persons" is
87 the proper plural for "person" and "people" is considered a variant.
88 I however disagree and decided to consider "people" the primary form
89 and "persons" as the sligtly less perfered variant based on my own
90 experence and http://www.quinion.com/words/usagenotes/un-person.htm
91 which says:
92
93   The normal plural of person was persons ... However, there is
94   evidence from Chaucer onwards that some writers chose to use people
95   as a plural for person, not only in the generalised sense of 'an
96   uncountable or indistinct mass of individuals' but also in specific
97   countable cases. ... Though persons survives, it does so largely in
98   formal or legal contexts ...From the evidence, it seems that the
99   trend towards using people instead of persons is accelerating and
100   that it may not be so long before persons vanishes from the language
101   except in certain set phrases.
102
103 I considered making "persons" a variant (level 1), but I decided
104 against it as "persons" is for the most part perfectly acceptable and
105 probably considered the proper plural to use by some.
106
107 I also considered the -people ending the primary form for all words
108 ending in -person such as salesperson and the -persons entry the
109 slightly less preferred variant in spite of what 2of12id.txt said.
110
111 In some cases a variant of level 2 is listed in AGID where it is not
112 listed at all in 2of12id.  In general this means that the script came
113 up with the possibility and, in spite it not being listed in 2of12id,
114 it seams logical to me.
115
116 The final case occurs when a word has two or more -s inflections used
117 as both noun and verb forms, and these forms would have different
118 variant levels in 2of12id.  For example:
119   ditto N: dittos, dittoes 1
120   ditto V: dittoed | dittoing | dittos, dittoes 0.1
121 For purely technical reasons and because I do not feel that it matters
122 too much I have made the variant levels for the -s forms the same.  For
123 example the ditto entries became:
124   ditto N: dittos, dittoes 0.1
125   ditto V: dittoed | dittoing | dittos, dittoes 0.1
126 The choice of the variant levels I used is somewhat arbitrary but I in
127 general went with the lower level.
128
129 Fell free to send me corrections to correct any of these questionable
130 words.  I am mostly interested in the preferred form of the word when
131 the script was not able to decide or words marked with < or ~ that are
132 valid inflected forms of the words.
133
134 Also included in this version are the files "variant_0.lst",
135 "variant_1.lst", "variant_2.lst", and "variant.tab".  The files
136 "variant_#.lst" include all of the inflected forms at the given level
137 found in infl.txt which are not generally considered to be some other
138 common word.  The file variant.tab contains a cross reference of all
139 alternate forms of inflected form of words.  The file variant-wroot.tab
140 is like variant.tab except that it also included the root form of the 
141 word.
142
143 Words are in mixed case but all accents have been striped thus words
144 like cafĂ© are instead cafe.
145
146 The file "variant" contains a list of alternate inflections.
147
148 The file "irregular" contains extra information where a noun or verb
149 has irregular inflected forms.
150
151 The file "dontuse" contains a list of words not to consider an
152 inflected form of a word if more than one inflected form of a word is
153 found.
154
155 The files "prefixes" and "suffixes" contains a list of common prefixes
156 and suffixes respectfully.  These files are used by the script to
157 produce inflected forms for words that end in a word in the
158 "irregular" file. If the beginning appears in the word list or the
159 prefixes file and the ending appears in the irregular file I also
160 consider <prefix>+<irregular inflections>.  If the prefix is 3 letters
161 or more OR appears in the prefixes file and the suffix is 4 letters or
162 more OR appears in the suffixes file I consider it the most likely
163 choice, otherwise I consider it as a possible candidate but not the
164 most likely choice.
165
166 The file "make-infl" is the actual Perl script used to create the
167 data base.
168
169 The file "find-var" is the Perl script used to create the variant
170 lists and cross reference file.
171
172 The file "make-all" was used to create the word list used by the script.
173
174 CHANGES:
175
176 From Ver 2014.08.11 to 2016.01.19
177
178   Avoid hard coding the input files in the make-infl script.
179
180   No changes to the data files.
181
182 From Rev 4 to Ver 2014.08.11
183
184   Misc. changes to sync up with what is being used by SCOWL.
185
186 From Revision 3a to 4 (January 2, 2003)
187
188   Added variant-wroot.tab
189   Update find-var script to also produce variant-wroot.tab.
190
191 From Revision 3 to 3a (April 04, 2001)
192
193   Fixed a bug in the find-var script which caused some common
194   words which are variants for one usage of a word but not 
195   variants for any other common usage to improperly appear in
196   the variant list.
197
198 From Revision 2 to 3 (January 28, 2001)
199
200   Changed the format of infl.txt to something which is slightly harder
201   to read but a lot less ambiguous and easier to parse.
202
203   Update various files, including the actual script, so that the
204   output that is almost as accurate of Alan Beale 2of12id.txt
205
206   Eliminated Moby Words and ABLE from the word list used by the script
207   to give more accurate results.
208
209 From Revision 1 to 2 (August 18, 2000)
210
211   Classified variants as either almost equal, also used, or
212   secondary.
213
214   The / is now used to indicate equal variants.  "/?" is now used to
215   mean what "/" used to be.
216
217   Lots of additional rules added which greatly improved the results.
218
219 COPYRIGHT AND SOURCE:
220
221 The final product is under the following copyright, as well as any
222 copyrights mentioned below.
223
224   Copyright 2000-2014 by Kevin Atkinson
225
226   Permission to use, copy, modify, distribute and sell this database,
227   the associated scripts, the output created form the scripts and its
228   documentation for any purpose is hereby granted without fee,
229   provided that the above copyright notice appears in all copies and
230   that both that copyright notice and this permission notice appear in
231   supporting documentation. Kevin Atkinson makes no representations
232   about the suitability of this array for any purpose. It is provided
233   "as is" without express or implied warranty.
234
235 The part-of-speech database is taken from Alan Beale 2of12id 
236 and the WordNet database which is under the following copyright:
237
238     This software and database is being provided to you, the LICENSEE, by
239     Princeton University under the following license.  By obtaining, using  
240     and/or copying this software and database, you agree that you have  
241     read, understood, and will comply with these terms and conditions.:  
242   
243     Permission to use, copy, modify and distribute this software and
244     database and its documentation for any purpose and without fee or
245     royalty is hereby granted, provided that you agree to comply with  
246     the following copyright notice and statements, including the disclaimer,  
247     and that the same appear on ALL copies of the software, database and  
248     documentation, including modifications that you make for internal  
249     use or for distribution.  
250   
251     WordNet 1.6 Copyright 1997 by Princeton University.  All rights reserved.  
252   
253     THIS SOFTWARE AND DATABASE IS PROVIDED "AS IS" AND PRINCETON  
254     UNIVERSITY MAKES NO REPRESENTATIONS OR WARRANTIES, EXPRESS OR  
255     IMPLIED.  BY WAY OF EXAMPLE, BUT NOT LIMITATION, PRINCETON  
256     UNIVERSITY MAKES NO REPRESENTATIONS OR WARRANTIES OF MERCHANT-  
257     ABILITY OR FITNESS FOR ANY PARTICULAR PURPOSE OR THAT THE USE  
258     OF THE LICENSED SOFTWARE, DATABASE OR DOCUMENTATION WILL NOT  
259     INFRINGE ANY THIRD PARTY PATENTS, COPYRIGHTS, TRADEMARKS OR  
260     OTHER RIGHTS.
261   
262     The name of Princeton University or Princeton may not be used in  
263     advertising or publicity pertaining to distribution of the software  
264     and/or database.  Title to copyright in this software, database and  
265     any associated documentation shall at all times remain with  
266     Princeton University and LICENSEE agrees to preserve same.  
267
268 Alan Beale 2of12id.txt is indirectly derived from the Moby part-of-speech
269 database and the WordNet database.  The Moby part-of-speech is in the
270 public domain:
271
272     The Moby lexicon project is complete and has
273     been place into the public domain. Use, sell,
274     rework, excerpt and use in any way on any platform.
275     
276     Placing this material on internal or public servers is
277     also encouraged. The compiler is not aware of any
278     export restrictions so freely distribute world-wide.
279     
280     You can verify the public domain status by contacting
281     
282     Grady Ward
283     3449 Martha Ct.
284     Arcata, CA  95521-4884
285     
286     grady@netcom.com
287     grady@northcoast.com
288
289
290 The word list used is a combination of several word list:
291
292 1) The ENABLE2K word lists which is in the public domain:
293
294      The ENABLE master word list, WORD.LST, is herewith formally
295      released into the Public Domain. Anyone is free to use it or
296      distribute it in any manner they see fit. No fee or registration
297      is required for its use nor are "contributions" solicited (if you
298      feel you absolutely must contribute something for your own peace
299      of mind, the authors of the ENABLE list ask that you make a
300      donation on their behalf to your favorite charity). This word
301      list is our gift to the Scrabble community, as an alternate to
302      "official" word lists. Game designers may feel free to
303      incorporate the WORD.LST into their games. Please mention the
304      source and credit us as originators of the list. Note that if
305      you, as a game designer, use the WORD.LST in your product, you
306      may still copyright and protect your product, but you may *not*
307      legally copyright or in any way restrict redistribution of the
308      WORD.LST portion of your product. This *may* under law restrict
309      your rights to restrict your users' rights, but that is only
310      fair.
311
312 2) All of the word lists except ABLE.LST in the ENABLE2K Supplemnt
313    which consists of:
314
315      2DICTS.LST  ALSO.LST   LETTERS.LST  OSPDADD.LST  UCACR.LST
316      LCACR.LST  NOPOS.LST    PLURALS.LST  UPPER.LST
317
318    All of these word lists are also in the public domain.
319
320 3) The list of signature words from the YAWL package which is in the
321    public domain.
322
323 4) The UK Advanced Cryptics Dictionary which in under the following
324    copyright:
325
326      Copyright (c) J Ross Beresford 1993-1999. All Rights Reserved.
327
328      The following restriction is placed on the use of this
329      publication: if The UK Advanced Cryptics Dictionary is used
330      in a software package or redistributed in any form, the
331      copyright notice must be prominently displayed and the text
332      of this document must be included verbatim.
333
334      There are no other restrictions: I would like to see the
335      list distributed as widely as possible.
336
337 5) Some extra words found in the Part-Of-Speech database that was not
338    found in any of the above word lists.
339
340 6) Words found in the Jargon File Word List package, available at
341    http://aspell.sourceforge.net/wl/, which is in the Public Domain.
342
343 7) Words in 2of12id.txt not in any of the word lists above.  2of12id is
344    indirectly derived from all the above sources and most of the word
345    lists from the Moby Words package:
346
347      10196pla.ces 113809of.fic 21986na.mes 256772co.mpo 354984si.ngl
348      3897male.nam 4160offi.cia 4946fema.len 6213acro.nym 74550com.mon
349    
350    The Moby Word package, like the Part-Of-Speech database is in the
351    public domain.
352
353 8) And finally some extra words that I added myself.  These words can be
354    found in the file "extra-words"
355
356 The "dontuse", "irregular", and "variant" file was created by me
357 (Kevin Atkinson) from numerous sources.
358