]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blob - r/infl/README
[svn-inject] Installing original source of scowl
[deb_pkgs/scowl.git] / r / infl / README
1 Automatically Generated Inflection Database (AGID)
2
3 January 3, 2003
4 Revision 4
5
6 Copyright 2000-2003 by Kevin Atkinson <kevina@gnu.org>
7
8 The file "infl.txt" is an automatically created database of the
9 inflected forms of words from a rather large word list.
10
11 The latest version can be found at http://aspell.sourceforge.net/wl/.
12
13 Entries are in the following form.
14
15 <word><sp><pos>[?]:<sp><inflected forms>
16 <word>             := [[A-Za-z']]+
17 <sp>               := <literal space>
18 <pos>              := [[VNA]]
19 <inflected forms>  := <inflected form><sp>|<sp>...<sp>|<sp><inflected form>
20 <inflected form>   := <individual entry>,<sp>...,<sp><individual entry>
21 <individual entry> := <word><word tags>[<sp><variant level>][<sp>{<explanation>}]
22 <word tags>        := [~][<][!][?]
23 <explanation>      := [<explanation text>][:<distinguishing number>]
24 <explanation text> := [[A-Za-z'_/]]+
25
26 where stuff between [ ] is optional, stuff between [[ ]] indicate a
27 range of possible characters for that entry.  If a [[ ]] is followed by
28 a + it means the entry can consist of one or more characters in
29 that range. { } are literal.
30
31 A typical entry will look like
32
33 WORD V: WORDed, WORed 2, WORD {EXPL} | WORDing, WORing 2 | WORDs
34
35 <pos> is V for verb, N for noun, or A or adjective or adverb.
36 If <pos> is followed by a ? that means that the part-of-speech was not
37 in the part-of-speech database however the inflected forms of the word
38 where found in the word list.
39
40 The inflected forms are in the following order for verbs (except for
41 a few special verbs):
42   <past tense> [<past participle>] <-ing form> <-s form> 
43 and for adjective or adverbs:
44   <-er form> <-est form>
45 Each form is seperated by a ' | '.  
46
47 An absence of a variant level implies a variant level of 0.  Two words
48 with the same whole number variant level are considered almost equal
49 with a slight preference given to the entry with a lower number.  A
50 whole number variant level of 1 indicates a less preferred form of the
51 word.  A whole number variant level of 2 indicates any number of
52 things.  It could mean that it is from an archaic use of the word, or
53 a variant that is hardly ever used or for an extremely obscure meaning
54 of the word, or finally it could mean that the word looked like it
55 could possibly be a inflected form of the base word but I could not
56 find any evidence for them.  If two words have the same variant level
57 and explanation it means that both inflections were found and the
58 script was not sure which one to use.
59
60 Sometimes the inflected form to use depends on the meaning of the
61 word.  If this is the case the two entries will have different
62 explanations.  If the distinction can be made in a few words it is
63 given with underscores (_) replacing spaces.  Otherwise the two
64 entries will have different distinguishing numbers.
65
66 A < after a word means that there is a good change that this is an
67 inflected form of the word, a ~ after a word means that there is a
68 slight chance.  A ! after a word indicates that the word is likely an
69 inflections of a similar word (generally one ending in e) and not the
70 current word.  A ? after a word means that the word was not in the
71 word list but if it was it would be considered an inflected form of
72 the base word.
73
74 This verson is now almost as accurate as Alan Beale's 2of12id file
75 distributed with the "Unofficial Alternate 12 Dicts Package" for the
76 base words which have an entry in 2of12id.txt with a few notable
77 exceptions.  The most obvious one is the "person" entry.  Alan Beale
78 considers, based on what his sources have told him, that "persons" is
79 the proper plural for "person" and "people" is considered a variant.
80 I however disagree and decided to consider "people" the primary form
81 and "persons" as the sligtly less perfered variant based on my own
82 experence and http://www.quinion.com/words/usagenotes/un-person.htm
83 which says:
84
85   The normal plural of person was persons ... However, there is
86   evidence from Chaucer onwards that some writers chose to use people
87   as a plural for person, not only in the generalised sense of 'an
88   uncountable or indistinct mass of individuals' but also in specific
89   countable cases. ... Though persons survives, it does so largely in
90   formal or legal contexts ...From the evidence, it seems that the
91   trend towards using people instead of persons is accelerating and
92   that it may not be so long before persons vanishes from the language
93   except in certain set phrases.
94
95 I considered making "persons" a variant (level 1), but I decided
96 against it as "persons" is for the most part perfectly acceptable and
97 probably considered the proper plural to use by some.
98
99 I also considered the -people ending the primary form for all words
100 ending in -person such as salesperson and the -persons entry the
101 slightly less preferred variant in spite of what 2of12id.txt said.
102
103 In some cases a variant of level 2 is listed in AGID where it is not
104 listed at all in 2of12id.  In general this means that the script came
105 up with the possibility and, in spite it not being listed in 2of12id,
106 it seams logical to me.
107
108 The final case occurs when a word has two or more -s inflections used
109 as both noun and verb forms, and these forms would have different
110 variant levels in 2of12id.  For example:
111   ditto N: dittos, dittoes 1
112   ditto V: dittoed | dittoing | dittos, dittoes 0.1
113 For purely technical reasons and because I do not feel that it matters
114 too much I have made the variant levels for the -s forms the same.  For
115 example the ditto entries became:
116   ditto N: dittos, dittoes 0.1
117   ditto V: dittoed | dittoing | dittos, dittoes 0.1
118 The choice of the variant levels I used is somewhat arbitrary but I in
119 general went with the lower level.
120
121 Fell free to send me corrections to correct any of these questionable
122 words.  I am mostly interested in the preferred form of the word when
123 the script was not able to decide or words marked with < or ~ that are
124 valid inflected forms of the words.
125
126 Also included in this version are the files "variant_0.lst",
127 "variant_1.lst", "variant_2.lst", and "variant.tab".  The files
128 "variant_#.lst" include all of the inflected forms at the given level
129 found in infl.txt which are not generally considered to be some other
130 common word.  The file variant.tab contains a cross reference of all
131 alternate forms of inflected form of words.  The file variant-wroot.tab
132 is like variant.tab except that it also included the root form of the 
133 word.
134
135 Words are in mixed case but all accents have been striped thus words
136 like cafĂ© are instead cafe.
137
138 The file "variant" contains a list of alternate inflections.
139
140 The file "irregular" contains extra information where a noun or verb
141 has irregular inflected forms.
142
143 The file "dontuse" contains a list of words not to consider an
144 inflected form of a word if more than one inflected form of a word is
145 found.
146
147 The files "prefixes" and "suffixes" contains a list of common prefixes
148 and suffixes respectfully.  These files are used by the script to
149 produce inflected forms for words that end in a word in the
150 "irregular" file. If the beginning appears in the word list or the
151 prefixes file and the ending appears in the irregular file I also
152 consider <prefix>+<irregular inflections>.  If the prefix is 3 letters
153 or more OR appears in the prefixes file and the suffix is 4 letters or
154 more OR appears in the suffixes file I consider it the most likely
155 choice, otherwise I consider it as a possible candidate but not the
156 most likely choice.
157
158 The file "make-infl" is the actual Perl script used to create the
159 data base.
160
161 The file "find-var" is the Perl script used to create the variant
162 lists and cross reference file.
163
164 The file "make-all" was used to create the word list used by the script.
165
166 CHANGES:
167
168 From Revision 3a to 4 (January 2, 2003)
169
170   Added variant-wroot.tab
171   Update find-var script to also produce variant-wroot.tab.
172
173 From Revision 3 to 3a (April 04, 2001)
174
175   Fixed a bug in the find-var script which caused some common
176   words which are variants for one usage of a word but not 
177   variants for any other common usage to improperly appear in
178   the variant list.
179
180 From Revision 2 to 3 (January 28, 2001)
181
182   Changed the format of infl.txt to something which is slightly harder
183   to read but a lot less ambiguous and easier to parse.
184
185   Update various files, including the actual script, so that the
186   output that is almost as accurate of Alan Beale 2of12id.txt
187
188   Eliminated Moby Words and ABLE from the word list used by the script
189   to give more accurate results.
190
191 From Revision 1 to 2 (August 18, 2000)
192
193   Classified variants as either almost equal, also used, or
194   secondary.
195
196   The / is now used to indicate equal variants.  "/?" is now used to
197   mean what "/" used to be.
198
199   Lots of additional rules added which greatly improved the results.
200
201 COPYRIGHT AND SOURCE:
202
203 The final product is under the following copyright, as well as any
204 copyrights mentioned below.
205
206   Copyright 2000-2003 by Kevin Atkinson
207
208   Permission to use, copy, modify, distribute and sell this database,
209   the associated scripts, the output created form the scripts and its
210   documentation for any purpose is hereby granted without fee,
211   provided that the above copyright notice appears in all copies and
212   that both that copyright notice and this permission notice appear in
213   supporting documentation. Kevin Atkinson makes no representations
214   about the suitability of this array for any purpose. It is provided
215   "as is" without express or implied warranty.
216
217 The part-of-speech database is taken from Alan Beale 2of12id 
218 and the WordNet database which is under the following copyright:
219
220     This software and database is being provided to you, the LICENSEE, by
221     Princeton University under the following license.  By obtaining, using  
222     and/or copying this software and database, you agree that you have  
223     read, understood, and will comply with these terms and conditions.:  
224   
225     Permission to use, copy, modify and distribute this software and
226     database and its documentation for any purpose and without fee or
227     royalty is hereby granted, provided that you agree to comply with  
228     the following copyright notice and statements, including the disclaimer,  
229     and that the same appear on ALL copies of the software, database and  
230     documentation, including modifications that you make for internal  
231     use or for distribution.  
232   
233     WordNet 1.6 Copyright 1997 by Princeton University.  All rights reserved.  
234   
235     THIS SOFTWARE AND DATABASE IS PROVIDED "AS IS" AND PRINCETON  
236     UNIVERSITY MAKES NO REPRESENTATIONS OR WARRANTIES, EXPRESS OR  
237     IMPLIED.  BY WAY OF EXAMPLE, BUT NOT LIMITATION, PRINCETON  
238     UNIVERSITY MAKES NO REPRESENTATIONS OR WARRANTIES OF MERCHANT-  
239     ABILITY OR FITNESS FOR ANY PARTICULAR PURPOSE OR THAT THE USE  
240     OF THE LICENSED SOFTWARE, DATABASE OR DOCUMENTATION WILL NOT  
241     INFRINGE ANY THIRD PARTY PATENTS, COPYRIGHTS, TRADEMARKS OR  
242     OTHER RIGHTS.
243   
244     The name of Princeton University or Princeton may not be used in  
245     advertising or publicity pertaining to distribution of the software  
246     and/or database.  Title to copyright in this software, database and  
247     any associated documentation shall at all times remain with  
248     Princeton University and LICENSEE agrees to preserve same.  
249
250 Alan Beale 2of12id.txt is indirectly derived from the Moby part-of-speech
251 database and the WordNet database.  The Moby part-of-speech is in the
252 public domain:
253
254     The Moby lexicon project is complete and has
255     been place into the public domain. Use, sell,
256     rework, excerpt and use in any way on any platform.
257     
258     Placing this material on internal or public servers is
259     also encouraged. The compiler is not aware of any
260     export restrictions so freely distribute world-wide.
261     
262     You can verify the public domain status by contacting
263     
264     Grady Ward
265     3449 Martha Ct.
266     Arcata, CA  95521-4884
267     
268     grady@netcom.com
269     grady@northcoast.com
270
271
272 The word list used is a combination of several word list:
273
274 1) The ENABLE2K word lists which is in the public domain:
275
276      The ENABLE master word list, WORD.LST, is herewith formally
277      released into the Public Domain. Anyone is free to use it or
278      distribute it in any manner they see fit. No fee or registration
279      is required for its use nor are "contributions" solicited (if you
280      feel you absolutely must contribute something for your own peace
281      of mind, the authors of the ENABLE list ask that you make a
282      donation on their behalf to your favorite charity). This word
283      list is our gift to the Scrabble community, as an alternate to
284      "official" word lists. Game designers may feel free to
285      incorporate the WORD.LST into their games. Please mention the
286      source and credit us as originators of the list. Note that if
287      you, as a game designer, use the WORD.LST in your product, you
288      may still copyright and protect your product, but you may *not*
289      legally copyright or in any way restrict redistribution of the
290      WORD.LST portion of your product. This *may* under law restrict
291      your rights to restrict your users' rights, but that is only
292      fair.
293
294 2) All of the word lists except ABLE.LST in the ENABLE2K Supplemnt
295    which consists of:
296
297      2DICTS.LST  ALSO.LST   LETTERS.LST  OSPDADD.LST  UCACR.LST
298      LCACR.LST  NOPOS.LST    PLURALS.LST  UPPER.LST
299
300    All of these word lists are also in the public domain.
301
302 3) The list of signature words from the YAWL package which is in the
303    public domain.
304
305 4) The UK Advanced Cryptics Dictionary which in under the following
306    copyright:
307
308      Copyright (c) J Ross Beresford 1993-1999. All Rights Reserved.
309
310      The following restriction is placed on the use of this
311      publication: if The UK Advanced Cryptics Dictionary is used
312      in a software package or redistributed in any form, the
313      copyright notice must be prominently displayed and the text
314      of this document must be included verbatim.
315
316      There are no other restrictions: I would like to see the
317      list distributed as widely as possible.
318
319 5) Some extra words found in the Part-Of-Speech database that was not
320    found in any of the above word lists.
321
322 6) Words found in the Jargon File Word List package, available at
323    http://aspell.sourceforge.net/wl/, which is in the Public Domain.
324
325 7) Words in 2of12id.txt not in any of the word lists above.  2of12id is
326    indirectly derived from all the above sources and most of the word
327    lists from the Moby Words package:
328
329      10196pla.ces 113809of.fic 21986na.mes 256772co.mpo 354984si.ngl
330      3897male.nam 4160offi.cia 4946fema.len 6213acro.nym 74550com.mon
331    
332    The Moby Word package, like the Part-Of-Speech database is in the
333    public domain.
334
335 8) And finally some extra words that I added myself.  These words can be
336    found in the file "extra-words"
337
338 The "dontuse", "irregular", and "variant" file was created by me
339 (Kevin Atkinson) from numerous sources.
340