]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blob - 7.1/r/alt12dicts/README
[svn-upgrade] Tagging scowl (7.1)
[deb_pkgs/scowl.git] / 7.1 / r / alt12dicts / README
1 Unofficial Alternate 12Dicts package (Alt12Dicts)
2 Files by Alan Beale
3 Packaged by Kevin Atkinson
4
5 Revision 4
6 August 6, 2004
7
8 The files contained in this archive are the result of a rather
9 extensive conversation between me (Kevin Atkinson) and Alan Beale, the
10 author of the 12Dicts package.  I can be contacted at kevina@gnu.org
11 and Alan Beale can be contacted at biljir@pobox.com.  This archive
12 contains almost all the information in the official 12Dicts package
13 but in a different format as well as a good deal of additional
14 information.  However it is not meant as a replacement for the
15 official 12Dicts package.  It simply offers the information in a
16 different way.
17
18 This package corresponds to Version 4.0 of the official 12Dicts package.
19
20 The latest version of this package and the official 12Dicts package can
21 be found at http://aspell.sourceforge.net/wl/.
22
23 The file README-orig contains the original Readme file distributed
24 with the official 12Dicts package.  README-infl contains the Readme
25 file for 2of12infl.txt and finally README-agid contains the Readme for
26 AGID which 2of12infl.txt is based on.
27
28 All of these files have been explicitly placed in the Public Domain by
29 Alan Beale.
30
31
32 2of12full.txt description:
33
34 The file 2of12full.txt contains the all words appearing in more than
35 than one of Alan Beale's source dictionaries.  Each line contains four
36 numbers, being the total number of dictionaries, the non-variant
37 entries, the variant entries, and the non-American entries.  Counts of
38 zero are replaced by hyphens.  For instance, the entry
39
40  7:  -  2#  5&   aeroplane
41
42 indicates that the word "aeroplane" is listed in 7 of the dictionaries.
43 None list it as a primary American word, 2 list it as a variant form,
44 and 5 list it as a non-American word.  Note that words may be marked
45 with a "&" for either of 2 reasons.  They may represent a non-American
46 spelling of an American word, such as "aeroplane" or "gaol", or they
47 may represent a word not normally used in American English, such as
48 "bloke" or "lorry".
49
50 Words marked with a colon (":") after it are abbrivations which are
51 entirely lower-case and alphabetic.
52
53 This file contains almost all the information found in the normal
54 12Dicts package except for the marking of "second class", the
55 inclusion of "signature words" which did not appear in at least two
56 dictionaries.  A second class word is a word that that an inflection
57 which was defined in the same entry as the base word, is a derived
58 word (-ly, -ness or -er/or) which was not defined in a separate entry,
59 or appeared in a list of undefined words with a common prefix, such as
60 un- or re-.
61
62
63 signature.txt description:
64
65 The file signature.txt contains a list of signature words.  Signature
66 words are words are words which failed are not in at least 6
67 dictionaries but Alan Beale thought should be included at the 6of12
68 level (see README-orig).  Examples of some of the sorts of words are
69 included are:
70
71 1.  Words of the same category as other included words.  An example is
72     the astrological sign "Cancer", which alone of all the astro-
73     logical signs fails to appear in 6 or more of the dictionaries.
74     Similarly added were the omitted holidays "Thanksgiving" and
75     "Valentine's Day".
76 2.  Vulgarities, sexual terms and insults.  Some such words were
77     already included, but most of the source dictionaries were quite
78     squeamish about them.  These words are very widely known indeed;
79     I hold that any list of "common" words which does not include the
80     infamous f-word is simply discredited thereby.  Some may feel that
81     it would have been better to leave some or all of these terms
82     unmentioned.  Nevertheless, the expression of blasphemy,
83     unwarranted contempt, and perverse lust, whether in words or in
84     deeds, is a very human trait.  Suppressing the evidence of these
85     aspects of the human condition in our language makes no more sense
86     than excluding "leprosy", "gangrene" and "dementia", no matter how
87     unpleasant they may be to contemplate.
88 3.  Conventional conversational phrases so common as to be practically
89     invisible to native speakers.  Examples are "thank you", "good
90     night", "uh-huh", "of course" and "gesundheit".
91 4.  Sports terminology, especially for football and baseball.
92
93
94 signature2.txt description:
95
96 The file signature2.txt contains inflections of irregular verbs not
97 explicitly mentioned in 2 source dictionaries, such as "outfought" and
98 "reheard".
99
100
101 variants.txt description:
102
103 The variants.txt file contains a subset of the words appearing in at
104 least one of the 12 source dictionaries marked as variants or
105 non-American.  This list contains only the words which are spelling
106 variants, words which represent different ways of saying the same
107 thing (such as "henceforward" as a variant of "henceforth") and
108 non-American words without a similar American form (such as "telly")
109 have been removed.  Each entry is followed by a tab, and a notation
110 indicating which of several classes the word falls into.  To describe
111 the classes, it is best to do a little algebra.  Let NV be the total
112 number of non-variants, A the number of American variants, B the
113 number of non-American variants, and V=A+B.  Then the following
114 annotations are to be interpreted as follows:
115
116 #! - A >= B, NV = 0
117 &! - A < B, NV = 0
118 #  - A >= B, V > NV
119 &  - A < B, V > NV
120 #? - A >= B, 0.65*NV < V <= NV 
121 &? - A < B, 0.65*NV < V <= NV
122
123 Simplifying, the choice between # and & indicates which variety of
124 variant dominates, while ! and ? indicate a stronger or weaker than
125 average agreement on variance.
126
127 Additional notes on the list from Alan:
128
129   I should note a couple other characteristics of this file.  First of
130   all, there are cases where spellings exist which are clearly
131   variants of one another, but where this is not recognized by the
132   source dictionaries.  An example is the pair "levelheaded" and
133   "level-headed".  These are clearly the same word, but none of my
134   sources lists both of them.  I have chosen not to go beyond the
135   source dictionaries and put such words on the variants list, even in
136   obvious cases like this one.
137
138   I should also note that there are cases where the question of
139   whether 2 words are spelling variants or actually different words is
140   not easy to answer.  For instance, consider the pairs
141   "lengthways"/"lengthwise" or "toward"/"towards".  I've simply made
142   whatever decision seemed best to me in cases like this ("lengthways"
143   is a variant, "towards" is not), but recognize that any other
144   observer (who could bring himself to care) would be likely to
145   occasionally disagree.
146
147
148 abbr.txt description:
149
150 This file contains (almost) all the abbreviations and acronyms from
151 the 12Dicts sources.  Abbreviations which also in a list of common
152 personal names (of about the same completeness as the ESL dictionaries)
153 are marked with a tilda ("~") after it.  There are still likely to be
154 some abbreviations not marked with a tilda that match less common
155 names.
156
157 Additional notes from Alan:
158
159   For words containing upper-case, I [Alan Beale] had not recorded
160   whether a word was an abbreviation, so I was forced to remove the
161   non-abbreviations from the list by hand. Because of the need to
162   remove non-abbreviations, I limited myself to consideration of
163   upper-case words of 6 or fewer characters.  It is possible that a
164   small number of acronyms or abbreviations longer than 6 characters
165   might have been missed.
166
167
168 variant-notes.txt description:
169
170 The file variant-notes.txt contains some additional notes on
171 questionable variants sent to me when I pointed out that nought was
172 not marked as a variant.
173
174
175 2of12full.txt description:
176
177 See README-infl
178
179
180 2of4brif.txt, 3esl.txt, and 5desk.txt description:
181
182 These files are identical to the orignal files in the 12Dicts package.
183 See README-orig for more info.