]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blob - 7.1/r/alt12dicts/README-orig
[svn-upgrade] Tagging scowl (7.1)
[deb_pkgs/scowl.git] / 7.1 / r / alt12dicts / README-orig
1 Introduction
2
3 12dicts is a collection of English word lists. It differs in several
4 important ways from most of the other free word lists you can download.
5
6   * The 12dicts lists are oriented towards common words. If you're
7     looking for myriads of archaic, scientific or computer jargon words,
8     you should look elsewhere.
9   * The 12dicts lists have been rigorously checked for errors. (This is
10     not to say that they are error-free, merely that enough care has
11     been taken that errors are rather infrequent.)
12   * 12dicts contains a variety of lists, of different sizes and
13     characteristics. One size does not fit all. Because each list has
14     different characteristics, I do not recommend combining them, except
15     as noted below.
16
17 Originally, 12dicts was composed of lists derived from a specific set of
18 12 source dictionaries. In addition to these "classic" lists, 12dicts
19 now includes lists derived from other sources. It would perhaps be
20 appropriate to rename 12dicts to something more generic, such as BAWL
21 (Beale's Assorted Word Lists), but I have not done so in order to
22 preserve continuity.
23
24 A quick summary of the 12dicts lists and their characteristics is as
25 follows:
26
27 +---------------------------------------------------------+
28 |               |3esl |6of12|2of12|2of4brif|5desk|2of12inf|
29 |---------------+-----+-----+-----+--------+-----+--------|
30 |Size           |21877|32153|41236|60387   |61406|81520   |
31 |---------------+-----+-----+-----+--------+-----+--------|
32 |Abbreviations  |Y    |Y    |N    |N       |N    |N       |
33 |---------------+-----+-----+-----+--------+-----+--------|
34 |Acronyms       |Y    |Y    |N    |N       |Y    |N       |
35 |---------------+-----+-----+-----+--------+-----+--------|
36 |British English|N    |N    |N    |Y       |N    |N       |
37 |---------------+-----+-----+-----+--------+-----+--------|
38 |Hyphenations   |Y    |Y    |Y    |N       |N    |N       |
39 |---------------+-----+-----+-----+--------+-----+--------|
40 |Inflections    |N    |N    |N    |Y       |N    |Y       |
41 |---------------+-----+-----+-----+--------+-----+--------|
42 |Names          |Y    |Y    |N    |N       |Y    |N       |
43 |---------------+-----+-----+-----+--------+-----+--------|
44 |Phrases        |Y    |Y    |N    |N       |N    |N       |
45 +---------------------------------------------------------+
46
47 The remainder of this document is organized as follows:
48
49   * This release
50   * The classic 12dicts lists
51       + The 6of12 and 2of12 lists
52       + The 2of12inf list
53   * The 3esl list
54   * The 2of4brif list
55   * The 5desk list
56   * How 12dicts came to be
57   * Conclusions
58
59 This release
60
61 This is release 4.0 of 12dicts, released Jan. 18, 2003. It differs from
62 previous versions by containing three additional lists which are not
63 derived from the "classic" 12dicts sources. Changes to the classic lists
64 are limited to error corrections.
65
66 The classic 12dicts lists
67
68 The 12dicts project began as the n-dicts projects, n being a variable
69 whose value finally stabilized as 12. The purpose of the project was to
70 create a list of words approximating the common core of the vocabulary
71 of American English.
72
73 The methodology of the project was to record and correlate the words
74 listed in a number of small dictionaries. The number of dictionaries so
75 recorded is now 12, comprising 8 ESL (English as a Second Language)
76 dictionaries and 4 "desk dictionaries". The dictionaries chosen vary
77 widely by publisher, by style, by completeness and by depth. In this
78 version of 12dicts, all of them are dictionaries of American English
79 (three from British publishers). The smallest of them contains about
80 20,000 entries, and the largest 46,000. (All totaled, there are about
81 75,000 entries, many of which appear in only a single dictionary.) All
82 but two of them were published in the last seven years.
83
84 The 6of12 and 2of12 lists
85
86 I initially tried two different ways of winnowing the 12dicts data to
87 produce lists of common words. Both produced interesting results. One
88 list, the 6of12 list, contains all words and phrases listed in 6 of the
89 12 dictionaries. One way of describing this list is that it contains
90 those words and phrases which a (seeming) majority of lexicographers
91 believe are relevant to people learning English, and/or to everyday
92 usage. This list contains about 32,000 words and phrases. The other
93 list, the 2of12 list, is more inclusive in that it includes words listed
94 in as few as two of the source dictionaries, but less inclusive in that
95 it excludes items of various sorts, including multiword phrases, proper
96 names and abbreviations. This list contains about 41,000 words. It is
97 perhaps more suitable for use in areas like spell checking or word games
98 than the 6of12 list. (Honesty compels me to admit that neither of these
99 lists is, by itself, a good choice for spell checking, due to the
100 absence of inflections, proper names, Roman numerals, etc.)
101
102 A third list, 2of12inf.txt, developed later, is of a rather different
103 character, and is discussed in a later section.
104
105 A more precise description of the criteria by which the above lists were
106 composed is as follows:
107
108 6of12 list word selection
109
110   * The 6of12 list contains all non-excluded words and phrases which
111     appear in 6 or more of the source dictionaries.
112   * Prefixes and suffixes are excluded. Abbreviations are included;
113     however, if they are entirely lower-case and alphabetic, they are
114     terminated with a colon (":") so they can be easily distinguished
115     from regular words.
116   * Inflections of included words are not themselves included unless
117     they are separately defined or irregular.
118   * It sometimes occurs that a word is listed in several forms (e.g.,
119     with and without hyphenation) in 6 or more dictionaries, even though
120     no single form is so listed. In this case, if one spelling is
121     clearly more accepted, this spelling and this spelling only is
122     listed. If all spellings seem equally accepted, one spelling has
123     been selected arbitrarily for inclusion.
124   * The 6of12 list contains a significant number of words which do not
125     meet either criterion 1 or 4 above. These words, sometimes called
126     "signature words", are discussed below. All of these words are
127     listed in at least one of the source dictionaries.
128   * In addition to the ":" suffix discussed above, other special suffix
129     characters are used to mark words with certain characteristics, as
130     discussed below.
131
132 2of12 list word selection
133
134   * The 2of12 list contains all non-excluded words which appear in at
135     least 2 of the source dictionaries.
136   * This list excludes capitalized words, multiword phrases, and
137     abbreviations, as well as prefixes and suffixes. It does not exclude
138     hyphenated words or contractions. If a word occurs in both a
139     hyphenated and an unhyphenated form, the unhyphenated form is
140     listed, even if the hyphenated form is generally preferred.
141   * The list excludes spellings which are considered (by a majority of
142     the dictionaries listing it) to be non-American usage. It also
143     excludes secondary spellings which are mentioned by fewer than four
144     of the source dictionaries.
145   * Inflections of included words are not themselves included unless
146     they are separately defined, or irregular.
147   * Several of the source dictionaries include listings for obscure
148     currencies, such as ringgit, khoum and ngwee. I was unable to regard
149     such words as part of the English "core vocabulary", and so I
150     required citation in over a third of the dictionaries for inclusion
151     of monetary units. A side-effect was the elimination of the word 
152     lepton, which, in addition to its use in particle physics, is also
153     .01 Greek drachmas.
154   * This list also includes a small number of signature words, as
155     discussed below.
156
157 Signature words
158
159 As indicated, both lists have been augmented with words (and, in the
160 case of the 6of12 list, phrases) which fail to meet the formal
161 requirements for inclusion. In the case of the 6of12 list, 1024 words
162 were added (about 3 % of the total). These are all words which, in the
163 judgment of the compiler, are as familiar as many of the words which met
164 the criteria for inclusion. Examples of some of the sorts of words which
165 were added are:
166
167   * Words of the same category as other included words. An example is
168     the astrological sign Cancer, which alone of all the astrological
169     signs fails to appear in 6 or more of the dictionaries. Similarly
170     added were the omitted holidays Thanksgiving and Christmas Eve.
171   * Vulgarities, sexual terms and insults. Some such words were already
172     included, but most of the source dictionaries were quite squeamish
173     about them. These words are very widely known indeed; I hold that
174     any list of "common" words which does not include the infamous
175     f-word is simply discredited thereby. Some may feel that it would
176     have been better to leave some or all of these terms unmentioned.
177     Nevertheless, the expression of blasphemy, unwarranted contempt and
178     perverse lust, whether in words or in deeds, is a very human trait.
179     Suppressing the evidence of these aspects of the human condition in
180     our language makes no more sense than excluding leprosy, gangrene
181     and dementia, no matter how unpleasant they may be to contemplate.
182   * Conventional conversational phrases so common as to be practically
183     invisible to native speakers. Examples are thank you, good night,
184     uh-huh, of course and gesundheit.
185   * Sports terminology, especially for football and baseball. (If I, who
186     am practically sports-blind, noticed this deficiency, it must be of
187     major proportions indeed.)
188
189 Note that the signature words in the 6of12 list can be identified via
190 the suffix character "+", and eliminated if desired.
191
192 A much smaller set of words (49) was added to the 2of12 list. These were
193 of two sorts:
194
195   * Signature words from the 6of12 list which were not already present
196     in the 2of12 list, and which are not excluded due to being
197     abbreviations, phrases, etc.
198   * Inflections of irregular verbs not explicitly mentioned in 2 source
199     dictionaries, such as outfought and reheard.
200
201 Annotations
202
203 Some of the 6of12 list entries are annotated with a suffix character,
204 giving additional information about the associated word. The annotations
205 can be easily removed with an editor or script if they are unwanted.
206
207 These annotations are:
208
209 : The word is an otherwise unmarked abbreviation. This suffix may appear
210   in combination with another suffix.                                   
211 & The word is primarily a non-American usage.                           
212 # The word is generally held to be a variant or less preferred form of  
213   another word.                                                         
214 < This form of a word is held to be the primary form by fewer           
215   dictionaries than some other form of the word.                        
216 ^ This form of the word was selected arbitrarily from a set of variants,
217   none of which was clearly preferred.                                  
218 = Roughly, this indicates a "second class" word, as described below.    
219 + The word is a signature word.                                         
220
221 The reasons a word might be marked with the = annotation are:
222
223   * The word is an inflection which was defined in the same entry as the
224     base word.
225   * The word is a derived word (-ly, -ness or -er/or) which was not
226     defined in a separate entry.
227   * The word appeared in a list of undefined words with a common prefix,
228     such as un- or re-.
229
230 The words in the 2of12 list are not annotated.
231
232 The 2of12inf list
233
234 The 2of12inf list is of a rather different character from the two
235 original "classic" lists. Conceptually, it is simple. It consists of all
236 the words in the 2of12 list, plus their inflections, amounting to about
237 81,000 words. This list may be more useful than the other lists for
238 applications like word games. It was created to help Kevin Atkinson in
239 his Aspell and SCOWL projects (for which, follow this link). Unlike the
240 6of12 and 2of12 lists, this list is not based exclusively on the
241 contents of my 12 source dictionaries, and for this reason it has, I
242 feel, less authority than the other classic 12dicts lists. It also
243 probably has a significantly higher error rate than the other lists, for
244 reasons explained below.
245
246 The criteria defining the 2of12inf list are as follows:
247
248   * The 2of12inf list contains all non-excluded words which appear in at
249     least 2 of the source dictionaries.
250   * This list excludes capitalized words, multiword phrases,
251     abbreviations, contractions, hyphenated words and single-letter
252     words, as well as prefixes and suffixes.
253   * The list does not exclude secondary spellings, non-American usages
254     or monetary units.
255   * The list includes inflections of all included words. Any inflection
256     mentioned or clearly implied by any of the source dictionaries is
257     included (i.e., two citations are not required). Additionally, some
258     inflections have been added from other sources.
259   * Plurals of "uncountable" nouns were included, annotated with the "%"
260     suffix character. See below for an extended discussion of the
261     inclusion of these words.
262   * Signature words from the other lists, plus their inflections, were
263     added. No other signature words were added.
264
265 Though the 2of12inf list still consists mostly of very common words,
266 criteria 3 through 5 above cause the 2of12inf list to contain a greater
267 proportion of unfamiliar and unusual words than the other classic
268 12dicts lists.
269
270 The 2of12inf list was not derived directly from the 12 source
271 dictionaries. The starting point was a subset of Kevin Atkinson's AGID
272 list, a list of words, parts of speech and inflections derived from
273 public-domain sources, notably Moby Words and WordNet. (See the file
274 agid.txt in the 12dicts archive, which is a copy of the AGID "readme",
275 for more information on the antecedents of AGID.) 2of12inf was created
276 by a process of editing the AGID subset to remove spurious entries and
277 those which reflected a more esoteric English vocabulary than the other
278 12dicts lists, and to add inflections which AGID failed to identify.
279 This process required significantly less effort than would have been
280 needed to derive the list directly from the source dictionaries.
281 Unfortunately, a side effect of the process is that the result is likely
282 to be somewhat less reliable than the other 12dicts lists. In
283 particular, Moby Words is notoriously unreliable, and I find it unlikely
284 that I have successfully identified all the spurious inflections its use
285 has introduced. It is my hope in the future to release another edition
286 of 2of12inf which is not derived from AGID, and therefore not "infected"
287 by Moby Words.
288
289 After the first version of the 2of12inf list was released, I replaced
290 one of the source dictionaries, officially an international dictionary
291 but in actuality rather British in its orientation, with a more American
292 dictionary by the same publisher. It was not practical (nor necessarily
293 desirable) for me to go through the list removing inflections endorsed
294 only by the superseded dictionary. For this reason, the 2of12inf list
295 has a slightly more international character than the other 12dicts
296 lists. It is not altogether clear that this is a bad thing.
297
298 Selection of inflections
299
300 Ideally, the 2of12inf list would contain only inflections listed in one
301 of the 12dicts source dictionaries. This proved not to be practical. The
302 reason for this has to do with the nature of these sources, which are
303 mostly ESL dictionaries. An ESL dictionary might well list the word 
304 esophagus, but, because an English learner is unlikely to need to talk
305 about this organ in the plural, it will probably not bother to list the
306 plural form esophagi. For words of this sort, I therefore needed to
307 obtain their inflections from other sources. Obviously, the decisions on
308 when to include additional inflections were judgment calls, as were the
309 choices of which inflections to add.
310
311 Adjectival inflections (comparatives and superlatives) proved to be an
312 especially annoying problem. Only 2 of my 12 source dictionaries
313 provided remotely reliable information of this sort. In fact, such
314 information is sparse and inconsistent in most dictionaries of any size.
315 I relied on a small set of additional dictionaries for this information,
316 which was mostly disjoint from the sources for plurals and verb forms.
317 Several of these sources were Scrabble(r)-related, and therefore
318 inclined to include forms of little plausibility such as iller/illest or
319 fertiler/fertilest. Accordingly, I ended up rejecting some of the
320 documented inflections on grounds of implausibility. I have no doubt
321 that, in the process, I made a number of errors of both inclusion and
322 exclusion and, in any case, many of the forms listed have no connection
323 with any of the 12dicts source dictionaries.
324
325 One additional problem in the creation of the 2of12inf list was that of
326 "uncountable" nouns and their plurals. Some English dictionaries,
327 especially ESL dictionaries, as well as other linguistic sources attest
328 to the existence of nouns which cannot be counted, or used in the
329 plural. Examples of such nouns include mud, rayon, oregano, chess,
330 fairness, wisdom, aluminum, training, materialism and chickenpox. This
331 is an entirely commonsense notion, but a difficulty is the fact that the
332 boundary between the countable and the uncountable is extremely vague
333 and ill-defined. For example, the word coffee is ordinarily uncountable,
334 but not when ordering in a restaurant, as is the word symmetry, except
335 in physics or math. In general, it is possible to contrive a context
336 where use of the plural of any noun whatsoever is reasonable.
337
338 An alternate position, therefore, is that in fact no nouns are
339 uncountable, and that any noun which is not already plural possesses a
340 plural. This position is especially useful in the context of word games,
341 where words such as zeals and anthraxes may produce large scores. For
342 this reason, the official Scrabble dictionaries list words such as 
343 thens, onces and mankinds, which most people find rather implausible.
344 The fact that the 2of12inf list might well be useful in gaming contexts,
345 together with the fact that the boundary between countable and
346 uncountable nouns is so ill-defined, served as a powerful argument for
347 inclusion of all plural forms, whether commonly used or not, while its
348 derivation from ESL sources argued for including only the plurals of
349 countable nouns, however distinguished.
350
351 In the end, I was unable to resolve this dilemma, and adopted a
352 compromise. The 2of12inf list includes all plurals, but with the plurals
353 of uncountable nouns marked, making it easy to remove them if they are
354 not wanted. That left the issue of how to establish countability. Six of
355 my source dictionaries included information on countability, which was
356 adequate to decide the status of most of the included nouns. As for the
357 rest, as usual, I used my best judgment. I will confess to occasionally
358 overriding the source dictionaries when I believed they were clearly
359 incorrect. (For instance, I chose not to mark the word hatreds as an
360 uncountable plural, in defiance of the opinion of all my sources, on the
361 grounds that it has been used in too many news stories from Bosnia to be
362 considered unusual.) It is interesting to note that most of the plurals
363 I added from auxiliary sources were of words considered uncountable.
364
365 The difficulties listed above, and the fact that I was forced to
366 exercise personal judgment frequently in creating it, emphasizes a
367 fundamental difference between this list and the other classic 12dicts
368 lists. I have tried to make the 6of12 and 2of12 lists reflect only the
369 source dictionaries, and to keep my own judgments and opinions out of
370 the picture (except for my addition of signature words). This has proved
371 impossible to achieve for the 2of12inf list, which accordingly
372 represents a less authoritative and more arbitrary collection.
373 Additionally, the 2of12inf list has undergone less proofreading and
374 validation than the other lists, and I suspect the error rate is
375 considerably higher than the idealistic goal of 0.02 % I advocate
376 elsewhere in this document. Nevertheless, I hope it may prove to be of
377 some use and interest.
378
379 I wish to offer my special thanks to Kevin Atkinson, for supplying me
380 with the AGID list, and for encouraging me to add the inflections. Of
381 course, any errors that remain in the 2of12inf list are my own
382 responsibility, and should not be blamed on Kevin, AGID, or even on
383 Moby.
384
385 The 3esl list
386
387 The 3esl list represents another attempt to produce an English "core
388 vocabulary" list. It is about 2/3 of the size of the 6of12 list, which
389 it resembles in terms of the sorts of words included.
390
391 The 3esl list is a far more subjective list than any of the classic
392 12dicts lists. It was compiled from 3 small ESL dictionaries, using the
393 same criteria for eligibility as the 6of12 list. I started with a list
394 composed of all words from the smallest of the 3 sources, plus all words
395 contained in both of the others. This list was then edited in the
396 following ways:
397
398  1. I removed alternate spellings for included words, such as grey and 
399     off-stage. I also removed very similar synonyms for the same
400     concept, for instance, removing cable television as a duplicate of 
401     cable TV.
402  2. I added one form of each word which would have been included if the
403     sources had agreed on spelling, such as shortchange and back seat.
404  3. I removed some words which were present in the smallest of the
405     sources but seemed too esoteric, such as the symbols of chemical
406     elements. I did this only for words which were not present in the
407     other sources.
408  4. I added some words which were present in only one of the two larger
409     sources, but which seemed appropriate to add. These words were
410     frequently of the sort added to the 6of12 list as signature words,
411     as well as some inflections that often function as words with
412     meanings of their own, such as comforting and notes.
413
414 All of these changes were quite subjective in nature, and quite
415 numerous. Probably more than 10 % of the candidate words were added or
416 removed in this way. For this reason, it is pointless to speak of
417 signature words for this list; the composition of the list is too
418 arbitrary for the term to make any sense. (I will note that the list is
419 still not entirely arbitrary, as I added only words found in some form
420 in one of the sources, and removed no words present in two of the
421 sources other than duplicates. Thus, words like front page were not
422 added, no matter how familiar, and words such as lugubrious were not
423 removed, despite clearly not being part of any "core vocabulary".)
424
425 Like the 6of12 list, the 3esl list marks lower-case abbreviations with a
426 ":" suffix, to prevent them from being mistaken for regular English
427 words.
428
429 One final note on this list. The 3esl list contains about 1500 words not
430 present in the 6of12 list. Because these two lists have the same rules
431 for the kinds of words included, one could easily combine the two to
432 produce a slightly larger list including a number of words whose
433 omission from 6of12 is rather surprising. Be warned that in a few cases,
434 the spelling chosen for words with multiple spellings is different in
435 the two lists, and I would recommend that the duplicates be removed.
436 (I'll be happy to provide a list of the duplicates if anyone wants one.)
437
438 The 2of4brif list
439
440 All of the classic 12dicts lists are unabashedly oriented towards
441 American English. I've received a few expressions of interest in a
442 British English list. The result is the 2of4brif list. This list was
443 compiled from 4 large "international" ESL dictionaries, published by
444 British publishers. To this American, they are more British than they
445 are international; quite possibly, they seem more American than
446 international to British readers. It is interesting to note that,
447 although there were only a third as many sources for this list as for
448 the 12dicts lists, these dictionaries resembled each other far more
449 closely than their American counterparts, which could mean that the
450 2of4brif list is as good an approximation of a "core" British English
451 vocabulary as the 6of12 list is for American English. (Or, alternately,
452 it may simply mean that my choice of sources was too narrow.)
453
454 This criteria for inclusion in this list were basically those of the
455 2of12inf list. In particular, inflections are included for all words,
456 but hyphenated words, contractions, phrases, proper names and
457 abbreviations are all excluded. One important difference between the two
458 is the way in which inflections were determined for inclusion. The
459 2of12inf list includes some inflections found in one (or even none) of
460 its sources. Further, as discussed in detail above, it includes plurals
461 for words which are not normally considered to have plurals. The
462 2of4brif list differs in both of these regards. It includes only
463 inflections endorsed by two or more of the sources, specifically
464 excluding any plural forms for nouns listed as uncountable.
465
466 The 2of4brif list includes no signature words as such. I made a small
467 number of adjustments for consistency, such as making sure that -ise and
468 -ize spellings were equally represented, and adding plurals for ordinal
469 numbers. (Why fourteenth would be defined as a fraction, but not 
470 seventeenth, I must simply regard as a mystery.) These edits were so
471 few, and so clearly harmless, that I have not marked them.
472
473 Prospective users of the 2of4brif list should realize that it was
474 compiled by an American. If my sources contained any glaring errors (and
475 most dictionaries have a few), I might well not have noticed, and
476 perpetuated them in the list. The fact that two citations were required
477 is some protection against such an event, but no guarantee.
478
479 As the 2of4brif list is very similar in makeup to the 2of12inf list, a
480 user who wants a larger, more international list than either could
481 reasonably merge the two. If you do this, you should remove the unusual
482 plurals (marked with a "%") from the 2of12inf list in the process, for
483 consistency.
484
485 The 5desk list
486
487 I created the 5desk list in an attempt to do a better /usr/dict/words
488 (about which I offer many harsh criticisms elsewhere in this document).
489 The sorts of words admitted are the same sorts that /usr/dict/words
490 contains. Though somewhat larger in size than most versions of /usr/dict
491 /words, this is still a short word list, striving for inclusion of words
492 one is likely to encounter rather than the complete jargon of every
493 possible scientific, artistic or occult endeavor.
494
495 5desk was assembled primarily from five "desk dictionaries". It was
496 augmented by words from five minor sources, including a "vocabulary
497 builder" and a collection of proper names. The list excludes prefixes,
498 suffixes, phrases, hyphenated words, contractions and most abbreviations
499 and acronyms. There was no requirement for multiple listings; all
500 qualifying words from each of the sources were included. Inflections of
501 included words were not included themselves except when irregular, or
502 separately defined. Variant and non-American spellings were not
503 excluded, and no signature words were added.
504
505 Words commonly considered to be abbreviations/acronyms were included if
506 they contained at least one upper case character, and were defined with
507 an explicit part of speech. This excluded items like Mr and Feb, which
508 are abbreviations in the classic sense, but allowed words like DNA and 
509 ATM, which are used far more frequently than that which they abbreviate.
510 While there is a trend in modern dictionaries to list such words as
511 nouns (or occasionally verbs, adverbs, etc.), it is a trend in progress,
512 and rather inconsistently applied. For this reason, the set of such
513 words in the 5desk list is somewhat incoherent, including SPCA but not 
514 PETA, AIDS but not SIDS, KGB but not CIA, and PDQ but not ASAP.
515
516 One class of commonly-used words is regrettably absent from the 5desk
517 list, because I was unable to find a satisfactory source for them. This
518 is the class of commercial names such as Exxon, Tylenol, Pepsi and Chevy
519 . This is probably forgivable, as this class of names is as ephemeral
520 and transitory as teenage slang. The one-time household words Kool,
521 Ovaltine, Philco and Ipana serve now only as answers to trivia
522 questions, with modern wonders like Starbucks, Google, Ritalin and TiVo
523 taking their place on the tongues of the trendy.
524
525 The 5desk list has clearly moved beyond any "core vocabulary" concept.
526 It includes quite esoteric words (ogee, pleonastic), very uncommon
527 spellings (thiamine, yuppy), and obscure geographical and historical
528 names (Paricutin, Nevelson). Like /usr/dict/words, it is frequently
529 inconsistent and arbitrary, but I hope at the least I have avoided
530 including spelling errors, and overlooking the stuff of everyday
531 conversation. Perhaps it will be useful as a compromise between basic
532 lists such as 3esl, and truly massive lists like Mendel Cooper's ENABLE.
533
534 How 12dicts came to be
535
536 It may have occurred to some to wonder about how something like the
537 n-dicts project came to be (though I assume that anyone who bothers to
538 download this archive must already have some idea that such a project
539 could be of interest).
540
541 Some years ago, there was a post to the sci.crypt Usenet newsgroup, on
542 the subject of creating PGP passphrases using randomly selected entries
543 from a supplied list of very short words. (If this sounds interesting,
544 follow this link for an expanded version of the post.) The word list,
545 which was extracted from /usr/dict/words on some UNIX system, seemed to
546 me ill-suited to its intended purpose. It included arcane acronyms (
547 bstj, fmc), misspellings (diety, ouvre) and words of amazing obscurity (
548 bhoy, kombu). I decided I could do better (and eventually did). This
549 caused me to start downloading English word lists, of which there are
550 many, from the Internet. I was not impressed by the overall quality of
551 these lists, and the few which were high-quality were all-inclusive,
552 burying the everyday words under a mountain of archaisms and esoterica.
553 The flaws of the vast majority of these lists are worth recounting:
554
555   * Failure to proofread. Many of these lists are littered with
556     misspellings and typos, sometimes approaching gibberish. (I presume,
557     for instance, that the bizarre string nondploe, which was found in a
558     purported Scrabble word list, is a typo for something more or less
559     legitimate, but I have no idea what.) Working on my own lists has
560     helped me understand that 100 % accuracy is a very demanding goal,
561     seldom actually achieved, but I still feel it reasonable to expect
562     no more than 1 or 2 errors per 10,000 words.
563   * Acceptance of completely undocumented lazy spellings, such as 
564     bullseye and courtmartial.
565   * Failure to respect capitalization.
566   * Failure to distinguish abbreviations from other entries.
567   * Treating esoteric computer jargon, and especially UNIX jargon, as
568     everyday English. (Beware any list which includes bitblt, emacs,
569     inode or lvalue.)
570   * Apparently random word selection. For instance, the most common
571     version of /usr/dicts/words contains a large set of apparently
572     randomly chosen personal names (uncapitalized, of course, and
573     missing wanda, marge, polly and sid).
574   * Inconsistent inflection. Some lists include all inflections of their
575     vocabulary, while others include only singulars and infinitives.
576     Either policy is fine, and has its advantages. I am personally very
577     annoyed when inflected forms appear at random. I find this generally
578     happens when a compiler merges several lists with different
579     characteristics, with no attempt to reconcile their divergent
580     styles.
581   * Omission of everyday words. I've seen a purported general-purpose
582     list that includes bremsstrahlung, yet omits log and beer. Or that
583     includes saxophone but not sax, and rhinoceros but not rhino. Of
584     course, due to my original purpose in seeking out common short
585     words, I found this especially annoying.
586
587 One result of my frustration with this situation was my working with
588 Mendel Cooper on ENABLE (for further information, check out this link),
589 which was close to unique in having an active caretaker, one clearly
590 concerned with quality, and in being oriented towards American rather
591 than British English. But ENABLE is an all-encompassing list and, even
592 if it had been complete at the time I started my search for a list of
593 common words, it would not have been what I wanted for that reason.
594
595 I finally decided that only starting from scratch with a systematic
596 approach was likely to get me what I was looking for, and that
597 dictionaries intended for non-native speakers of English were the best
598 possible source for words that are in some cases so familiar that we
599 never think of them. This has led to the 12dicts lists, which I hope
600 have managed to avoid the flaws recited above.
601
602 (I should acknowledge one form of inconsistency exhibited by the 12dicts
603 lists, which is that sometimes related words are spelled inconsistently.
604 For instance, the 2of12 list contains both broadminded and 
605 broad-mindedness. This generally occurs as a result of the methodology
606 used to build the lists. In the case of broadminded, only one source
607 dictionary listed broadmindedness, which was therefore excluded. I felt
608 unequal to trying to correct these inconsistencies, some of which are
609 real and not mere artifacts of 12dicts, such as the contrast between 
610 self-conscious and unselfconscious.)
611
612 Conclusions
613
614 When I released the first version of 12dicts in 1999, I assumed I was
615 done with it. It hasn't worked out that way. Before I declare it
616 finished for a second time, there are a few more things I'd like to
617 accomplish.
618
619   * As mentioned above, I would like to rework the 2of12inf list to
620     remove the dependency on the Moby lists.
621   * As may be seen by inspecting the table of file characteristics, the
622     12dicts files now form a spectrum of word lists, with contents
623     ranging from the extremely common to the mildly esoteric. I would
624     like to extend the spectrum further by applying the 12dicts
625     methodology to dictionaries of larger size. Whether I will ever get
626     the time for a project this large remains to be seen. If it ever
627     comes to pass, it will probably be released separately from 12dicts
628     itself, as anything larger than the 5desk list will be too large to
629     even pretend to represent a "core English" vocabulary. (Even the
630     5desk list itself is too large for that purpose.)
631   * It is possible that in the future the "n" of n-dicts will increase
632     again, but, in fact, consideration of an additional dictionary now
633     generally ends with the discovery that its vocabulary matches
634     12dicts pretty closely. At the very least, this phenomenon gives me
635     hope that the 12dicts lists have now fulfilled their basic purpose.
636
637 The 12dicts lists were compiled by Alan Beale. I explicitly release them
638 to the public domain, but request acknowledgment of their use.
639 (Actually, the dependency of the 2of12inf list on AGID prevents its
640 release into the public domain. However, I do not impose any additional
641 requirements on its use beyond those imposed by AGID and its sources, as
642 described in agid.txt.) Feel free to send comments, suggestions,
643 inquiries and/or large sums of money to me at biljir@pobox.com. If you
644 find 12dicts useful, I'd love to hear about it.