]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blob - r/alt12dicts/README-orig
New upstream version 2017.01.22
[deb_pkgs/scowl.git] / r / alt12dicts / README-orig
1 Version 6 of the 12dicts word lists
2
3 Welcome to version 6 of 12dicts, a collection of English word lists. It differs
4 in several important ways from most of the other free word lists you can
5 download.
6
7   • The 12dicts lists are oriented towards common words. If you're looking for
8     myriads of archaic, scientific or computer jargon words, you should look
9     elsewhere.
10   • The 12dicts lists have been rigorously checked for errors. (This is not to
11     say that they are error-free, merely that enough care has been taken that
12     errors are rather infrequent.)
13   • 12dicts contains a variety of lists, of different sizes and
14     characteristics. One size does not fit all. Because each list has different
15     characteristics, I do not recommend combining them, except as noted below.
16
17 Originally, 12dicts was composed of lists derived from a specific set of 12
18 source dictionaries. In addition to these "classic" lists, 12dicts now includes
19 lists derived from other sources. It would perhaps be appropriate to rename
20 12dicts to something more generic, such as BAWL (Beale's Assorted Word Lists),
21 but I have not done so in order to preserve continuity.
22
23 The remainder of this document is organized as follows:
24
25   • This release
26   • Some general observations
27   • The organization of 12dicts
28   • Picking a list to use
29   • The classic (American) 12dicts lists
30       □ The 6of12 and 2of12 lists
31       □ The 2of12inf list
32       □ The 3esl list
33   • The international 12dicts lists
34       □ The 2of4brif list
35       □ The 3of6 lists
36       □ The 5d+2a list
37   • The lemmatized 12dicts lists
38       □ The 2+2+3lem list
39       □ The 2+2+3frq list
40       □ The 2+2+3cmn list
41   • Specialized 12dicts lists
42       □ The neol2016 list
43       □ The 2of5core list
44       □ The 6phrase list
45   • How 12dicts came to be
46   • My other projects
47   • Conclusions
48
49 This release
50
51 This is release 6.0.1 of 12dicts, released April 2016. This is a major release.
52 The following is a brief rundown of the changes and additions:
53
54   • A number of new lists, based on 6 "advanced learner's" ESL dictionaries,
55     have been added. The sources are reasonably balanced between American and
56     British English. In addition to 3of6game.txt and 3of6all.txt, which are
57     more or less traditional word lists, 6phrase.txt, a list of multi-word
58     phrases, was added.
59   • The 5desk.txt list has been augmented with words from two of the advanced
60     learner's dictionaries, and renamed 5d+2a.txt to reflect this change.
61   • The lemmatized lists have been augmented by adding words from the new
62     advanced learner list 3of6game.txt along with some commonly-used hyphenated
63     words from both 2of12.txt and 3of6all.txt. These lists have been renamed
64     from 2+2lemma.txt and 2+2gfreq.txt to 2+2+3lem.txt and 2+2+3frq.txt to
65     reflect this change.
66   • Word frequency information for the lemmatized frequency list is now
67     obtained from a BYU corpus-derived frequency list rather than from Google
68     web data. A small number of abbreviations and proper names have been added
69     to the list.
70   • Two new small lists of especially common or important words have been
71     added: 2of5core.txt and 2+2+3cmn.txt.
72   • The annotations of the 6of12.txt list have been reworked.
73   • Minor corrections have been made to the "classic" lists.
74   • The neologism file, containing words too recent or controversial to be
75     listed in many of the source dictionaries, has been updated.
76   • Slight changes were made to the list of 6of12.txt signature words after it
77     was determined that a few of them should have been present as regular
78     (non-signature) words in the main body of the list but were omitted due to
79     compilation errors.
80   • The files were organized into directories to make them more manageable
81     given their increased number.
82   • The 2of4brif.txt list is being "deprecated". I will continue to distribute
83     it, but will not be changing or maintaining it. I consider the 3of6game.txt
84     list to be a complete replacement.
85
86 Some general observations
87
88 With the exception of the neol2016 list, all the 12dicts lists were assembled
89 in a similar fashion. Words were extracted from a set of source dictionaries
90 and, in most cases, a list was assembled by selecting all words and phrases
91 present in some number of the sources meeting certain criteria. For instance,
92 the 2of12 list comprises lower-case and hyphenated words present in at least
93 two of twelve source dictionaries. For some lists, rules are added establishing
94 exceptions for certain words or classes of words - for instance, the 2of12 list
95 contains the upper-case words I and O as exceptions to its general exclusion of
96 upper-case words and names.
97
98 Some lists contain annotations, which are special characters appended to
99 certain words. For instance, the ":" character is used in some lists to
100 identify abbreviations which are ordinarily used without a terminating period.
101 This annotation allows these abbreviations to be distinguished from possibly
102 similar regular words. Another annotation, used in the 3of6game and 3of6all
103 lists, is the "$" character, indicating a word that was placed in the list even
104 though fewer than three of the sources mention it. The "+" and "!'" annotations
105 are used to identify signature words and neologisms, as described below. Note
106 that is it possible for a word to have more than one annotation, though this is
107 uncommon. For instance, in the 6of12 list, the word boldfaced~= has both a "~"
108 and a "=" annotation, signifying that the word was an arbitrary choice between
109 two equally attested forms (boldfaced and bold-faced), and that it was not
110 given a separate definition in a majority of the sources listing it.
111
112 A number of the lists contain signature words. These are words (or phrases)
113 which do not meet the formal criteria for inclusion in a list, but which I have
114 chosen to add anyway, as words which "ought to be" present. Whether a list
115 contains signature words depends on the specific list. Usually, but not always,
116 a signature word is present in some of the sources used for a list, but not
117 enough of them to qualify for inclusion on that basis. Some lists may "inherit"
118 signature words from other lists from which they were assembled. For instance,
119 the 6phrase list includes the signature words from the 3of6all list. In most
120 cases, signature words are marked with the "+" annotation.
121
122 The neol2016 list contains neologisms, words which are not listed in some or
123 all of the source dictionaries for 12dicts, generally for one of two reasons.
124 First, many of the words are recent coinages which were not yet fully
125 recognized by mainstream lexicographers when the 12dicts sources were
126 published. Examples of such words are selfie, Obamacare, emoji and snarky.
127 Other so-called neologisms are well-established, often well-known, words which
128 are considered scandalous, such as sexual slang and ethnic slurs, and which are
129 often deliberately omitted from dictionaries. (I will not give any examples of
130 this sort of word here, but you will find some in the neol2016 list.) Note that
131 the neologism list has been accumulating for about fifteen years now, and some
132 of its words have become almost old-fashioned, such as spam and dotcom. The
133 neologism list is provided so that some or all of its words can be added to the
134 other lists where the intended usage makes that appropriate. However, I have
135 added the single-word neologisms to the 2of12inf and 3of6game, as these lists
136 are the most likely to be used in coding word games, where it is desirable to
137 recognize the very latest hot vocabulary. In these lists, neologisms are
138 annotated with the "!" character.
139
140 One other observation worth making is about diacritics. Some dictionaries will
141 tell you that there are English words correctly spelled café, naïve, façade and
142 piñata, and I do not wish to disagree with these authorities. But as a
143 practical matter, Americans do not like to use diacritics. Furthermore they use
144 keyboards which do not contain accented letters, and are often unfamiliar with
145 the often clumsy techniques that their software provides to use such
146 characters. For this reason, 12dicts drops all the accents from its English
147 vocabulary. This is particularly valuable for coding word games, where
148 expecting players to accent the e in cafe is not going to make them happy. (I
149 cannot help pointing out that Scrabble® contains no É tiles.) I apologize to
150 those who consider it a matter of some emotional importance that resume and 
151 résumé should be differently spelled.
152
153 The organization of 12dicts
154
155 The 12dicts lists are organized into four directories, grouping lists with
156 similar characteristics together. The remainder of this document follows this
157 organization as well. For each directory, a section of the documentation
158 describes in detail the lists it contains.
159
160 Most users of 12dicts end up using only a single list. If it is clear which
161 directory will contain the list you need, you can go directly to the
162 appropriate documentation.
163
164 The four directories are:
165
166   • American. The lists in this directory contain primarily American English
167     words.
168   • International. The lists in this directory contain words from both American
169     English and British English.
170   • Lemmatized. The lists in this directory combine other lists, and are
171     formatted in a way that clarifies word relationships.
172   • Special. The lists in this directory are special-purpose lists that do not
173     fit into the other directories.
174
175 Picking a list to use
176
177 If you are not certain which directory might contain the kind of list you are
178 looking for, here is a breakdown of the 12dicts lists by size and purpose which
179 may be helpful. If it does not help you find what you are looking for, you
180 might want to check out this table, which summarizes the characteristics of all
181 the 12dicts files, put together by Kevin Atkinson. Also, I suggest reading the
182 introduction to each directory presented in the previous paragraph, each of
183 which contains a table summarizing exactly what you can expect from each list
184 in that directory.
185
186   • Lists for use in word games: 2of12inf (American), 3of6game (International).
187   • A list ordered by word frequency: 2+2+3frq (Lemmatized).
188   • Small lists of common words: 2of5core (Special, very small), 3esl
189     (American), 2+2+3cmn (Lemmatized).
190   • Medium-sized lists: 6of12 (American, smaller, includes phrases), 2of12
191     (American, larger, no phrases).
192   • Large lists: 3of6all (International, includes phrases), 5d+2a
193     (International, no phrases, many obscure words), 2+2+3lem (Lemmatized, very
194     large).
195   • A list of phrases: 6phrase (Special).
196
197 The classic (American) 12dicts lists
198
199 The 12dicts project began as the n-dicts projects, n being a variable whose
200 value finally stabilized as 12. The purpose of the project was to create a list
201 of words approximating the common core of the vocabulary of American English.
202
203 The methodology of the project was to record and correlate the words listed in
204 a number of small dictionaries. The number of dictionaries so recorded ended up
205 as 12, comprising 8 ESL (English as a Second Language) dictionaries and 4 "desk
206 dictionaries". The dictionaries chosen varied widely by publisher, by style, by
207 completeness and by depth. All of them were dictionaries of American English
208 (three from British publishers). The smallest of them contained about 20,000
209 entries, and the largest 46,000. (All totaled, there are about 75,000 entries,
210 many of which appeared in only a single dictionary.) All but two of the sources
211 were published between 1992 and 1999, when 12dicts was first released.
212
213 The following table summarizes the contents of each of the classic lists,
214 located in the American directory, ordered by size in words:
215
216 ┌─────────────────┬──────┬──────┬──────┬────────┐
217 │                 │ 3esl │6of12 │2of12 │2of12inf│
218 ├─────────────────┼──────┼──────┼──────┼────────┤
219 │Size (Words)     │22,000│32,000│41,000│82,000  │
220 ├─────────────────┼──────┼──────┼──────┼────────┤
221 │Number of Sources│3     │12    │12    │12      │
222 ├─────────────────┼──────┼──────┼──────┼────────┤
223 │American English │Y     │Y     │Y     │Y       │
224 ├─────────────────┼──────┼──────┼──────┼────────┤
225 │British English  │–     │–     │–     │–       │
226 ├─────────────────┼──────┼──────┼──────┼────────┤
227 │Ordinary words   │Y     │Y     │Y     │Y       │
228 ├─────────────────┼──────┼──────┼──────┼────────┤
229 │Inflections      │–     │–     │–     │Y       │
230 ├─────────────────┼──────┼──────┼──────┼────────┤
231 │Hyphenations     │Y     │Y     │Y     │–       │
232 ├─────────────────┼──────┼──────┼──────┼────────┤
233 │Phrases          │Y     │Y     │–     │–       │
234 ├─────────────────┼──────┼──────┼──────┼────────┤
235 │Names            │Y     │Y     │–     │–       │
236 ├─────────────────┼──────┼──────┼──────┼────────┤
237 │Abbreviations    │Y     │Y     │–     │–       │
238 ├─────────────────┼──────┼──────┼──────┼────────┤
239 │Acronyms         │Y     │Y     │–     │–       │
240 ├─────────────────┼──────┼──────┼──────┼────────┤
241 │Prefixes/Suffixes│–     │–     │–     │–       │
242 ├─────────────────┼──────┼──────┼──────┼────────┤
243 │Signature words  │–     │Y     │Y     │*       │
244 ├─────────────────┼──────┼──────┼──────┼────────┤
245 │Neologisms       │–     │–     │–     │Y       │
246 ├─────────────────┼──────┼──────┼──────┼────────┤
247 │Annotations      │Y     │Y     │Y     │Y       │
248 └─────────────────┴──────┴──────┴──────┴────────┘
249
250 A * in the "Signature Words" row means that signature words associated with
251 some other list may be present, but there are no signature words associated
252 specifically with that list.
253
254 The 6of12 and 2of12 lists
255
256 I initially tried two different ways of winnowing the 12dicts data to produce
257 lists of common words. Both produced interesting results. One list, the 6of12
258 list, contained all words and phrases listed in 6 of the 12 dictionaries. One
259 way of describing this list is that it contains those words and phrases which a
260 (seeming) majority of lexicographers believe are relevant to people learning
261 English, and/or to everyday usage. This list contained about 32,000 words and
262 phrases. The other list, the 2of12 list, was more inclusive in that it included
263 words listed in as few as two of the source dictionaries, but less inclusive in
264 that it excluded items of various sorts, including multi-word phrases, proper
265 names and abbreviations. This list contained about 41,000 words. It was likely
266 more suitable for use in areas like spell checking or word games than the 6of12
267 list. (Honesty compels me to admit that neither of these lists is, by itself, a
268 good choice for spell checking, due to the absence of inflections, proper
269 names, Roman numerals, etc.)
270
271 A third list, 2of12inf.txt, developed later, was of a rather different
272 character, and is discussed in a later section.
273
274 A more precise description of the criteria by which the above lists were
275 composed is as follows:
276
277 6of12 list word selection
278
279   • The 6of12 list contains all non-excluded words and phrases which appear in
280     6 or more of the source dictionaries.
281   • Prefixes and suffixes are excluded. Abbreviations are included; however, if
282     they are entirely lower-case and alphabetic, they are terminated with a
283     colon (":") so they can be easily distinguished from regular words.
284   • Inflections of included words are not themselves included unless they are
285     separately defined or irregular.
286   • It sometimes occurs that a word is listed in several forms (e.g., with and
287     without hyphenation) in 6 or more dictionaries, even though no single form
288     is so listed. In this case, if one spelling is clearly more accepted, this
289     spelling and this spelling only is listed. If all spellings seem equally
290     accepted, one spelling has been selected arbitrarily for inclusion.
291   • The 6of12 list contains a significant number of signature words, as
292     discussed below. All of these words are listed in at least one of the
293     source dictionaries.
294   • In addition to the ":" suffix discussed above, other annotations are used
295     to mark words with certain characteristics, as discussed below.
296
297 2of12 list word selection
298
299   • The 2of12 list contains all non-excluded words which appear in at least 2
300     of the source dictionaries.
301   • This list excludes capitalized words, multi-word phrases, and
302     abbreviations, as well as prefixes and suffixes. It does not exclude
303     hyphenated words or contractions. If a word occurs in both a hyphenated and
304     an unhyphenated form, the unhyphenated form is listed, even if the
305     hyphenated form is generally preferred.
306   • The list excludes spellings which are considered (by a majority of the
307     dictionaries listing it) to be non-American usage. It also excludes
308     secondary spellings which are mentioned by fewer than four of the source
309     dictionaries.
310   • Inflections of included words are not themselves included unless they are
311     separately defined, or irregular.
312   • Several of the source dictionaries include listings for obscure currencies,
313     such as ringgit, khoum and ngwee. I was unable to regard such words as part
314     of the English "core vocabulary", and so I required citation in over a
315     third of the dictionaries for inclusion of such monetary units. A
316     side-effect was the elimination of the word lepton, which, in addition to
317     its use in particle physics, is also .01 Greek drachmas.
318   • This list also includes a small number of signature words, as discussed
319     below.
320
321 Signature words
322
323 As indicated, both lists have been augmented with words (and, in the case of
324 the 6of12 list, phrases) which fail to meet the formal requirements for
325 inclusion. In the case of the 6of12 list, 1024 words were added (about 3 % of
326 the total). These are all words which, in the judgment of the compiler, are as
327 familiar as many of the words which did meet the criteria for inclusion.
328 Examples of some of the sorts of words which were added are:
329
330   • Words of the same category as other included words. An example is the
331     astrological sign Cancer, which alone of all the astrological signs fails
332     to appear in 6 or more of the dictionaries. Similarly added was the omitted
333     holiday Christmas Eve.
334   • Vulgarities, sexual terms and insults. Some such words were already
335     included, but most of the source dictionaries were quite squeamish about
336     them. These words are very widely known indeed; I hold that any list of
337     "common" words which does not include the infamous f-word is simply
338     discredited thereby. Some may feel that it would have been better to leave
339     some or all of these terms unmentioned. Nevertheless, the expression of
340     blasphemy, unwarranted contempt and perverse lust, whether in words or in
341     deeds, is a very human trait. Suppressing the evidence of these aspects of
342     the human condition in our language makes no more sense than excluding
343     leprosy, gangrene and dementia, no matter how unpleasant they may be to
344     contemplate.
345   • Conventional conversational phrases so common as to be practically
346     invisible to native speakers. Examples are thank you, good night, uh-huh,
347     of course and gesundheit.
348   • Sports terminology, especially for football and baseball. (If I, who am
349     practically sports-blind, noticed this deficiency, it must be of major
350     proportions indeed.)
351
352 Note that the signature words in the 6of12 list can be identified via the
353 annotation "+", and eliminated if desired.
354
355 A much smaller set of words (49) was added to the 2of12 list. These were of two
356 sorts:
357
358   • Signature words from the 6of12 list which were not already present in the
359     2of12 list, and which are not excluded due to being abbreviations, phrases,
360     etc.
361   • Inflections of irregular verbs not explicitly mentioned in 2 source
362     dictionaries, such as outfought and reheard.
363
364 These words are not marked with suffix characters.
365
366 Annotations
367
368 Some of the 6of12 list entries are annotated with a suffix character, giving
369 additional information about the associated word. The annotations can be easily
370 removed with an editor or a script if they are unwanted.
371
372 These annotations are:
373
374 : The word is an otherwise unmarked abbreviation. This suffix always occurs
375   before any other suffix.
376 & The word is primarily a non-American usage.
377 # The word is generally held to be a variant or less preferred form of another
378   word.
379 = Roughly, this indicates a "second class" word, as described below.
380 < This form of a word is held to be the primary form by fewer dictionaries than
381   some other form of the word.
382 ^ This form of the word was selected as the most commonly listed of a set of
383   variant spellings.
384 ~ This form of a word is one of a set of variant spellings, none of which was
385   clearly preferred.
386 + The word is a signature word.
387
388 The reasons a word might be marked with the = annotation are:
389
390   • The word is an inflection which was defined in the same entry as the base
391     word.
392   • The word is a derived word (usually ending with -ly, -ness or -er/or) which
393     was not defined in a separate entry.
394   • The word appeared in a list of undefined words with a common prefix, such
395     as un- or re-.
396
397 Note that, in the determination of the "<", "^", and "^" suffixes, only certain
398 very close spelling variations are considered, namely single word vs.
399 hyphenated word vs. multi-word, differences in capitalization, and presence or
400 absence of a terminating period for abbreviations. The words tenderhearted and 
401 tender-hearted are close variants by this definition, but judgment and 
402 judgement are not.
403
404 The words in the 2of12 list are not annotated.
405
406 The 2of12inf list
407
408 The 2of12inf list is of a rather different character from the two original
409 "classic" lists. Conceptually, it is simple. It consists of all the
410 unhyphenated words in the 2of12 list, plus their inflections, amounting to
411 about 82,000 words. This list may be more useful than the other lists for
412 applications like word games. It was created to help Kevin Atkinson in his
413 Aspell and SCOWL projects (for which, follow these links). Unlike the 6of12 and
414 2of12 lists, this list was not based exclusively on the contents of my 12
415 source dictionaries, and for this reason it has, I feel, less authority than
416 the other classic 12dicts lists. It also probably has a significantly higher
417 error rate than the other lists, for reasons explained below.
418
419 The criteria defining the 2of12inf list are as follows:
420
421   • The 2of12inf list contains all non-excluded words which appear in at least
422     2 of the source dictionaries.
423   • This list excludes capitalized words, multi-word phrases, abbreviations,
424     contractions, hyphenated words and single-letter words, as well as prefixes
425     and suffixes.
426   • The list does not exclude secondary spellings, non-American usages or
427     monetary units.
428   • The list includes inflections of all included words. Any inflection
429     mentioned or clearly implied by any of the source dictionaries is included
430     (i.e., two citations are not required). Additionally, some inflections have
431     been added from other sources.
432   • Plurals of "uncountable" nouns were included, annotated with the "%" suffix
433     character. See below for an extended discussion of the inclusion of these
434     words.
435   • Qualifying signature words from the other lists, plus their inflections,
436     were added. No other signature words were added.
437   • Qualifying neologisms from the neol2016 list, including their inflections,
438     were added. The neologisms are indicated by a '!' prefix.
439
440 Though the 2of12inf list still consists mostly of very common words, criteria 3
441 through 5 above cause the 2of12inf list to contain a greater proportion of
442 unfamiliar and unusual words than the other classic 12dicts lists.
443
444 The 2of12inf list was not derived directly from the 12 source dictionaries. The
445 starting point was a subset of Kevin Atkinson's AGID list, a list of words,
446 parts of speech and inflections derived from public-domain sources, notably
447 Moby Words and WordNet. (See the file agid.txt in the 12dicts archive, which is
448 a copy of the AGID "readme", for more information on the antecedents of AGID.)
449 2of12inf was created by a process of editing the AGID subset to remove spurious
450 entries and those which reflected a more esoteric English vocabulary than the
451 other 12dicts lists, and to add inflections which AGID failed to identify. This
452 process required significantly less effort than would have been needed to
453 derive the list directly from the source dictionaries. Unfortunately, a side
454 effect of the process was that the result is probably somewhat less reliable
455 than the other 12dicts lists. In particular, Moby Words is notoriously
456 unreliable, and I find it unlikely that I have successfully identified all the
457 spurious inflections its use has introduced. It would be nice to release
458 another edition of 2of12inf which is not derived from AGID, and therefore not
459 "infected" by Moby Words, but I haven't done so in 15 years, and so it probably
460 won't happen.
461
462 After the first version of the 2of12inf list was released, I replaced one of
463 the source dictionaries, officially an international dictionary but in
464 actuality rather British in its orientation, with a more American dictionary by
465 the same publisher. It was not practical (nor necessarily desirable) for me to
466 go through the list removing inflections endorsed only by the superseded
467 dictionary. For this reason, the 2of12inf list has a slightly more
468 international character than the other 12dicts lists. It is not altogether
469 clear that this is a bad thing.
470
471 Selection of inflections
472
473 Ideally, the 2of12inf list would contain only inflections listed in one of the
474 12dicts source dictionaries. This proved not to be practical. The reason for
475 this has to do with the nature of these sources, which are mostly ESL
476 dictionaries. An ESL dictionary might well list the word esophagus, but,
477 because an English learner is unlikely to need to talk about this organ in the
478 plural, it will probably not bother to list the plural form esophagi. For words
479 of this sort, I therefore needed to obtain their inflections from other
480 sources. Obviously, the decisions on when to include additional inflections
481 were judgment calls, as were the choices of which inflections to add.
482
483 Adjectival inflections (comparatives and superlatives) proved to be an
484 especially annoying problem. Only 2 of my 12 source dictionaries provided
485 remotely reliable information of this sort. In fact, such information is sparse
486 and inconsistent in most dictionaries of any size. I relied on a small set of
487 additional dictionaries for this information, which was mostly disjoint from
488 the sources for plurals and verb forms. Several of these sources were
489 Scrabble®-related, and therefore inclined to include forms of little
490 plausibility such as iller/illest or fertiler/fertilest. Accordingly, I ended
491 up rejecting some of the documented inflections on grounds of implausibility. I
492 have no doubt that, in the process, I made a number of errors of both inclusion
493 and exclusion and, in any case, many of the forms listed have no connection
494 with any of the 12dicts source dictionaries.
495
496 One additional problem in the creation of the 2of12inf list was that of
497 "uncountable" nouns and their plurals. Some English dictionaries, especially
498 ESL dictionaries, as well as other linguistic sources attest to the existence
499 of nouns which cannot be counted or used in the plural. Examples of such nouns
500 include mud, rayon, oregano, chess, fairness, wisdom, aluminum, training,
501 materialism and chickenpox. This is an entirely commonsense notion, but a
502 difficulty is the fact that the boundary between the countable and the
503 uncountable is extremely vague and ill-defined. For example, the word coffee is
504 ordinarily uncountable, but not when ordering in a restaurant, as is the word
505 symmetry, except in physics or math. In general, it is possible to contrive a
506 context where use of the plural of any noun whatsoever is reasonable.
507
508 An alternate position, therefore, is that in fact no nouns are uncountable, and
509 that any noun which is not already plural possesses a plural. This position is
510 especially useful in the context of word games, where words such as zeals and
511 anthraxes may produce large scores. For this reason, the official Scrabble
512 dictionaries list words such as thens, onces and mankinds, which most people
513 find rather implausible. The fact that the 2of12inf list might well be useful
514 in gaming contexts, together with the fact that the boundary between countable
515 and uncountable nouns is so ill-defined, served as a powerful argument for
516 inclusion of all plural forms, whether commonly used or not, while its
517 derivation from ESL sources argued for including only the plurals of countable
518 nouns, however distinguished.
519
520 As I prepared the list for release, I was unable to resolve this dilemma, and
521 adopted a compromise. The 2of12inf list includes all plurals, but with the
522 plurals of uncountable nouns marked, making it easy to remove them if they are
523 not wanted. That left the issue of how to establish countability. Six of my
524 source dictionaries included information on countability, which was adequate to
525 decide the status of most of the included nouns. As for the rest, as usual, I
526 used my best judgment. I will confess to occasionally overriding the source
527 dictionaries when I believed they were clearly incorrect. (For instance, I
528 chose not to mark the word hatreds as an uncountable plural, in defiance of the
529 opinion of all my sources, on the grounds that it has been used in too many
530 news stories from Bosnia to be considered unusual.) It is interesting to note
531 that most of the plurals I added from auxiliary sources were of words
532 considered uncountable. I also note that at some point after the release of the
533 2of12inf list, I decided that it would have been better to have left the
534 Scrabble plurals out, and, while I was not comfortable with removing them, no
535 list I've created since then which lists inflections includes them.
536
537 The difficulties listed above, and the fact that I was forced to exercise
538 personal judgment frequently in creating it, emphasizes a fundamental
539 difference between this list and the other classic 12dicts lists. I have tried
540 to make the 6of12 and 2of12 lists reflect only the source dictionaries, and to
541 keep my own judgments and opinions out of the picture (except for my addition
542 of signature words). This has proved impossible to achieve for the 2of12inf
543 list, which accordingly represents a less authoritative and more arbitrary
544 collection. Additionally, the 2of12inf list has undergone less proofreading and
545 validation than the other lists, and I suspect the error rate is somewhat
546 higher than the idealistic goal of 0.02% I adopted for this project.
547 Nevertheless, I hope it may prove to be of some use and interest.
548
549 I wish to offer my special thanks to Kevin Atkinson, for supplying me with the
550 AGID list, and for encouraging me to add the inflections. Of course, any errors
551 that remain in the 2of12inf list are my own responsibility, and should not be
552 blamed on Kevin, AGID, or even on Moby.
553
554 The 3esl list
555
556 The 3esl list represents another attempt to produce an English "core
557 vocabulary" list. It is about 2/3 of the size of the 6of12 list, which it
558 resembles in terms of the sorts of words included.
559
560 The 3esl list is a far more subjective list than any of the classic 12dicts
561 lists. It was compiled from 3 small ESL dictionaries, using the same criteria
562 for eligibility as the 6of12 list. I started with a list composed of all words
563 from the smallest of the 3 sources, plus all words contained in both of the
564 others. This list was then edited in the following ways:
565
566  1. I removed alternate spellings for included words, such as grey and
567     off-stage. I also removed very similar synonyms for the same concept, for
568     instance, removing cable television as a duplicate of cable TV.
569  2. I added one form of each word which would have been included if the sources
570     had agreed on spelling, such as shortchange and back seat.
571  3. I removed some words which were present in the smallest of the sources but
572     seemed too esoteric, such as the symbols of chemical elements. I did this
573     only for words which were not present in the other sources.
574  4. I added some words which were present in only one of the two larger
575     sources, but which seemed appropriate to add. These words were frequently
576     of the sort added to the 6of12 list as signature words, as well as some
577     inflections that often function as words with meanings of their own, such
578     as comforting and notes.
579
580 All of these changes were quite subjective in nature, and quite numerous.
581 Probably more than 10 % of the candidate words were added or removed in this
582 way. For this reason, it is pointless to speak of signature words for this
583 list; the composition of the list is too arbitrary for the term to make any
584 sense. (I will note that the list is still not entirely arbitrary, as I added
585 only words found in some form in one of the sources, and removed no words
586 present in two of the sources other than duplicates. Thus, words like front
587 page were not added, no matter how familiar, and words such as lugubrious were
588 not removed, despite clearly not being part of anyone's "core vocabulary".)
589
590 Like the 6of12 list, the 3esl list marks lower-case abbreviations with a ":"
591 suffix, to prevent them from being mistaken for regular English words.
592
593 One final note on this list. The 3esl list contains about 1500 words not
594 present in the 6of12 list. Because these two lists have the same rules for the
595 kinds of words included, one could easily combine the two to produce a slightly
596 larger list including a number of words whose omission from 6of12 is rather
597 surprising. Be warned that in a few cases, the spelling chosen for words with
598 multiple spellings is different in the two lists, and I would recommend that
599 the duplicates be removed. (I'll be happy to provide a list of the duplicates
600 if anyone wants one.)
601
602 The international 12dicts lists
603
604 Four 12dicts lists contain a more cosmopolitan vocabulary than the classic
605 lists. Two of these lists, 2of4brif and 5d+2a (previously called 5desk), were
606 released over ten years ago. The 2of4brif list was derived from four British
607 dictionaries, and has now been deprecated, as I believe the 3of6game list to be
608 a superior implementation of the same concept, compiled from more recent
609 sources. The 5d+2a list was originally compiled from a variety of sources, but
610 was extensively revised for this release by addition of several fairly recently
611 published sources.
612
613 For release 6, two new international lists were added to 12dicts: 3of6game and
614 3of6all. These were based on 6 "advanced learner's" ESL dictionaries, released
615 by both American and British publishers, most of which covered both strains of
616 English. The 3of6game list is intended primarily for use in word games, and can
617 be compared to 2of12inf in its general approach. The 3of6all list includes more
618 forms of words (hyphenated, capitalized, multi-word phrases, etc.), and can be
619 compared to 6of12 in its general approach.
620
621 Two other more unusual lists were derived from these sources: 6phrase and
622 2of5core. 6phrase is a collection of all the multi-word phrases from any of the
623 six dictionaries. Five of the six international sources flag some words as
624 being the most important words for an English beginner to master. The 2of5core
625 list collects those words that are flagged in at least two of these
626 dictionaries. Both of these lists are discussed in a little more detail in the
627 "Specialized Lists" section of this document.
628
629 The following table summarizes the contents of each of the lists in the
630 International directory, ordered by size in words:
631 ┌─────────────────┬────────┬────────┬────────────┬───────┐
632 │                 │2of4brif│3of6game│   5d+2a    │3of6all│
633 ├─────────────────┼────────┼────────┼────────────┼───────┤
634 │Size (Words)     │60,000  │65,000  │68,000      │83,000 │
635 ├─────────────────┼────────┼────────┼────────────┼───────┤
636 │Number of Sources│4       │6       │7 (+5 minor)│6      │
637 ├─────────────────┼────────┼────────┼────────────┼───────┤
638 │American English │Some    │Y       │Y           │Y      │
639 ├─────────────────┼────────┼────────┼────────────┼───────┤
640 │British English  │Y       │Y       │Y           │Y      │
641 ├─────────────────┼────────┼────────┼────────────┼───────┤
642 │Ordinary words   │Y       │Y       │Y           │Y      │
643 ├─────────────────┼────────┼────────┼────────────┼───────┤
644 │Inflections      │Y       │Y       │–           │Y      │
645 ├─────────────────┼────────┼────────┼────────────┼───────┤
646 │Hyphenations     │–       │–       │–           │Y      │
647 ├─────────────────┼────────┼────────┼────────────┼───────┤
648 │Phrases          │–       │–       │–           │Y      │
649 ├─────────────────┼────────┼────────┼────────────┼───────┤
650 │Names            │–       │–       │Y           │Y      │
651 ├─────────────────┼────────┼────────┼────────────┼───────┤
652 │Abbreviations    │–       │–       │–           │Y      │
653 ├─────────────────┼────────┼────────┼────────────┼───────┤
654 │Acronyms         │–       │–       │Y           │Y      │
655 ├─────────────────┼────────┼────────┼────────────┼───────┤
656 │Prefixes/Suffixes│–       │–       │–           │Y      │
657 ├─────────────────┼────────┼────────┼────────────┼───────┤
658 │Signature words  │–       │Y       │–           │Y      │
659 ├─────────────────┼────────┼────────┼────────────┼───────┤
660 │Neologisms       │–       │Y       │–           │–      │
661 ├─────────────────┼────────┼────────┼────────────┼───────┤
662 │Annotations      │–       │Y       │–           │Y      │
663 └─────────────────┴────────┴────────┴────────────┴───────┘
664
665 The 2of4brif list
666
667 All of the classic 12dicts lists are unabashedly oriented towards American
668 English. After receiving a few expressions of interest in a British English
669 list, I put together the 2of4brif list. This list was compiled from 4 large
670 "international" ESL dictionaries, published by British publishers. To this
671 American, they are more British than they are international; quite possibly,
672 they seem more American than international to British readers. It is
673 interesting to note that, although there were only a third as many sources for
674 this list as for the 12dicts lists, these dictionaries resembled each other far
675 more closely than their American counterparts, which could mean that the
676 2of4brif list is as good an approximation of a "core" British English
677 vocabulary as the 6of12 list is for American English. (Or, alternately, it may
678 simply mean that my choice of sources was too narrow.)
679
680 This criteria for inclusion in this list were basically those of the 2of12inf
681 list. In particular, inflections are included for all words, but hyphenated
682 words, contractions, phrases, proper names and abbreviations are all excluded.
683 One important difference between the two is the way in which inflections were
684 determined for inclusion. The 2of12inf list includes some inflections found in
685 one (or even none) of its sources. Further, as discussed in detail above, it
686 includes plurals for words which are not normally considered to have plurals.
687 The 2of4brif list differs in both of these regards. It includes only
688 inflections endorsed by two or more of the sources, specifically excluding any
689 plural forms for nouns listed as uncountable.
690
691 The 2of4brif list includes no signature words as such. I made a small number of
692 adjustments for consistency, such as making sure that -ise and -ize spellings
693 were equally represented, and adding plurals for ordinal numbers. (Why
694 fourteenth would be defined as a fraction, but not seventeenth, I must simply
695 regard as a mystery.) These edits were so few, and so clearly harmless, that I
696 have not marked them.
697
698 Prospective users of the 2of4brif list should realize that it was compiled by
699 an American. If my sources contained any glaring errors (and most dictionaries
700 have a few), I might well not have noticed, and perpetuated them in the list.
701 The fact that two citations were required is some protection against such an
702 event, but no guarantee.
703
704 As the 2of4brif list is very similar in makeup to the 2of12inf list, a user who
705 wants a larger, more international list than either could reasonably merge the
706 two. If you do this, you should remove the unusual plurals (marked with a "%")
707 from the 2of12inf list in the process, for consistency.
708
709 Note that I have deprecated the 2of4brif list. I believe that any applications
710 of this list would be better off using the 3of6game list in its place.
711
712 The 3of6 lists
713
714 The lists 3of6game and 3of6all are new with version 6 of 12dicts. Both were
715 derived from a set of six advanced learner's ESL dictionaries. The dictionaries
716 can be broken down as follows:
717
718   • One strongly American-oriented dictionary.
719   • Two somewhat British-oriented dictionaries.
720   • Three international dictionaries, one from an American publisher, two from
721     a British publisher.
722
723 This provided a good balance between British and American usage. My goal was to
724 produce lists that contained blancmange and swede as well as applesauce and
725 boysenberry. Note that some of the British dictionaries include words from
726 Australian, Indian, African and Caribbean English, and a fraction of this
727 vocabulary made it into the 3of6 lists.
728
729 In previous versions of 12dicts, I asked users to tell me what they were doing
730 with the lists. The most common answer was that they were used to supply the
731 vocabulary for a word game. The 3of6game list was designed to fulfill this
732 purpose. It contains only the sort of words likely to be used in a word game
733 (no hyphenated words, proper names, abbreviations, contractions or phrases),
734 but does contain inflections. In general, words must appear in three of the
735 sources to be included. The rules, however, do provide for a number of
736 (annotated) exceptions, including uncommon inflections and words whose most
737 common form is either hyphenated or phrasal. Details are below.
738
739 The 3of6all list is a larger list, basically containing any kind of word you
740 can imagine, if found in three of the sources. As with 3+3game, some additional
741 words were added as exceptions, but there are not as many of them, as the goal
742 of this list is to be as faithful as reasonable to the sources.
743
744 Both the 3of6game and 3of6all lists contain signature words/phrases. The
745 3of6game list also contains neologisms, as game players are likely to want to
746 play recently coined or popularized words.
747
748 The 3of6game list
749
750 The 3of6game list contains words which are listed in 3 of the 6 advanced
751 learners dictionaries described above. Only words suitable for play in most
752 word games are included, excluding hyphenated words, multi-word phrases,
753 capitalized words, abbreviations and contractions. There are no restrictions on
754 length - in particular, it contains four one-letter words: a, x (a verb meaning
755 to cross out), I and O, the last two of which are included despite their
756 capitalization (which is an English spelling phenomenon entirely disconnected
757 from logic). In certain cases, words are present in this list despite being
758 listed in fewer than three sources. This serves the purpose of offering game
759 players more words in situations where lexicographers differ about what word
760 forms are correct. Some exceptional situations are:
761
762   • A word is one of a set of close variants, none of which is present in three
763     of the sources. These words are marked with a "^" suffix. An example is the
764     word aqualung, which is sometimes capitalized or hyphenated.
765   • The word is a British spelling of an American word listed in three sources,
766     or an American spelling of a British word from three sources. These words
767     are marked with a "&" suffix. Examples include prolog, an American form of
768     the British prologue, and hyaena, a British spelling of the American hyena.
769   • A word is a plural of a word which only two of the sources describe as
770     countable, such as boyhoods. Similarly, adjectival inflections are added if
771     as few as two of the sources attest to it, as with frillier and frilliest.
772   • A word is an unusual inflection of a word where at least three sources
773     agree that some inflection is called for, such as the less common plural 
774     planetaria of planetarium.
775   • A word is an inflection for a word used as an unusual part of speech, whose
776     meaning is closely related to a more common meaning. Examples are the verb
777     forms autopsied and autopsying, whose meanings are closely related to the
778     common meaning of the noun autopsy.
779   • A word is a unhyphenated form of a word normally hyphenated or written
780     phrasally such as ballgame, which is more commonly written ball game.
781
782 Words not present in three of the source dictionaries are marked with the "$"
783 suffix character if the "^" and "&" annotations do not apply.
784
785 The 3of6game list includes both signature words and neologisms, marked with a
786 "+" or "!" respectively. There are 520 signature words for this list,
787 representing words that I feel "ought to be" included. Each signature word is
788 present in at least one of the source dictionaries. Virtually all of these
789 words are American English, as I am not qualified to tell whether a interesting
790 Britishism like tosspot is used often enough to justify its addition as a
791 signature word. Note that the presence of annotations allows a user to remove
792 these extra words if she finds their addition unjustified.
793
794 The 3of6game list could be combined with the 2of12inf list (minus the
795 uncountable plurals) and/or 2of4brif if a larger list is required. Note that
796 because 2of2inf is very strongly American, such a combination will be less
797 balanced between American and British English than 3of6game itself.
798
799 The 3of6all list
800
801 The 3of6all list contains words which are listed in three of the six advanced
802 learner's dictionaries. In contrast to the 3of6game list, no words are
803 excluded, not even abbreviations, prefixes or suffixes. Most words have their
804 inflections included. An exception is made for phrasal verbs and other verb
805 phrases, whose inflections are completely predictable from the initial word of
806 the phrase.
807
808 The 3of6all list contains many phrasal verbs, such as let down, take after, 
809 sound off and make out, whose meanings are often quite hard for inexperienced
810 students of English to guess. Phrasal verbs are marked by the ";" suffix
811 character. Only four of the six source dictionaries provide phrasal verb
812 information in an easy-to-collect way. For this reason, I put a phrasal verb
813 into the 3of6all list even if I found it in only two of the sources.
814
815 The 3of6all list contains some other words present in fewer than three of the
816 dictionaries, though not as many as 3of6game. All such words are marked. The
817 cases where this occurs are as follows:
818
819   • As described for the 3of6game list, a word is one of a set of close
820     variants, none of which is present in three of the sources. These words are
821     marked with a "^" suffix. For this list, in addition to differences in
822     hyphenation or single/multi-word format, variants only in capitalization or
823     (for abbreviations) the presence or absence of a period are considered
824     close.
825   • As described for the 3of6game list, a word is a British spelling of an
826     American word listed in three sources, or an American spelling of a British
827     word from three sources. These words are marked with a "&" suffix.
828   • A few other words present in fewer than three of the dictionaries are
829     added. Usually, this occurs when a word is found by three sources to have
830     the same part of speech, but the sources fail to agree on the spelling of
831     the inflection(s). An example is the word Grammy, whose plural is claimed
832     by two sources to be Grammies, and by two others to be Grammys. These words
833     are annotated with the "$" suffix.
834
835 There is one other situation where an annotation suffix is used. This occurs
836 when a word is shown by a majority of the sources as being used only in a few
837 specific phrases, even though other dictionaries may give it a regular
838 definition. An example is the word bated, which is shown by most of the sources
839 as used only in the phrase with bated breath. In this case, the word is flagged
840 with a ">" suffix. A search on a word so flagged will reveal the key phrase(s)
841 elsewhere in the list.
842
843 Recall that, sometimes, a word may have more than one suffix. An abbreviation
844 shown with the ":" suffix (indicating the absence of a final period) may be
845 followed by another suffix, and the combination ">^" appears upon occasion.
846
847 The 3of6all list contains signature phrases, but no neologisms. The signature
848 phrases are marked with the "+" suffix. The 629 3of6all signatures are all
849 basic conversational idioms and common connective phrases, like I told you so, 
850 in front of and on the other hand. Though these phrases often show up in the
851 sources in lists of idioms, they generally do not appear as separate headwords,
852 which kept me from easily recording their presence. I believe, however, that
853 all of these phrases are extremely common, and deserve to be included in this
854 list. The signature phrases are all marked with the "+" suffix.
855
856 The 5d+2a list
857
858 I created the 5d+2a list (originally called 5desk) in an attempt to do a better
859 /usr/dict/words (the failings of which were a large part of my motivation for
860 doing 12dicts in the first place). The sorts of words admitted are the same
861 sorts that /usr/dict/words traditionally contains. Though somewhat larger in
862 size than many versions of /usr/dict/words, this is still a short word list,
863 striving for inclusion of words one is likely to encounter rather than the
864 complete jargon of every possible scientific, artistic or occult endeavor.
865
866 The original 5desk list was assembled primarily from five "desk dictionaries".
867 It was augmented by words from five minor sources, including a "vocabulary
868 builder" and a collection of proper names. It excluded prefixes, suffixes,
869 phrases, hyphenated words, contractions and most abbreviations and acronyms.
870 There was no requirement for multiple listings; all qualifying words from each
871 of the sources were included. Inflections of included words were not included
872 themselves except when irregular, or separately defined. Variant and
873 non-American spellings were not excluded, and no signature words were added.
874
875 Words commonly considered to be abbreviations/acronyms were included if they
876 contained at least one upper case character, and were defined with an explicit
877 part of speech. This excluded items like Mr and Feb, which are abbreviations in
878 the classic sense, but allowed words like DNA and ATM, which are used far more
879 frequently than that which they abbreviate. While there is a trend in modern
880 dictionaries to list such words as nouns (or occasionally verbs, adverbs,
881 etc.), it is a trend in progress, and rather inconsistently applied. For this
882 reason, the set of such words in the 5desk list is somewhat incoherent,
883 including SPCA but not PETA, AIDS but not SAD, KGB but not CIA, and PDQ but not
884 ASAP.
885
886 When version 6 of 12dicts was released, the 5desk list was augmented by adding
887 qualifying words from two advanced learner's ESL dictionaries, and as a result
888 renamed to 5d+2a.txt. Both of the additional dictionaries had a strongly
889 international vocabulary, causing the new list to have a less American and more
890 cosmopolitan character. This increased the size of the list by about 20% to
891 about 68,000 words.
892
893 One class of commonly-used words is regrettably absent from the 5desk list,
894 because I was unable to find a satisfactory source for them. This is the class
895 of commercial names such as Exxon, Tylenol, Pepsi and Chevy. This is probably
896 forgivable, as this class of names is as ephemeral and transitory as teenage
897 slang. The one-time household words Kool, Ovaltine, Philco and Ipana serve now
898 only as answers to trivia questions, with modern wonders like Starbucks,
899 Google, Ritalin and TiVo taking their place on the tongues of the trendy.
900
901 The 5d+2a list contains no signature words. I did take the liberty of adding
902 the personal names of around thirty well-known individuals, mostly statesmen
903 and politicians. Though the original 5desk list contained many such names from
904 all periods of human history, I have not found a useful source to bring the
905 list into the twenty-first century. At the same time, I felt that distributing
906 a list full of names that did not include Cheney and Obama was not reasonable.
907 So I compromised by adding a few names whose historical significance was clear
908 to me, until such time as a better source than my own memories of the last 15
909 years can be found.
910
911 The 5d+2a list has clearly moved beyond any "core vocabulary" concept. It
912 includes quite esoteric words (ogee, pleonastic), very uncommon spellings (
913 thiamine, yuppy), and obscure geographical and historical names (Paricutin,
914 Nevelson). Like the traditional /usr/dict/words, it is frequently inconsistent
915 and arbitrary, but I hope at the least I have avoided including spelling
916 errors, and overlooking the stuff of everyday conversation. Perhaps it will be
917 useful as a compromise between basic lists such as 3esl, and truly massive
918 lists like Mendel Cooper's ENABLE.
919
920 The lemmatized 12dicts lists
921
922 Version 6 of 12dicts provides three lemmatized lists combining words from the
923 2of12inf, 3of6game and 2of4brif lists. The word "lemmatized" is a rare word,
924 which you will find in none of these lists, but what it means is that these
925 lists are formatted as a collection of word sets, called lemmas (or lemmata, if
926 you're into irregular plurals), each set composed of a headword and some number
927 (possibly zero) of closely related words. Two of these lists were introduced in
928 version 5 of 12dicts, but they have undergone major revisions since then.
929
930 The three lists are 2+2+3lem (originally 2+2lemma), 2+2+3frq (originally
931 2+2gfreq) and 2+2+3cmn. 2+2+3lem simply arranges the words of the three source
932 lists into lemmas and lists them alphabetically by headword. 2+2+3frq arranges
933 the same lemmas by approximate order of their frequency of usage, computed with
934 the help of a frequency list obtained from Brigham Young University (BYU),
935 omitting those words and lemmas whose usage is so small that they fail to show
936 up in the BYU material. 2+2+3cmn extracts a subset of the lemmas of 2+2+3lem,
937 namely those lemmas with a certain minimum level of usage (approximately the
938 level of the word butterscotch), and lists them alphabetically by headword.
939 This is yet another attempt in 12dicts to generate a core English vocabulary.
940
941 The advantage of a lemmatized presentation of words is that it puts related
942 words together, even when spellings differ greatly, as for be, are, is and were
943 . A moderate disadvantage is that the same word can appear in more than one
944 lemma, such as putting, which is present in the lemmas headed by both put and 
945 putt. Overall, I find the lemmatized format to be clearer and more useful than
946 a simple alphabetized list, and I rather wish I had released the other lists
947 which include inflections in that format.
948
949 The following table summarizes the contents of each of the lists in the
950 Lemmatized directory, ordered by size in words:
951 ┌─────────────────┬────────┬────────┬────────┐
952 │                 │2+2+3cmn│2+2+3frq│2+2+3lem│
953 ├─────────────────┼────────┼────────┼────────┤
954 │Size (Words)     │25,000  │34,000  │84,000  │
955 ├─────────────────┼────────┼────────┼────────┤
956 │Number of Sources│21      │21      │21      │
957 ├─────────────────┼────────┼────────┼────────┤
958 │American English │Y       │Y       │Y       │
959 ├─────────────────┼────────┼────────┼────────┤
960 │British English  │Some    │Some    │Y       │
961 ├─────────────────┼────────┼────────┼────────┤
962 │Ordinary words   │Y       │Y       │Y       │
963 ├─────────────────┼────────┼────────┼────────┤
964 │Inflections      │Some    │Some    │Y       │
965 ├─────────────────┼────────┼────────┼────────┤
966 │Hyphenations     │Some    │Some    │Y       │
967 ├─────────────────┼────────┼────────┼────────┤
968 │Phrases          │–       │–       │–       │
969 ├─────────────────┼────────┼────────┼────────┤
970 │Names            │Some    │Some    │–       │
971 ├─────────────────┼────────┼────────┼────────┤
972 │Abbreviations    │Some    │Some    │–       │
973 ├─────────────────┼────────┼────────┼────────┤
974 │Acronyms         │Some    │Some    │–       │
975 ├─────────────────┼────────┼────────┼────────┤
976 │Prefixes/Suffixes│–       │–       │–       │
977 ├─────────────────┼────────┼────────┼────────┤
978 │Signature words  │Y       │*       │*       │
979 ├─────────────────┼────────┼────────┼────────┤
980 │Neologisms       │A few   │A few   │Y       │
981 ├─────────────────┼────────┼────────┼────────┤
982 │Annotations      │Y       │Y       │Y       │
983 └─────────────────┴────────┴────────┴────────┘
984
985 A * in the "Signature Words" row means that signature words associated with
986 some other list may be present, but there are no signature words associated
987 specifically with that list.
988
989 The 2+2+3lem list
990
991 The list 2+2+3lem.txt contains the words in the 2of12inf, 2of4brif and 3of3game
992 lists. Also, the new words from the neol2016.txt list have been added, marked
993 with a "!" if they would not have otherwise been included. (Marking the new
994 words permits them to be removed if it is preferred for this list to be in
995 synch with the other 12dicts lists.) Furthermore, some high-frequency
996 hyphenated words from 2of12.txt and 3of6all have been added. These words were
997 originally added to the lemmatized frequency list (see below), and I liked the
998 results so much that I added them to this list as well. Finally, British forms
999 of words in the 2of12inf list not already in the other lists have been added.
1000 Words marked with a % in the 2of12inf list ("Scrabble plurals") have however
1001 been omitted.
1002
1003 In the previous version of 12dicts, the 2+2+3lem list was called 2+2lemma. The
1004 only significant changes were the addition of new words, and switching from "+"
1005 to "!" to mark neologisms in the list.
1006
1007 The 2+2+3lem list is not formatted as a simple list of words. It is composed of
1008 entries of 1 or 2 lines each. The first line contains a headword, and the
1009 second line, which is indented if present, contains an alphabetized list of
1010 related words. A simple example:
1011
1012 funny
1013     funnier, funnies, funniest, funnily, funniness
1014
1015 The list of related words contains three sorts of entries.
1016
1017  1. Inflections.
1018
1019  2. Variant spellings.
1020
1021  3. Words formed with certain suffixes.
1022
1023 In addition to true variant spellings such as grey for gray and thru for 
1024 through, item 2 also includes words which, though pronounced differently, are
1025 clearly variants of the headword. Thus, hooray is considered a variant of 
1026 hurrah (but mere synonyms like furze and gorse remain independent).
1027
1028 Item 3 is based on a small list of suffixes, producing closely and consistently
1029 related words. These suffixes are -ful, -ish, -less, -like, -ly, -most and 
1030 -ness. -ally is also allowed, if there is no -al word to apply the -ly suffix
1031 to. (For instance, basically is considered to be derived from basic, because
1032 there is no word basical.) When one of these suffixes is used in an unusual
1033 way, the resulting word is considered independent. For instance, likely is not
1034 considered to be derived from like, nor bashful from bash. There are some
1035 rather difficult questions here, such as how closely slavish is related to 
1036 slave, or sluggish to slug. In general, I have chosen the course of least
1037 surprise by treating such pairs as independent.
1038
1039 Here are some other notes on the determination of what words are related.
1040
1041 Certain uses of the suffixes -ed and -s are treated as inflections, even though
1042 technically they are not. Thus, talented is treated as derived from talent, and
1043 optics from optic.
1044
1045 Words ending with the suffix -ability/ibility are treated as relatives of the
1046 corresponding -able/ible word.
1047
1048 Sometimes, the choice of which variant to treat as the headword is somewhat
1049 arbitrary. I have consistently chosen an American spelling over a British
1050 spelling here. This has some effect on the number of headwords. I treat cheque
1051 as a variant of check, whereas, to an observer with a British bias, they would
1052 no doubt be separate headwords.
1053
1054 No distinction is made of different meanings of the same word, even when they
1055 are so different that dictionaries list them separately. wind the noun and wind
1056 the verb are considered as a single word, as are second the adjective, second
1057 the noun and second the verb.
1058
1059 It may sometimes happen that two different words have the same inflection (
1060 putting derives both from putt and put; holier relates to holey as well as holy
1061 ), or that an inflection is a headword in its own right (as with wound, the
1062 past tense of wind, or crooked, the past tense of crook). These situations are
1063 noted in the 2+2+3lem list as cross-references to the alternate headword. There
1064 are two specific situations which might not be obvious where inflections are
1065 treated as different words. These occur when a present tense form or a -ness
1066 word has a plural inflection, as with meaning and weakness. Such words are
1067 always made headwords, even when the relationship to the original root is very
1068 close. Here is an example showing how cross-references are indicated:
1069
1070 base
1071     based, baseless, basely, baseness, baser, bases -> [basis], basest, basing
1072
1073 Almost always, a given word has only one cross-reference - the biggest
1074 exception is the incredible tangle shown in the example below:
1075
1076 slue -> [slough]
1077     slew -> [slay, slew, slough], slewed, slewing, slews -> [slew, slough],
1078 slued, slues -> [slough], sluing
1079
1080 where 4 uncommon words mostly pronounced sloo have become thoroughly confused.
1081
1082 The 2+2+3frq list
1083
1084 In the previous version of 12dicts, there was a file called 2+2gfreq.txt. This
1085 file has been completely replaced by a new implementation of the same idea.
1086 Like the older list, the 2+2+3frq list presents the lemmas of 2+2+3lem in bands
1087 of lemmas with about the same frequency of use. However, there are the
1088 following major differences from what was done before:
1089
1090   • In the previous version, word frequency information was obtained from data
1091     collected from the World Wide Web supplied by Google. This data was very
1092     voluminous, but was quite distorted by the Web's emphasis on computerese,
1093     pornography and marketing. I am now using a commercial word frequency
1094     database, supplied by Brigham Young University, based on its Corpus of
1095     Contemporary American English (COCA). This data is less voluminous than the
1096     Google data, but is far more balanced and seemingly trustworthy. It has
1097     some other advantages, discussed below.
1098   • High-frequency hyphenated words from 2of12inf and 3of6all have been added.
1099     I liked the effect of this so much that I added the same words to the
1100     2+2+3lem list.
1101   • A certain number of high frequency abbreviations, contractions and
1102     capitalized words were added. Some of these words were not to be found in
1103     any other 12dicts list, for which reason I did not also add them to
1104     2+2+3lem.
1105   • The list was shortened by omitting all lemmas which did not appear at all
1106     in the BYU data.
1107   • Individual lemmas were shortened by omitting very infrequent words and all
1108     regular inflections, except when they were used frequently as a part of
1109     speech different from the headword, such as disappointed as an adjective
1110     rather than a verb form.
1111
1112 The lemmas of 2+2+3frq are grouped into bands by the combined number of
1113 occurrences in the BYU data of the words in the lemmas. Band 21 contains lemmas
1114 whose words together appear between 16 and 31 times in the BYU data. Each other
1115 band contains lemmas of twice the frequency of the following band, that is,
1116 each lemma in band 20 appears in the BYU data between 32 and 63 times, and so
1117 on. The first band contains the three lemmas most frequently used in the
1118 English language (according to BYU), namely the, be (plus its inflections) and 
1119 to. As already noted, some words are found in multiple lemmas. One helpful
1120 aspect of the BYU data is that it separates frequency data for a word by parts
1121 of speech, and notes the base word for inflected words. This often allows the
1122 frequency counts for a word like building to be accumulated under the correct
1123 lemma (either build or building). In the event that the BYU data is unable to
1124 completely resolve the appropriate lemma for a word, its frequency count is
1125 divided equally among the various candidates.
1126
1127 2+2+3frq is divided into bands by lines like this:
1128
1129 ----- 5 -----
1130
1131 The lemmas in each band are presented in alphabetical order, not by the
1132 frequency of the individual lemma.
1133
1134 Note that because the BYU data was extracted from a corpus of American English,
1135 the 2+2+3frq file tilts in an American direction, though some British words
1136 like bloke, colour and lorry have made it through.
1137
1138 A useful attribute of the BYU data is that it, unlike the Google data, includes
1139 hyphenated words, as well as some abbreviations, contractions and capitalized
1140 words. The two cases are rather different. The inclusion of hyphenated words is
1141 explicitly intended. However, the BYU documentation states that proper names
1142 have been excluded where possible, while admitting that, in many cases, the
1143 software processing the data was unable to be sure whether a word was a proper
1144 name or not, in which case the word was included. The effect is that there are
1145 many words generally considered to be proper names present, notably the names
1146 of months of the year and days of the week, plus those of religions,
1147 nationalities and ideologies. You will not find names like linda, picasso, 
1148 vladivostok, microsoft or rumpelstiltskin in the data, but you will find 
1149 november, buddhist, peruvian and marxist, to the extent that I wonder if BYU
1150 might have used a different definition of "proper name" than the one I was
1151 taught in school. As for abbreviations, the BYU documentation makes no mention
1152 of them, but there are some very familiar abbreviations in the data. There are
1153 not a lot of them, which makes me wonder whether their presence was intentional
1154 or a processing error. Either way, I have no reason to doubt their frequency
1155 counts.
1156
1157 I decided that I wanted to add high-frequency hyphenated words, proper names
1158 and abbreviations to the frequency list, as I consider this data to be very
1159 interesting. When I did so, I discovered in band 17 the words atlantean and 
1160 klingon. I really don't think that these words have anywhere close to the same
1161 frequency as armband and carpool, which are also present in band 17. This makes
1162 me suspect that, for words of this frequency or less, the BYU data is starting
1163 to become less reliable. For this reason, I decided to stop adding hyphenated
1164 words, capitalized words, contractions and abbreviations after band 17.
1165
1166 In the case of hyphenated words, I added them to the 2+2+3frq list only if they
1167 were present in either 2of12.txt or 3of6all.txt. I also added these words to
1168 the 2+2+3lem list. In the case of abbreviations and capitalized words, there
1169 were not all that many of them, and some of them were not present in any other
1170 12dicts list, such as Americanist, Thatcherism and, of course, Klingon. For
1171 this reason, when I added capitalized words, contractions and abbreviations to
1172 2+2+3frq, I parenthesized them to indicate that their presence had nothing to
1173 do with any source but the BYU data. The same consideration led me to omit
1174 these words from the 2+2+3lem list.
1175
1176 The 2+2+3frq list is considerably smaller than the previous 2+2gfreq list due
1177 to my decision to drop lemmas which were absent from the BYU data, especially
1178 since the BYU data was considerably less voluminous and so left out many more
1179 words than the Google data. In addition, I observed that many high-frequency
1180 lemmas contained unusual spellings and archaic forms that were not present in
1181 the BYU data, such as cocoanut, iodin and didst, and decided to drop
1182 non-headwords from the lemmas unless their frequency was at or above the level
1183 of band 17. A similar decision was made to drop regular inflections from the
1184 lemmas in the 2+2+3frq list unless they had high frequency with a different
1185 part of speech, for example, loving as an adjective or fighting as a noun.
1186 Finally, I chose to drop the word/lemma cross-references from the 2+2+3frq
1187 list, replacing them with a * indicating that a word was to be found under
1188 another headword (though it might have been suppressed if it was a regular
1189 inflection).
1190
1191 As an example of how this works out in practice, here is the lemma for time
1192 from 2+2+3lem:
1193
1194 time
1195     timed, timeless, timelessly, timelessness, times, timing -> [timing]
1196
1197 and here is the condensed version from 2+2+3frq.
1198
1199 time
1200     timed, timeless
1201
1202 The words timelessly and timelessness are not used often enough (according to
1203 BYU) to mention in the frequency list, while the word times was not frequently
1204 used except as a form of time, and, while the word timing was frequently used
1205 as a noun, its counts were collected under the lemma timing rather than time.
1206
1207 The 2+2+3cmn list
1208
1209 The 2+2+3cmn list is a relatively simple transformation of the 2+2+3frq list,
1210 in yet another attempt to produce a "core English" word list. It is composed of
1211 the lemmas of the 2+2+3frq list from bands 1 through 17, sorted in alphabetical
1212 order by headword. Minor formatting differences are that the "!" is removed
1213 from neologisms, and the parentheses are removed from capitalized words,
1214 abbreviations and contractions.
1215
1216 I have added 67 signature words to 2+2+3cmn, which are abbreviations,
1217 contractions and capitalized words (mostly contractions) which I know to be
1218 extremely high frequency, but which were not present in the BYU data, words
1219 such as can't, Mr. and DVD. These words are marked with a + to indicate their
1220 absence from the 2+2+3frq source data.
1221
1222 Like 2+2+3frq, 2+2+3cmn tilts strongly in the direction of American English.
1223
1224 Because all the words of 2+2+3cmn are of moderately high frequency (assuming
1225 the BYU data is to be trusted), it probably is a better claimant than either
1226 2of5core or 3esl to truly representing a core English vocabulary, at least of
1227 the American variety.
1228
1229 Specialized 12 dicts lists
1230
1231 The following table summarizes the contents of each of the lists in the Special
1232 directory, ordered by size in words:
1233 ┌─────────────────┬────────┬────────┬───────┐
1234 │                 │neol2016│2of5core│6phrase│
1235 ├─────────────────┼────────┼────────┼───────┤
1236 │Size (Words)     │600     │4,700   │22,000 │
1237 ├─────────────────┼────────┼────────┼───────┤
1238 │Number of Sources│0       │5       │6      │
1239 ├─────────────────┼────────┼────────┼───────┤
1240 │American English │Y       │Y       │Y      │
1241 ├─────────────────┼────────┼────────┼───────┤
1242 │British English  │A little│Y       │Y      │
1243 ├─────────────────┼────────┼────────┼───────┤
1244 │Ordinary words   │Y       │Y       │–      │
1245 ├─────────────────┼────────┼────────┼───────┤
1246 │Inflections      │Y       │–       │–      │
1247 ├─────────────────┼────────┼────────┼───────┤
1248 │Hyphenations     │Y       │A few   │–      │
1249 ├─────────────────┼────────┼────────┼───────┤
1250 │Phrases          │Y       │A few   │Y      │
1251 ├─────────────────┼────────┼────────┼───────┤
1252 │Names            │Y       │A few   │A few  │
1253 ├─────────────────┼────────┼────────┼───────┤
1254 │Abbreviations    │Y       │A few   │A few  │
1255 ├─────────────────┼────────┼────────┼───────┤
1256 │Acronyms         │Y       │A few   │–      │
1257 ├─────────────────┼────────┼────────┼───────┤
1258 │Prefixes/Suffixes│–       │–       │–      │
1259 ├─────────────────┼────────┼────────┼───────┤
1260 │Signature words  │–       │–       │*      │
1261 ├─────────────────┼────────┼────────┼───────┤
1262 │Neologisms       │Y       │–       │–      │
1263 ├─────────────────┼────────┼────────┼───────┤
1264 │Annotations      │Y       │N       │Y      │
1265 └─────────────────┴────────┴────────┴───────┘
1266
1267 A * in the "Signature Words" row means that signature words associated with
1268 some other list may be present, but there are no signature words associated
1269 specifically with that list.
1270
1271 The neol2016 list
1272
1273 The neol2016 list is a very simple list of new or newly recognized words, as
1274 described above. It is comprised of three parts, separated by blank lines.
1275
1276 The first part lists regular (non-hyphenated, non-capitalized) words together
1277 with their inflections and variants, laid out similarly to the 2+2+3lem list.
1278 It includes plurals for uncountable nouns, marked with a "%" suffix. These
1279 words (except for the uncountable plurals) have been pre-added to the 2of12inf
1280 and 3of6game lists, suffixed with "!", allowing them to be easily removed if
1281 desired.
1282
1283 The second part of the file is a small set of words for which additional
1284 inflections have been added. This portion of the file is in the same format as
1285 the first list. These inflections have also been added to the 2of12inf and
1286 3of6game lists.
1287
1288 The third part of the file contains new words and phrases which are not regular
1289 words: hyphenated words, multi-word phrases, proper names, abbreviations and
1290 acronyms. These words have not been pre-added to any other list.
1291
1292 In all cases, users are encouraged to add some or all of these words to any of
1293 the other lists, as they feel appropriate.
1294
1295 The 2of5core list
1296
1297 Five of the six advanced learner's ESL dictionaries from which the 3of6 lists
1298 were compiled mark a subset of their words as being important words which every
1299 student of English should master. These subsets vary widely from dictionary to
1300 dictionary. As one of the original goals of the 12dicts project was to compile
1301 a list representing the English core vocabulary, I thought it would be
1302 interesting to combine these lists. My original thought was to provide a list
1303 that was simply the union of the marked subsets for each source. However, one
1304 particular dictionary had at least twice as many words in its subset as any of
1305 the others, and in many cases the words seemed to me to be poorly chosen. (Do 
1306 moor and cash flow seem like key English language concepts to you?) So I chose
1307 when assembling my list to require that all words be marked as important words
1308 by at least two of the sources. The result was the 2of5core list, which
1309 contains about 4,700 words.
1310
1311 While most words selected in this way were the same in American and British
1312 English, some belonged to one variant or the other. In some cases, a word
1313 appeared in two forms, such as center and centre. When I observed that a word
1314 was present in two forms, I combined them into a single line, for example 
1315 center/centre. No other changes were made to the list.
1316
1317 Due to the way in which the list was constructed, it seems somewhat haphazard.
1318 You may want to check out the Oxford 3000™, a list of 3000 words available from
1319 Oxford University, which is a core vocabulary created by lexicographers, to my
1320 eye superior to the 2of5core list.
1321
1322 The 6phrase list
1323
1324 When I was compiling the 3of6all list, I noticed something interesting. There
1325 were an extraordinary number of phrases listed by only one of the sources. Many
1326 of these were extremely common phrases, which I would expect most experienced
1327 English speakers to understand. So, naturally, I decided to compile them all
1328 into a list.
1329
1330 The 6phrase list contains all multi-word phrases from any of the six advanced
1331 learner's dictionaries which were used as sources for 3of6all, all 22,000 of
1332 them. The list does not include inflections, except in a few cases where a
1333 plural cannot easily be guessed from the words in a phrase. Usually, this
1334 happens for phrases of non-English origin, such as eau de cologne, whose plural
1335 is eaux de cologne. The list includes phrasal verbs, which are suffixed by the
1336 ";" character, as in the 3of6all list. The list is sorted in a different order
1337 than the lexicographical ordering used by the other lists, in order to group
1338 all phrases starting with the same word together.
1339
1340 You will observe that the same phrase will often be repeated several times in
1341 the list, with slightly different spelling, capitalization and/or hyphenation.
1342 No attempt was made to edit the list to remove or reduce such "clutter".
1343
1344 The 6phrase list includes the 3of6all signature phrases. These are not marked
1345 with a suffix.
1346
1347 In contrast to most of the other lists, I am unable to think of any
1348 applications of the 6phrase list. But I find it rather interesting, which is
1349 why I'm bothering to include it. At the very least, it may serve as an
1350 illustration of the incredible richness of the English language, without even
1351 venturing into vocabulary too esoteric to be included in a learner's
1352 dictionary.
1353
1354 How 12dicts came to be
1355
1356 It may have occurred to some to wonder about how something like the 12dicts
1357 project came to be (though I assume that anyone who bothers to download this
1358 archive must already have some idea that such a project could be of interest).
1359
1360 Many years ago, there was a post to the sci.crypt Usenet newsgroup, on the
1361 subject of creating PGP passphrases using randomly selected entries from a
1362 supplied list of very short words. (If this sounds interesting, follow this
1363 link for an expanded version of the post.) The word list, which was extracted
1364 from /usr/dict/words on some UNIX system, seemed to me ill-suited to its
1365 intended purpose. It included arcane acronyms (bstj, fmc), misspellings (diety,
1366 ouvre) and words of amazing obscurity (bhoy, kombu). I decided I could do
1367 better, and eventually did. This caused me to start downloading English word
1368 lists, of which there were many, from the Internet. I was not impressed by the
1369 overall quality of these lists, and the few which were high-quality were
1370 all-inclusive, burying the everyday words under a mountain of archaisms and
1371 esoterica.
1372
1373 This was a long time ago, and an Internet search for word lists now turns up
1374 lists of higher quality than back then (thanks in part to the influence of
1375 12dicts), so I will limit myself to two brief criticisms of the various lists
1376 available at that time. First, they contained far too many misspellings and
1377 typos, and had obviously never been proofread. Additionally, their approach to
1378 vocabulary was scattershot, omitting common words while adding a random
1379 selection of highly technical words, often associated with UNIX and academic
1380 computer science. (My favorite is the list which included bremsstrahlung, but
1381 omitted log and beer.) Due to my original purpose of finding a list of short,
1382 common words, I found this sort of thing particularly frustrating.
1383
1384 One result of my frustration with this situation was my working with Mendel
1385 Cooper on ENABLE, a large Scrabble®-oriented list, which was close to unique in
1386 having an active caretaker who was clearly concerned with quality, and in being
1387 oriented towards American rather than British English. But ENABLE was an
1388 all-encompassing list and, even if it had been complete at the time I started
1389 my search for a list of common words, it would not have been what I wanted for
1390 that reason. (The ENABLE web site is no longer online, but a Google search will
1391 turn up places where you can still download it.)
1392
1393 I finally decided that only starting from scratch with a systematic approach
1394 was likely to get me what I was looking for, and that dictionaries intended for
1395 non-native speakers of English were the best possible source for words that are
1396 in some cases so familiar that we never think of them. This has led to the
1397 12dicts lists, which I hope have managed to avoid the flaws recited above.
1398
1399 My other projects
1400
1401 During the intervals between releases of 12dicts, I have been fooling around
1402 with English spelling reform. One of the results of this activity is the
1403 development of CAAPR and ABCD, both of which may be downloaded from my website,
1404 www.wyrdplay.org. CAAPR is the Combined Anglo-American Pronunciation Reference,
1405 a fancy name for a bi-dialectal pronunciation dictionary whose word list is
1406 derived primarily from the 12dicts 6of12 list. ABCD, Alan's Basic Codes with
1407 Diacritics, is also a pronunciation dictionary, of a somewhat different sort -
1408 the notation is designed to clarify when a word is spelled in accordance with
1409 normal English spelling patterns (as with fault or tunnel), and when it is not
1410 (as with fought or colonel). Though these files were developed as a result of
1411 my interest in spelling reform, they may be of interest to other "word nerds"
1412 unconcerned with that particular quixotic pastime.
1413
1414 Click the following links to CAAPR and ABCD if interested.
1415
1416 Conclusions
1417
1418 When I released the first version of 12dicts in 1999, I assumed I was done with
1419 it. It hasn't worked out that way. I now think I'm pretty much done with it
1420 again, though an occasional update to neol20xx.txt might be called for. Perhaps
1421 in ten more years I'll have reached version 9, and be laughing uncontrollably
1422 at the thought that I might have finished earlier, but for the present I don't
1423 see what else might be both useful and fun to add.
1424
1425 Feel free to send comments, suggestions, inquiries and/or large sums of money
1426 to me at 12dicts@pobox.com. (Actually, the bit about money is a joke. Do not
1427 send me even small amounts of money; 12dicts is free wordware.) After making
1428 this request in previous versions, I have been delighted to see the interest in
1429 these lists for projects ranging from interactive games to literacy programs.
1430 And I have been particularly pleased to occasionally hear of first-year
1431 Computer Science assignments specifying a 12dicts list rather than /usr/dict/
1432 words for their input. Keep up the good work, and do let me know what you're
1433 doing. (Oh, and please put "12dicts" in the subject line when you email me.
1434 This will allow me to easily notice your mail even if it is misclassified by an
1435 overzealous filter as spam. Speaking of spam, the publication of my email
1436 address in this package has led to a marked increase in the amount of spam I
1437 receive and, ironically, much of it contains subject lines which appear to have
1438 been extracted at random from my own lists. This is a use of 12dicts of which I
1439 do not approve!)
1440
1441 The 12dicts lists were compiled by Alan Beale. I explicitly release them to the
1442 public domain, but request acknowledgment of their use. (Actually, the
1443 dependency of the 2of12inf list and the 2+2+3 lists on AGID prevents their
1444 release into the public domain. However, I do not impose any additional
1445 requirements on their use beyond those imposed by AGID and its sources, as
1446 described in agid.txt.)
1447
1448 - Alan Beale -