]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blob - 7.1/r/enable-sup/2dicts.doc
[svn-upgrade] Tagging scowl (7.1)
[deb_pkgs/scowl.git] / 7.1 / r / enable-sup / 2dicts.doc
1                              THE 2DICTS LIST\r
2 ÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜ\r
3 \r
4 \r
5 The file 2DICTS.LST is a supplement to the main WORD.LST file, for those who\r
6 prefer to use a more diverse lexicon of long words rather than one derived\r
7 from a single dictionary.  I was led to assemble 2DICTS.LST by the following\r
8 beliefs:\r
9 \r
10 1. Diversity is good.  OSPD (r) is a far better collection of words for\r
11 game play than any single dictionary.  OSPD is assembled from five distinct\r
12 sources, giving us colorful and distinctive words like "brrr", "deflea",\r
13 "hangup", "ralph" and "sleazo", each of which appears to be cited in only\r
14 one of the source dictionaries.\r
15 \r
16 2. Long words have a different role in game play than short words.  The\r
17 biggest problem with using MW10 as the only source of legitimate long words\r
18 is the fact that a surprising number of commonly used long words are\r
19 omitted, words like "hatemonger", "soundtrack" and "unimportance".\r
20 \r
21 3. The example of OSPD would suggest that the entire contents of one or\r
22 more additional dictionaries should be added.  Apart from the fact that\r
23 this is a tremendous expansion of the lexicon (and a lot of work) is the\r
24 fact that it is overkill, due to the reduced opportunities for play of\r
25 long words.  While a Scrabble (r) player might well be able to play\r
26 "soundtrack" (and be shocked when it is disallowed), it is highly unlikely\r
27 that she would be able to play "strobilaceous", or would think of doing so\r
28 even if it were playable.\r
29 \r
30 Accordingly, I decided to construct a list of additional words by adopting a\r
31 set of dictionaries, and adding any word which was listed in two or more of\r
32 them, thereby hopefully adding any common words left out of MW10, while\r
33 omitting idiosyncracies, likely errors and words too obscure to have\r
34 attracted the attention of more than one team of lexicographers.\r
35 \r
36 The result of this process is the 2DICTS.LST file, which contains about\r
37 16,000 additional words.  I used five dictionaries to build the file:\r
38 the American Heritage fourth, the Webster's New World College fourth,\r
39 the Encarta (r) World English (American edition), and both the first and\r
40 second Random House Webster's College.  I used paper editions of all the\r
41 dictionaries, though I also used electronic editions where they were\r
42 available.  As it turned out, the existence of electronic editions of\r
43 all of the dictionaries other than the Random House made the whole project\r
44 more practical.\r
45 \r
46 Observe that I used the full American Heritage dictionary rather than the\r
47 American Heritage College dictionary, which was supposedly used in the\r
48 assembly of OSPD.  I made this choice because of the availability of this\r
49 particular dictionary in electronic form.  I experimented with use of\r
50 the College dictionary instead, and found that only a relatively small\r
51 fraction of the words previously chosen for inclusion were affected.  I\r
52 therefore decided to stick with the full dictionary in order to make\r
53 assembly of the list more straightforward.\r
54 \r
55 Some may object to my inclusion of the Encarta dictionary in the process,\r
56 either because of dislike of Microsoft, or because this dictionary has a\r
57 relatively bad reputation among logophiles.  I chose to use it because,\r
58 let's face it, it will become one of the most used dictionaries in America\r
59 (and no doubt the world) by virtue of being installed on millions of\r
60 computers before purchase.  Additionally, while it certainly is cursed\r
61 with a large number of errors, I don't find the error level unreasonable\r
62 for a first edition, and most of the errors have no impact on this\r
63 particular project.  I found no more than 10 words which were so blatantly\r
64 dubious that I was forced to leave them out, which is no worse than for the\r
65 American Heritage dictionary.  And, on the positive side, Encarta's mining\r
66 of the English of Australia, New Zealand, South Africa and the Caribbean\r
67 makes it a source of many new (to me) words which are too good to be\r
68 ignored.\r
69 \r
70 This project was implemented in two stages, the first completed with the\r
71 publication of the first version of ENABLE, and the second for ENABLE2K.\r
72 \r
73 My procedures for the first edition were as follows.  I first extracted all\r
74 the root words longer than eight characters not in MW10 from the AHD3\r
75 index.  I then did the same for WNWCD (third edition), and marked any words\r
76 previously found in AHD3.  Finally, I looked up each unmatched word in the\r
77 paper RHWCD (first edition), and marked each match.  Finally, I added the\r
78 inflections of the marked words.  (This description is oversimplified in\r
79 one way: rather than processing each dictionary in its entirety, I divided\r
80 the word space into relatively small chunks, for instance ver-wap, and\r
81 then consulted all three dictionaries relative to the chunk at a single\r
82 sitting.)\r
83 \r
84 For the second chunk, my procedures were similar, except that I used paper\r
85 dictionaries exclusively, and was aided by having gathered lists of\r
86 unmatched words from AHD3 and WNWCD3 for the previous edition of ENABLE.\r
87 At this time, I upgraded from WNW3 to WNW4 and from the first edition\r
88 Random House to the second.  Because the second edition Random House\r
89 dictionary removed a significant number of words from the first, I ended up\r
90 treating the union of the two editions as a single source.  This issue did\r
91 not arise with WNWCD.  For the second release of the ENABLE2K Supplement,\r
92 I performed a similar upgrade from the American Heritage third edition to\r
93 the fourth.\r
94 \r
95 Note that the above was a mechanical process.  I did not attempt to include\r
96 or exclude additional words on grounds of taste, preference or personal\r
97 disagreement with the sources (though of course I was sorely tempted).\r
98 There were a small number of cases where entries were clearly erroneous\r
99 and/or self-contradictory.  These few entries were omitted, or corrected\r
100 when I was completely certain of the correction.\r
101 \r
102 One interesting problem which showed up occasionally in building the list\r
103 was determining the plurals of words which are generally not considered to\r
104 have plurals, such as diseases, or for which more than one plural is\r
105 plausible, but none is explicitly shown in some or all of the sources.  I\r
106 made educated guesses in such cases, and it is likely that some of my\r
107 decisions can be disputed.  See the PLURALS.DOC file for a long discussion\r
108 of the problem of undocumented plurals and how I dealt with it.\r
109 \r
110 I have no delusion that the 2DICTS.LST file is complete, though I believe\r
111 its accuracy level to be quite high.  I'm sure that, being human, I've\r
112 overlooked some errors, and failed to include some valid words, but I\r
113 hope such oversights are few.  Even though I readily admit to the\r
114 incompleteness of the list, I still feel it is a useful compendium.  As\r
115 the compiler of the list, I would be interested to be informed of\r
116 significant errors.  I plan to correct errors of commission, but errors of\r
117 omission might not be corrected unless I can systematically tackle all\r
118 similar errors.\r
119 \r
120 \r
121 ---\r
122 Scrabble is a trademark of the Milton Bradley Co., Inc.\r
123 The OSPD is a trademark of the Milton Bradley Co., Inc.\r
124 Encarta is a trademark of the Microsoft Corp.\r
125 \r
126 \r
127 \r
128 \r
129 --Alan Beale\r
130 biljir@pobox.com\r