]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blobdiff - r/enable-sup/2dicts.doc
Imported Upstream version 2015.08.24
[deb_pkgs/scowl.git] / r / enable-sup / 2dicts.doc
diff --git a/r/enable-sup/2dicts.doc b/r/enable-sup/2dicts.doc
new file mode 100644 (file)
index 0000000..e9bf4f6
--- /dev/null
@@ -0,0 +1,130 @@
+                             THE 2DICTS LIST\r
+ÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜ\r
+\r
+\r
+The file 2DICTS.LST is a supplement to the main WORD.LST file, for those who\r
+prefer to use a more diverse lexicon of long words rather than one derived\r
+from a single dictionary.  I was led to assemble 2DICTS.LST by the following\r
+beliefs:\r
+\r
+1. Diversity is good.  OSPD (r) is a far better collection of words for\r
+game play than any single dictionary.  OSPD is assembled from five distinct\r
+sources, giving us colorful and distinctive words like "brrr", "deflea",\r
+"hangup", "ralph" and "sleazo", each of which appears to be cited in only\r
+one of the source dictionaries.\r
+\r
+2. Long words have a different role in game play than short words.  The\r
+biggest problem with using MW10 as the only source of legitimate long words\r
+is the fact that a surprising number of commonly used long words are\r
+omitted, words like "hatemonger", "soundtrack" and "unimportance".\r
+\r
+3. The example of OSPD would suggest that the entire contents of one or\r
+more additional dictionaries should be added.  Apart from the fact that\r
+this is a tremendous expansion of the lexicon (and a lot of work) is the\r
+fact that it is overkill, due to the reduced opportunities for play of\r
+long words.  While a Scrabble (r) player might well be able to play\r
+"soundtrack" (and be shocked when it is disallowed), it is highly unlikely\r
+that she would be able to play "strobilaceous", or would think of doing so\r
+even if it were playable.\r
+\r
+Accordingly, I decided to construct a list of additional words by adopting a\r
+set of dictionaries, and adding any word which was listed in two or more of\r
+them, thereby hopefully adding any common words left out of MW10, while\r
+omitting idiosyncracies, likely errors and words too obscure to have\r
+attracted the attention of more than one team of lexicographers.\r
+\r
+The result of this process is the 2DICTS.LST file, which contains about\r
+16,000 additional words.  I used five dictionaries to build the file:\r
+the American Heritage fourth, the Webster's New World College fourth,\r
+the Encarta (r) World English (American edition), and both the first and\r
+second Random House Webster's College.  I used paper editions of all the\r
+dictionaries, though I also used electronic editions where they were\r
+available.  As it turned out, the existence of electronic editions of\r
+all of the dictionaries other than the Random House made the whole project\r
+more practical.\r
+\r
+Observe that I used the full American Heritage dictionary rather than the\r
+American Heritage College dictionary, which was supposedly used in the\r
+assembly of OSPD.  I made this choice because of the availability of this\r
+particular dictionary in electronic form.  I experimented with use of\r
+the College dictionary instead, and found that only a relatively small\r
+fraction of the words previously chosen for inclusion were affected.  I\r
+therefore decided to stick with the full dictionary in order to make\r
+assembly of the list more straightforward.\r
+\r
+Some may object to my inclusion of the Encarta dictionary in the process,\r
+either because of dislike of Microsoft, or because this dictionary has a\r
+relatively bad reputation among logophiles.  I chose to use it because,\r
+let's face it, it will become one of the most used dictionaries in America\r
+(and no doubt the world) by virtue of being installed on millions of\r
+computers before purchase.  Additionally, while it certainly is cursed\r
+with a large number of errors, I don't find the error level unreasonable\r
+for a first edition, and most of the errors have no impact on this\r
+particular project.  I found no more than 10 words which were so blatantly\r
+dubious that I was forced to leave them out, which is no worse than for the\r
+American Heritage dictionary.  And, on the positive side, Encarta's mining\r
+of the English of Australia, New Zealand, South Africa and the Caribbean\r
+makes it a source of many new (to me) words which are too good to be\r
+ignored.\r
+\r
+This project was implemented in two stages, the first completed with the\r
+publication of the first version of ENABLE, and the second for ENABLE2K.\r
+\r
+My procedures for the first edition were as follows.  I first extracted all\r
+the root words longer than eight characters not in MW10 from the AHD3\r
+index.  I then did the same for WNWCD (third edition), and marked any words\r
+previously found in AHD3.  Finally, I looked up each unmatched word in the\r
+paper RHWCD (first edition), and marked each match.  Finally, I added the\r
+inflections of the marked words.  (This description is oversimplified in\r
+one way: rather than processing each dictionary in its entirety, I divided\r
+the word space into relatively small chunks, for instance ver-wap, and\r
+then consulted all three dictionaries relative to the chunk at a single\r
+sitting.)\r
+\r
+For the second chunk, my procedures were similar, except that I used paper\r
+dictionaries exclusively, and was aided by having gathered lists of\r
+unmatched words from AHD3 and WNWCD3 for the previous edition of ENABLE.\r
+At this time, I upgraded from WNW3 to WNW4 and from the first edition\r
+Random House to the second.  Because the second edition Random House\r
+dictionary removed a significant number of words from the first, I ended up\r
+treating the union of the two editions as a single source.  This issue did\r
+not arise with WNWCD.  For the second release of the ENABLE2K Supplement,\r
+I performed a similar upgrade from the American Heritage third edition to\r
+the fourth.\r
+\r
+Note that the above was a mechanical process.  I did not attempt to include\r
+or exclude additional words on grounds of taste, preference or personal\r
+disagreement with the sources (though of course I was sorely tempted).\r
+There were a small number of cases where entries were clearly erroneous\r
+and/or self-contradictory.  These few entries were omitted, or corrected\r
+when I was completely certain of the correction.\r
+\r
+One interesting problem which showed up occasionally in building the list\r
+was determining the plurals of words which are generally not considered to\r
+have plurals, such as diseases, or for which more than one plural is\r
+plausible, but none is explicitly shown in some or all of the sources.  I\r
+made educated guesses in such cases, and it is likely that some of my\r
+decisions can be disputed.  See the PLURALS.DOC file for a long discussion\r
+of the problem of undocumented plurals and how I dealt with it.\r
+\r
+I have no delusion that the 2DICTS.LST file is complete, though I believe\r
+its accuracy level to be quite high.  I'm sure that, being human, I've\r
+overlooked some errors, and failed to include some valid words, but I\r
+hope such oversights are few.  Even though I readily admit to the\r
+incompleteness of the list, I still feel it is a useful compendium.  As\r
+the compiler of the list, I would be interested to be informed of\r
+significant errors.  I plan to correct errors of commission, but errors of\r
+omission might not be corrected unless I can systematically tackle all\r
+similar errors.\r
+\r
+\r
+---\r
+Scrabble is a trademark of the Milton Bradley Co., Inc.\r
+The OSPD is a trademark of the Milton Bradley Co., Inc.\r
+Encarta is a trademark of the Microsoft Corp.\r
+\r
+\r
+\r
+\r
+--Alan Beale\r
+biljir@pobox.com\r