]> git.donarmstrong.com Git - deb_pkgs/scowl.git/blobdiff - current/r/enable-sup/2dicts.doc
Imported Upstream version 2015.08.24
[deb_pkgs/scowl.git] / current / r / enable-sup / 2dicts.doc
diff --git a/current/r/enable-sup/2dicts.doc b/current/r/enable-sup/2dicts.doc
deleted file mode 100644 (file)
index e9bf4f6..0000000
+++ /dev/null
@@ -1,130 +0,0 @@
-                             THE 2DICTS LIST\r
-ÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜ\r
-\r
-\r
-The file 2DICTS.LST is a supplement to the main WORD.LST file, for those who\r
-prefer to use a more diverse lexicon of long words rather than one derived\r
-from a single dictionary.  I was led to assemble 2DICTS.LST by the following\r
-beliefs:\r
-\r
-1. Diversity is good.  OSPD (r) is a far better collection of words for\r
-game play than any single dictionary.  OSPD is assembled from five distinct\r
-sources, giving us colorful and distinctive words like "brrr", "deflea",\r
-"hangup", "ralph" and "sleazo", each of which appears to be cited in only\r
-one of the source dictionaries.\r
-\r
-2. Long words have a different role in game play than short words.  The\r
-biggest problem with using MW10 as the only source of legitimate long words\r
-is the fact that a surprising number of commonly used long words are\r
-omitted, words like "hatemonger", "soundtrack" and "unimportance".\r
-\r
-3. The example of OSPD would suggest that the entire contents of one or\r
-more additional dictionaries should be added.  Apart from the fact that\r
-this is a tremendous expansion of the lexicon (and a lot of work) is the\r
-fact that it is overkill, due to the reduced opportunities for play of\r
-long words.  While a Scrabble (r) player might well be able to play\r
-"soundtrack" (and be shocked when it is disallowed), it is highly unlikely\r
-that she would be able to play "strobilaceous", or would think of doing so\r
-even if it were playable.\r
-\r
-Accordingly, I decided to construct a list of additional words by adopting a\r
-set of dictionaries, and adding any word which was listed in two or more of\r
-them, thereby hopefully adding any common words left out of MW10, while\r
-omitting idiosyncracies, likely errors and words too obscure to have\r
-attracted the attention of more than one team of lexicographers.\r
-\r
-The result of this process is the 2DICTS.LST file, which contains about\r
-16,000 additional words.  I used five dictionaries to build the file:\r
-the American Heritage fourth, the Webster's New World College fourth,\r
-the Encarta (r) World English (American edition), and both the first and\r
-second Random House Webster's College.  I used paper editions of all the\r
-dictionaries, though I also used electronic editions where they were\r
-available.  As it turned out, the existence of electronic editions of\r
-all of the dictionaries other than the Random House made the whole project\r
-more practical.\r
-\r
-Observe that I used the full American Heritage dictionary rather than the\r
-American Heritage College dictionary, which was supposedly used in the\r
-assembly of OSPD.  I made this choice because of the availability of this\r
-particular dictionary in electronic form.  I experimented with use of\r
-the College dictionary instead, and found that only a relatively small\r
-fraction of the words previously chosen for inclusion were affected.  I\r
-therefore decided to stick with the full dictionary in order to make\r
-assembly of the list more straightforward.\r
-\r
-Some may object to my inclusion of the Encarta dictionary in the process,\r
-either because of dislike of Microsoft, or because this dictionary has a\r
-relatively bad reputation among logophiles.  I chose to use it because,\r
-let's face it, it will become one of the most used dictionaries in America\r
-(and no doubt the world) by virtue of being installed on millions of\r
-computers before purchase.  Additionally, while it certainly is cursed\r
-with a large number of errors, I don't find the error level unreasonable\r
-for a first edition, and most of the errors have no impact on this\r
-particular project.  I found no more than 10 words which were so blatantly\r
-dubious that I was forced to leave them out, which is no worse than for the\r
-American Heritage dictionary.  And, on the positive side, Encarta's mining\r
-of the English of Australia, New Zealand, South Africa and the Caribbean\r
-makes it a source of many new (to me) words which are too good to be\r
-ignored.\r
-\r
-This project was implemented in two stages, the first completed with the\r
-publication of the first version of ENABLE, and the second for ENABLE2K.\r
-\r
-My procedures for the first edition were as follows.  I first extracted all\r
-the root words longer than eight characters not in MW10 from the AHD3\r
-index.  I then did the same for WNWCD (third edition), and marked any words\r
-previously found in AHD3.  Finally, I looked up each unmatched word in the\r
-paper RHWCD (first edition), and marked each match.  Finally, I added the\r
-inflections of the marked words.  (This description is oversimplified in\r
-one way: rather than processing each dictionary in its entirety, I divided\r
-the word space into relatively small chunks, for instance ver-wap, and\r
-then consulted all three dictionaries relative to the chunk at a single\r
-sitting.)\r
-\r
-For the second chunk, my procedures were similar, except that I used paper\r
-dictionaries exclusively, and was aided by having gathered lists of\r
-unmatched words from AHD3 and WNWCD3 for the previous edition of ENABLE.\r
-At this time, I upgraded from WNW3 to WNW4 and from the first edition\r
-Random House to the second.  Because the second edition Random House\r
-dictionary removed a significant number of words from the first, I ended up\r
-treating the union of the two editions as a single source.  This issue did\r
-not arise with WNWCD.  For the second release of the ENABLE2K Supplement,\r
-I performed a similar upgrade from the American Heritage third edition to\r
-the fourth.\r
-\r
-Note that the above was a mechanical process.  I did not attempt to include\r
-or exclude additional words on grounds of taste, preference or personal\r
-disagreement with the sources (though of course I was sorely tempted).\r
-There were a small number of cases where entries were clearly erroneous\r
-and/or self-contradictory.  These few entries were omitted, or corrected\r
-when I was completely certain of the correction.\r
-\r
-One interesting problem which showed up occasionally in building the list\r
-was determining the plurals of words which are generally not considered to\r
-have plurals, such as diseases, or for which more than one plural is\r
-plausible, but none is explicitly shown in some or all of the sources.  I\r
-made educated guesses in such cases, and it is likely that some of my\r
-decisions can be disputed.  See the PLURALS.DOC file for a long discussion\r
-of the problem of undocumented plurals and how I dealt with it.\r
-\r
-I have no delusion that the 2DICTS.LST file is complete, though I believe\r
-its accuracy level to be quite high.  I'm sure that, being human, I've\r
-overlooked some errors, and failed to include some valid words, but I\r
-hope such oversights are few.  Even though I readily admit to the\r
-incompleteness of the list, I still feel it is a useful compendium.  As\r
-the compiler of the list, I would be interested to be informed of\r
-significant errors.  I plan to correct errors of commission, but errors of\r
-omission might not be corrected unless I can systematically tackle all\r
-similar errors.\r
-\r
-\r
----\r
-Scrabble is a trademark of the Milton Bradley Co., Inc.\r
-The OSPD is a trademark of the Milton Bradley Co., Inc.\r
-Encarta is a trademark of the Microsoft Corp.\r
-\r
-\r
-\r
-\r
---Alan Beale\r
-biljir@pobox.com\r