]> git.donarmstrong.com Git - spamassassin_config.git/blob - common/sare/70_sare_adult.cf
Thread-Topic seems to be valid header out of the M$-world.
[spamassassin_config.git] / common / sare / 70_sare_adult.cf
1 # SARE "Adult" Ruleset for SpamAssassin
2 # Version:  01.02.08 # The Adult set has been renamed to match SARE's updated standards, the new name is 70_sare_adult.cf
3 # Created:  2004-03-23
4 # Modified: 2007-05-21
5 # Changes: Fixed broken meta
6 # License: Artistic - see http://www.rulesemporium.com/license.txt
7 # Current Maintainer: Matt Yackley - adult@rulesemporium.com
8 # Maintainer: Doc Schneider - maddoc@maddoc.net
9 # Current Home: http://www.rulesemporium.com/rules/70_sare_adult.cf
10 #
11 ####
12
13
14 ###############################
15 #       subject rules         #
16 ###############################
17
18
19 header  SARE_SUBJ_SLUT                  Subject =~ /\bslut\b/i
20 score   SARE_SUBJ_SLUT                  1.66
21 #counts SARE_SUBJ_SLUT                  89s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
22 #counts SARE_SUBJ_SLUT                  5s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
23
24
25 header   __FPS_BREAST           Subject =~ /\bbreasts?\b/i
26 header   __FPS_COCK             Subject =~ /\bcock\b/i
27 header   __FPS_FUCK             Subject =~ /\bfuck/i
28 header   __FPS_GIRLS            Subject =~ /\bgirls\b/i
29 header   __FPS_HARDCORE         Subject =~ /\bhard.?core\b/i
30 header   __FPS_LITTLE           Subject =~ /\blittle\b/i
31 header   __FPS_MODEL            Subject =~ /\bmodels?\b/i
32 header   __FPS_NAKED            Subject =~ /\bnaked\b/i
33 header   __FPS_PENETRAT         Subject =~ /\bpenetration\b/i
34 header   __FPS_SEX              Subject =~ /\bsex\b/i
35 header   __FPS_SLUT             Subject =~ /\bslut\b/i
36 header   __FPS_TEEN             Subject =~ /\bteen\b/i
37 header   __FPS_VIRGIN           Subject =~ /\bvirgins?\b/i
38 meta     __COUNT_FPORN2         (__FPS_BREAST + __FPS_COCK + __FPS_FUCK + __FPS_GIRLS + __FPS_HARDCORE + __FPS_LITTLE + __FPS_MODEL + __FPS_NAKED + __FPS_PENETRAT + __FPS_SEX + __FPS_SLUT + __FPS_TEEN + __FPS_VIRGIN) > 1
39 meta     __COUNT_FPORN3         (__FPS_BREAST + __FPS_COCK + __FPS_FUCK + __FPS_GIRLS + __FPS_HARDCORE + __FPS_LITTLE + __FPS_MODEL + __FPS_NAKED + __FPS_PENETRAT + __FPS_SEX + __FPS_SLUT + __FPS_TEEN + __FPS_VIRGIN) > 2
40 meta     __COUNT_FPORN4         (__FPS_BREAST + __FPS_COCK + __FPS_FUCK + __FPS_GIRLS + __FPS_HARDCORE + __FPS_LITTLE + __FPS_MODEL + __FPS_NAKED + __FPS_PENETRAT + __FPS_SEX + __FPS_SLUT + __FPS_TEEN + __FPS_VIRGIN) > 3
41
42
43 meta    SARE_SUB_MULTI_PRN2     (__COUNT_FPORN2 && !__COUNT_FPORN3)
44 score   SARE_SUB_MULTI_PRN2     1.66
45 #counts SARE_SUB_MULTI_PRN2     455s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
46 #counts SARE_SUB_MULTI_PRN2     93s/5h of 140226 corpus (90162s/50064h DOC) 04/19/06
47
48
49 meta    SARE_SUB_MULTI_PRN3     (__COUNT_FPORN3 && !__COUNT_FPORN4)
50 score   SARE_SUB_MULTI_PRN3     1.66
51 #counts SARE_SUB_MULTI_PRN3     93s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
52 #counts SARE_SUB_MULTI_PRN3     9s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
53
54
55 #meta    SARE_SUB_MULTI_PRN4    (__COUNT_FPORN4)
56 #score   SARE_SUB_MULTI_PRN4    3.333
57 #counts SARE_SUB_MULTI_PRN4     4s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
58 #counts SARE_SUB_MULTI_PRN4     0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
59
60
61
62
63
64
65
66 header   SARE_ADLTSUB1 Subject =~ /\b(?:adu?1t|amb[1!]en|b0y|bl0w|c0cks?|c0re|ejaculation|f?r0+m|g(?:[1!]r[1l]|ir[!1])|h0t|ntercourse|jerk off|l1ttle|m0vie|manh00d|[0o]rg\@sm|p1ct|pen[1!]s|(?:ph|f)(?:[0\@]t|ot[0\@])|secks|sm00th|t1ny|t1ts|v(?:irg1|1rgi|1rg1)n|v[i1]de0|violenced|y0ung)/i
67 describe SARE_ADLTSUB1 Contains OBFU and "strong" adult words
68 score    SARE_ADLTSUB1 1.66
69 # Combined from M_K_PORN_BOGOSITY_SUBJ, L_s_porn, SUBJECT_XXX, RM_swp_porn4, RM_swp_porn5
70 #  266s/0h of 119325 corpus (98981s/20344h) 03/21/04
71 #  45s/0h of 15929 corpus (13729s/2200h) 03/23/04
72 #counts   SARE_ADLTSUB1            503s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
73 #counts   SARE_ADLTSUB1            145s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
74
75
76 header   SARE_ADLTSUB2 Subject =~ /\b(?:blow|climax|enlarg(e|ment)|fuck|inter+acial|lick|porn|penis|pervert|pussy|tits|tight|vagina|virgins?)\b/i
77 describe SARE_ADLTSUB2 Contains possible adult words
78 score    SARE_ADLTSUB2 1.23
79 # Combined from SUBJECT_XXX_2, L_s_porn, RM_swp_pervert, RM_swp_porn1, RM_swp_porn2
80 #  519s/1h of 119325 corpus (98981s/20344h) 03/21/04
81 #  58s/0h of 15929 corpus (13729s/2200h) 03/23/04
82 #counts   SARE_ADLTSUB2            1967s/2h of 42056 corpus (34127s/7929h FVGT) 04/19/06
83 #counts   SARE_ADLTSUB2            514s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
84
85
86 header   SARE_ADLTSUB3 Subject =~ /(?!\bporn)(?:\bp|\B(?:[\xDE]|\xCE\xA1|\xCF\x81|\xD0\xA0|\xD1\x80))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[o0\*\xB0\xBA\xD8\xF8\xD2-\xD6\xF2-\xF6]|\(\)|\[\]|\xC5[\x8C-\x91]|\xC6[\xA0-\xA1]|\xC7[\x91-\x92]|\xC7[\xBE-\xBF]|\xCE\x8C|\xCE\x98|\xCE\x9F|\xCE\xB8|\xCE\xBF|\xCF\x8C|\xD0\x9E|\xD0\xBE|\xD5\x95)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[r\xAE]|\xC5[\x94-\x99]|\xD1\x93)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[n\xD1\xF1]|\|\\\||\xC5[\x83-\x8B]|\xCE\x9D|\xCE\xA0|\xCE\xAE|\xCE\xB7|\xD5\xB2|\xD5\xB8)/i
87 describe SARE_ADLTSUB3 Apparent spam seems to contain porn subject
88 score    SARE_ADLTSUB3 1.66  # type=obfu
89 # Original name: RM_swp_porn1o1
90 #  58s/0h of 119325 corpus (98981s/20344h) 03/21/04
91 #  11s/0h of 15929 corpus (13729s/2200h) 03/23/04
92 #counts   SARE_ADLTSUB3            11s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
93 #counts   SARE_ADLTSUB3            15s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
94
95
96 header   SARE_ADLTSUB4 Subject =~ /(?!\bpo(?:rn|ur))\bp.?o.?r.?n/i
97 describe SARE_ADLTSUB4 Apparent spam seems to contain porn subject
98 score    SARE_ADLTSUB4 0.89  # type=obfu
99 # Original name: RM_swp_porn1o2
100 #  26s/0h of 119325 corpus (98981s/20344h) 03/21/04
101 #  3s/0h of 15929 corpus (13729s/2200h) 03/23/04
102 #counts   SARE_ADLTSUB4            5s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
103 #counts   SARE_ADLTSUB4            5s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
104
105
106 header   SARE_ADLTSUB5 Subject =~ /(?!\bfuck)(?:\bf|\B(?:\xC5\xBF|\xC6\x92|\xD2[\x92-\x93]))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[uv\*\xB5\xD9-\xDC\xF9-\xFC]|\xC5[\xA8-\xB3]|\xC6[\xAF-\xB0]|\xC7[\x93-\x9C]|\xCE\xB0|\xCE\xBC|\xCF\x8B|\xCF\x8D|\xD4\xB1|\xD5\x84|\xD5\x8D)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[c\*\xC7\xE7\xA2\xA9]|\xC4[\x86-\x8D]|\xD0\xA1|\xD1\x81)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:k|\xC4[\xB6-\xB8]|\xCE\x9A|\xCE\xBA|\xD0\x8C|\xD0\x9A|\xD0\xBA|\xD1\x9C|\xD2[\x9A-\x9D]])/i
107 describe SARE_ADLTSUB5 Apparent spam seems to contain porn subject
108 score    SARE_ADLTSUB5 1.66  # type=obfu
109 # Original name: RM_swp_porn2o1
110 #  8s/0h of 119325 corpus (98981s/20344h) 03/21/04
111 #  4s/0h of 15929 corpus (13729s/2200h) 03/23/04
112 #counts   SARE_ADLTSUB5            12s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
113 #counts   SARE_ADLTSUB5            0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
114
115
116 header   SARE_ADLTSUB6 Subject =~ /(?!\bfuck)\bf.?u.?c.?k/i
117 describe SARE_ADLTSUB6 Apparent spam seems to contain porn subject
118 score    SARE_ADLTSUB6 1.51  # type=obfu
119 # Original name: RM_swp_porn2o2
120 #  3s/0h of 119325 corpus (98981s/20344h) 03/21/04
121 #  5s/0h of 15929 corpus (13729s/2200h) 03/23/04
122 #counts   SARE_ADLTSUB6            32s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
123 #counts   SARE_ADLTSUB6            13s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
124
125
126 header   SARE_ADLTSUB7 Subject =~ /(?!\bpuss(?:y|ies)\b)(?:\bp|\B(?:[\xDE]|\xCE\xA1|\xCF\x81|\xD0\xA0|\xD1\x80))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[uv\*\xB5\xD9-\xDC\xF9-\xFC]|\xC5[\xA8-\xB3]|\xC6[\xAF-\xB0]|\xC7[\x93-\x9C]|\xCE\xB0|\xCE\xBC|\xCF\x8B|\xCF\x8D|\xD4\xB1|\xD5\x84|\xD5\x8D)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[s5\$\xA7]|\xC5[\x9A-\xA1]|\xD0\x85|\xD1\x95|\xD5\x8F)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[s5\$\xA7]|\xC5[\x9A-\xA1]|\xD0\x85|\xD1\x95|\xD5\x8F)(?:(?:[y\xA5\xDD\xFD]|\xC5[\xB6-\xB8]|\xCE\x8E|\xCE\xA5|\xCE\xA8|\xCE\xAB|\xCE\xB3|\xD0\xA3|\xD1\x83|\xD1\x9E|\xD2[\xAE-\xB1])|(?:[il1:\|\*\xCC-\xCF\xEC-\xEF\xA6]|\xC4[\xA8-\xB0]|\xC4\xBA|\xC4\xBC|\xC4\xBE|\xC5\x80|\xC5\x82|\xC7[\x8F-\x90]|\xD0[\x86-\x87]|\xD1[\x96-\x97]|\xCE\x8A|\xCE\x90|\xCE\x99|\xCE\xAA|\xCE\xAF|\xCE\xB9|\xCF\x8A)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[e3\*\xC8-\xCB\xE8-\xEB]|\xC4[\x92-\x9B]|\xCE\x88|\xCE\x95|\xCE\xA3|\xCE\xAD|\xCE\xB5|\xD0\x81|\xD0\x95|\xD0\xB5|\xD1\x91)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[s5\$\xA7]|\xC5[\x9A-\xA1]|\xD0\x85|\xD1\x95|\xD5\x8F))\b/i
127 describe SARE_ADLTSUB7 Apparent spam seems to contain porn subject
128 score    SARE_ADLTSUB7 1.66  # type=obfu
129 # Original name: RM_swp_porn5o1
130 #  4s/0h of 119325 corpus (98981s/20344h) 03/21/04
131 #  2s/0h of 15929 corpus (13729s/2200h) 03/23/04
132 #counts   SARE_ADLTSUB7            0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
133 #counts   SARE_ADLTSUB7            0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
134
135
136 header   SARE_ADLTSUB8 Subject =~ /(?!\bpuss(?:y|ies)\b)\bp.?u.?s.?s.?(?:y|i.?e.?s)\b/i
137 describe SARE_ADLTSUB8 Apparent spam seems to contain porn subject
138 score    SARE_ADLTSUB8 1.66  # type=obfu
139 # Original name: RM_swp_porn5o2
140 # FPS SARE_ADLTSUB8="plus sizes"
141 #  7s/0h of 119325 corpus (98981s/20344h) 03/21/04
142 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
143 #counts   SARE_ADLTSUB8            6s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
144 #counts   SARE_ADLTSUB8            6s/2h of 140226 corpus (90162s/50064h DOC) 04/19/06
145
146
147 #header   SARE_ADLTSUB10 Subject =~ /(?!\b(?:rap(?:e[sd]?|ing|pel)|reaping)\b)\br.?a.?p.?(?:e.?[sd]?|i.?n.?g)\b/i
148 #describe SARE_ADLTSUB10 Apparent spam seems to contain porn subject
149 #score    SARE_ADLTSUB10 2.500  # type=obfu
150 # Original name: RM_swp_Rapeo2
151 #  20s/0h of 119325 corpus (98981s/20344h) 03/21/04
152 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
153 #counts   SARE_ADLTSUB10           5s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
154 #counts   SARE_ADLTSUB10           6s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
155
156
157 #header   SARE_BEDROOMSEC Subject =~ /bedroom secret/i
158 #describe SARE_BEDROOMSEC Common spammer phrasing
159 #score    SARE_BEDROOMSEC 0.611
160 # Original name: RM_spp_BedroomSec
161 #  10s/0h of 125078 corpus (104890s/20188h) 03/29/04
162 #  0s/0h of 15929 corpus (13729s/2200h) 03/29/04
163 #counts   SARE_BEDROOMSEC          0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
164 #counts   SARE_BEDROOMSEC          0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
165
166
167 ###############################
168 #         body rules          #
169 ###############################
170
171
172 body      FB_SEXOHOL            /sexoholics/i
173 score     FB_SEXOHOL            1.66
174 #counts   FB_SEXOHOL               7s/0h of 32370 corpus (24496s/7874h ML) 12/12/05
175 #counts   FB_SEXOHOL               37s/0h of 40658 corpus (35364s/5294h MY) 12/12/05
176 #counts   FB_SEXOHOL               33s/0h of 207630 corpus (200121s/7509h FT) 12/13/05
177 #counts   FB_SEXOHOL               3s/0h of 9809 corpus (4905s/4904h FT) 12/12/05
178 #counts   FB_SEXOHOL               11s/0h of 11532 corpus (6163s/5369h CT) 12/12/05
179 #counts   FB_SEXOHOL               4s/0h of 70031 corpus (30720s/39311h DOC) 12/12/05
180 #counts   FB_SEXOHOL               0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
181 #counts   FB_SEXOHOL               18s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
182
183
184 body   FB_XUAL          /\bxual\b/
185 score  FB_XUAL          0.68
186 #counts   FB_XUAL                  20s/0h of 6871 corpus (5500s/1371h AxB) 12/15/05
187 #counts   FB_XUAL                  67s/0h of 34342 corpus (25865s/8477h ML) 12/15/05
188 #counts   FB_XUAL                  22s/0h of 40631 corpus (35338s/5293h MY) 12/15/05
189 #counts   FB_XUAL                  62s/0h of 70858 corpus (31544s/39314h DOC) 12/15/05
190 #counts   FB_XUAL                  855s/0h of 107818 corpus (99658s/8160h FVGT) 03/11/06
191 #counts   FB_XUAL                  100s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
192 #counts   FB_XUAL                  360s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
193
194
195 #body  FB_NOT_SEX       / s[^afeiloprsuw]x\b/i
196 #score FB_NOT_SEX       1.003
197 #counts   FB_NOT_SEX               7s/7h of 37297 corpus (31824s/5473h MY) 02/07/06
198 #counts   FB_NOT_SEX               4s/4h of 6866 corpus (4638s/2228h AxB) 02/07/06
199 #counts   FB_NOT_SEX               4s/5h of 11694 corpus (6132s/5562h CT) 02/07/06
200 #counts   FB_NOT_SEX               204s/4h of 345244 corpus (337372s/7872h FT) 02/07/06
201 #counts   FB_NOT_SEX               110s/0h of 107818 corpus (99658s/8160h FVGT) 03/11/06
202 #counts   FB_NOT_SEX               23s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
203 #counts   FB_NOT_SEX               108s/2h of 140226 corpus (90162s/50064h DOC) 04/19/06
204
205
206 #body  FB_GIRLS_DOLLAR  /girl\$/i
207 #score FB_GIRLS_DOLLAR  1.992
208 #counts   FB_GIRLS_DOLLAR          0s/0h of 37297 corpus (31824s/5473h MY) 02/07/06
209 #counts   FB_GIRLS_DOLLAR          0s/0h of 6866 corpus (4638s/2228h AxB) 02/07/06
210 #counts   FB_GIRLS_DOLLAR          0s/0h of 11694 corpus (6132s/5562h CT) 02/07/06
211 #counts   FB_GIRLS_DOLLAR          36s/0h of 345244 corpus (337372s/7872h FT) 02/07/06
212 #counts   FB_GIRLS_DOLLAR          8s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
213 #counts   FB_GIRLS_DOLLAR          2s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
214
215
216 # 1as$e$
217 #body     FB_DOLLAR_ASS2                /(?:\b|[0-9])(?!ass)a[s\$][s\$](?:\b|e)/i
218 #score    FB_DOLLAR_ASS2                0.361
219 #counts   FB_DOLLAR_ASS2           2s/1h of 9374 corpus (7151s/2223h AxB) 03/01/06
220 #counts   FB_DOLLAR_ASS2           6s/0h of 12244 corpus (6572s/5672h CT) 03/01/06
221 #counts   FB_DOLLAR_ASS2           0s/2h of 27495 corpus (21848s/5647h MY) 03/01/06
222 #counts   FB_DOLLAR_ASS2           13s/0h of 34977 corpus (27086s/7891h FT) 03/01/06
223 #counts   FB_DOLLAR_ASS2           10s/2h of 84470 corpus (67306s/17164h ML) 03/01/06
224 #counts   FB_DOLLAR_ASS2           10s/1h of 103116 corpus (63731s/39385h DOC) 03/01/06
225 #counts   FB_DOLLAR_ASS2           58s/0h of 107818 corpus (99658s/8160h FVGT) 03/11/06
226 #counts   FB_DOLLAR_ASS2           21s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
227 #counts   FB_DOLLAR_ASS2           13s/1h of 140226 corpus (90162s/50064h DOC) 04/19/06
228
229
230 body     FB_HARD_ERECTION  /hard(?:er)? (?:erection|penis)/i
231 score    FB_HARD_ERECTION  1.66
232 #counts  FB_HARD_ERECTION  2728s/0h of 211356 corpus (203977s/7379h FT) 11/23/05
233 #counts   FB_HARD_ERECTION         393s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
234 #counts   FB_HARD_ERECTION         573s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
235
236
237 #body     FB_JACKRABBIT     /Jack Rabbit Vibrat[o0]r/i
238 #score    FB_JACKRABBIT     3.599
239 #counts  FB_JACKRABBIT     640s/0h of 211356 corpus (203977s/7379h FT) 11/23/05
240 #counts   FB_JACKRABBIT            0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
241 #counts   FB_JACKRABBIT            47s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
242
243
244 body     FB_PENIS          /\b(?!penis)p[3e]n[i1!][s5]\b/i
245 score    FB_PENIS          1.66
246 #counts   FB_PENIS                 170s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
247 #counts   FB_PENIS                 386s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
248
249
250 body   FB_FEMALE_EJACU          /female ejaculation/i
251 score  FB_FEMALE_EJACU          1.66
252 #counts   FB_FEMALE_EJACU          4s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
253 #counts   FB_FEMALE_EJACU          1s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
254
255
256 body   FB_INNOCENT              /innocent (?:boy|girl|child)/i
257 score  FB_INNOCENT              0.40
258 #counts   FB_INNOCENT              14s/1h of 42056 corpus (34127s/7929h FVGT) 04/19/06
259 #counts   FB_INNOCENT              7s/1h of 140226 corpus (90162s/50064h DOC) 04/19/06
260
261
262 #body           LW_PORN_PHOTO           /Tell our photographers what to do in their next photo session our video/
263 #score          LW_PORN_PHOTO           5
264 #describe       LW_PORN_PHOTO           Standard 'hot chicks' line
265 #counts   LW_PORN_PHOTO            0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
266 #counts   LW_PORN_PHOTO            3s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
267
268
269 #body           LW_PORN_ONLINE          /high quality photo's online/
270 #score          LW_PORN_ONLINE          2
271 #describe       LW_PORN_ONLINE          Standard 'hot chicks' line
272 #counts   LW_PORN_ONLINE           0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
273 #counts   LW_PORN_ONLINE           4s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
274
275
276 #body           LW_PORN_MODELS          /models getting nasty/
277 #score          LW_PORN_MODELS          5
278 #describe       LW_PORN_MODELS          Standard 'hot chicks' line
279 #counts   LW_PORN_MODELS           0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
280 #counts   LW_PORN_MODELS           0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
281
282
283 body            LW_PORN_HELLO           /(?:Hey baby|Hello, stranger!) :\)/
284 score           LW_PORN_HELLO           1.66    
285 describe        LW_PORN_HELLO           Standard 'hot chicks' line
286 #counts   LW_PORN_HELLO            2s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
287 #counts   LW_PORN_HELLO            5s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
288
289
290
291
292 #$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$
293 # set of porn keywords / when these words appear, it's more likely porn. SET A.
294 body     __FVGT_BREASTS         /\bbreasts?\b/i
295 body     __FVGT_FUCK            /\bfuck/i
296 body     __FVGT_RAPE            /\braped?\b/i
297 body     __FVGT_HORNY           /\bhorny\b/i
298 body     __FVGT_VIRGIN          /\bvirgins?\b/i
299 body     __FVGT_COCK            /\bcock\b/i
300 body     __FVGT_LOLITA          /\blolita\b/i
301 body     __FVGT_YOUNGGIRL       /Young(?:est)? (?:girl|chick)/i
302 body     __FVGT_PUSSY           /\bpuss(?:y|ies)/i
303 body     __FVGT_ASS             /\sass\s/i
304 body     __FVGT_SLUT            /\bslut\b/i
305
306 # meta's to count how many porn words from Set A.
307 meta     FM_PORN_A_4            ((__FVGT_BREASTS + __FVGT_FUCK + __FVGT_RAPE + __FVGT_HORNY + __FVGT_VIRGIN + __FVGT_COCK + __FVGT_LOLITA + __FVGT_YOUNGGIRL + __FVGT_PUSSY + __FVGT_ASS + __FVGT_SLUT) > 2)
308 meta     FM_PORN_A_5            ((__FVGT_BREASTS + __FVGT_FUCK + __FVGT_RAPE + __FVGT_HORNY + __FVGT_VIRGIN + __FVGT_COCK + __FVGT_LOLITA + __FVGT_YOUNGGIRL + __FVGT_PUSSY + __FVGT_ASS + __FVGT_SLUT) > 3)
309
310 score    FM_PORN_A_4            1.09
311 #counts   FM_PORN_A_4              796s/2h of 42056 corpus (34127s/7929h FVGT) 04/19/06
312 #counts   FM_PORN_A_4              243s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
313
314
315
316 score    FM_PORN_A_5            0.98
317 #counts   FM_PORN_A_5              358s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
318 #counts   FM_PORN_A_5              172s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
319
320
321
322
323
324
325 body  __HAS_COLLECTION                  /\bcollection\b/i
326 body  __HAS_HARDCORE                    /\bhardcore\b/i
327 body  __HAS_YOUNGGIRL                   /\byoung\s?girls?\b/i
328 body  __HAS_ADOLESCENT                  /\badolescents?\b/i
329 body  __HAS_CHICKS                      /\bchicks?\b/i
330
331 meta  FP_MIXED_PORN3                    ((__HAS_COLLECTION + __HAS_HARDCORE + __HAS_YOUNGGIRL + __HAS_ADOLESCENT + __HAS_CHICKS) > 2)
332 score FP_MIXED_PORN3                    1.66
333 #counts   FP_MIXED_PORN3           4s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
334 #counts   FP_MIXED_PORN3           5s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
335
336
337
338 body     SARE_ADULT1 /(?:suck|l[i1]ck).{1,30}(c[o0]ck|d[i1]ck)/i
339 describe SARE_ADULT1 Contains adult material
340 score    SARE_ADULT1 1.47
341 # Original name: FVGT_b_ADULT02
342 #  55s/2h of 119325 corpus (98981s/20344h) 03/21/04
343 #  18s/0h of 15929 corpus (13729s/2200h) 03/23/04
344 #counts   SARE_ADULT1              512s/1h of 42056 corpus (34127s/7929h FVGT) 04/19/06
345 #counts   SARE_ADULT1              129s/1h of 140226 corpus (90162s/50064h DOC) 04/19/06
346
347
348 body     SARE_ADULT2 /\b(?:sorority|rock hard|(adu?(l|1)t|XXX) movies?|climatique|orgas(mic|ims?|ms?)|climax|ejactulate|penis|pussy|cunt|blowjob|intercourse|lubricate)\b/i
349 describe SARE_ADULT2 Contains adult material
350 score    SARE_ADULT2 1.42
351 # Original name: MY_XXX_BODY, was rawbody
352 #  9985s/30h of 119325 corpus (98981s/20344h) 03/21/04
353 #  683s/2h of 15929 corpus (13729s/2200h) 03/23/04
354 #counts   SARE_ADULT2              4729s/9h of 42056 corpus (34127s/7929h FVGT) 04/19/06
355 #counts   SARE_ADULT2              2685s/34h of 140226 corpus (90162s/50064h DOC) 04/19/06
356
357
358 body     SARE_BETTERORG /(?:boost|magnify|multipl[ey]|increase|frequent|intense|intensify).{1,15}orgasm/i
359 describe SARE_BETTERORG Talks about getting better orgasms
360 score    SARE_BETTERORG 1.66
361 # Original name: YM_B_BETTER_ORG, RM_bpm_MultipleOrgasms
362 #  592s/2h of 119325 corpus (98981s/20344h) 03/21/04
363 #  29s/0h of 15929 corpus (13729s/2200h) 03/23/04
364 #counts   SARE_BETTERORG           249s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
365 #counts   SARE_BETTERORG           111s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
366
367
368 body     SARE_ENLRGYOUR /enlarge your/i
369 describe SARE_ENLRGYOUR Talks about "enlarging" something
370 score    SARE_ENLRGYOUR 1.02
371 # Original name: MY_EN_PENIS, was rawbody, RE_bpm_EnlargeYour
372 #  1735s/0h of 119325 corpus (98981s/20344h) 03/21/04
373 #  91s/0h of 15929 corpus (13729s/2200h) 03/23/04
374 #counts   SARE_ENLRGYOUR           537s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
375 #counts   SARE_ENLRGYOUR           279s/1h of 140226 corpus (90162s/50064h DOC) 04/19/06
376
377
378 body     SARE_LRGPNS /(?:bigger|larger|increase your) (?:member\b|rod)/i
379 describe SARE_LRGPNS Talks about a "bigger" appendage
380 score    SARE_LRGPNS 1.66
381 # Original name: MY_MEMBER combined with MY_LRGROD
382 #  50s/0h of 119325 corpus (98981s/20344h) 03/21/04
383 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
384 #counts   SARE_LRGPNS              0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
385 #counts   SARE_LRGPNS              0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
386
387
388 body     SARE_PNSSIZE /inch(?:es)? .{0,10}(?:cock|dick)/i
389 describe SARE_PNSSIZE Talks about the size of male body part
390 score    SARE_PNSSIZE 1.66
391 # Original name: YM_B_BODYPART_1
392 #  3s/0h of 119325 corpus (98981s/20344h) 03/21/04
393 #  6s/0h of 15929 corpus (13729s/2200h) 03/23/04
394 #counts   SARE_PNSSIZE             5s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
395 #counts   SARE_PNSSIZE             2s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
396
397
398 body     SARE_SXLIFE /(?:are you single|sex life|youre? partner)/i
399 describe SARE_SXLIFE Talks about your sex life
400 score    SARE_SXLIFE 1.07
401 #  695s/15h of 119325 corpus (98981s/20344h) 03/21/04
402 #  212s/1h of 15929 corpus (13729s/2200h) 03/23/04
403 #counts   SARE_SXLIFE              991s/12h of 42056 corpus (34127s/7929h FVGT) 04/19/06
404 #counts   SARE_SXLIFE              637s/54h of 140226 corpus (90162s/50064h DOC) 04/19/06
405
406
407 body     SARE_BEASTUD /be a stud/i
408 describe SARE_BEASTUD common spammer phrasing
409 score    SARE_BEASTUD 0.26
410 # Original name: RM_bpm_BeAStud
411 #  53s/0h of 119325 corpus (98981s/20344h) 03/21/04
412 #  7s/0h of 15929 corpus (13729s/2200h) 03/23/04
413 #counts   SARE_BEASTUD             73s/2h of 42056 corpus (34127s/7929h FVGT) 04/19/06
414 #counts   SARE_BEASTUD             20s/1h of 140226 corpus (90162s/50064h DOC) 04/19/06
415
416
417 body     SARE_BIGRMEMBER /B.?i.?g.?g.?e.?r.{0,5}M.?e.?m.?b.?e.?r/i 
418 describe SARE_BIGRMEMBER mentions bigger body part
419 score    SARE_BIGRMEMBER 1.66
420 # Original name: RM_bpm_BiggerMember
421 #  17s/0h of 119325 corpus (98981s/20344h) 03/21/04
422 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
423 #counts   SARE_BIGRMEMBER          0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
424 #counts   SARE_BIGRMEMBER          0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
425
426
427 body     SARE_INLENGTH /increase.? my length/i
428 describe SARE_INLENGTH common spammer phrasing
429 score    SARE_INLENGTH 1.66
430 # Original name: RM_bpm_IncreaseLength
431 #  40s/0h of 119325 corpus (98981s/20344h) 03/21/04
432 #  8s/0h of 15929 corpus (13729s/2200h) 03/23/04
433 #counts   SARE_INLENGTH            60s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
434 #counts   SARE_INLENGTH            20s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
435
436
437 #body     SARE_LADYINLIFE /lady in your life/i 
438 #describe SARE_LADYINLIFE Contains phrasing used by spammers
439 #score    SARE_LADYINLIFE 0.166
440 # Original name: RM_bpm_LadyInLife
441 #  3s/0h of 119325 corpus (98981s/20344h) 03/21/04
442 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
443 #counts   SARE_LADYINLIFE          0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
444 #counts   SARE_LADYINLIFE          0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
445
446
447 #body     SARE_MAGICLUBE /"Magic Lubricant"/i 
448 #describe SARE_MAGICLUBE Spammer phrasing in body of email
449 #score    SARE_MAGICLUBE 2.222 # type=spamgg
450 # Original name: RM_bpm_MagicLubricant
451 #  704s/0h of 119325 corpus (98981s/20344h) 03/21/04
452 #  12s/0h of 15929 corpus (13729s/2200h) 03/23/04
453 #counts   SARE_MAGICLUBE           0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
454 #counts   SARE_MAGICLUBE           0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
455
456
457 body     SARE_NOEMBARRASS /no embarrassing/i
458 describe SARE_NOEMBARRASS Wow, I won't be embarrassed anymore!
459 score    SARE_NOEMBARRASS 1.66
460 # Original name: RM_bpm_NoEmbarrassing
461 #  30s/0h of 119325 corpus (98981s/20344h) 03/21/04
462 #  6s/0h of 15929 corpus (13729s/2200h) 03/23/04
463 #counts   SARE_NOEMBARRASS         0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
464 #counts   SARE_NOEMBARRASS         1s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
465
466
467 body     SARE_PLEASEPARTNR /Pleasure.{1,10}partner/i
468 describe SARE_PLEASEPARTNR common spammer phrasing
469 score    SARE_PLEASEPARTNR 1.66
470 # Original name: RM_bpm_PleasurePartnr
471 #  51s/0h of 119325 corpus (98981s/20344h) 03/21/04
472 #  6s/0h of 15929 corpus (13729s/2200h) 03/23/04
473 #counts   SARE_PLEASEPARTNR        60s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
474 #counts   SARE_PLEASEPARTNR        20s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
475
476
477 #body     SARE_POWERBOTTLE /"Power Bottle"/i 
478 #describe SARE_POWERBOTTLE Spammer phrasing in body of email
479 #       score    SARE_POWERBOTTLE 2.222 # type=spamgg
480 # Original name: RM_bpm_PowerBottle
481 #  708s/0h of 119325 corpus (98981s/20344h) 03/21/04
482 #  12s/0h of 15929 corpus (13729s/2200h) 03/23/04
483 #counts   SARE_POWERBOTTLE         0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
484 #counts   SARE_POWERBOTTLE         0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
485
486
487 #body     SARE_PRODEREC /produce erections/i
488 #describe SARE_PRODEREC Contains medical spam phrasing
489 #score    SARE_PRODEREC 0.055
490 # Original name: RE_bpm_ProdErec
491 #  1s/0h of 119325 corpus (98981s/20344h) 03/21/04
492 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
493 #counts   SARE_PRODEREC            0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
494 #counts   SARE_PRODEREC            0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
495
496
497 body     SARE_SUPERVIAGRA /(?:super|weekend)[- ]viagra/i
498 describe SARE_SUPERVIAGRA mentions drug which is often subject of spam
499 score    SARE_SUPERVIAGRA 1.66 # type=spamgg
500 # Original name: RM_bpm_SuperViagra, RM_bpm_WeekendViagra
501 #  299s/0h of 119325 corpus (98981s/20344h) 03/21/04
502 #  11s/0h of 15929 corpus (13729s/2200h) 03/23/04
503 #counts   SARE_SUPERVIAGRA         136s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
504 #counts   SARE_SUPERVIAGRA         704s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
505
506
507 body     SARE_ADLTDATING /adult dating/i
508 describe SARE_ADLTDATING Contains phrasing used by spammers
509 score    SARE_ADLTDATING 0.32
510 # Original name: RM_bpp_Adultdating
511 #  3s/0h of 119325 corpus (98981s/20344h) 03/21/04
512 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
513 #counts   SARE_ADLTDATING          1s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
514 #counts   SARE_ADLTDATING          32s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
515
516
517 body     SARE_ADLTPRSNLS /adult personals/i 
518 describe SARE_ADLTPRSNLS Contains phrasing used by spammers
519 score    SARE_ADLTPRSNLS 1.66
520 # Original name: RM_bpp_AdultPersonals
521 #  3s/0h of 119325 corpus (98981s/20344h) 03/21/04
522 #  2s/0h of 15929 corpus (13729s/2200h) 03/23/04
523 #counts   SARE_ADLTPRSNLS          1s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
524 #counts   SARE_ADLTPRSNLS          13s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
525
526
527 #body     SARE_AREUBORED /Are you bored of/i 
528 #describe SARE_AREUBORED Contains phrasing used by spammers
529 #score    SARE_AREUBORED 0.111
530 # Original name: RM_bpp_AreYouBored
531 #  2s/0h of 119325 corpus (98981s/20344h) 03/21/04
532 #  3s/0h of 15929 corpus (13729s/2200h) 03/23/04
533 #counts   SARE_AREUBORED           0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
534 #counts   SARE_AREUBORED           0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
535
536
537 body     SARE_CHILDPRN1 /child porn/i 
538 describe SARE_CHILDPRN1 contains reference to child porn 
539 score    SARE_CHILDPRN1 1.15  # ham: news, FBI auto-responder
540 # Original name: ChildPorn
541 #  64s/3h of 119325 corpus (98981s/20344h) 03/21/04
542 #  5s/0h of 15929 corpus (13729s/2200h) 03/23/04
543 #counts   SARE_CHILDPRN1           0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
544 #counts   SARE_CHILDPRN1           1s/1h of 140226 corpus (90162s/50064h DOC) 04/19/06
545
546
547 #body     SARE_CHILDPRN2 /child pornography webmaster/i
548 #describe SARE_CHILDPRN2 contains reference to a child porn webmaster
549 #score    SARE_CHILDPRN2 2.222 # type=spamg
550 # Original name: RM_bpp_ChildPorn2
551 #  9s/0h of 119325 corpus (98981s/20344h) 03/21/04
552 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
553 #counts   SARE_CHILDPRN2           0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
554 #counts   SARE_CHILDPRN2           0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
555
556
557 #body     SARE_CHILDPRN3 /underage porn/i
558 #describe SARE_CHILDPRN3 contains reference to child porn 
559 #score    SARE_CHILDPRN3 2.222  # type=spamg 
560 # Original name: RM_bpp_ChildPorn3
561 #  28s/0h of 119325 corpus (98981s/20344h) 03/21/04
562 #  5s/0h of 15929 corpus (13729s/2200h) 03/23/04
563 #counts   SARE_CHILDPRN3           0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
564 #counts   SARE_CHILDPRN3           0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
565
566
567 body     SARE_TOWRITE /decided to write/i 
568 describe SARE_TOWRITE Contains phrasing used by spammers
569 score    SARE_TOWRITE 1.05
570 # Original name: RM_bpp_DecidedToWrite
571 #  41s/2h of 119325 corpus (98981s/20344h) 03/21/04
572 #  2s/0h of 15929 corpus (13729s/2200h) 03/23/04
573 #counts   SARE_TOWRITE             6s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
574 #counts   SARE_TOWRITE             11s/3h of 140226 corpus (90162s/50064h DOC) 04/19/06
575
576
577 #body     SARE_DRMWOMAN /your dream woman/i 
578 #describe SARE_DRMWOMAN Contains phrasing used by spammers
579 #score    SARE_DRMWOMAN 0.055
580 # Original name: RM_bpp_DreamWoman
581 #  1s/0h of 119325 corpus (98981s/20344h) 03/21/04
582 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
583 #counts   SARE_DRMWOMAN            0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
584 #counts   SARE_DRMWOMAN            0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
585
586
587 body     SARE_GETFCK /get fuck/i 
588 describe SARE_GETFCK Contains phrasing used by spammers
589 score    SARE_GETFCK 1.66 # type=spamp
590 # Original name: RM_bpp_GetFucked
591 #  22s/0h of 119325 corpus (98981s/20344h) 03/21/04
592 #  8s/0h of 15929 corpus (13729s/2200h) 03/23/04
593 #counts   SARE_GETFCK              71s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
594 #counts   SARE_GETFCK              32s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
595
596
597 #body     SARE_GIRLSDOANY /girls will do anything/i 
598 #describe SARE_GIRLSDOANY Contains phrasing used by spammers
599 #score    SARE_GIRLSDOANY 0.166
600 # Original name: RM_bpp_GirlsDoAny
601 #  3s/0h of 119325 corpus (98981s/20344h) 03/21/04
602 #  3s/0h of 15929 corpus (13729s/2200h) 03/23/04
603 #counts   SARE_GIRLSDOANY          1s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
604 #counts   SARE_GIRLSDOANY          0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
605
606
607 #body     SARE_HORNY2 /horny as hell/i 
608 #describe SARE_HORNY2 Contains phrasing used by spammers
609 #score    SARE_HORNY2 0.222
610 # Original name: RM_bpp_HornyAsHell
611 #  4s/0h of 119325 corpus (98981s/20344h) 03/21/04
612 #  3s/0h of 15929 corpus (13729s/2200h) 03/23/04
613 #counts   SARE_HORNY2              0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
614 #counts   SARE_HORNY2              0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
615
616
617 #body     SARE_MOMBLOW /mother blows/i
618 #describe SARE_MOMBLOW textual phrase implies porn spam 
619 #score    SARE_MOMBLOW 0.111
620 # Original name: RM_bpp_MotherBlows
621 #  2s/0h of 119325 corpus (98981s/20344h) 03/21/04
622 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
623 #counts   SARE_MOMBLOW             0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
624 #counts   SARE_MOMBLOW             0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
625
626
627 body     SARE_BADGIRLS /(?:amateur|horny|asian) girls/i 
628 describe SARE_BADGIRLS Contains phrasing used by spammers
629 score    SARE_BADGIRLS 0.52
630 # Original name: RM_bpp_PornGirls
631 #  12s/0h of 119325 corpus (98981s/20344h) 03/21/04
632 #  9s/0h of 15929 corpus (13729s/2200h) 03/23/04
633 #counts   SARE_BADGIRLS            21s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
634 #counts   SARE_BADGIRLS            5s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
635
636
637 body     SARE_QLTYSINGLES /quality singles/i 
638 describe SARE_QLTYSINGLES Contains phrasing seen in spam 
639 score    SARE_QLTYSINGLES 1.66
640 # Original name: RM_bpp_QualitySingles
641 #  3s/0h of 119325 corpus (98981s/20344h) 03/21/04
642 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
643 #counts   SARE_QLTYSINGLES         0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
644 #counts   SARE_QLTYSINGLES         1s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
645
646
647 #body     SARE_HORNY1 /so hoo+rny/i 
648 #describe SARE_HORNY1 Contains phrasing used by spammers
649 #score    SARE_HORNY1 1.000  # type=spamp
650 # Original name: SoHorny
651 #  1s/0h of 119325 corpus (98981s/20344h) 03/21/04
652 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
653 #counts   SARE_HORNY1              0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
654 #counts   SARE_HORNY1              0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
655
656
657 #body     SARE_SONSDICK /son's dick/i
658 #describe SARE_SONSDICK textual phrase implies porn spam 
659 #score    SARE_SONSDICK 1.000  # type=spamp
660 # Original name: SonsDick
661 #  2s/0h of 119325 corpus (98981s/20344h) 03/21/04
662 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
663 #counts   SARE_SONSDICK            0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
664 #counts   SARE_SONSDICK            0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
665
666
667 body     SARE_STILLSINGLE /still single/i 
668 describe SARE_STILLSINGLE Contains phrasing used by spammers
669 score    SARE_STILLSINGLE 1.66
670 # Original name: RM_bpp_StillSingle
671 #  11s/0h of 119325 corpus (98981s/20344h) 03/21/04
672 #  5s/0h of 15929 corpus (13729s/2200h) 03/23/04
673 #counts   SARE_STILLSINGLE         0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
674 #counts   SARE_STILLSINGLE         71s/1h of 140226 corpus (90162s/50064h DOC) 04/19/06
675
676
677 #body     SARE_UNDRESSMTHR /undressed mother/i
678 #describe SARE_UNDRESSMTHR textual phrase implies porn spam 
679 #score    SARE_UNDRESSMTHR 0.200
680 # Original name: RM_bpp_UndressedMother
681 #  2s/0h of 119325 corpus (98981s/20344h) 03/21/04
682 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
683 #counts   SARE_UNDRESSMTHR         0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
684 #counts   SARE_UNDRESSMTHR         0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
685
686
687 body     SARE_HOUSEWIVES /housewives/i
688 describe SARE_HOUSEWIVES Mentions housewives, as in porn or in-home biz
689 score    SARE_HOUSEWIVES 0.99
690 # Original name: RM_bwp_housewives
691 #  138s/0h of 119325 corpus (98981s/20344h) 03/21/04
692 #  18s/0h of 15929 corpus (13729s/2200h) 03/23/04
693 #counts   SARE_HOUSEWIVES          13s/3h of 42056 corpus (34127s/7929h FVGT) 04/19/06
694 #counts   SARE_HOUSEWIVES          37s/6h of 140226 corpus (90162s/50064h DOC) 04/19/06
695
696
697 body     SARE_SCHLGRL /schoolgirls/i
698 describe SARE_SCHLGRL mentions schoolgirls, as in porn 
699 score    SARE_SCHLGRL 1.29
700 # Original name: RM_bwp_schoolgirls
701 #  11s/0h of 119325 corpus (98981s/20344h) 03/21/04
702 #  6s/0h of 15929 corpus (13729s/2200h) 03/23/04
703 #counts   SARE_SCHLGRL             15s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
704 #counts   SARE_SCHLGRL             19s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
705
706
707 ###############################
708 #      OBFU body rules        #
709 ###############################
710
711 body     SARE_ADLTOBFU /\b(?:adu?1t|amb[1!]en|b0y|bl0w|c0cks?|c0re|d0main|f?r0m|g(?:[1!]r[1l]|ir[!1])|[1!]ntercourse|l1ttle|l0se|mai1|manh00d|m0vie|[0o]rg\@sm|p[0\@]rn|p1ct|pen[1!]s|(?:ph|f)(?:[0\@]t|ot[0\@])|pu[s5]{1,2}[1!]e[s5]|secks|sm00th|t1ny|t1ts|v(?:irg1|1rgi|1rg1)n|v[i1]de0|y0ung|y0ur)/i
712 describe SARE_ADLTOBFU Contains OBFU adult material
713 score    SARE_ADLTOBFU 0.68
714 # Combined from FVGT_b_N0N0_WORDS, OACYS_DISGUISED_P0RN, M_K_N0N0_WORDS_BODY
715 #  768s/1h of 119325 corpus (98981s/20344h) 03/21/04
716 #  89s/0h of 15929 corpus (13729s/2200h) 03/23/04
717 #counts   SARE_ADLTOBFU            930s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
718 #counts   SARE_ADLTOBFU            663s/10h of 140226 corpus (90162s/50064h DOC) 04/19/06
719
720
721 body     SARE_OBFUENLARGE /\b(?!enlarge)e.?n.?l.?a.?r.?g.?e/i
722 describe SARE_OBFUENLARGE masked spam word(s)
723 score    SARE_OBFUENLARGE 1.66 # type=obfu
724 # Original name: RM_bwo_Enlarge
725 #  478s/0h of 119325 corpus (98981s/20344h) 03/21/04
726 #  18s/0h of 15929 corpus (13729s/2200h) 03/23/04
727 #counts   SARE_OBFUENLARGE         15s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
728 #counts   SARE_OBFUENLARGE         466s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
729
730
731 #body     SARE_OBFUFCK1 /(?!\bfuck)(?:\bf|\B(?:\xC5\xBF|\xC6\x92|\xD2[\x92-\x93]))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[uv\xB5\xD9-\xDC\xF9-\xFC]|\xC5[\xA8-\xB3]|\xC6[\xAF-\xB0]|\xC7[\x93-\x9C]|\xCE\xB0|\xCE\xBC|\xCF\x8B|\xCF\x8D|\xD4\xB1|\xD5\x84|\xD5\x8D)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[c\xC7\xE7\xA2\xA9]|\xC4[\x86-\x8D]|\xD0\xA1|\xD1\x81)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:k|\xC4[\xB6-\xB8]|\xCE\x9A|\xCE\xBA|\xD0\x8C|\xD0\x9A|\xD0\xBA|\xD1\x9C|\xD2[\x9A-\x9D]])/i
732 #describe SARE_OBFUFCK1 Apparent spam seems to contain porn subject
733 #score    SARE_OBFUFCK1 1.666 # type=obfu
734 # Original name: RM_bwo_Fucko1
735 #  42s/0h of 119325 corpus (98981s/20344h) 03/21/04
736 #  23s/0h of 15929 corpus (13729s/2200h) 03/23/04
737 #counts   SARE_OBFUFCK1            19s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
738 #counts   SARE_OBFUFCK1            35s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
739
740
741 body     SARE_OBFUFCK2 /(?!\bfun?ck)\bf.?u.?c.?k/i
742 describe SARE_OBFUFCK2 Apparent spam seems to contain porn subject
743 score    SARE_OBFUFCK2 1.00 # type=obfu
744 # Original name: RM_bwo_Fucko2
745 #  70s/1h of 119325 corpus (98981s/20344h) 03/21/04
746 #  29s/0h of 15929 corpus (13729s/2200h) 03/23/04
747 #counts   SARE_OBFUFCK2            56s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
748 #counts   SARE_OBFUFCK2            73s/3h of 140226 corpus (90162s/50064h DOC) 04/19/06
749
750
751 #body     SARE_OBFUGNGBNG /(?!\bgangbang(ed)?\b)(?:\b[g6]|\B(?:\xC4[\x9C-\xA3]))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[a4\*\@\xC0-\xC5\xAA\xE0-\xE5]|\/\\|\xC4[\x80-\x85]|\xC7[\x8D-\x8E]|\xC7[\xBA-\xBB]|\xCE\x86|\xCE\x91|\xCE\x94|\xCE\x9B|\xCE\xAC|\xCE\xB1|\xD0\x90|\xD0\xB0)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[n\xD1\xF1]|\|\\\||\xC5[\x83-\x8B]|\xCE\x9D|\xCE\xA0|\xCE\xAE|\xCE\xB7|\xD5\xB2|\xD5\xB8)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[g6]|\xC4[\x9C-\xA3]])[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[b8\xDF]|\xCE\x92|\xCE\xB2|\xD0\x92|\xD0\xB2)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[a4\*\@\xC0-\xC5\xAA\xE0-\xE5]|\/\\|\xC4[\x80-\x85]|\xC7[\x8D-\x8E]|\xC7[\xBA-\xBB]|\xCE\x86|\xCE\x91|\xCE\x94|\xCE\x9B|\xCE\xAC|\xCE\xB1|\xD0\x90|\xD0\xB0)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[n\xD1\xF1]|\|\\\||\xC5[\x83-\x8B]|\xCE\x9D|\xCE\xA0|\xCE\xAE|\xCE\xB7|\xD5\xB2|\xD5\xB8)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[g6]|\xC4[\x9C-\xA3]])((?:[e3\*\xC8-\xCB\xE8-\xEB]|\xC4[\x92-\x9B]|\xCE\x88|\xCE\x95|\xCE\xA3|\xCE\xAD|\xCE\xB5|\xD0\x81|\xD0\x95|\xD0\xB5|\xD1\x91)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[d\xD0]|\xC4[\x8E-\x91]))?\b/i
752 #describe SARE_OBFUGNGBNG masked spam word(s)
753 #score    SARE_OBFUGNGBNG 2.5 # type=obfu
754 # Original name: RM_bwo_Gangbang
755 #  2s/0h of 15929 corpus (13729s/2200h) 03/23/04
756 #  3s/0h of 119325 corpus (98981s/20344h) 03/21/04
757 #counts   SARE_OBFUGNGBNG          11s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
758 #counts   SARE_OBFUGNGBNG          1s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
759
760
761 #body     SARE_OBFUGIRLS /(?!\bgirls?\b)(?:\b[g6]|\B(?:\xC4[\x9C-\xA3]))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[il1:\|\*\xCC-\xCF\xEC-\xEF\xA6]|\xC4[\xA8-\xB0]|\xC4\xBA|\xC4\xBC|\xC4\xBE|\xC5\x80|\xC5\x82|\xC7[\x8F-\x90]|\xD0[\x86-\x87]|\xD1[\x96-\x97]|\xCE\x8A|\xCE\x90|\xCE\x99|\xCE\xAA|\xCE\xAF|\xCE\xB9|\xCF\x8A)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[r\xAE]|\xC5[\x94-\x99]|\xD1\x93)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[l1I\|\xA3]|(?:\xC5[\x80-\x82]|\xC4[\xB9-\xBF]))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[s5\$\xA7]|\xC5[\x9A-\xA1]|\xD0\x85|\xD1\x95|\xD5\x8F)?\b/i
762 #describe SARE_OBFUGIRLS masked spam word(s)
763 #score    SARE_OBFUGIRLS 3.222 # type=obfu # ham: jpg
764 # Original name: RM_bwo_Girls
765 #  25s/1h of 15929 corpus (13729s/2200h) 03/23/04
766 #  318s/1h of 119325 corpus (98981s/20344h) 03/21/04
767 #counts   SARE_OBFUGIRLS           112s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
768 #counts   SARE_OBFUGIRLS           13s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
769
770
771 #body     SARE_OBFUPENIS /(?!\bpen ?is\b)(?:\bp|\B(?:[\xDE]|\xCE\xA1|\xCF\x81|\xD0\xA0|\xD1\x80))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[e3\*\xC8-\xCB\xE8-\xEB]|\xC4[\x92-\x9B]|\xCE\x88|\xCE\x95|\xCE\xA3|\xCE\xAD|\xCE\xB5|\xD0\x81|\xD0\x95|\xD0\xB5|\xD1\x91)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[n\xD1\xF1]|\|\\\||\xC5[\x83-\x8B]|\xCE\x9D|\xCE\xA0|\xCE\xAE|\xCE\xB7|\xD5\xB2|\xD5\xB8)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[il1:\|\*\xCC-\xCF\xEC-\xEF\xA6]|\xC4[\xA8-\xB0]|\xC4\xBA|\xC4\xBC|\xC4\xBE|\xC5\x80|\xC5\x82|\xC7[\x8F-\x90]|\xD0[\x86-\x87]|\xD1[\x96-\x97]|\xCE\x8A|\xCE\x90|\xCE\x99|\xCE\xAA|\xCE\xAF|\xCE\xB9|\xCF\x8A)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[s5]\b|(?:[\$\xA7]|\xC5[\x9A-\xA1]|\xD0\x85|\xD1\x95|\xD5\x8F)\B)/i
772 #describe SARE_OBFUPENIS masked spam word(s)
773 #score    SARE_OBFUPENIS 2.333 # type=obfu
774 # Original name: RM_bwo_Penis
775 #  1027s/0h of 119325 corpus (98981s/20344h) 03/21/04
776 #  91s/1h of 15929 corpus (13729s/2200h) 03/23/04
777 #counts   SARE_OBFUPENIS           516s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
778 #counts   SARE_OBFUPENIS           578s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
779
780
781 #body     SARE_OBFUPORNO /(?!\bporno?\b)(?:\bp|\B(?:[\xDE]|\xCE\xA1|\xCF\x81|\xD0\xA0|\xD1\x80))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[o0\*\xB0\xBA\xD8\xF8\xD2-\xD6\xF2-\xF6]|\(\)|\[\]|\xC5[\x8C-\x91]|\xC6[\xA0-\xA1]|\xC7[\x91-\x92]|\xC7[\xBE-\xBF]|\xCE\x8C|\xCE\x98|\xCE\x9F|\xCE\xB8|\xCE\xBF|\xCF\x8C|\xD0\x9E|\xD0\xBE|\xD5\x95)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[r\xAE]|\xC5[\x94-\x99]|\xD1\x93)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[n\xD1\xF1]|\|\\\||\xC5[\x83-\x8B]|\xCE\x9D|\xCE\xA0|\xCE\xAE|\xCE\xB7|\xD5\xB2|\xD5\xB8)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[o0\*\xB0\xBA\xD8\xF8\xD2-\xD6\xF2-\xF6]|\(\)|\[\]|\xC5[\x8C-\x91]|\xC6[\xA0-\xA1]|\xC7[\x91-\x92]|\xC7[\xBE-\xBF]|\xCE\x8C|\xCE\x98|\xCE\x9F|\xCE\xB8|\xCE\xBF|\xCF\x8C|\xD0\x9E|\xD0\xBE|\xD5\x95)?\b/i
782 #describe SARE_OBFUPORNO masked spam word(s)
783 #       score    SARE_OBFUPORNO 2.500 # type=obfu
784 # Original name: RM_bwo_Porno
785 #  266s/0h of 119325 corpus (98981s/20344h) 03/21/04
786 #  36s/0h of 15929 corpus (13729s/2200h) 03/23/04
787 #counts   SARE_OBFUPORNO           43s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
788 #counts   SARE_OBFUPORNO           22s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
789
790
791 #body     SARE_OBFUPUSS /(?!\bpussies\b)(?:\bp|\B(?:[\xDE]|\xCE\xA1|\xCF\x81|\xD0\xA0|\xD1\x80))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[uv\*\xB5\xD9-\xDC\xF9-\xFC]|\xC5[\xA8-\xB3]|\xC6[\xAF-\xB0]|\xC7[\x93-\x9C]|\xCE\xB0|\xCE\xBC|\xCF\x8B|\xCF\x8D|\xD4\xB1|\xD5\x84|\xD5\x8D)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[s5\$\xA7]|\xC5[\x9A-\xA1]|\xD0\x85|\xD1\x95|\xD5\x8F)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[s5\$\xA7]|\xC5[\x9A-\xA1]|\xD0\x85|\xD1\x95|\xD5\x8F)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[il1:\|\*\xCC-\xCF\xEC-\xEF\xA6]|\xC4[\xA8-\xB0]|\xC4\xBA|\xC4\xBC|\xC4\xBE|\xC5\x80|\xC5\x82|\xC7[\x8F-\x90]|\xD0[\x86-\x87]|\xD1[\x96-\x97]|\xCE\x8A|\xCE\x90|\xCE\x99|\xCE\xAA|\xCE\xAF|\xCE\xB9|\xCF\x8A)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[e3\*\xC8-\xCB\xE8-\xEB]|\xC4[\x92-\x9B]|\xCE\x88|\xCE\x95|\xCE\xA3|\xCE\xAD|\xCE\xB5|\xD0\x81|\xD0\x95|\xD0\xB5|\xD1\x91)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[s5]\b|(?:[\$\xA7]|\xC5[\x9A-\xA1]|\xD0\x85|\xD1\x95|\xD5\x8F)\B)/i
792 #describe SARE_OBFUPUSS masked spam word(s)
793 #score    SARE_OBFUPUSS 2.500 # type=obfu
794 # Original name: RM_bwo_Pussies
795 #  28s/0h of 119325 corpus (98981s/20344h) 03/21/04
796 #  27s/0h of 15929 corpus (13729s/2200h) 03/23/04
797 #counts   SARE_OBFUPUSS            0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
798 #counts   SARE_OBFUPUSS            0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
799
800
801 body     SARE_OBFUSEXUAL /\b(?!Sexual)S.?e.?x.?u.?a.?l/i
802 describe SARE_OBFUSEXUAL masked spam word(s)
803 score    SARE_OBFUSEXUAL 1.66 # type=obfu 
804 # Original name: 
805 #  409s/0h of 119325 corpus (98981s/20344h) 03/21/04
806 #  27s/0h of 15929 corpus (13729s/2200h) 03/23/04
807 #counts   SARE_OBFUSEXUAL          676s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
808 #counts   SARE_OBFUSEXUAL          373s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
809
810
811 #body     SARE_OBFUTEENS /(?!\bteens?\b)(?:\bt|\B(?:[\+]|\xC5[\xA2-\xA7]|\xCE\xA4|\xCF\x84|\xD0\xA2|\xD1\x82))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[e3\*\xC8-\xCB\xE8-\xEB]|\xC4[\x92-\x9B]|\xCE\x88|\xCE\x95|\xCE\xA3|\xCE\xAD|\xCE\xB5|\xD0\x81|\xD0\x95|\xD0\xB5|\xD1\x91)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[e3\*\xC8-\xCB\xE8-\xEB]|\xC4[\x92-\x9B]|\xCE\x88|\xCE\x95|\xCE\xA3|\xCE\xAD|\xCE\xB5|\xD0\x81|\xD0\x95|\xD0\xB5|\xD1\x91)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[n\xD1\xF1]|\|\\\||\xC5[\x83-\x8B]|\xCE\x9D|\xCE\xA0|\xCE\xAE|\xCE\xB7|\xD5\xB2|\xD5\xB8)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[s5\$\xA7]|\xC5[\x9A-\xA1]|\xD0\x85|\xD1\x95|\xD5\x8F)?\b/i
812 #describe SARE_OBFUTEENS masked spam word(s)
813 #score    SARE_OBFUTEENS 2.500 # type=obfu
814 # Original name: RM_bwo_Teens
815 #  28s/0h of 119325 corpus (98981s/20344h) 03/21/04
816 #  4s/0h of 15929 corpus (13729s/2200h) 03/23/04
817 #counts   SARE_OBFUTEENS           1s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
818 #counts   SARE_OBFUTEENS           1s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
819
820
821 body     SARE_OBFUTESTO /\b(?!testosterone)t.?e.?s.?t.?o.?s.?t.?e.?r.?o.?n.?e/i
822 describe SARE_OBFUTESTO masked spam word(s)
823 score    SARE_OBFUTESTO 1.66 # type=obfu
824 # Original name: RM_bwo_Testosterone
825 #  10s/0h of 119325 corpus (98981s/20344h) 03/21/04
826 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
827 #counts   SARE_OBFUTESTO           0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
828 #counts   SARE_OBFUTESTO           0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
829
830
831 #body     SARE_OBFUVRGN /(?!\bvirgins?\b)(?:\b[vu]|\B(?:\\\/|\xCE\xBD))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[il1:\|\*\xCC-\xCF\xEC-\xEF\xA6]|\xC4[\xA8-\xB0]|\xC4\xBA|\xC4\xBC|\xC4\xBE|\xC5\x80|\xC5\x82|\xC7[\x8F-\x90]|\xD0[\x86-\x87]|\xD1[\x96-\x97]|\xCE\x8A|\xCE\x90|\xCE\x99|\xCE\xAA|\xCE\xAF|\xCE\xB9|\xCF\x8A)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[r\xAE]|\xC5[\x94-\x99]|\xD1\x93)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[g6]|\xC4[\x9C-\xA3]])[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[il1:\|\*\xCC-\xCF\xEC-\xEF\xA6]|\xC4[\xA8-\xB0]|\xC4\xBA|\xC4\xBC|\xC4\xBE|\xC5\x80|\xC5\x82|\xC7[\x8F-\x90]|\xD0[\x86-\x87]|\xD1[\x96-\x97]|\xCE\x8A|\xCE\x90|\xCE\x99|\xCE\xAA|\xCE\xAF|\xCE\xB9|\xCF\x8A)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[n\xD1\xF1]|\|\\\||\xC5[\x83-\x8B]|\xCE\x9D|\xCE\xA0|\xCE\xAE|\xCE\xB7|\xD5\xB2|\xD5\xB8)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[s5\$\xA7]|\xC5[\x9A-\xA1]|\xD0\x85|\xD1\x95|\xD5\x8F)?\b/i
832 #describe SARE_OBFUVRGN masked spam word(s)
833 #score    SARE_OBFUVRGN 2.500 # type=obfu
834 # Original name: RM_bwo_Virgins
835 #  25s/0h of 119325 corpus (98981s/20344h) 03/21/04
836 #  16s/0h of 15929 corpus (13729s/2200h) 03/23/04
837 #counts   SARE_OBFUVRGN            0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
838 #counts   SARE_OBFUVRGN            0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
839
840
841 #body     SARE_SPRDLGS /spread(?:ing)? their leg/i
842 #describe SARE_SPRDLGS Contains possible adult phrase
843 #score    SARE_SPRDLGS 0.222
844 #  4s/0h of 125078 corpus (104890s/20188h) 03/29/04
845 #  0s/0h of 15929 corpus (13729s/2200h) 03/29/04
846 #counts   SARE_SPRDLGS             0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
847 #counts   SARE_SPRDLGS             2s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
848
849
850 body     SARE_RPTLETTERS /(?!\b(?:ass|cock|pussy)\b)\b(?:a+s+s+|c+o+c+k+|p+u+s+s+y+)\b/i
851 describe SARE_RPTLETTERS Contains mis-spelled adult phrase(s)
852 score    SARE_RPTLETTERS 1.66
853 #  5s/0h of 125078 corpus (104890s/20188h) 03/29/04
854 #  2s/0h of 15929 corpus (13729s/2200h) 03/29/04
855 #counts   SARE_RPTLETTERS          15s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
856 #counts   SARE_RPTLETTERS          1s/1h of 140226 corpus (90162s/50064h DOC) 04/19/06
857
858
859 body     SARE_SEXDRIVE /\bSex(?:ual)? Drive/i
860 describe SARE_SEXDRIVE Talks about sex drive
861 score    SARE_SEXDRIVE 1.66
862 # Original name: RM_bpm_SexDrive
863 #  589s/0h of 125078 corpus (104890s/20188h) 03/29/04
864 #  141s/0h of 15929 corpus (13729s/2200h) 03/29/04
865 #counts   SARE_SEXDRIVE            239s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
866 #counts   SARE_SEXDRIVE            531s/5h of 140226 corpus (90162s/50064h DOC) 04/19/06
867
868
869 body     SARE_BETTERSEX /better sex/i
870 describe SARE_BETTERSEX Spammer phrasing in body of email
871 score    SARE_BETTERSEX 1.66
872 # Original name: RM_bpm_BetterSex
873 #  157s/0h of 125078 corpus (104890s/20188h) 03/29/04
874 #  8s/0h of 15929 corpus (13729s/2200h) 03/29/04
875 #counts   SARE_BETTERSEX           292s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
876 #counts   SARE_BETTERSEX           262s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
877
878
879 body     SARE_SEXENHANCER /sex(?:ual)? enhancer/i
880 describe SARE_SEXENHANCER mentions spam topic
881 score    SARE_SEXENHANCER 1.66  # type=spamp
882 # Original name: RM_bpm_SexEnhancer
883 #  11s/0h of 125078 corpus (104890s/20188h) 03/29/04
884 #  11s/0h of 15929 corpus (13729s/2200h) 03/29/04
885 #counts   SARE_SEXENHANCER         0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
886 #counts   SARE_SEXENHANCER         7s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
887
888
889 #body     SARE_OBFUHARDCORE /(?!hard[ -]?core)(?:\bh|\B(?:\xC4[\xA4-\xA7]|\xCE\x89|\xCE\x97|\xD0\x9D|\xD0\xBD|\xD1\x92|\xD2[\xA2-\xA3]|\xD2[\xBA-\xBB]|\xD5\xB0))[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[a4\*\@\xC0-\xC5\xAA\xE0-\xE5]|\/\\|\xC4[\x80-\x85]|\xC7[\x8D-\x8E]|\xC7[\xBA-\xBB]|\xCE\x86|\xCE\x91|\xCE\x94|\xCE\x9B|\xCE\xAC|\xCE\xB1|\xD0\x90|\xD0\xB0)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[r\xAE]|\xC5[\x94-\x99]|\xD1\x93)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[d\xD0]|\xC4[\x8E-\x91])[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[c\*\xC7\xE7\xA2\xA9]|\xC4[\x86-\x8D]|\xD0\xA1|\xD1\x81)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[o0\*\xB0\xBA\xD8\xF8\xD2-\xD6\xF2-\xF6]|\(\)|\[\]|\xC5[\x8C-\x91]|\xC6[\xA0-\xA1]|\xC7[\x91-\x92]|\xC7[\xBE-\xBF]|\xCE\x8C|\xCE\x98|\xCE\x9F|\xCE\xB8|\xCE\xBF|\xCF\x8C|\xD0\x9E|\xD0\xBE|\xD5\x95)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[r\xAE]|\xC5[\x94-\x99]|\xD1\x93)[\x01-\x2F\\\^_`\|\x7F-\xA1\xA4-\xA8\xAB-\xAD\xAF-\xB1\xB4\xB7-\xBB\xBF\xF7]?(?:[e3]\b|(?:[\*\xC8-\xCB\xE8-\xEB]|\xC4[\x92-\x9B]|\xCE\x88|\xCE\x95|\xCE\xA3|\xCE\xAD|\xCE\xB5|\xD0\x81|\xD0\x95|\xD0\xB5|\xD1\x91)\B)/i
890 #describe SARE_OBFUHARDCORE masked spam word(s)
891 #score    SARE_OBFUHARDCORE 1.433  # type=obfu 
892 # Original name: RM_bwo_hardcore
893 #  32s/0h of 98440 corpus (76828s/21612h) 05/09/04
894 #counts   SARE_OBFUHARDCORE        4s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
895 #counts   SARE_OBFUHARDCORE        3s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
896
897
898
899 ###############################
900 #         uri rules           #
901 ###############################
902
903 #uri      SARE_PNSPTCH /\bbolik34\b/i
904 #describe SARE_PNSPTCH Terra.es penil patch spammer
905 #score    SARE_PNSPTCH 1.5 # was .33
906 # Original name: MAKEPENIBIG
907 #  277s/0h of 119325 corpus (98981s/20344h) 03/21/04
908 #  0s/0h of 15929 corpus (13729s/2200h) 03/23/04
909 #counts   SARE_PNSPTCH             0s/0h of 42056 corpus (34127s/7929h FVGT) 04/19/06
910 #counts   SARE_PNSPTCH             0s/0h of 140226 corpus (90162s/50064h DOC) 04/19/06
911
912
913 # EOF