]> git.donarmstrong.com Git - spamassassin_config.git/blob - common/sare/70_sare_html2.cf
* make .com in scour optional
[spamassassin_config.git] / common / sare / 70_sare_html2.cf
1 # SARE HTML Ruleset for SpamAssassin - ruleset 2
2 # Version: 01.03.10
3 # Created: 2004-03-31 
4 # Modified: 2006-06-03
5 # Usage instructions, documentation, and change history in 70_sare_html0.cf 
6
7 #@@# Revision History:  Full Revision History stored in 70_sare_html.log
8 #@@# 01.03.09: May ?? 2006
9 #@@#           Minor score tweaks based on recent mass-checks
10 #@@#           Moved file 0 to file 2:   SARE_HTML_EHTML_OBFU
11 #@@#           Moved file 0 to file 2:   SARE_HTML_HEAD_AFFIL
12 #@@#           Moved file 0 to file 2:   SARE_HTML_LEAKTHRU1
13 #@@#           Moved file 0 to file 2:   SARE_HTML_LEAKTHRU2
14 #@@#           Moved file 0 to file 2:   SARE_HTML_ONE_LINE3
15 #@@#           Moved file 0 to file 2:   SARE_HTML_POB1200
16 #@@#           Moved file 0 to file 2:   SARE_HTML_URI_HIDADD
17 #@@#           Moved file 0 to file 2:   SARE_HTML_URI_LOGOGEN
18 #@@#           Moved file 0 to file 2:   SARE_HTML_URI_OFF
19 #@@#           Moved file 0 to file 2:   SARE_HTML_USL_B7
20 #@@#           Moved file 0 to file 2:   SARE_HTML_USL_B9
21 #@@#           Moved file 0 to file 2:   SARE_PHISH_HTML_01
22 #@@# 01.03.10: June 3 2006
23 #@@#           Minor score tweaks based on recent mass-checks
24 #@@#           Moved file 1 to 2:   SARE_HTML_BR_MANY
25 #@@#           Moved file 1 to 2:   SARE_HTML_ONE_LINE2
26 #@@#           Moved file 1 to 2:   SARE_HTML_URI_OC
27
28 # License: Artistic - see http://www.rulesemporium.com/license.txt 
29 # Current Maintainer: Bob Menschel - RMSA@Menschel.net
30 # Current Home: http://www.rulesemporium.com/rules/70_sare_html2.cf 
31 #
32 ########  ######################   ##################################################
33
34 rawbody   __SARE_HTML_HAS_A        eval:html_tag_exists('a')
35 rawbody   __SARE_HTML_HAS_BR       eval:html_tag_exists('br')
36 rawbody   __SARE_HTML_HAS_DIV      eval:html_tag_exists('div')
37 rawbody   __SARE_HTML_HAS_FONT     eval:html_tag_exists('font')
38 rawbody   __SARE_HTML_HAS_IMG      eval:html_tag_exists('img')
39 rawbody   __SARE_HTML_HAS_P        eval:html_tag_exists('p')
40 rawbody   __SARE_HTML_HAS_PRE      eval:html_tag_exists('pre')
41 rawbody   __SARE_HTML_HAS_TITLE    eval:html_tag_exists('title')
42
43 rawbody   __SARE_HTML_HBODY        m'<html><body>'i
44 rawbody   __SARE_HTML_BEHTML       m'<body></html>'i
45 rawbody   __SARE_HTML_BEHTML2      m'^</?body></html>'i
46 rawbody   __SARE_HTML_EFONT        m'^</font>'i
47 rawbody   __SARE_HTML_EHEB         m'^</html></body>'i
48 rawbody   __SARE_HTML_CMT_CNTR     /<center><!--/
49
50 ########  ######################   ##################################################
51 #   <HTML> and <BODY> tag spamsign
52 ########  ######################   ##################################################
53
54 rawbody   SARE_HTML_EHTML_OBFU     m'<\s*/\s+(?!html)[HTmL\s]{4,}>'i
55 describe  SARE_HTML_EHTML_OBFU     Phoney tag
56 score     SARE_HTML_EHTML_OBFU     1.111
57 #stype    SARE_HTML_EHTML_OBFU     spamp
58 #hist     SARE_HTML_EHTML_OBFU     Loren Wilton, June 2005
59 #counts   SARE_HTML_EHTML_OBFU     0s/0h of 333405 corpus (262498s/70907h RM) 05/12/06
60 #max      SARE_HTML_EHTML_OBFU     30s/0h of 619677 corpus (318875s/300802h RM) 09/11/05
61 #counts   SARE_HTML_EHTML_OBFU     0s/0h of 11260 corpus (6568s/4692h CT) 06/17/05
62 #counts   SARE_HTML_EHTML_OBFU     0s/0h of 6804 corpus (1336s/5468h ft) 06/17/05
63 #counts   SARE_HTML_EHTML_OBFU     21s/0h of 54067 corpus (16890s/37177h JH-3.01) 06/18/05
64 #counts   SARE_HTML_EHTML_OBFU     0s/0h of 23068 corpus (17346s/5722h MY) 05/14/06
65 #max      SARE_HTML_EHTML_OBFU     34s/0h of 57287 corpus (52272s/5015h MY) 09/22/05
66
67 ########  ######################   ##################################################
68 #   Spamsign character sets and fonts 
69 ########  ######################   ##################################################
70
71 rawbody   SARE_HTML_COLOR_D        /(?:style="?|<style[^>]*>)[^>"]*[^-]color\s*:\s*rgb\(\s*(?:100|9[0-9]|8[6-9])\s*%\s*,\s*(?:100|9[0-9]|8[6-9])\s*%\s*,\s*(?:100|9[0-9]|8[6-9])\s*%\s*\)[^>]*>/i
72 describe  SARE_HTML_COLOR_D        BAD STYLE: color: too light (rgb(%))
73 score     SARE_HTML_COLOR_D        0.100
74 #hist     SARE_HTML_COLOR_D        From Jesse Houwing May 14 2004
75 #counts   SARE_HTML_COLOR_D        0s/0h of 98435 corpus (76828s/21607h RM) 05/14/04
76 #counts   SARE_HTML_COLOR_D        0s/0h of 29365 corpus (5882s/23483h JH) 08/14/04 TM2 SA3.0-pre2
77
78 rawbody   SARE_HTML_POB1200        /width="599" bgColor="\#9999FF"/i
79 describe  SARE_HTML_POB1200        Used by POB1200 Orangestad spammer
80 score     SARE_HTML_POB1200        1.666
81 #stype    SARE_HTML_POB1200        spamp
82 #hist     SARE_HTML_POB1200        Jennifer Wheeler <jennifer.sare@nxtek.net> May 17 2004
83 #counts   SARE_HTML_POB1200        0s/0h of 196681 corpus (96193s/100488h RM) 02/22/05
84 #max      SARE_HTML_POB1200        414s/0h of 114422 corpus (81069s/33353h RM) 01/16/05
85 #counts   SARE_HTML_POB1200        1s/0h of 54067 corpus (16890s/37177h JH-3.01) 06/18/05
86 #max      SARE_HTML_POB1200        18s/0h of 38858 corpus (15368s/23490h JH-SA3.0rc1) 08/22/04
87 #counts   SARE_HTML_POB1200        0s/0h of 57287 corpus (52272s/5015h MY) 09/22/05
88 #max      SARE_HTML_POB1200        42s/0h of 18153 corpus (15872s/2281h MY) 05/18/04
89 #counts   SARE_HTML_POB1200        0s/0h of 10826 corpus (6364s/4462h CT) 05/28/05
90
91 ########  ######################   ##################################################
92 #  <FRAME> Tag Tests
93 ########  ######################   ##################################################
94
95 rawbody   SARE_HTML_NOFRAMES       /<frame><noframes>\w*<\/noframes><\/frame>/i
96 describe  SARE_HTML_NOFRAMES       Body appears to hide anti-anti-spam text in frame
97 score     SARE_HTML_NOFRAMES       1.000
98 #counts   SARE_HTML_NOFRAMES       0s/0h of 98542 corpus (76935s/21607h RM) 05/12/04
99 #max      SARE_HTML_NOFRAMES       96 spam, 0 ham, Sep 5 2003
100 #counts   SARE_HTML_NOFRAMES       0s/0h of 29365 corpus (5882s/23483h JH) 08/14/04 TM2 SA3.0-pre2
101
102 ########  ######################   ##################################################
103 #   Invalid or Suspicious URI Tests
104 ########  ######################   ##################################################
105
106 rawbody   SARE_HTML_URI_GBYE       />Good Bye<\/a>/i
107 describe  SARE_HTML_URI_GBYE       text has URL to spammer's unsubscribe link
108 score     SARE_HTML_URI_GBYE       0.100
109 #counts   SARE_HTML_URI_GBYE       0s/0h of 98542 corpus (76935s/21607h RM) 05/12/04
110 #counts   SARE_HTML_URI_GBYE       0s/0h of 29365 corpus (5882s/23483h JH) 08/14/04 TM2 SA3.0-pre2
111
112 #overlap  SARE_HTML_URI_HIDADD     Overlaps completely within SARE_HTML_P_BREAK 2004-06-11
113 rawbody   SARE_HTML_URI_HIDADD     /(?:\&\~c\&o\&m|\&\~n\&e\&t)/i
114 describe  SARE_HTML_URI_HIDADD     URI with obfuscated destination 
115 score     SARE_HTML_URI_HIDADD     1.666
116 #stype    SARE_HTML_URI_HIDADD     spamp
117 #hist     SARE_HTML_URI_HIDADD     Fred T: FR_HIDDEN_ADDY
118 #overlap  SARE_HTML_URI_HIDADD     Overlaps completely within SARE_HTML_P_BREAK 2004-06-11
119 #counts   SARE_HTML_URI_HIDADD     0s/0h of 333405 corpus (262498s/70907h RM) 05/12/06
120 #max      SARE_HTML_URI_HIDADD     817s/0h of 400504 corpus (178155s/222349h RM) 03/31/05
121 #counts   SARE_HTML_URI_HIDADD     0s/0h of 54283 corpus (17106s/37177h JH-3.01) 02/13/05
122 #max      SARE_HTML_URI_HIDADD     2s/0h of 32260 corpus (8983s/23277h JH) 05/14/04
123 #counts   SARE_HTML_URI_HIDADD     0s/0h of 23068 corpus (17346s/5722h MY) 05/14/06
124 #max      SARE_HTML_URI_HIDADD     1s/0h of 47221 corpus (42968s/4253h MY) 06/18/05
125 #counts   SARE_HTML_URI_HIDADD     0s/0h of 10629 corpus (5847s/4782h CT) 09/18/05
126
127 uri       SARE_HTML_URI_HIDE1      /:ac=[A-Z,a-z,0-9,@,!,;]+/
128 describe  SARE_HTML_URI_HIDE1      URI attempts to hide destination domain
129 score     SARE_HTML_URI_HIDE1      0.100
130 #counts   SARE_HTML_URI_HIDE1      0s/0h of 98542 corpus (76935s/21607h RM) 05/12/04
131 #counts   SARE_HTML_URI_HIDE1      0s/0h of 29365 corpus (5882s/23483h JH) 08/14/04 TM2 SA3.0-pre2
132
133 uri       SARE_HTML_URI_LOGOGEN    m{/logogen\.img\?}i
134 score     SARE_HTML_URI_LOGOGEN    1.666
135 describe  SARE_HTML_URI_LOGOGEN    Uses some logo generation software
136 #hist     SARE_HTML_URI_LOGOGEN    Jesse Houwing, Aug 19 2004
137 #counts   SARE_HTML_URI_LOGOGEN    0s/0h of 175738 corpus (98979s/76759h RM) 02/14/05
138 #max      SARE_HTML_URI_LOGOGEN    6s/0h of 65858 corpus (40621s/25237h RM) 08/19/04
139 #counts   SARE_HTML_URI_LOGOGEN    319s/0h of 54067 corpus (16890s/37177h JH-3.01) 06/18/05
140 #max      SARE_HTML_URI_LOGOGEN    453s/0h of 54283 corpus (17106s/37177h JH-3.01) 02/13/05
141 #counts   SARE_HTML_URI_LOGOGEN    0s/0h of 47221 corpus (42968s/4253h MY) 06/18/05
142 #max      SARE_HTML_URI_LOGOGEN    48s/0h of 18647 corpus (16116s/2531h MY) 08/25/04
143 #counts   SARE_HTML_URI_LOGOGEN    0s/0h of 11260 corpus (6568s/4692h CT) 06/17/05
144 #max      SARE_HTML_URI_LOGOGEN    7s/0h of 10826 corpus (6364s/4462h CT) 05/28/05
145
146 uri       SARE_HTML_URI_OC         /\?oc=\d{4,10}/
147 describe  SARE_HTML_URI_OC         Possible spammer sign in URL
148 score     SARE_HTML_URI_OC         1.666
149 #hist     SARE_HTML_URI_OC         LW_URI_OC
150 #counts   SARE_HTML_URI_OC         0s/0h of 689155 corpus (348140s/341015h RM) 09/18/05
151 #max      SARE_HTML_URI_OC         440s/0h of 89461 corpus (67464s/21997h RM) 05/29/04
152 #counts   SARE_HTML_URI_OC         0s/0h of 54067 corpus (16890s/37177h JH-3.01) 06/18/05
153 #max      SARE_HTML_URI_OC         17s/0h of 38858 corpus (15368s/23490h JH-SA3.0rc1) 08/22/04
154 #counts   SARE_HTML_URI_OC         0s/0h of 26326 corpus (22886s/3440h MY) 02/15/05
155 #max      SARE_HTML_URI_OC         85s/0h of 13454 corpus (11339s/2115h MY) 06/02/04
156
157 uri       SARE_HTML_URI_OFF        /http.{5,35}\boff\.(?:htm|html|php|asp|pl|cgi|jsp)\b/i
158 describe  SARE_HTML_URI_OFF        URI to page name which suggests spammer's page
159 score     SARE_HTML_URI_OFF        2.222
160 #hist     SARE_HTML_URI_OFF        FR_PAGE_OFF
161 #counts   SARE_HTML_URI_OFF        0s/0h of 333405 corpus (262498s/70907h RM) 05/12/06
162 #max      SARE_HTML_URI_OFF        2619s/0h of 109180 corpus (88746s/20434h RM) 04/09/04
163 #counts   SARE_HTML_URI_OFF        2s/0h of 54067 corpus (16890s/37177h JH-3.01) 06/18/05
164 #max      SARE_HTML_URI_OFF        89s/0h of 32260 corpus (8983s/23277h JH) 05/14/04
165 #counts   SARE_HTML_URI_OFF        0s/0h of 26326 corpus (22886s/3440h MY) 02/15/05
166 #counts   SARE_HTML_URI_OFF        0s/0h of 10826 corpus (6364s/4462h CT) 05/28/05
167 #max      SARE_HTML_URI_OFF        39s/0h of 6944 corpus (3188s/3756h CT) 05/19/04
168
169 ########  ######################   ##################################################
170 #   Header tags
171 ########  ######################   ##################################################
172
173 rawbody   SARE_HTML_HEAD_AFFIL     /\<h[0-9]\>.{2,30}\/.{1,3}affiliate.{1,20}\<\/h[0-9]\>/i
174 describe  SARE_HTML_HEAD_AFFIL     Affiliate in BOLD
175 score     SARE_HTML_HEAD_AFFIL     0.744
176 #hist     SARE_HTML_HEAD_AFFIL     Matt Yackley, Apr 15 2005
177 #counts   SARE_HTML_HEAD_AFFIL     0s/0h of 619677 corpus (318875s/300802h RM) 09/11/05
178 #max      SARE_HTML_HEAD_AFFIL     23s/0h of 292246 corpus (119174s/173072h RM) 04/15/05
179 #counts   SARE_HTML_HEAD_AFFIL     0s/0h of 13290 corpus (7418s/5872h CT) 05/14/06
180 #max      SARE_HTML_HEAD_AFFIL     1s/0h of 10826 corpus (6364s/4462h CT) 05/28/05
181 #counts   SARE_HTML_HEAD_AFFIL     0s/0h of 54067 corpus (16890s/37177h JH-3.01) 06/18/05
182 #counts   SARE_HTML_HEAD_AFFIL     0s/0h of 23068 corpus (17346s/5722h MY) 05/14/06
183 #max      SARE_HTML_HEAD_AFFIL     10s/0h of 47221 corpus (42968s/4253h MY) 06/18/05
184
185 ########  ######################   ##################################################
186 #  Suspicious tag combinations
187 ########  ######################   ##################################################
188
189 rawbody   SARE_HTML_ONE_LINE2      m'<body><p><a href="http://\w+\.\w+\.info/\?[\w\.]+"><IMG SRC="cid:[\w\@\.]+" border="0" ALT=""></a>'
190 describe  SARE_HTML_ONE_LINE2      standard spam formatting
191 score     SARE_HTML_ONE_LINE2      1.111
192 #stype    SARE_HTML_ONE_LINE2      spamp 
193 #hist     SARE_HTML_ONE_LINE2      Loren Wilton, LW_SINGLELINE4 Sep 5 2004
194 #counts   SARE_HTML_ONE_LINE2      0s/0h of 281655 corpus (110173s/171482h RM) 05/05/05
195 #max      SARE_HTML_ONE_LINE2      22s/0h of 114422 corpus (81069s/33353h RM) 01/16/05
196 #counts   SARE_HTML_ONE_LINE2      1s/0h of 54283 corpus (17106s/37177h JH-3.01) 02/13/05
197 #counts   SARE_HTML_ONE_LINE2      0s/0h of 57287 corpus (52272s/5015h MY) 09/22/05
198 #max      SARE_HTML_ONE_LINE2      5s/0h of 26326 corpus (22886s/3440h MY) 02/15/05
199
200 full      SARE_HTML_ONE_LINE3      m'\n<html><body>\n<center>.{0,140}</center>\n</body></html>\n'
201 describe  SARE_HTML_ONE_LINE3      Another single-line centered HTML message
202 score     SARE_HTML_ONE_LINE3      1.256
203 #hist     SARE_HTML_ONE_LINE3      Loren Wilton: LW_SINGLELINE4
204 #counts   SARE_HTML_ONE_LINE3      0s/0h of 281271 corpus (109792s/171479h RM) 05/05/05
205 #max      SARE_HTML_ONE_LINE3      64s/0h of 70245 corpus (42816s/27429h RM) 10/02/04
206 #counts   SARE_HTML_ONE_LINE3      61s/0h of 54969 corpus (17793s/37176h JH-3.01) 03/13/05
207 #counts   SARE_HTML_ONE_LINE3      0s/0h of 19447 corpus (16862s/2585h MY) 10/06/04
208 #counts   SARE_HTML_ONE_LINE3      0s/0h of 11260 corpus (6568s/4692h CT) 06/17/05
209 #max      SARE_HTML_ONE_LINE3      1s/0h of 10826 corpus (6364s/4462h CT) 05/28/05
210
211 rawbody   SARE_HTML_LEAKTHRU1      m'^<BODY><p><(\w+)></(?:\1)><A href=\"[^"]+\"><(\w+)></(?:\2)>$'
212 score     SARE_HTML_LEAKTHRU1      1.111
213 #stype    SARE_HTML_LEAKTHRU1      spamp
214 #hist     SARE_HTML_LEAKTHRU1      Loren Wilton:  LW_LEAKTHRU
215 describe  SARE_HTML_LEAKTHRU1      Another image-only spam
216 #counts   SARE_HTML_LEAKTHRU1      0s/0h of 619677 corpus (318875s/300802h RM) 09/11/05
217 #max      SARE_HTML_LEAKTHRU1      72s/0h of 196642 corpus (96193s/100449h RM) 02/22/05
218 #counts   SARE_HTML_LEAKTHRU1      0s/0h of 54969 corpus (17793s/37176h JH-3.01) 03/13/05
219 #counts   SARE_HTML_LEAKTHRU1      0s/0h of 23068 corpus (17346s/5722h MY) 05/14/06
220 #max      SARE_HTML_LEAKTHRU1      22s/0h of 31513 corpus (27912s/3601h MY) 03/09/05
221 #counts   SARE_HTML_LEAKTHRU1      0s/0h of 11260 corpus (6568s/4692h CT) 06/17/05
222
223 rawbody   SARE_HTML_LEAKTHRU2      m'^<BODY><p><(\w+)(?:\s[\w\=]+)?></(?:\1)><A href=\"[^"]+\"><(\w+)(?:\s[\w\=]+)?></(?:\2)>$'
224 score     SARE_HTML_LEAKTHRU2      1.666
225 #stype    SARE_HTML_LEAKTHRU2      spamp
226 #hist     SARE_HTML_LEAKTHRU2      Loren Wilton:  LW_LEAKTHRU1
227 describe  SARE_HTML_LEAKTHRU2      Another image-only spam
228 #counts   SARE_HTML_LEAKTHRU2      0s/0h of 619677 corpus (318875s/300802h RM) 09/11/05
229 #max      SARE_HTML_LEAKTHRU2      178s/0h of 283600 corpus (129945s/153655h RM) 03/08/05
230 #counts   SARE_HTML_LEAKTHRU2      0s/0h of 54969 corpus (17793s/37176h JH-3.01) 03/13/05
231 #counts   SARE_HTML_LEAKTHRU2      0s/0h of 23068 corpus (17346s/5722h MY) 05/14/06
232 #max      SARE_HTML_LEAKTHRU2      48s/0h of 31513 corpus (27912s/3601h MY) 03/09/05
233 #counts   SARE_HTML_LEAKTHRU2      0s/0h of 11260 corpus (6568s/4692h CT) 06/17/05
234
235 ########  ######################   ##################################################
236 #  Useless tags (tag structures that do nothing) 
237 #  Largely submitted by Matt Yackley, with contributions by 
238 #  Carl Friend, Jennifer Wheeler, Scott Sprunger, Larry Gilson
239 ########  ######################   ##################################################
240
241 rawbody   SARE_HTML_USL_B7         /(<b><\/b>.{1,5}){7,8}/i
242 describe  SARE_HTML_USL_B7         Multiple <b></b> (7-8)
243 score     SARE_HTML_USL_B7         0.100
244 #counts   SARE_HTML_USL_B7         0s/0h of 333405 corpus (262498s/70907h RM) 05/12/06
245 #max      SARE_HTML_USL_B7         105s/0h of 689155 corpus (348140s/341015h RM) 09/18/05
246 #counts   SARE_HTML_USL_B7         0s/0h of 29365 corpus (5882s/23483h JH) 08/14/04 TM2 SA3.0-pre2
247 #counts   SARE_HTML_USL_B7         0s/0h of 57287 corpus (52272s/5015h MY) 09/22/05
248
249 rawbody   SARE_HTML_USL_B9         /(<b><\/b>.{1,5}){9,10}/i
250 describe  SARE_HTML_USL_B9         Multiple <b></b> (9-10)
251 score     SARE_HTML_USL_B9         0.100
252 #counts   SARE_HTML_USL_B9         0s/0h of 333405 corpus (262498s/70907h RM) 05/12/06
253 #max      SARE_HTML_USL_B9         99s/0h of 689155 corpus (348140s/341015h RM) 09/18/05
254 #counts   SARE_HTML_USL_B9         0s/0h of 29365 corpus (5882s/23483h JH) 08/14/04 TM2 SA3.0-pre2
255 #counts   SARE_HTML_USL_B9         0s/0h of 57287 corpus (52272s/5015h MY) 09/22/05
256
257 ########  ######################   ##################################################
258 #  <tag ... ALT= ...> tag tests
259 ########  ######################   ##################################################
260
261 ########  ######################   ##################################################
262 #  <!-- Comment tag tests
263 ########  ######################   ##################################################
264
265 rawbody   SARE_HTML_CMT_MONEY      /<\!--\${1,10}-->/i
266 describe  SARE_HTML_CMT_MONEY      HTML Comment seems to mention money
267 score     SARE_HTML_CMT_MONEY      0.100
268 #counts   SARE_HTML_CMT_MONEY      0s/0h of 98542 corpus (76935s/21607h RM) 05/12/04
269 #counts   SARE_HTML_CMT_MONEY      0s/0h of 29365 corpus (5882s/23483h JH) 08/14/04 TM2 SA3.0-pre2
270
271 ########  ######################   ##################################################
272 #   Image tag tests
273 ########  ######################   ##################################################
274
275 rawbody   SARE_HTML_GIF_NUM        /\.gif\d{2,}/i
276 describe  SARE_HTML_GIF_NUM        HTML contains tracking numbers after .gif
277 score     SARE_HTML_GIF_NUM        0.100
278 #counts   SARE_HTML_GIF_NUM        0s/0h of 98542 corpus (76935s/21607h RM) 05/12/04
279 #counts   SARE_HTML_GIF_NUM        0s/0h of 29365 corpus (5882s/23483h JH) 08/14/04 TM2 SA3.0-pre2
280
281 ########  ######################   ##################################################
282 #   Paragraphs, breaks, and spacings
283 ########  ######################   ##################################################
284
285 rawbody   SARE_HTML_BR_MANY        /<br>{5}/i
286 describe  SARE_HTML_BR_MANY        Too many sequential identical HTML tags
287 score     SARE_HTML_BR_MANY        0.555
288 #stype    SARE_HTML_BR_MANY        spamp
289 #counts   SARE_HTML_BR_MANY        0s/0h of 689155 corpus (348140s/341015h RM) 09/18/05
290 #max      SARE_HTML_BR_MANY        2s/0h of 258858 corpus (114246s/144612h RM) 05/27/05
291 #counts   SARE_HTML_BR_MANY        0s/0h of 29365 corpus (5882s/23483h JH) 08/14/04 TM2 SA3.0-pre2
292 #counts   SARE_HTML_BR_MANY        0s/0h of 54067 corpus (16890s/37177h JH-3.01) 06/18/05
293 #counts   SARE_HTML_BR_MANY        0s/0h of 47221 corpus (42968s/4253h MY) 06/18/05
294
295 rawbody   __SARE_HTML_MANY_BR05    /<br>\s*<br>\s*<br>\s*<br>\s*<br>\s*<br>/i
296 meta      SARE_HTML_MANY_BR05      __SARE_HTML_MANY_BR05 && HTML_MESSAGE
297 describe  SARE_HTML_MANY_BR05      Tooo many <br>'s!
298 score     SARE_HTML_MANY_BR05      0.500
299 #hist     SARE_HTML_MANY_BR05      Contrib by Matt Keller June 7 2004
300 #note     SARE_HTML_MANY_BR05      Remove HTML_MESSAGE test increases spam 4% but doubles ham
301 #hist     SARE_HTML_MANY_BR05      this and SARE_HTML_MANY_BR10 obsolete SARE_HTML_TD_BR4 = FR_WICKED_SPAM_??
302 #counts   SARE_HTML_MANY_BR05      0s/0h of 114422 corpus (81069s/33353h RM) 01/16/05
303 #alone    SARE_HTML_MANY_BR05      2051s/43h of 66351 corpus (40971s/25380h RM) 08/21/04
304 #counts   SARE_HTML_MANY_BR05      0s/0h of 54283 corpus (17106s/37177h JH-3.01) 02/13/05
305 #max      SARE_HTML_MANY_BR05      755s/2h of 38858 corpus (15368s/23490h JH-SA3.0rc1) 08/22/04
306 #counts   SARE_HTML_MANY_BR05      0s/0h of 26326 corpus (22886s/3440h MY) 02/15/05
307
308 ########  ######################   ##################################################
309 #   Javascript and object tests     
310 ########  ######################   ##################################################
311
312 rawbody   SARE_HTML_JVS_POPUP      /<body onload \= \"window\.open/i
313 describe  SARE_HTML_JVS_POPUP      Bad HTML form.  Tries to load a javascript pop up.
314 score     SARE_HTML_JVS_POPUP      0.100
315 #counts   SARE_HTML_JVS_POPUP      0s/0h of 98542 corpus (76935s/21607h RM) 05/12/04
316 #counts   SARE_HTML_JVS_POPUP      0s/0h of 29365 corpus (5882s/23483h JH) 08/14/04 TM2 SA3.0-pre2
317
318 ########  ######################   ##################################################
319 #   Tests destined for other rule sets
320 ########  ######################   ##################################################
321
322 full      __SARE_PHISH_HTML_01a    m*<a[^<]{0,60} onMouseMove=(?:3D)?"window.status=(?:3D)?'https?://*
323 rawbody   __SARE_PHISH_HTML_01b    m*<a[^<]{0,60} onMouseMove=(?:3D)?"window.status=(?:3D)?'https?://*
324 meta      SARE_PHISH_HTML_01       __SARE_PHISH_HTML_01a || __SARE_PHISH_HTML_01b
325 describe  SARE_PHISH_HTML_01       Hiding actual site with fake secure site!
326 score     SARE_PHISH_HTML_01       2.500
327 #stype    SARE_PHISH_HTML_01       spamgg # phish 
328 #hist     SARE_PHISH_HTML_01       Loren Wilton: LW_MOUSEMOVE
329 #counts   SARE_PHISH_HTML_01       1s/0h of 619677 corpus (318875s/300802h RM) 09/11/05
330 #max      SARE_PHISH_HTML_01       17s/0h of 70245 corpus (42816s/27429h RM) 10/02/04
331 #counts   SARE_PHISH_HTML_01       2s/0h of 54067 corpus (16890s/37177h JH-3.01) 06/18/05
332 #max      SARE_PHISH_HTML_01       5s/0h of 54969 corpus (17793s/37176h JH-3.01) 03/13/05
333 #counts   SARE_PHISH_HTML_01       0s/0h of 47221 corpus (42968s/4253h MY) 06/18/05
334 #max      SARE_PHISH_HTML_01       6s/0h of 19447 corpus (16862s/2585h MY) 10/06/04
335 #counts   SARE_PHISH_HTML_01       0s/0h of 11260 corpus (6568s/4692h CT) 06/17/05
336
337 # EOF
338