全球主机交流论坛

标题: Python正文提取算法 [打印本页]

作者: Administrator    时间: 2011-4-6 22:58
提示: 作者被禁止或删除 内容自动屏蔽
作者: Administrator    时间: 2011-4-6 23:03
提示: 作者被禁止或删除 内容自动屏蔽
作者: Administrator    时间: 2011-4-6 23:03
提示: 作者被禁止或删除 内容自动屏蔽
作者: Poison    时间: 2011-4-6 23:18
太阳 就一个
作者: jacksoking    时间: 2011-4-6 23:24
niu
作者: serverpoint    时间: 2011-4-6 23:36
提示: 作者被禁止或删除 内容自动屏蔽
作者: xspoco    时间: 2011-4-6 23:44
好牛逼
作者: 美国主机商    时间: 2011-4-7 01:03
原帖由 xspoco 于 2011-4-6 23:44 发表
好牛逼

作者: mslxd    时间: 2011-4-8 01:17
这语言真累,,,,
作者: Kokgog    时间: 2011-4-8 01:30
  1.         for div in divs:
  2.                 div_html = div.__str__()
  3.                 chinese_utf8 = re_chinese.findall(div_html)
  4.                 chinese_number = len(chinese_utf8) / 3
  5.                 if chinese_number < 100:
  6.                         divs.remove(div)
复制代码
这段要改下,迭代里删东西会出问题的
作者: Cokid    时间: 2011-4-9 00:37
  python 很好...




欢迎光临 全球主机交流论坛 (https://loc.1226.eu.org/) Powered by Discuz! X3.4