水淼·万能文章采集器(SMGod)是一款(kuǎn)基于高精度正(zhèng)文识别算(suàn)法的互联网(wǎng)文章采集器。支持按关(guān)键词采集百度等搜索引擎的新闻源(news.baidu.com)和泛网(wǎng)页(www.baidu.com),支持采集指定(dìng)网站栏目下的全部文章。
此算法由(yóu)水淼自主研(yán)发,可(kě)以在一(yī)个(gè)网页里(lǐ)提(tí)取出正文部(bù)分,通常精(jīng)度可以达到95%,如(rú)果再进一步设置最少字数(shù),采集的文章的精度(正确性(xìng))可(kě)以达到99%。同时>
文(wén)章标题也实现99%的提取精度(dù)。当然,一些网(wǎng)页排版格式比较混(hún)乱、不(bú)规则时(shí),该精度可能有所下降。
正文提取算法有(yǒu)3种模式,标(biāo)准、严格、精确标签。大多数情况,标(biāo)准(zhǔn)和严格(gé)模(mó)式是相(xiàng)同的提取结果。下面(miàn)说(shuō)的(de)是特殊情况(kuàng):
标准模式:即一般性提取(qǔ),大多数时候能够精确提取正文,但(dàn)一些特殊页(yè)面会(huì)导致提取到一些不需要内容(但(dàn)本模式能够(gòu)较(jiào)好(hǎo)识(shí)别类似(sì)百(bǎi)度经(jīng)验(yàn)的文章页(yè)面)
严格模式:顾名思义,比标准模(mó)式严格一点,可(kě)以很大程度避免不相关内容(róng)提取为正文,但对于特殊(shū)分段页(yè)面如百(bǎi)度(dù)经验的(de)页面(不是一般<p></p><br>段落,而是有格式的多(duō)个(gè)独立(lì)div段),一般只能(néng)提取(qǔ)到某(mǒu)一段,而标准模(mó)式则(zé)可以(yǐ)提取全部(bù)段。
精确标签:当标准和严格模式(shì)不管用(yòng)时,可以精确(què)指定目标正文(wén)的标签头。本模式(shì)只适合网络批(pī)处理(lǐ)。
所以可以根据实际情况来切换(huàn)模式。可以使用(yòng)本地批(pī)处(chù)理的(de)读网页正文功能来测试指定网(wǎng)页(yè)适合哪种模式提取。
应用平台:WinXP, Win7, Win8, Win10, WinAll
