想求一个提取文章正文的库或算法, python 的。
主要用在采集上,采集下来的东西准备去掉没用的头和尾,只保留正文。印象笔记有个浏览器扩展,点一下自动采集正文的,感觉准确度还不错,不知道 python 有此类解决方案没有?
主要用在采集上,采集下来的东西准备去掉没用的头和尾,只保留正文。印象笔记有个浏览器扩展,点一下自动采集正文的,感觉准确度还不错,不知道 python 有此类解决方案没有?
1
binux Sep 2, 2016 |
2
qq316107934 Sep 2, 2016 via Android
@binux 哈哈哈,笑死了
|
3
northisland Sep 2, 2016 via Android
找个 apache tika 教程看看,符不符合需求
|
4
HFcbyqP0iVO5KM05 Sep 2, 2016 via Android
搜啦,点开第一个又到这里来了😂
|
5
Yinz Sep 2, 2016 讲道理 V2EX 的 SEO 是真的强
|
6
liteneo Sep 2, 2016 readability
|
7
zero0x00 Sep 2, 2016
p 牛~
|
8
dcsite Sep 2, 2016
这是月经贴吗?每个月都有人问这个问题~
|
11
bearsiji Sep 2, 2016
|
14
Owenjia Sep 4, 2016
也可以试下 newspaper 的,准备加功能了么这是……
|
15
phithon OP @Owenjia wiki.ioin.in 新功能已经加上了,把链接都采集一下,用的 readability ,不过还是有些误差,需要自己对源码稍微修改
|