MsiteCrawl是一款多站点站群文章采集器和内容生成器WordPress插件,是一款突破性的网站抓取和抓取、文章生成器自动博客插件,它使用网站抓取和抓取将您的网站变成自动博客甚至赚钱机器!
从几乎任何网页获取内容!您不再需要需要注册并提供有限访问权限的 API,您还可以从不提供 API 的网站检索数据。安排一次,让它像大师一样 7/24 为您自动驾驶您的文章!
演示地址:http://wpinitiate.com/crawlomatic-test/crawlomatic-test-generator/
拍下后包含哪些内容?
- 激活版插件
- 中文汉化补丁
- 使用文档教程
- 永久包更新
它是如何工作的?
MsiteCrawl插件将抓取您提供的种子 URL(抓取意味着它将搜索网页包含的所有链接),并将访问并从每个抓取的 URL 中提取内容。抓取过程是可定制的:您可以设置抓取深度、抓取速率、最大抓取文章数、仅抓取具有特定类或ID的链接以及更多自定义。
v2.0更新
在 v2.0 更新中,MsiteCrawl插件中添加了一个新的实时抓取短代码:[crawlomatic-scraper]。这项新功能使该插件成为易于实现的 WordPress Web 数据提取器。因此,它可用于将任何网站的实时数据直接显示到您的文章、页面或侧边栏中。它还会临时缓存抓取的内容,因此您的网站不会过度使用资源。您可以使用此插件MsiteCrawl包含实时股票报价、板球或足球比分或来自公共领域的任何其他通用内容!
本次更新包含的新功能:
- 抓取的输出可以通过自定义模板标签、页面、文章和侧边栏中的短代码(通过文本小部件)显示。
- 可配置的抓取数据缓存。可以为每个抓取的数据定义缓存超时(以分钟为单位)。
- 可以为每次抓取设置可配置的抓取工具用户代理。
- 可配置的默认设置,例如启用、用户代理、超时、缓存、错误处理。
- 查询内容的多种方式 – CSS 选择器、XPath 或正则表达式、自动检测。
- 用于解析内容的各种参数。
- 将 post 参数传递给要抓取的 URL 的选项。
- 将抓取的内容动态转换为指定的字符编码,以使用不同的字符集从站点抓取数据。
- 使用动态生成 URL 来动态创建抓取页面,以根据页面的 get 或 post 参数抓取或发布参数。
- 用于高级解析抓取数据的回调函数。
查看v2 更新的官方文档,浏览示例并查看常见问题解答,以制作完美优化的网络抓取工具。
有关该插件的更多信息
您可以从浏览器中打开的几乎每个网站中抓取内容。如果使用 JavaScript 加载内容,则该插件可以与 PhantomJS 结合来抓取 JavaScript 生成的内容。
此外,您还可以自动生成无限数量的自定义网站抓取和抓取。
其他功能:
- v2.5.5 更新:如果源站点发生更改,则自动更新已抓取的文章/页面/产品 + 如果已抓取的 URL 在源站点上不再可用,则取消发布(设置为草稿)文章/页面/产品(可选功能,可以启用/禁用)
- v2.5.1 更新:从其他 WooCommerce/Shopify 商店中抓取 WooCommerce 产品变体
- v2.5.0 更新:从 Google 或 Bing 抓取自定义关键字搜索的搜索引擎结果。查看此新功能的教程视频。
- v2.4.1 更新:抓取 WooCommerce 产品的产品图像库(对于非产品文章类型,将从抓取的图像创建文章附件)
- v2.3.5 更新:在抓取的 HTML 上执行您自己的 JavaScript 代码并抓取结果 – 仅当使用无头浏览器进行抓取(Puppeteer/Tor/PhantomJS)或 HeadlessBrowserAPI 时,此功能才可用
- v2.2.1 更新:抓取 RSS feed 中的链接并抓取其中列出的文章
- v2.2.0 更新:使用HeadlessBrowserAPI从互联网上的任何网站抓取 JavaScript 生成的 HTML 内容,无需在服务器上安装任何内容(除了此插件) -教程视频
- v2.1.0 更新:使用 Tor 浏览器和 Puppeteer 从暗网抓取 .onion 网站!–教程视频
- v2.0.0 更新:添加了 Live Scraper 短代码,以实现更多抓取控制和抓取能力:[crawlomatic-scraper]
- v1.7.1更新:支持Sitemap抓取-视频教程
- v1.6.5 更新:添加了可视内容选择器支持 -视频教程
- v1.6.0 更新:添加了对抓取的页面进行屏幕截图并在生成的文章内容中使用它们的功能 –视频教程
- v1.5.2 更新:能够使用Shorte.st链接缩短服务缩短传出(发布源)链接(并将其货币化) -缩短链接的示例
- v1.4.8更新:添加了对抓取页面的JavaScript执行支持 – 需要在服务器上安装PhantomJS –如何安装PhantomJs?–视频教程
- v1.4.4更新:新增设置多个代理爬取页面的功能。该插件会在每次访问页面时随机选择一个
- v1.4.0更新:新增分页抓取功能(文章抓取会在种子页的下一页继续)。
- v1.4.0更新:新增爬取产品导入产品价格功能(兼容WooCommerce)+dropshipping价格自动修改-视频教程
- v1.4.0 更新:添加了将进口产品价格增加固定数字或将其乘以预定义数字的功能(对于直销来说非常有价值!)
- v1.2.8 更新:添加了分页文章导入支持(到单个已爬网文章中)检查:VIDEO。
- v1.2.4更新:增加了爬取页面设置代理的功能
- v1.2.3更新:添加了直接抓取失败(被阻止)时从Google缓存抓取页面的选项
- 谷歌翻译支持 – 选择您想要发布文章的语言
- Text Spinner 支持 – 自动修改生成的文本,用同义词更改单词 – 内置、The Best Spinner、SpinRewriter、WordAI、TurkceSpin 等 – 巨大的 SEO 价值!
- 可定制生成的文章状态(已发布、草稿、待处理、私人、垃圾)
- 列出此插件生成的所有文章的简码:[crawlomatic-list-posts type => ‘any’, order => ‘ASC’, ‘orderby’ => ‘date’, ‘posts’ => 50, ‘category’ = > ”, ‘ruleid’ => ”]
- 爬行和抓取可以设置为尊重网站的 robots.txt 文件和抓取页面的机器人 HTML 标头
- 自动从市场项目生成文章类别或标签
- 手动将文章类别或标签添加到项目中
- 如果文章已发布,请选择是否要更新
- 将自定义 cookie 与请求一起发送到已爬网的网页(身份验证)
- 生成文章或页面或任何自定义文章类型
- 使用网站爬行和抓取嵌入来自 YouTube、Vimeo、Flickr、IGN、Ustream.tv 和 DailyMotion 的视频
- 定义发布限制:不要发布没有图像的文章、带有短/长标题/内容的文章
- 自动为文章生成特色图片
- 启用/禁用生成的文章的评论、pingback 或引用
- 自定义文章标题和内容(包含各种相关文章短代码)
- “关键字替换工具” – 其目的是定义关键字,这些关键字将自动替换为您的联属链接,无论它们出现在您网站内容中的任何位置。例如,您可以定义关键字“codecanyon”,并将其替换为指向http://www.codecanyon.net/?ref=user_name出现在网站内容中任何位置的链接。
- “随机句子生成器工具”(相关句子 – 按照您的定义)
- 一段时间后自动删除生成的文章的选项
- 详细的插件活动日志记录
- 计划规则运行
- 对生成的文章的自定义字段支持
- 对生成的文章的自定义分类支持
- 无限抓取变量导入(无限导入抓取页面的部分)
- 可以选择在本地复制或不复制图像
- 使用正则表达式解析 JSON 数据的能力
- 将规范元标记添加到生成的文章的选项
- 最大/最小标题长度限制
- 最大/最小内容长度限制
- 仅当在标题/内容中找到预定义的必需关键字时才添加文章
- 仅当标题/内容中未找到预定义的禁止关键字时才添加文章
- 从文件保存和恢复插件规则列表