将您的重要文件(无论是个人文件、工作文件还是企业文件)保存在本地磁盘驱动器上一开始可能看起来很方便。 但是,如果它开始堆积,或者如果您需要在机器之间传输文件,它可能会开始变得麻烦,最终可能会给您带来不必要的工作。 不仅如此,如果您的本地存储出现问题怎么办? 电源问题、固件损坏、人为错误,只是可能导致硬盘故障的一些事情的列表。 此类问题最终可能会花费您无数无法恢复的工作时间,并对您的业务产生重大负面影响。

“云”彻底改变了我们存储数据的方式以及我们日常访问它们的方式。 云存储是一种计算机存储,其中数据通过互联网复制到数据服务器中。 这些数据库服务器是公司将您的文件存储在多个硬盘驱动器上的实际物理计算机。 在线存储解决方案已经取代了传统的本地磁盘存储。 与传统的单一存储硬盘驱动器不同,云存储可防止您的数据丢失,因为您的文件在技术上备份在另一个通常称为冗余的位置。

那么,从专业和商业的角度来看,云存储的优势是什么? 嗯,有很多,这里有一些事情需要考虑:

信息管理 - 在云中集中存储为新用例创造了巨大的杠杆作用。 多人可以快速无缝访问数据,方便与同事共享文件。 此外,您还可以执行强大的信息管理任务,包括自动排名或锁定数据以支持合规性要求。

拥有成本 - 使用云存储,无需购买物理硬件,甚至无需配置存储。 您可以按需添加容量,只需为您或您的企业实际使用的存储付费。

部署时间 - 对于企业或处理海量数据的企业,基础设施绝不应减慢它们的速度。 云存储使开发团队能够在需要时快速部署所需数量的存储解决方案。 这将使您的团队能够专注于解决其他重要问题,而不是花费您的时间来管理存储系统。

将抓取的数据直接发送到云端

综上所述,云存储在网络爬虫和抓取方面的真正好处是什么?

如果您是尝试网络抓取的初学者,您会注意到,随着时间的推移,存储抓取的数据可能会成为一个问题,您需要通过购买额外的硬盘驱动器来处理自己的解决方案,以确保存储的数据安全备份,以防止丢失您宝贵的抓取数据。 这可能会占用您的时间和资源,而您本可以将这些时间和资源投入到其他重要的事情上,例如进行实际抓取或学习有效抓取数据的新方法。 在维护自己的数据库时,小型或大型企业可能会发生相同的情况,这就是为什么在线存储解决方案是当今任何处理数据的企业不可或缺的一部分。

云存储的可扩展性、无忧性在大多数情况下都具有重大优势,这是不容忽视的。

云刮

什么是 ProxyCrawl 云存储,它是如何工作的?

ProxyCrawl 云存储 安全地处理扩展、备份和管理云空间,以便您和您的团队可以将您的时间和精力重新分配到对您的业务真正重要的事情上。 这是一个易于使用的 API,您可以在其中将抓取或抓取的数据和屏幕截图保存在云端。 在这里,您还可以毫不费力地进行全文搜索以及添加或删除数据。

发送您的数据

为了访问云存储,ProxyCrawl 创建了一个 API,可以快速将您的数据安全地直接发送到我们的服务器。 这可以与大多数 ProxyCrawl 产品一起使用,例如 抓取 API, 屏幕截图API,甚至用你的 履带 通过使用 Storage webhook 端点。

如果您已经有 ProxyCrawl 帐户,并且正在使用 Crawling API 来抓取和抓取网页,那么您可能熟悉如何进行简单的调用以及如何传递参数。 对于初学者,您只需添加参数 &store=true 将数据的副本发送到您的存储。

您可以参考下面的示例代码:

1
卷曲 “https://api.proxycrawl.com/?token=USER_TOKEN&url=https%3A%2F%2Fwww.amazon.com&store=true”
1
2
3
4
5
6
7
8
 urllib2 进口 打开网址
网址库 进口 报价加号

网址 = 报价加号('https://www.amazon.com/dp/B07H163S6J/')

处理程序 = urlopen('https://api.proxycrawl.com/?token=USER_TOKEN&store=true&url=' + 网址)

打印 handler.read()

对于上面给出的示例代码,请确保使用 你自己的令牌 并替换您要抓取的页面的 URL。

在某些用例中,对您正在抓取的网页进行截图会更有效地跟踪视觉变化。 ProxyCrawl 有一个专门用于此的 API,这些屏幕截图也可以直接发送到云存储。

1
卷曲 “https://api.proxycrawl.com/screenshots?token=USER_TOKEN&url=https%3A%2F%2Fapple.com&store=true”

通过这几个示例,您可以看到将数据发送到云是多么简单,这就是为什么企业客户也能够快速部署此解决方案,因为 API 是可扩展的,并且可以轻松集成到任何现有的应用程序或程序中。

管理云存储

当然,发送数据只是其中的一部分,云存储的便利性和灵活性还不止于此。 它可以通过 API 或通过用户的网络帐户轻松管理。 从用户的帐户中, 存储数据的专用仪表板 将允许您搜索任何已保存的数据并显示从 Crawling API、Crawler 和 Screenshot API 发送的所有请求,其中包括请求标头,并快速查看每个请求。

抓取仪表板

如果访问仪表板不是您的事,或者至少在您的工作流程中不可能,ProxyCrawl 已经准备了一些参数,可以让您通过 API 管理您的存储。

发送到 Storage API 的任何请求都应以以下基本部分开头:

1
https://api.proxycrawl.com/storage

每个保存的请求都有两个标识符, 网址 and RID,它们都可以用来管理(查看或删除)您的数据。

要查看或检索抓取的页面(HTML 或 JSON),请执行 API 调用,如下所示:

1
卷曲 https://api.proxycrawl.com/storage?token=USER_TOKEN&rid=RID

无需查看仪表板,您可以通过传递参数来检索将包含 URL 和 RID 的请求标头 &format= 它将接受 HTML 或 JSON 作为值。

例如:

1
https://api.proxycrawl.com/storage?token=USER_TOKEN&format=json&url=ENCODED_URL

由于存储空间有限,您有时可能希望从云中删除不需要的或旧数据。 这可以通过发送带有正确 RID 和令牌的 DELETE 请求来快速完成。

1
curl -X 删除 https://api.proxycrawl.com/storage?token=_USER_TOKEN_&rid=RID

如果正确删除,您将收到以下回复:

1
“成功”: “已成功删除存储项”

如果您想检查存储中保存的数据的总数或实际数量,您可以发送包含您的私有令牌的 GET 请求:

1
https://api.proxycrawl.com/storage/total_count?token=USER_TOKEN

默认情况下,最多可将 10,000 个文档存储在云中,最多可保留 14 天,目前注册后免费。 对于初学者或需要测试服务的客户来说,这应该足够了。 但是,如果您需要存储更多数据并拥有更长的数据保留时间,您可以选择开发人员或商业计划。 您可以了解更多关于 ProxyCrawl 的云存储定价在这里.

总结

总而言之,云存储在可用性和可访问性方面比本地存储具有明显的优势。 您的文件不仅更容易从任何地方访问,它还将成为任何项目或业务的完美备份计划,因为这些文件存储在不同的位置,并且可以在任何给定时间检索。 这是一个很棒的平台,不需要任何大量的时间和金钱投资。 用户可以确保额外的成本节省,因为存储数据不需要存储管理、硬件购买和额外的计算资源。

在这篇文章中,表明 存储 API 可以与大多数 ProxyCrawl 产品一起使用,包括 抓取 API, 爬行者, 和 屏幕截图API. 您已经看到只需几行代码就可以轻松地将 HTML、JSON 甚至 JPEG 结果保存到云中。 我们还解决了使用仪表板或通过 API 管理存储的简单性。

借助 ProxyCrawl 的云存储解决方案,您可以始终领先于由新数据源和不断发展的技术推动的快速存储增长。