抓取 Bloomberg 来发现这家颇具影响力的全球金融信息和媒体巨头的最新新闻亮点,该公司成立于 1981 年。在全球拥有广泛的用户群, 彭博 提供实时金融数据、市场洞察和突发新闻。投资者、分析师和企业依赖其对不同市场的全面报道,使彭博成为在动态金融世界中做出明智决策的重要工具。

在这篇博文中,我们探讨了网络抓取以从彭博社收集当前新闻。我们正在利用先进的技术,例如 Crawlbase 爬取 APIJavaScript的 为了这个努力。我们的重点将是提取关键信息,例如主要新闻报道、财务数据、市场趋势和其他相关详细信息。加入我们,我们概述了从彭博社提取数据所涉及的步骤,强调其对于获取及时更新和有价值的财务见解的重要性。

目录:

彭博社的网站结构

彭博网站结构

彭博社的网站经过精心设计,体现了其致力于在获取财经新闻和市场见解方面提供无缝用户体验的承诺。主页通常设有专门介绍各种金融工具、市场指数和头条新闻的部分。导航元素经过战略性放置,使用户可以轻松访问不同的部分,例如股票、商品和货币。

布局通常是动态的,具有实时更新和用户友好的界面,可以满足新手和经验丰富的投资者的需求。市场摘要、热门新闻和分析等部分通常会显示在显着位置,确保用户在登陆网站后能够快速访问关键信息。

要抓取的数据:

为了成功地从彭博社提取数据,必须查明网站结构中包含所需信息的特定元素。这涉及了解页面的 HTML 结构并识别与每个数据点关联的唯一标识符。

从彭博社提取数据
  1. 头条新闻:
  • 从 Bloomberg 抓取头条新闻时,开发人员必须识别包含文章标题、时间戳和相关元数据等重要信息的特定 HTML 标签。这需要仔细检查网站的源代码,以查明代表突发新闻的确切元素。
  • 抓取过程的重点是检索实时更新并捕获最新和最相关的新闻文章。通过不断监控并从已识别的 HTML 标签中提取数据,用户可以及时了解金融界的突发新闻动态。
  1. 财务见解:
  • 提取财务洞察涉及定位和隔离彭博网站内专门用于综合财务数据的部分。这可能包括提供深入分析、股票价格和其他关键财务指标的领域。
  • 网络抓取脚本针对专门用于财务洞察的领域,允许提取有关市场趋势、牲畜价格和全面财务分析的详细信息。这些数据对于做出明智的投资决策非常宝贵。
  1. 市场走向:
  • 在抓取市场趋势时,开发人员需要精确定位封装与各种金融工具性能相关的数据的 HTML 标签。这涉及识别显示趋势、图表和市场变动的其他视觉表示的元素。
  • 抓取过程旨在提取对不同金融工具表现的详细见解。这可能包括股票走势、商品价格和其他市场指标的数据,为用户提供当前市场趋势的全面视图。
  1. 其他相关数据集:
  • 除了头条新闻和金融见解之外,网络抓取还可以扩展到探索和识别包含有价值数据集的其他 HTML 元素。这可能包括有关商品价格、货币汇率、经济指标等的信息。
  • 抓取脚本可以配置为收集广泛的数据,范围从商品价格到货币汇率以及任何其他相关信息。这增强了用户从彭博平台收集的见解的广度。

先决条件

学习基本的 JavaScript:

要从 Bloomberg 抓取数据,首先要了解基本的 JavaScript 概念。熟悉 DOM 操作,它允许您与网页的不同部分进行交互。了解如何发出 HTTP 请求来获取数据并处理异步操作以实现更顺畅的编码。了解这些基础知识对于我们的项目至关重要。

获取 Crawlbase API 令牌:

要启用 Bloomberg 抓取,请从 Crawlbase 获取令牌。

  1. 登录您的 Crawlbase 帐户。
  2. 转到“账户文件“Crawlbase 仪表板中的页面。
  3. 在该页面上查找“JavaScript 令牌”代码。复制此代码;它就像与彭博社通信的私钥。
爬网文档

设置编码环境:

为 JavaScript 代码准备工具。按着这些次序:

  1. 创建项目文件夹:
    打开终端并输入“mkdirbloomberg_scraper”以创建一个新的项目文件夹。

mkdir bloomberg_scraper

  1. 导航到项目文件夹:
    输入“cdbloomberg_scraper”进入新文件夹,可以更轻松地管理项目文件。

cd bloomberg_scraper

  1. 创建 JavaScript 文件:
    输入“touch scraper.js”以创建一个名为 scraper.js 的新文件(您可以选择不同的名称)。

touch scraper.js

  1. 安装 Crawlbase 包:
    输入“npm installcrawlbase”将 Crawlbase 工具添加到您的项目中。这个工具很重要,因为它可以帮助您与 Crawlbase Crawling API 进行通信,从而更轻松地从网站获取信息。

npm install crawlbase

通过执行这些步骤,您将为 Bloomberg 抓取项目奠定基础。您将拥有一个专用文件夹、一个用于代码的 JavaScript 文件以及用于组织和高效抓取所需的 Crawlbase 工具。

使用 Crawlbase 抓取 Bloomberg

一旦您安装了 API 凭据和用于网页抓取的 Node.js 库,就可以开始处理“scraper.js”文件了。选择您要抓取的 Bloomberg 页面。在此示例中,我们将重点关注从 彭博技术页面。在“scraper.js”文件中,使用 Node.js 和 fs 库从选定的 Bloomberg 页面中提取信息。请务必将代码中的占位符 URL 替换为您要抓取的页面的实际 URL。

彭博技术页面

要使用 Crawlbase 爬网 API,请按照下列步骤操作:

  1. 确保您已按照前面的说明准备好“scraper.js”文件。
  2. 将提供的脚本复制并粘贴到该文件中。
  3. 通过输入“node scraper.js”在终端中运行脚本。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
常量 { 抓取API } = 要求('crawlbase'),
FS = 要求('fs'),
抓取基础令牌 = 'YOUR_CRAWLBASE_JS_TOKEN',
接口= 抓取API({ 象征:crawlbaseToken }),
彭博社页面URL = 'https://www.bloomberg.com/technology';

蜜蜂。得到(彭博社页面网址)。然后(处理CrawlResponse)。捕捉(处理抓取错误);

功能 处理抓取响应(响应){
if (回复。状态码 === 200){
fs。写文件同步('响应.html', 回复。身体);
领事.日志('HTML 已保存到response.html');
}
}

功能 处理抓取错误(错误){
领事.错误(错误);
}

HTML 响应:

彭博技术页面的 HTML 响应

抓取彭博新闻文章数据

本节将向您展示如何从彭博新闻文章页面收集信息。我们旨在收集的数据包括文章的标题、摘要、imageURL、作者、出版日期等。为了实现这一点,我们首先获取 彭博新闻文章页面。然后,我们将使用两个库创建一个自定义 JavaScript 抓取器:Cheerio(通常用于网页抓取)和 fs(有助于文件操作)。提供的脚本会遍历 Bloomberg 新闻文章页面的 HTML 代码,挑选出必要的数据,并将其存储在 JSON 数组中。

彭博新闻文章页面
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
常量 { 抓取API } = 要求('crawlbase'),
FS = 要求('fs'),
抓取基础令牌 = 'YOUR_CRAWLBASE_JS_TOKEN',
接口= 抓取API({ 象征:crawlbaseToken }),
彭博社页面URL =
'https://www.bloomberg.com/news/articles/2024-01-18/tsmc-s-second-fab-in-arizona-delayed-as-us-grants-remain-in-flux?srnd=technology -副总裁';

蜜蜂。得到(彭博社页面网址)。然后(处理CrawlResponse)。捕捉(处理抓取错误);

功能 处理抓取响应(响应){
if (回复。状态码 === 200){
fs。写文件同步('响应.html', 回复。身体);
领事.日志('HTML 已保存到response.html');
}
}

功能 处理抓取错误(错误){
领事.错误(错误);
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
常量 FS = 要求('fs'),
欢呼= 要求('cheerio');

尝试 {
// 从response.html文件中读取HTML内容
常量 html内容 = fs.读取文件同步('响应.html', 'utf-8');

常量 $ = 快乐。加载(html内容);

// 提取文章类别、标题和摘要
常量 类别 = $('.Eyebrow_sectionTitle-Wew2fboZsjA-a').文本()。修剪();
常量 标题 = $('.HedAndDek_headline-D19MOidHYLI-').文本()。更换(/\n\s+/g, '').修剪();
常量 抽象项目 = [];
$('.HedAndDek_abstract-XX636-2bHQw-li').((索引、元素) => {
抽象项目。($(元素).文本()。修剪()。更换(/\n\s+/g, ''));
});

常量 图片网址 = $('div.ledeImage_ledeImage__nrpgq img.ui-图像').属性('源代码');

常量 作者 = $('.Byline_bylineAuthors-Ts-ifi4q-HY-a')
.地图((索引、元素) => $(元素)。文本()。修剪())
.得到();

// 提取发布日期
常量 发布日期 = $('时间').属性('约会时间').分裂('T')[0];

// 创建一个带有摘要的 JSON 对象作为数组
常量 json数据 = {
类别: 类别,
标题: 标题,
抽象:抽象项目,
图片网址: 图片网址,
作者: 作者,
发布日期:发布日期,
};

// 以JSON格式显示抓取到的数据
领事.日志(JSON.串化(json数据, , 2));
} 捕捉 (错误) {
领事.错误(“读取或解析 HTML 文件时出错:”, 错误);
}

在第一个代码块中,JavaScript 代码使用 Crawlbase 爬网 API 来获取 Bloomberg 新闻文章页面的 HTML 内容。如果 HTTP 状态代码为 200,则响应将保存到名为“response.html”的本地文件中。第二个代码块利用“cheerio”库解析保存的 HTML 文件,提取相关信息,例如文章的类别、标题、摘要、图像 URL、作者信息和发布日期。然后提取的数据被组织成 JSON 对象并以结构化格式显示,如下所示:

JSON 响应:

1
2
3
4
5
6
7
8
9
10
{
“类别”: “技术”,
“标题”: “由于美国拨款仍在不断变化,台积电在亚利桑那州的第二家工厂被推迟”,
“抽象”: [
“该公司在亚利桑那州的第一座晶圆厂已推迟到 2025 年”,
“拜登白宫尚未发放承诺的芯片补贴”
],
“作者”: [“简·兰熙·李”, “吴黛比”],
“发布日期”: “ 2024-01-18”
}

结论

总之,本教程可帮助您使用 JavaScript 和 Crawlbase 抓取 API 抓取 Bloomberg 数据。它可以轻松地从 Bloomberg 页面抓取原始 HTML。它允许您从新闻文章中抓取不同的数据集,包括类别、标题、摘要、图像 URL、作者和发布日期。探索我们关于类似程序的附加指南 Yandex的, , 卡丁车产品亨特。这些指南是宝贵的资源,可以增强您跨各种平台的数据抓取技能。

探索 Crawlbase 的其他抓取指南:

使用 JavaScript 进行网页抓取 Expedia
使用 JavaScript 抓取 Booking.com 网页
如何刮玻璃门
使用 Quora Scraper 抓取问题和答案

常见问题解答

使用 Crawlbase 可以从 Bloomberg 中抓取哪些类型的数据?

Crawlbase 简化了 Bloomberg 抓取,为提取多样化的金融和市场数据提供了强大的解决方案。彭博抓取工具允许用户访问股票、投资和金融市场的实时信息,确保准确性和及时性。该工具适用于彭博社的各个版块,包括市场、技术、政治、追求、商业周刊、绿色和城市实验室。通过先进的功能和人工智能集成,Crawlbase 可以实现高效的抓取,涵盖经济、交易、固定收益、ETF、外汇等领域。

Crawlbase 中的 API 请求可以地理定位到特定国家/地区吗?

Crawlbase 可以灵活地将 API 请求地理定位到特定国家/地区。通过通过 &国家 请求中的参数,用户可以定制 API 以提取与其目标地理位置相关的数据。该功能增强了数据检索的定制化和精确度,确保用户从彭博社获取特定地区的信息。无论您想专注于美洲、欧洲还是亚太市场。 Crawlbase 使用户能够改进他们的抓取工作并轻松获取特定位置的数据。

我可以在 Crawlbase 中针对特定新闻类别自定义 Bloomberg 抓取吗?

在 Crawlbase 中,彭博社抓取流程是可定制的,允许您定位特定的新闻类别,例如金融或技术。这种灵活性可确保您仅提取与您的需求相关的数据,从而提高抓取体验的效率和精度。凭借这种适应性,用户可以专注于从彭博社收集符合其特定兴趣领域或分析要求的最新新闻文章。

Crawlbase 在抓取时如何遵守彭博社的条款和法律规定?

Crawlbase 在抓取数据时非常谨慎地遵循彭博社的规则和法律法规。该平台采取强有力的措施来遵守彭博社的指导方针,例如始终关注事物并根据需要进行调整。 Crawlbase 致力于遵守高法律标准以避免出现问题,并为用户提供合乎道德的抓取解决方案。通过遵守规则,Crawlbase 减少了出现法律问题的可能性,使其成为彭博社抓取的可靠且值得信赖的工具,同时在网络抓取领域保持诚实和合法。

Crawlbase API 响应请求的速度有多快?

Crawlbase API 快速响应,当用户请求抓取 Bloomberg 时,平均响应时间为 4 到 10 秒。用户可以通过利用并行请求进一步优化其结果,因为该 API 默认情况下每秒最多可容纳 20 个请求。此外,如果需要提高速率限制以满足特定的生产要求,Crawlbase 还可以让用户灵活地联系支持人员,从而确保快速响应且高效的抓取体验。