了解最新技术文章
ASAC 在 2008 年组装了他们的第一个数据中心,几年后他们在一个单独的建筑物中部署了第二个数据中心。正是在这个时候,他们意识到他们需要一个好的监控系统来监控数据中心基础设施,包括物理服务器、操作系统、云应用程序等等。
当时,ASAC 不清楚他们应该在商业监控解决方案上投资多少,因此他们决定采用名为 Zenoss 的开源解决方案。然而,不久他们就意识到开源解决方案不能满足他们的要求。首先,没有制造商的官方支持,也没有为使用它的员工提供接受技术培训的选项。其次,Zenoss 是基于 Linux 的,需要技术人员投入大量时间进行自我训练、测试和解决问题。
Zenoss 的另一个问题是没有多少原生应用程序或插件来监控某些设备或环境,例如交换机、机柜和虚拟环境。这使得 ASAC 为客户监控这些方面变得非常复杂。
当 ASAC 仅雇用少数人从事监控系统工作时,所有这些问题就已经是一个挑战,但当监控团队增加到 10 人时,问题就变得复杂了。漫长的学习曲线、对专业技术技能的要求以及缺乏可扩展性意味着开源工具实际上并不是“免费的”。
在意识到他们的开源工具的成本与商业工具相当后,他们决定评估几种商业解决方案。在他们考虑的工具列表中,有 ManageEngine、WhatsUp Gold 和 Zabbix Commercial,但最终他们选择了 Paessler PRTG 监控软件。
一个用于 ASAC 支持团队的综合仪表板
PRTG 易于使用、直观,新员工只需经过短期培训即可使用它
ASAC 可以让他们的客户访问 PRTG,还可以指定访问类型
PRTG 配备了大量本地传感器,可以监控 ASAC 在其数据中心拥有的几乎所有设备类型
Paessler 提供出色的技术支持
通过在客户现场部署远程探针,为客户实施PRTG快速简便
Paessler 不断积极地改进 PRTG,定期推出具有新传感器和功能的新版本
ASAC 决定获得 PRTG 1000 许可证并于 2013 年实施。两年后他们升级到 PRTG XL1,并在 2022 年初再次升级——这次是 PRTG XL5。他们使用五台 PRTG 服务器来构建他们的监控设置,并根据需要扩展他们不断增长的监控实施。
他们的监控涵盖虚拟环境(拥有超过 150 台虚拟主机和 1,500 台虚拟机)、网络设备(例如防火墙、负载平衡器和机柜)、存储设备(包括备份系统)和数据库。他们还监控数据中心的温度和湿度、数据中心机房的能耗、CCTV 系统的可用性等物理指标。
PRTG 监控的最大好处之一是 ASAC 能够将其所有监控数据整合到一个仪表板中。具体来说:仪表板可视化关键警报,是 24x7 支持团队用来监控数据中心的来源。这意味着他们只有一个仪表板可以提供支持团队跟踪基础架构中任何地方发生的任何问题所需的所有信息。
除了 PRTG 提供的核心功能外,ASAC 还利用一些更可定制的功能来提高灵活性。这方面的一个例子是通知:ASAC 使用 PRTG 监控 Apache 服务器,如果 Apache 服务器出现故障,PRTG 会触发通知。这是标准配置,但 ASAC 还使用“执行程序”通知功能在 Apache 服务器关闭时自动运行脚本。该脚本连接到 Apache 服务器并重新启动服务。这样,PRTG 会在问题发生时立即自动解决问题。
他们还利用自定义传感器通过特定查询来监控 Oracle 数据库。
还有一些 ASAC 现在使用的功能,但这些功能并不是他们最初要求的一部分:
报告
Veeam 备份传感器
能源消耗优化
“报告功能并不是我们最初需求的要求,”ASAC 系统总监 Mario Corpas Granda 说,“但我们发现报告非常灵活。标签的使用使我们能够更快地制作报告,并且能够在无需进行手动调整的情况下对其进行修改。” 根据 Mario 的说法,一个很好的例子就是想象一个客户端有 10 个服务器,然后他们添加了一个新服务器;在这种情况下,Mario 可以只将标签应用到服务器以确保它将包含在客户端的月度报告中。ASAC 现在在内部使用超过 140 份报告。
当 Paessler 为 PRTG 发布新的Veeam Backup 传感器时,另一个意想不到的好处出现了。以前,ASAC 使用 600 多个 IMAP 传感器监控安全备份。Mario 解释了它之前的工作原理:“在这些新传感器可用之前,Veeam Backup 会发送一封包含任务或作业状态的电子邮件,然后 PRTG 捕获该电子邮件并生成一系列警报,以便我们的支持团队了解如果备份按时完成。” 然而,有了新的 Veeam Backup Sensor,事情变得更容易了:PRTG 可以直接监控任务的状态和执行时间。在这种情况下,Paessler 对 PRTG 所做的不断改进能够改善 ASAC 为其客户提供的服务。
在减少资源方面,还有一个意想不到的好处。
PRTG 允许 ASAC 监控每个机架中所有 PDU 的能耗。通过此信息,可以了解每个机架或客户端的能耗,根据需要将负载分配到不同的 PDU,并监控哪些时隙的能耗最高。
关于环境因素(如温度、湿度、CO2等)的监测:PRTG能够监测APC平台,这有助于测量DPC分布的传感器的温度、UPS的电池和能量水平等.
使用 PRTG 报告和标签可以每月审查这些项目的平均消耗量,以确定需要扩展或新资源的时间范围。
ASAC 对其数据中心的组件进行高级监控,包括虚拟化服务器、存储柜或网络。
虚拟化服务器:
平均 CPU 消耗
平均内存消耗
贮存
磁盘消耗
联网
上行链路平均带宽消耗
使用的端口数
通过监控整个数据中心平台,包括服务器、存储等,ASAC 获得第一手信息,帮助他们在不过度配置设备的情况下最大限度地利用资源。
“另一方面,PRTG 的警报管理与 exe 或类似程序的通知相结合,让我们可以从 PRTG 运行脚本或自动操作,使我们能够在无需人工干预的情况下解决客户的技术问题,从而为我们的顾问节省了大量工时”,马里奥·科帕斯·格兰达说。