2020年数据中心管理技巧

作者：发布时间:2021-01-06 14:18:50点击:2762

分析服务器故障的主要原因

如果没有服务器，任何数据中心基础架构都无法运行。这意味着我们必须尝试预测可能导致代价高昂的停机时间的任何潜在问题或事件—特别是对于关键任务硬件。

服务器故障的主要原因包括电源中断、灰尘阻塞和温度调节不良、固件过时、硬件配置问题和网络攻击。

面对这么多可能导致服务器故障的情况，重要的是部署有效的备用电源硬件;定期进行物理维护并使用ASHRAE准则设置温度;部署定期软件更新策略;持续检查电缆设置;并遵守安全协议。

对于总体规划，你的团队应确保所有备用电源设置都可以正常工作，并且，制定灾难恢复计划，以防所有数据中心意外脱机的情况。

了解Linux

Linux是服务器和数据中心管理的行业标准，但是对于它的确切含义以及它在数据中心中的功能，仍然存在疑问。在最基本的级别上，Linux是操作系统，你可以在基础架构中的服务器上运行。

但Linux又很不寻常，因为它是开源操作系统，这会影响许可。GNU通用公共许可证有条款说明你可以在何种情况下使用、修改和分发该操作系统。在这种许可模式下，其想法是该操作系统仍是开源的，可供所有人免费使用。

Linux与macOS和WindowsOS的另一个主要区别是内核。由于开源社区不断维护和更新内核，因此它是需要实时维护的服务器基础结构的理想选择。Linux内核包含用于内存管理、进程管理、网络堆栈、虚拟文件系统和系统调用接口的子系统，以及架构和设备驱动程序。

设置IT更新策略

根据你企业的规模，你可能会参与IT预算或采购策略。每当高层管理人员决定采购新技术时，重要的是要考虑业务原因，即为什么要临时更新其基础架构。

升级任何技术的最大原因是服务器硬件(对任何数据中心来说都是必不可少的部分)随着时间推移而变得越来越不可靠。IDC研究指出，服务器性能平均每年下降14%。

另外，如果你每年或每两年更新服务器硬件，则你的团队可以了解更准确的整体预计支出。这意味着你可以预测企业将花多少钱来升级硬件，而不用处理因过载或过度运行硬件带来的任何意外费用。

除服务器技术外，更新策略还使你的企业有机会使用更环保更节能的硬件来降低总体运营成本。

购买更新的硬件是整合基础架构并简化数据中心管理的一种方法，无论你只是需要更少的计算机还是决定运行更多的虚拟或基于云的应用程序。

解决内核恐慌问题

没有人喜欢系统全面停机。就像Window的蓝屏死机一样，内核恐慌是指某些情况会突然使你的OS崩溃，例如内存不足、恶意软件、软件错误或驱动程序崩溃。

为了弄清楚如何使操作系统恢复在线状态，可以使用kdump崩溃工具。通过此过程，你可以使用kdump工具在崩溃时收集所有系统信息，并执行根本原因分析，以对Linux内核进行故障排除。

通过Linux发行版、两个VM客户端和网络文件系统，你可以使用一系列命令来安装网络文件系统、确定要在何处存储系统日志，然后模拟内核崩溃。通过此设置，你可以确定崩溃期间运行了哪些进程、打开了哪些文件以及存储在虚拟内存中的内容。

这些信息以及kdump崩溃工具是执行任何分析并使Linux内核恢复正常的必经之路。

正确停用大型机

在医疗保健和金融等行业，大型机技术仍然具有相关性。尽管随着新基础架构出现以及人员退休，你的企业可能没有专业技能或需要运行这些大规模计算设置。

如果你考虑停用大型机，第一步是让你的团队决定哪些数据应保留在企业内以及大型机应支持的软件。这将帮助你运行应用程序清单，从而确定企业仍需要或可停用的应用程序。

你可以调查大型机的外包业务，但这可能非常昂贵，尽管这是最简单的选择。这样做可以使过渡更加顺畅，并消除有关物理硬件处理的问题。

还可以选择重新构建大型机应用程序，使其可在x86硬件运行，以便你可以将软件托管在自己的数据中心或云端。只要没有重大代码更改，此选项就很容易，但是当该软件脱离大型机，你需要使用应用程序数据的频率可能会影响你决定将其托管的位置。你还必须查看你的团队必须采用哪些新应用程序来应对大型机不再可用这一事实。

最后，还有大型机的物理处置，这不是简单的事情。为了正确安全地进行移除，你应该迁移所有必要的数据，对存储进行消磁或销毁任何硬盘驱动器。