01.引言
2025年伊始,越來越多的信息中心在審批IT運維項目時,要求提供ROI測算,說明項目建設完成后可以帶來哪些成本的節(jié)約和效率的增長,并且非常審慎進行多輪評估。此外,也有更直接的IT部門,要求全年IT運維外包人員縮減20%,簡單直接地用KPI牽引推動降本增效。
一時間運維降本增效成為企業(yè)IT重點關注的任務之一,無論是國央企、政府還是民營企業(yè)都在追求效率提升和成本降低,包括進一步的服務能力提升等。其必要性主要來自以下幾個因素:
對于運維組織來說,“降本增效”看似是一項艱巨的挑戰(zhàn),但“降本增效”的目的絕非單純的“削減開支”,它更是運維組織的機遇,通過技術升級、流程創(chuàng)造、組織進化三位一體的方式,推動運維組織從“救火隊”轉型為“業(yè)務賦能者”,成為企業(yè)數(shù)字化轉型的核心引擎。那么該如何抓住這次機遇?
02.運維降本與增效的思考
在回答運維如何降本增效這個問題前,我們需要先明確,該如何描述和評價“運維效率”。
從局部或具體任務看,效率就是運維服務中各類KPI指標,如一線關單率、服務平均響應時長、平均發(fā)布耗時等,通過指標的量化衡量某項任務或者服務效率的高低。組織可以通過技術或管理等手段優(yōu)化提升,比如可以通過大模型、智能客服等技術手段提升服務響應效率,也可以通過培訓賦能、考核激勵等手段激勵一線提升服務響應速度。KPI指標可以反饋和衡量某項任務、流程、職能的效率,但無法反饋全局運維效率情況。
從全局或組織整體視角看,運維效率是一個組織服務能力和服務價值的體現(xiàn),反映的是在相同運維成本條件下,組織服務能力水平,包括服務項、服務范圍、服務質量等,如下公式:
其他衡量全局效率的方式包括運維應用系統(tǒng)數(shù)量/運維人數(shù)、負責資源數(shù)量/運維人數(shù)、全年業(yè)務可用性等等。
通過公式可推導運維效率提升的手段包括:
但無論是何種辦法,效率提升的前提是對運維成本和運維能力做量化,并能夠與組織管理者、運維服務客戶通過共同的語言建立共識,比如“錢”。
1)運維成本構成與控制分析
在明確如何衡量運維效率后,我們再來看IT運維成本的構成,然后基于成本來分析如何控制成本和提升效率。
IT運維成本由直接成本和間接成本兩部分構成,運維的直接成本指IT運維的直接開銷,如人員、資源、采購等成本,直接成本是IT運維為了支撐業(yè)務和組織所必需的投入,可以通過技術和管理的手段進行節(jié)約和優(yōu)化。直接成本中的各項組成并不是相互獨立的,如運維外采,主要是服務采購、設備采購、軟件采購,其中的服務和設備采購,分別與人員成本和資源成本相關。
運維的間接成本指IT運維中投入的隱性成本,如溝通成本、停機損失等,如果管理不當可能會導致直接成本的直線上升。
對應的各項成本控制與優(yōu)化,可以通過在線化、自動化、智能化和體系化的方式依次開展。
2)人員成本控制與提效方法
人員成本是IT成本中的重要部分,根據(jù)Gartner 2023年IT運維成本報告顯示:
運維部門除了面對如此高的人員成本外,另一個難題是運維技術人才培養(yǎng)周期長,運維組織成“金字塔”結構,大中型企業(yè)中,基礎運維人員數(shù)量占比可達40%~50%,如何驅動基礎和中級運維人員,在有限的組織成本下,激活員工,發(fā)揮和創(chuàng)造更高的價值?
通過在線化-自動化-智能化-體系化的成本控制方法看人員成本:
(1)人員成本管理的在線化
通過在線化的手段,記錄、統(tǒng)計、跟蹤運維人員日常工作,對于一線運維人員,理論上其工作在線化率可以達到100%,即所有的服務受理、運維工作開展、變更操作等均可通過在線化手段進行。通過運維工作在線化執(zhí)行和記錄,進而實現(xiàn)服務水平的衡量和評價,在服務范圍不變的情況下,可以通過優(yōu)化SLA的方式提升服務效率。
同時運維組織對外提供的服務也均通過在線化開展,通過統(tǒng)一的服務目錄規(guī)范運維組織提供的服務范圍和服務價值。組織可以通過擴展服務客戶范圍、增加服務項等手段,提升服務價值,在運維人員成本不變的情況下,實現(xiàn)提效。
(2)人員成本管理的自動化
自動化運維,作為運維人員提效的最直接有效的手段,因其批量執(zhí)行效率高、人工干預少無誤操作、操作質量高等優(yōu)勢逐漸被廣泛地應用于IT基礎設施運維和應用運維中。
如某證券通過應用發(fā)布自動化建設,實現(xiàn)公司100余套應用系統(tǒng)、2萬+主機的集中發(fā)布管控,相較于傳統(tǒng)發(fā)布,單套系統(tǒng)發(fā)布效率提升3倍以上,單應用系統(tǒng)每周發(fā)布可節(jié)約人力投入6.2人/天。
同樣,自動化運維也可用于承接外包運維服務工作,從而降低服務外采費用,如某能源操作系統(tǒng)運維外包小組(共6人),通過自動化運維工具實現(xiàn)服務器巡檢、基線掃描、漏洞修復、補丁更新等運維變更自動化,全年節(jié)約人力投入3397個工時,人力成本可節(jié)約28%。
那么組織該如何建設自動化運維能力,通過OASR框架模型來看:
(3)人員成本管理的智能化
運維人員效率低下,一方面是需要從事大量繁瑣且重復的運維工作,另一方面是在面對復雜運維問題時,個人經(jīng)驗不足導致的。自動化運維有效地改善了運維工作繁瑣和重復的問題。而大模型的出現(xiàn)為第二個難題也帶來了一定的轉機。
對于基礎運維人員來說,一般會存在個人經(jīng)驗不足和專業(yè)知識匱乏的問題:
通過大模型,可以改善運維人員知識有限,專業(yè)能力不足的問題,結合大模型以及私域運維知識庫,可以建設專業(yè)運維助手,輔助運維人員進行專項運維工作。
運維問答助手:
運維任務引導:
(4)人員成本管理的體系化
針對組織人員設定階段發(fā)展目標,并在各階段分別配套組織角色職能、管理流程和規(guī)范以及配套工具能力,實現(xiàn)有序發(fā)展。
3)資源成本控制與提效方法
根據(jù)Gartner 2023年及IDC 2024年報告分析,組織中資源成本占比為30%~60%,是除人力成本外的另一大成本項。
而在成本管理過程中,往往會存在以下問題:
我們同樣可以通過在線化-自動化-智能化-體系化的成本控制方法來對資源成本進行控制與優(yōu)化:
(1)資源成本控制的在線化
同樣的,資源成本管理的基礎是能夠對運維資源對象有清晰的認知,通過線上化的手段厘清配置資源信息,為資源優(yōu)化、成本控制提供數(shù)據(jù)支撐,而資源信息在線化最有效的載體是CMDB。CMDB的核心價值是實現(xiàn)IT設施 “數(shù)字鏡像化”,凡是屬于信息科管理的IT對象,均可在配置庫中找到唯一實例數(shù)據(jù),助力于資產(chǎn)盤點、資源利用率分析及規(guī)劃等運維工作開展。
(2)資源成本控制的自動化
資源的自動化管理可以分為自動化采集、自動化盤點、自動化調配三部分。
(3)資源成本控制的智能化
基于數(shù)據(jù)統(tǒng)計和分析,通過數(shù)據(jù)化和智能化的手段進行資源調整,比如通過容量趨勢預測,提前預測性能瓶頸,進行主動擴容。
或通過全局算力調度,利用不同應用忙閑時間的差異,實現(xiàn)資源的錯峰調配,有效節(jié)約資源。
即使不借助AI,通過簡單的資源統(tǒng)計與分析,也能夠主動發(fā)現(xiàn)資源空耗和浪費,主動優(yōu)化資源,節(jié)約成本。如僵尸業(yè)務統(tǒng)計和低負載分析。
通過清退僵尸系統(tǒng)和長期低負載資源,能夠非常直觀地降低企業(yè)資源投入,從而降低運營成本;既能夠減少不必要的維護成本,提升運營維護效率;也能夠識別和清退長期較少維護,存在安全風險、漏洞高的僵尸系統(tǒng),提升網(wǎng)絡安全。
如嘉為藍鯨在某項目中:通過CMDB主機資產(chǎn)梳理排查出1000+臺僵尸虛機,排查agent異常主機,其中有982臺確定已經(jīng)關機不用;總計排查的空閑虛機資源數(shù)量已經(jīng)有2000+臺,預計成本節(jié)省約200萬/年。
(4)資源成本控制的體系化
無論是資源配置管理還是資源容量管理,均可以形成一套管理體系。
如配置管理,需要形成配置采集、配置存儲、配置管理和配置消費于一體的可消費的配置管理體系,其中:
進而構建容量管理體系,實時了解全局容量情況,包括總量、使用量、可調配資源容量等,通過容量管理實現(xiàn):
同時,結合云、云管平臺可以實現(xiàn)資源成本的體系化和精細化管理,提升資源利用率、量化資產(chǎn)價值,并優(yōu)化資源總體成本。
針對企業(yè)用云全生命周期,從工具-流程-人員等多維度體系保障用云成本的持續(xù)優(yōu)化。
4)外采成本的控制與提效方法
外采成本主要包括運維服務外采、軟硬件資源外采以及運維軟件外采。
運維服務外采一般包括系統(tǒng)運維、應用運維、桌面運維等服務外包。此類外包工作特點包括重復性高、附加值低、風險可控等,如系統(tǒng)巡檢、補丁更新;但因外包人員成本控制,人員調整等因素,導致服務采購成本增加,但服務范圍、服務能力并沒有提升,難以真正的降本增效,此部分同樣可以通過在線化手段進行管理,并通過自動化和智能化的手段減少外采人員數(shù)量。軟硬件外采主要是資源成本,可以參考上文資源成本控制方法。
那么運維軟件采購成本該如何控制?因系統(tǒng)異構以及場景化運維需求,需要采購運維軟件,如監(jiān)控、流程、自動化等,商用軟件的封閉性導致難以生長,采購成本居高不下。當前企業(yè)運維工具建設正從煙囪式建設向平臺化建設邁進,一體化運維因其開放、生長、自主可控等特點,有效改善運維工具重復建設,無法滿足個性化擴展需求的困局。在一體化業(yè)務設計規(guī)劃與建設中,建議組織充分考慮運維工具現(xiàn)狀、管理要求與行業(yè)實踐,實現(xiàn)運維業(yè)務一體化,技術架構平臺化、運營賦能數(shù)智化。
運維軟件工具體系建設建議藍圖:實現(xiàn)運維在線化、操作自動化、場景智能化。
但即使采用平臺化建設運維工具體系,依然無法避免需要投入大量的采購成本,尤其是針對個性化場景時,標準產(chǎn)品軟件無法滿足需求,定制開發(fā)成本采購持續(xù)居高不下。建議組織構建運維開發(fā)平臺如嘉為藍鯨PaaS,培養(yǎng)運維開發(fā)力量,實現(xiàn)運維軟件自主開發(fā)自主建設,進一步節(jié)約成本。采用平臺化運維的優(yōu)勢包括:
同時,可以借助藍鯨社區(qū)和生態(tài)的力量,進一步分擔運維軟件開發(fā)成本,在藍鯨社區(qū)中由社區(qū)成員和生態(tài)伙伴上傳了大量的運維場景工具,運維人員可以快速獲取并部署到本地實現(xiàn)能力復用,從而減少開發(fā)重復投入,降低成本。借助社區(qū)生態(tài),運維人員能快速掌握平臺運維及開發(fā)能力,降低運維開發(fā)轉型難度,助力運維組織成長。
5)停機損失成本控制與優(yōu)化
業(yè)務保障作為運維組織的核心價值,業(yè)務異常將導致業(yè)務損失以及服務滿意度下降,這部分損失對于運維組織是不可接受的。相應地為了提升業(yè)務連續(xù)性,需要有配套的運維成本投入,如監(jiān)控、發(fā)布、應急等。
對于業(yè)務連續(xù)性建設,可以參考SRE相關實踐,如國內的SRE精英聯(lián)盟,來自于互聯(lián)網(wǎng)、運營商、金融等行業(yè)領軍企業(yè)的 SRE 團隊組織了SRE研討社區(qū),定期開展社區(qū)分享活動,共同探討 SRE 在各企業(yè)的發(fā)展路徑,分享各自的實戰(zhàn)經(jīng)驗,并總結出了這份來自一線實戰(zhàn)的、詳實而持續(xù)更新的《SRE實踐白皮書》。
SRE的主要目標是通過結合軟件工程和系統(tǒng)運維的最佳實踐,提高大規(guī)模分布式系統(tǒng)的可靠性、可用性、性能和效率。以下是部分 SRE 追求的核心目標:
組織可以參考SRE服務領域實踐開展運維體系建設,但綜合考慮成本與收益,建議組織有選擇性地建設,比如對不可接受的損失的配套工具必須建設,如監(jiān)控、代碼檢查等;其他工具綜合考慮ROI建設,如用戶體驗優(yōu)化等。
6)溝通成本的控制與優(yōu)化
據(jù)某大型企業(yè)調研顯示,運維團隊每周花費30%工時在無效溝通上,這無疑導致了人員成本的增加。
導致運維人員溝通成本增高的主要原因包括:
針對上述問題,建議組織可以采用在線化-自動化-智能化的方式進行優(yōu)化和控制。
溝通在線化,打造統(tǒng)一服務入口,通過統(tǒng)一的ITSM受理、記錄、評價運維服務,既規(guī)范了服務方式,又實現(xiàn)了運維服務的在線化,如通過藍鯨ITSM構建企業(yè)數(shù)字化運維服務工作臺。
服務實現(xiàn)自動化:通過自動化與IT服務打通,實現(xiàn)服務受理后自動化交付,提升響應效率和用戶滿意度。同時對于非運維專業(yè)工作,鼓勵通過工具進行提效,如豆包、Kimi,輔助知識檢索、生成會議紀要、編寫文檔等,讓運維人員聚焦專業(yè)工作。
服務交互智能化:通過大模型提升一線服務效率。
普通用戶一般會向IT提出大量重復性的問題。這類問題大同小異,往往多人詢問同一個問題,但是仍需一對一指導,費時費力。一些日常咨詢問題,通過搜索引擎等其他方式可以解決,仍需求運維工程師解決。通過大模型、知識庫等建立知識智能問答、工單智能提交、自動派單智能化能力,釋放一線運維人員精力,提升用戶滿意度。
7)管理成本的控制與優(yōu)化
管理成本指保障IT運維體系正常運轉所需的非直接技術支出,包括流程管理、制度合規(guī)、培訓與知識、風險管理、組織協(xié)調等。管理成本高的主要原因包括流程低效、組織協(xié)同難度大、工具碎片化、信息不集中等原因。通過人員、資源、溝通等成本和效率優(yōu)化方式,能夠為管理成本帶來一定的優(yōu)化空間,但仍可能因為信息分散、數(shù)據(jù)不集中導致決策難度增大,管理效率下降。
因此,優(yōu)化管理成本的首要任務是能夠將運維數(shù)據(jù)進行量化展示和統(tǒng)計,包括系統(tǒng)運行態(tài)勢、運維任務狀態(tài)、安全態(tài)勢等等。通過數(shù)據(jù)構建運維駕駛艙,實現(xiàn)一圖觀全局。如:
(1)核心業(yè)務監(jiān)測
(2)全局應用狀態(tài)
(3)事件問題追蹤
除了實現(xiàn)運維數(shù)據(jù)可視化外,可以通過成本分攤、核算、貨幣化等手段,將運維成本進行可視化,通過工單、系統(tǒng)等手段對運維服務做成本量化,明晰成本構成,為運維預算規(guī)劃提供基礎,同時可以有針對性地進行成本優(yōu)化和控制。
如某央企公司IT成本攤銷管理,通過ITSM實現(xiàn)服務計價,量化服務成本,并通過報表展示成本攤銷,為IT預算設計和優(yōu)化提供數(shù)據(jù)支撐。首先分析IT組織成本構成,包括固定成本、服務成本、資產(chǎn)折舊、人員薪酬。
其次明確各項成本的數(shù)據(jù)來源,比如服務成本通過服務工單進行統(tǒng)計和結算,固定分攤圖、人員薪資通過財務和人力系統(tǒng)提供數(shù)據(jù)。最后對數(shù)據(jù)進行匯總統(tǒng)計,形成IT部門成本明細。實現(xiàn)運維成本可視化、管理規(guī)則可優(yōu)化、運維預算可規(guī)劃的目標。
03.運維降本增效與轉型實踐
1)某集團公司運維價值量化實踐
某集團公司,人均運維1000+服務器,人均對接和服務30+研發(fā)用戶。極高的運維效率背后,是其多年運維降本增效的實踐與沉淀。
當前運維團隊業(yè)務覆蓋研發(fā)過程可靠性、版本發(fā)布連續(xù)性、持續(xù)運營穩(wěn)定性以及降本增效持久性4大類200余項服務項。目前已實現(xiàn)100%運維在線化、自動化運維工具積累400+、智能化場景全面普及,以及運維管理體系化建設。
(1)在線化:以ITSM為核心的人效管理
將運維組織負責的工作100%線上化,ITSM服務目錄覆蓋業(yè)務操作、故障應急、質量優(yōu)化、成本優(yōu)化、自主建設、學習探索、會議溝通、業(yè)務體驗8類運維場景。同時通過ITSM與周邊系統(tǒng)聯(lián)動,實現(xiàn)數(shù)據(jù)統(tǒng)計、運維執(zhí)行的自動化,提升服務效率,節(jié)約管理和溝通成本。
(2)自動化:打造工具文化,基于平臺建設自動化運維工具體系
通過運維開發(fā)平臺,賦能運維人員,鼓勵建設運維工具,已沉淀700+運維工具,實現(xiàn)運維效率的極致提升;
(3)智能化:數(shù)智賦能,運維向運營升級
建設運維AI平臺,降低智能運維開發(fā)門檻,實現(xiàn)智能運維的推廣與普及。通過平臺建設通用智能運維場景模板,并提供給各一線運維團隊使用,一線運維通過簡單的數(shù)據(jù)接入和訓練即可構建屬于該團隊的智能運維模型。
(4)體系化,通過管理賦能組織,通過工具輔助管理
基于100%在線化的運維工作,平臺可以對運維人員服務能力、工作任務進行統(tǒng)計,形成運維人員能力畫像,人員績效考核與管理變得有據(jù)可依。
在此基礎上,開展運維貨幣化轉型,以遠低于業(yè)務自建團隊的成本,保障相同的可靠性指標,同時提供業(yè)務開發(fā)團隊難以擴展的服務,并獲得利潤。目的是使得運維組織獲得無需自證的價值,滿足組織長期發(fā)展需要。
貨幣化推廣初年,實現(xiàn)運維成本節(jié)約11%。
2)某股份制銀行降本增效實踐
某銀行業(yè)務飛速發(fā)展給運維帶來了巨大的挑戰(zhàn),推動運維團隊深化降本增效建設,其挑戰(zhàn)包括:
(1)在線化,打造企業(yè)服務管理平臺(ESM)
通過ESM構建運營數(shù)字化轉型加速器,替換100+原有運營和服務系統(tǒng),服務覆蓋全行用戶,月服務工單數(shù)量超50萬條,綜合服務效率提升5倍以上,實現(xiàn)業(yè)務場景流程化、工單處理自動化、服務過程可視化 ,在提升服務效率的同時:
(2)自動化,運維場景自動化,運維效率全面升級
典型建設場景包括:
同時通過RPA建設自動化場景千余個,實現(xiàn)了超萬人次操作的全職人力替代。
(3)智能化:深化AIOps與FinOps融合
通過深化AIOps與FinOps融合,利用技術優(yōu)化資源預測,實現(xiàn)更精準的成本控制和效率提升,為運維帶來顯著效益。結合FinOps的財務視角,AIOps能自動分析成本趨勢,識別異常支出,助力在運維層面實現(xiàn)精細化財務管理。
加大自動化工具投入,實現(xiàn)運維流程智能化,減少人工干預,進一步提升運維效率和降低成本。 持續(xù)探索AIOps與FinOps融合的新模式,推動技術創(chuàng)新,以適應不斷變化的業(yè)務需求,保持行業(yè)領先地位。
(4)體系化:科學化成本經(jīng)營
通過成本可視、資源協(xié)同、技術治理三位一體,項目實施首年直接節(jié)省新增采購成本顯著降低,通過機器濾舊、混部、下線等措施實現(xiàn)間接節(jié)約。
04.總結
運維降本增效是運維組織持之以恒的目標,本質是通過技術杠桿與流程創(chuàng)新實現(xiàn)組織能力提升。對于運維組織來說,降本增效課題既是挑戰(zhàn)更是機遇,通過降本增效建設可以將運維從成本消耗部門轉變?yōu)闃I(yè)務增長引擎,支撐數(shù)字化轉型。也可以助力企業(yè)構建“技術驅動型”運維團隊,成為企業(yè)數(shù)字化轉型的核心樞紐。
1)技術杠桿:
通過技術手段放大運維的ROI,其中
2)多維成本優(yōu)化:
從顯性到隱性的全面管控
降本增效的目標是實現(xiàn)運維角色的戰(zhàn)略升級,從“成本中心”轉型為“業(yè)務增長引擎”。通過服務貨幣化、SRE實踐與數(shù)據(jù)驅動決策,運維不僅保障業(yè)務連續(xù)性,更直接參與企業(yè)價值創(chuàng)造。降本增效的終極目標并非“少花錢”,而是“花對錢”。通過技術與管理的雙輪驅動,運維團隊將成為企業(yè)數(shù)字化轉型的核心樞紐,以更低的成本創(chuàng)造更高的業(yè)務價值,實現(xiàn)從“支撐者”到“驅動者”的跨越。
申請演示