01.AI重塑運(yùn)維范式后,運(yùn)維人員能力提升方向在哪?
人工智能(AI)技術(shù),尤其是大模型的迅猛發(fā)展,正重構(gòu)運(yùn)維領(lǐng)域的底層邏輯。傳統(tǒng)經(jīng)驗(yàn)驅(qū)動(dòng)的被動(dòng)式運(yùn)維在復(fù)雜系統(tǒng)面前日益捉襟見(jiàn)肘,而AI賦能的預(yù)測(cè)性運(yùn)維通過(guò)實(shí)時(shí)分析、異常預(yù)警和智能決策,推動(dòng)行業(yè)向“治未病”的主動(dòng)模式躍遷。
這種范式轉(zhuǎn)變的意義重大而深遠(yuǎn)。但AI在為運(yùn)維賦能的同時(shí),也帶來(lái)了諸如模型幻覺(jué)、數(shù)據(jù)依賴性困境、模型可解釋性缺失等新的技術(shù)挑戰(zhàn),給運(yùn)維人員造成了不小的職業(yè)轉(zhuǎn)型壓力。
對(duì)于運(yùn)維管理者和工程師而言,站在這一技術(shù)變革的十字路口,如何在充分挖掘 AI 賦能潛力的同時(shí),有效控制由此帶來(lái)的風(fēng)險(xiǎn),妥善應(yīng)對(duì)職業(yè)轉(zhuǎn)型的挑戰(zhàn),成為未來(lái)三年內(nèi)亟待解決的核心命題。這不僅關(guān)乎個(gè)人職業(yè)發(fā)展的走向,更關(guān)系到企業(yè)乃至整個(gè)行業(yè)在數(shù)字化時(shí)代下的競(jìng)爭(zhēng)力與可持續(xù)發(fā)展能力。
接下來(lái),本文將深入剖析 AI 在運(yùn)維場(chǎng)景中的核心價(jià)值與落地挑戰(zhàn),為不同角色的運(yùn)維人員規(guī)劃轉(zhuǎn)型路徑與能力圖譜,并構(gòu)建全局行動(dòng)框架,助力讀者在 AI 時(shí)代的運(yùn)維變革浪潮中找準(zhǔn)方向、乘風(fēng)破浪。
02.AI在運(yùn)維場(chǎng)景中的核心價(jià)值與落地挑戰(zhàn)
1)AI已實(shí)現(xiàn)的典型應(yīng)用場(chǎng)景
在運(yùn)維領(lǐng)域,AI技術(shù)已經(jīng)成功落地了多個(gè)具有顯著價(jià)值的應(yīng)用場(chǎng)景,為提升運(yùn)維效率與質(zhì)量發(fā)揮了重要作用。以下是這些場(chǎng)景的詳細(xì)描述和價(jià)值體現(xiàn):
2)落地過(guò)程的三大技術(shù)風(fēng)險(xiǎn)
盡管 AI 在運(yùn)維場(chǎng)景中展現(xiàn)出了巨大的應(yīng)用價(jià)值,但在實(shí)際落地過(guò)程中,也面臨著一些不容忽視的技術(shù)風(fēng)險(xiǎn)。以下是這些風(fēng)險(xiǎn)的詳細(xì)描述和應(yīng)對(duì)策略:
03.面向不同角色的轉(zhuǎn)型路徑與能力圖譜
1)管理型運(yùn)維(管理驅(qū)動(dòng)型團(tuán)隊(duì))
在央國(guó)企等管理驅(qū)動(dòng)型團(tuán)隊(duì)中,管理型運(yùn)維人員肩負(fù)著統(tǒng)籌規(guī)劃、團(tuán)隊(duì)管理以及確保運(yùn)維工作符合合規(guī)要求等重要職責(zé),他們?cè)谕苿?dòng) AI 技術(shù)引入和應(yīng)用的過(guò)程中,面臨著一些特有的挑戰(zhàn)。
首先,外包團(tuán)隊(duì)技術(shù)能力參差不齊,這使得 AI 工具的引入可能會(huì)加劇對(duì)外包團(tuán)隊(duì)的依賴,一旦外包團(tuán)隊(duì)的技術(shù)支持出現(xiàn)問(wèn)題,將對(duì)運(yùn)維工作的正常開(kāi)展產(chǎn)生嚴(yán)重影響。其次,央國(guó)企等機(jī)構(gòu)通常具有嚴(yán)格的合規(guī)要求,如《數(shù)據(jù)安全法》等相關(guān)法律法規(guī)的約束,直接應(yīng)用一些大語(yǔ)言模型等 AI 工具,可能會(huì)存在數(shù)據(jù)泄露等合規(guī)風(fēng)險(xiǎn),這給管理型運(yùn)維人員帶來(lái)了巨大的壓力。
針對(duì)這些挑戰(zhàn),管理型運(yùn)維人員需要從以下幾個(gè)關(guān)鍵能力模塊入手提升自身能力:
2)技術(shù)型運(yùn)維工程師(互聯(lián)網(wǎng)/技術(shù)驅(qū)動(dòng)型公司)
在互聯(lián)網(wǎng)和技術(shù)創(chuàng)新型企業(yè)中,技術(shù)型運(yùn)維工程師是運(yùn)維團(tuán)隊(duì)的核心力量,他們通常具備扎實(shí)的 DevOps 工具鏈技能,如熟練掌握 Jenkins、Kubernetes 等工具,能夠高效地進(jìn)行持續(xù)集成與持續(xù)部署(CI/CD)流程的管理和優(yōu)化。然而,在 AI 時(shí)代,僅掌握這些傳統(tǒng)技能已不足以應(yīng)對(duì)新的挑戰(zhàn),他們還面臨著一些核心能力差距。
多數(shù)技術(shù)型運(yùn)維工程師雖然對(duì)分布式集群的架構(gòu)有深入的理解,但對(duì) AI 硬件基礎(chǔ)設(shè)施(如 GPU 集群調(diào)度)卻不夠熟悉。在 AI 驅(qū)動(dòng)的運(yùn)維場(chǎng)景中,GPU 等高性能硬件資源的合理調(diào)度與管理對(duì)于模型訓(xùn)練和推理的效率至關(guān)重要。此外,他們往往缺乏 AI 模型訓(xùn)練與調(diào)優(yōu)的經(jīng)驗(yàn),這限制了他們將 AI 技術(shù)與運(yùn)維工作深度融合的能力。
為了彌補(bǔ)這些能力差距并實(shí)現(xiàn)升級(jí),技術(shù)型運(yùn)維工程師可以從以下幾個(gè)能力模塊入手:
在實(shí)戰(zhàn)建議方面,短期內(nèi)可以在變更管理中引入“AI+安全漏洞掃描”,利用靜態(tài)代碼分析模型等 AI 工具,快速發(fā)現(xiàn)代碼中的潛在漏洞和風(fēng)險(xiǎn)點(diǎn),降低系統(tǒng)因變更而引入安全問(wèn)題的可能性
從中期到長(zhǎng)期來(lái)看,規(guī)劃并構(gòu)建 AIOps 中心,將異常檢測(cè)(如采用 OneClass SVM 等算法進(jìn)行無(wú)監(jiān)督異常檢測(cè))、根因分析(運(yùn)用因果推理模型深入挖掘故障的根本原因)與自動(dòng)化修復(fù)(借助機(jī)器人流程自動(dòng)化 RPA 技術(shù)實(shí)現(xiàn)故障的自動(dòng)修復(fù))等各個(gè)環(huán)節(jié)有機(jī)串聯(lián)起來(lái),形成一個(gè)智能化的運(yùn)維生態(tài)系統(tǒng),全面提升運(yùn)維工作的效率和質(zhì)量。
04.AI對(duì)運(yùn)維人員技能提升的影響
AI技術(shù)的快速發(fā)展對(duì)運(yùn)維人員的技能提升產(chǎn)生了多方面的影響。一方面,AI能夠幫助運(yùn)維人員更快獲取到相關(guān)的知識(shí)和方案。通過(guò)智能搜索和知識(shí)推薦系統(tǒng),運(yùn)維人員可以在海量的技術(shù)文檔和案例中迅速找到所需的信息,加速問(wèn)題的解決過(guò)程。例如,當(dāng)遇到一個(gè)復(fù)雜的系統(tǒng)故障時(shí),運(yùn)維人員可以利用AI驅(qū)動(dòng)的知識(shí)庫(kù),快速定位到類似的故障案例,并獲取詳細(xì)的解決方案,從而提高工作效率。
另一方面,由于AI及自動(dòng)化取代了較多的基礎(chǔ)運(yùn)維工作,運(yùn)維人員實(shí)際的操作機(jī)會(huì)變少了?;A(chǔ)工作被工具替代,雖然提升了整體效率,但也導(dǎo)致初級(jí)工程師學(xué)習(xí)的曲線變得非常陡峭。在傳統(tǒng)運(yùn)維模式下,初級(jí)工程師可以通過(guò)大量的基礎(chǔ)操作積累經(jīng)驗(yàn),逐步提升技能水平。
然而,在AI時(shí)代,許多基礎(chǔ)工作由自動(dòng)化工具完成,初級(jí)工程師缺乏實(shí)際操作的機(jī)會(huì),難以通過(guò)實(shí)踐積累經(jīng)驗(yàn)。這就要求運(yùn)維人員在學(xué)習(xí)過(guò)程中更加注重理論知識(shí)的學(xué)習(xí)和對(duì)復(fù)雜問(wèn)題的思考,通過(guò)參與高難度的項(xiàng)目和任務(wù),提升自己的技能水平。
此外,AI對(duì)運(yùn)維人員技能提升的影響還體現(xiàn)在對(duì)技能需求的變化上。隨著AI技術(shù)在運(yùn)維領(lǐng)域的廣泛應(yīng)用,對(duì)運(yùn)維人員的技能要求也發(fā)生了轉(zhuǎn)變。除了傳統(tǒng)的運(yùn)維技能外,運(yùn)維人員還需要掌握AI相關(guān)的知識(shí)和技能,如機(jī)器學(xué)習(xí)算法、數(shù)據(jù)處理、模型訓(xùn)練與部署等。這使得運(yùn)維人員需要不斷學(xué)習(xí)和更新自己的知識(shí)體系,以適應(yīng)新的技術(shù)要求。
以下是AI對(duì)運(yùn)維人員技能提升影響的具體表現(xiàn):
05.全局行動(dòng)框架:構(gòu)建抗風(fēng)險(xiǎn)的 AI 運(yùn)維體系
1)構(gòu)建“人機(jī)協(xié)同”安全網(wǎng)
為了確保 AI 在運(yùn)維工作中的安全、可靠應(yīng)用,需要構(gòu)建一個(gè)“人機(jī)協(xié)同”安全網(wǎng),合理分配人機(jī)在決策過(guò)程中的權(quán)限和職責(zé)。以下是人機(jī)決策權(quán)分配的具體原則:
2)數(shù)據(jù)治理體系升級(jí)
數(shù)據(jù)是 AI 的基石,構(gòu)建一個(gè)完善的數(shù)據(jù)治理體系對(duì)于提升 AI 運(yùn)維的效能至關(guān)重要。以下是數(shù)據(jù)治理體系升級(jí)的關(guān)鍵措施:
在數(shù)據(jù)治理體系升級(jí)的過(guò)程中,CMDB(配置管理數(shù)據(jù)庫(kù))和可觀測(cè)數(shù)據(jù)的治理是兩個(gè)重要的方面。
CMDB作為運(yùn)維數(shù)據(jù)的核心樞紐,其數(shù)據(jù)治理至關(guān)重要。以下是CMDB數(shù)據(jù)治理的具體措施:
可觀測(cè)數(shù)據(jù)治理旨在提升數(shù)據(jù)的質(zhì)量和可用性,以更好地支持AI模型的訓(xùn)練和推理。以下是可觀測(cè)數(shù)據(jù)治理的關(guān)鍵措施:
3)持續(xù)驗(yàn)證與反饋機(jī)制
為了不斷提升 AI 模型的性能和適應(yīng)性,需要建立持續(xù)驗(yàn)證與反饋機(jī)制,確保模型在實(shí)際應(yīng)用中的有效性和可靠性。以下是具體的實(shí)施策略:
06.即刻行動(dòng)清單
為了幫助運(yùn)維人員更好地應(yīng)對(duì) AI 時(shí)代的變革,以下是細(xì)化后的即刻行動(dòng)清單:
07.個(gè)人能力路線圖設(shè)計(jì)方法
1)基礎(chǔ)能力:通用大模型在運(yùn)維工作中的應(yīng)用
通用大模型在運(yùn)維工作中的應(yīng)用可以顯著提升工作效率和質(zhì)量。以下是一些具體的應(yīng)用場(chǎng)景和方法:
2)能力進(jìn)階:技術(shù)型運(yùn)維工程師
假設(shè)你是一名技術(shù)型運(yùn)維工程師,具備扎實(shí)的 DevOps 工具鏈技能,如熟練掌握 Jenkins、Kubernetes 等,但對(duì) AI 硬件基礎(chǔ)設(shè)施(如 GPU 集群調(diào)度)不夠熟悉,缺乏 AI 模型訓(xùn)練與調(diào)優(yōu)的經(jīng)驗(yàn)。
(1)分析自身當(dāng)前的技術(shù)能力
在制定個(gè)人技術(shù)路線圖之前,需要先對(duì)自己的技術(shù)能力進(jìn)行全面的評(píng)估。可以從以下幾個(gè)方面入手:
(2)根據(jù) AI 運(yùn)維的需求,確定需要提升的技能
根據(jù) AI 運(yùn)維的需求,結(jié)合自身的能力差距,確定需要提升的技能。主要可以從以下幾個(gè)方面考慮:
(3)示例:
針對(duì)上述技術(shù)型運(yùn)維工程師的能力差距,需要提升的技能包括:
(4)制定 6 個(gè)月內(nèi)的學(xué)習(xí)計(jì)劃,明確每個(gè)階段的目標(biāo)和任務(wù)
根據(jù)需要提升的技能,制定詳細(xì)的學(xué)習(xí)計(jì)劃,明確每個(gè)階段的目標(biāo)和任務(wù)。以下是一個(gè)示例學(xué)習(xí)計(jì)劃:
3)能力進(jìn)階:管理型運(yùn)維人員
(1)當(dāng)前能力評(píng)估
假設(shè)你是一名央國(guó)企的管理型運(yùn)維人員,具備以下能力:
(2)需要提升的技能
根據(jù) AI 運(yùn)維的需求,結(jié)合自身的能力差距,需要提升的技能包括:
(3)學(xué)習(xí)計(jì)劃
08.結(jié)語(yǔ):在變革中尋找第二成長(zhǎng)曲線
AI 不是運(yùn)維人員的替代者,而是一種需要被駕馭的新質(zhì)生產(chǎn)力工具。在 AI 時(shí)代的運(yùn)維變革浪潮中,無(wú)論是管理者還是工程師,都需要重新審視和定義自己的價(jià)值,積極尋找第二成長(zhǎng)曲線,實(shí)現(xiàn)個(gè)人和團(tuán)隊(duì)的可持續(xù)發(fā)展。
對(duì)于管理者而言,需要從傳統(tǒng)的“資源協(xié)調(diào)者”進(jìn)化為“技術(shù)戰(zhàn)略家”,具備敏銳的技術(shù)洞察力和前瞻性的戰(zhàn)略規(guī)劃能力,能夠準(zhǔn)確把握 AI 技術(shù)的發(fā)展趨勢(shì),并將其與企業(yè)的業(yè)務(wù)需求相結(jié)合,制定出切實(shí)可行的技術(shù)戰(zhàn)略。同時(shí),要構(gòu)建安全的人機(jī)協(xié)作框架,確保 AI 技術(shù)在提升運(yùn)維效率的同時(shí),不會(huì)給企業(yè)帶來(lái)不可控的風(fēng)險(xiǎn),保障企業(yè)的穩(wěn)定運(yùn)營(yíng)和長(zhǎng)遠(yuǎn)發(fā)展。
對(duì)于工程師而言,要在技術(shù)深度和跨域認(rèn)知兩個(gè)方面建立優(yōu)勢(shì)。在技術(shù)深度方面,深入學(xué)習(xí)和掌握 AI+運(yùn)維實(shí)踐的相關(guān)知識(shí)和技能,成為這一領(lǐng)域的專家,能夠熟練運(yùn)用 AI 技術(shù)解決實(shí)際運(yùn)維問(wèn)題。在跨域認(rèn)知方面,加強(qiáng)對(duì)業(yè)務(wù)需求的理解,了解企業(yè)的核心業(yè)務(wù)流程和關(guān)鍵績(jī)效指標(biāo),使運(yùn)維工作能夠更好地服務(wù)于業(yè)務(wù)發(fā)展,為企業(yè)創(chuàng)造更大的價(jià)值。
總之,拒絕被動(dòng)等待“人機(jī)替代”浪潮的到來(lái),主動(dòng)塑造未來(lái)運(yùn)維的新規(guī)則,才是運(yùn)維人員在 AI 時(shí)代贏得挑戰(zhàn)、實(shí)現(xiàn)自我價(jià)值提升的關(guān)鍵所在。只有積極擁抱變革,不斷提升自我,才能在運(yùn)維領(lǐng)域的廣闊天地中開(kāi)創(chuàng)更加美好的未來(lái)。
ITSM運(yùn)營(yíng):服務(wù)請(qǐng)求管理持續(xù)改進(jìn)
查看詳細(xì)
AI驅(qū)動(dòng)IT運(yùn)維轉(zhuǎn)型:從審批流到AI工作流
查看詳細(xì)
國(guó)產(chǎn)化替代實(shí)踐:嘉為藍(lán)鯨全棧智能觀測(cè)中心對(duì)比IBM Tivoli
查看詳細(xì)
嘉為藍(lán)鯨平臺(tái):三位一體,打造云原生數(shù)字化基座
查看詳細(xì)
嘉為藍(lán)鯨DevOps研發(fā)效能管理平臺(tái):AI賦能研運(yùn),效能再進(jìn)化
查看詳細(xì)
ITSM運(yùn)營(yíng):事件管理持續(xù)改進(jìn)
查看詳細(xì)
申請(qǐng)演示