La ความสามารถในการสังเกตการณ์ได้เปลี่ยนจากหัวข้อทางเทคนิคเฉพาะกลุ่มมาเป็นเสาหลักเชิงกลยุทธ์ สำหรับองค์กรใดๆ ที่พึ่งพาซอฟต์แวร์ ซึ่งแทบจะเป็นทุกองค์กร การ "เฝ้าติดตามเซิร์ฟเวอร์" หรือการดูแดชบอร์ดแบบแยกส่วนนั้นไม่เพียงพออีกต่อไปแล้ว บริษัทต่างๆ จำเป็นต้องเข้าใจสิ่งที่เกิดขึ้นภายในระบบของตนแบบเรียลไทม์ เชื่อมโยงข้อมูลเหล่านั้นเข้ากับธุรกิจ และตอบสนองอย่างรวดเร็วเมื่อมีสิ่งผิดปกติเกิดขึ้น และที่สำคัญที่สุด พวกเขาต้องทำเช่นนั้นในสภาพแวดล้อมที่ขับเคลื่อนด้วยซอฟต์แวร์มากขึ้นเรื่อยๆ ปัญญาประดิษฐ์แบบเอเจนต์ มาตรฐานแบบเปิด และสถาปัตยกรรมแบบกระจายศูนย์.
ในสถานการณ์นี้ แนวโน้มชัดเจนว่ามุ่งไปสู่ สามารถตรวจสอบได้อย่างเปิดเผยมากขึ้น เชื่อมโยงกับผลลัพธ์ทางธุรกิจอย่างใกล้ชิดยิ่งขึ้น และมีความเป็นอิสระมากขึ้นOpenTelemetry กำลังกลายเป็นภาษามาตรฐานสำหรับการส่งข้อมูลทางไกล (telemetry) ปัญญาประดิษฐ์ (AI) กำลังก้าวข้ามการทดลองไปสู่การบูรณาการเข้ากับแกนหลักของแพลตฟอร์มการตรวจสอบ และทีม ITops กำลังเปลี่ยนไปเป็นผู้จัดการระบบอัจฉริยะที่สามารถตรวจจับ วิเคราะห์ และแก้ไขปัญหาได้ด้วยตนเอง มาดูกันว่าการเปลี่ยนแปลงนี้เกิดขึ้นได้อย่างไร และมีผลกระทบต่อเทคโนโลยี ธุรกิจ ความปลอดภัย และการกำกับดูแลข้อมูลอย่างไรบ้าง
จากระบบเฝ้าระวังแบบดั้งเดิมสู่ยุคแห่งการสังเกตการณ์
วิวัฒนาการจาก การติดตามแบบดั้งเดิมสู่การสังเกตการณ์สมัยใหม่ เรื่องนี้ย้อนกลับไปไกลมาก เมื่อเครื่องมือ APM รุ่นบุกเบิกถือกำเนิดขึ้น เช่น เครื่องมือที่ Lew Cirne ทำให้เป็นที่นิยมด้วย New Relic ข่าวใหญ่ในตอนนั้นคือการที่สามารถมองเห็นรายละเอียดว่าโค้ดของแอปพลิเคชันแบบโมโนลิธกำลังทำอะไรอยู่ในศูนย์ข้อมูลของบริษัท นั่นเป็นการปฏิวัติวงการ: เป็นครั้งแรกที่ทีมงานสามารถสังเกตประสิทธิภาพของแอปพลิเคชันที่ใช้งานจริงได้อย่างละเอียดมากยิ่งขึ้น
ด้วยการมาถึงของ การประมวลผลแบบคลาวด์, ไมโครเซอร์วิส, คอนเทนเนอร์, การประมวลผลแบบไร้เซิร์ฟเวอร์ และแนวทางปฏิบัติของ DevOps และ SREภูมิทัศน์เปลี่ยนแปลงไปอย่างสิ้นเชิง การเปลี่ยนจากระบบแบบรวมศูนย์ไปสู่ระบบแบบกระจายศูนย์หมายความว่า การมองเห็นสถานะ ณ จุดเวลาใดเวลาหนึ่งนั้นไม่เพียงพออีกต่อไป บริการไม่ได้เป็นเพียงแอปพลิเคชันเดียวอีกต่อไป แต่เป็นกลุ่มของไมโครเซอร์วิสชั่วคราวจำนวนมาก ซึ่งได้รับการจัดการบนแพลตฟอร์มอย่าง Kubernetes ถูกปรับใช้หลายสิบครั้งต่อวัน และทำงานบนโครงสร้างพื้นฐานแบบไฮบริดที่มีผู้ให้บริการคลาวด์หลายราย
ในสภาพแวดล้อมเช่นนั้น การตรวจสอบแบบดั้งเดิมที่เน้นตัวชี้วัดที่กำหนดไว้ล่วงหน้าและการแจ้งเตือนแบบคงที่จึงไม่เพียงพอ การตรวจสอบได้ (Observability) นำเสนอแนวทางที่แตกต่างออกไป นั่นคือ การรวบรวมและเชื่อมโยงตัวชี้วัด บันทึก ข้อมูลการติดตาม และเหตุการณ์ต่างๆ เพื่อวิเคราะห์สถานะภายในของระบบจากผลลัพธ์ภายนอก ไม่ใช่แค่รู้ว่าบางอย่างล้มเหลว แต่เป็นการเข้าใจว่าทำไมจึงเกิดขึ้น และส่งผลกระทบต่อผู้ใช้และธุรกิจอย่างไร
ผู้เขียนชอบ ยูริ ชคูโร ความแตกต่างนี้สามารถสรุปได้ดีดังนี้: การตรวจสอบจะวัดสิ่งที่ได้กำหนดไว้ล่วงหน้าว่าเป็นสิ่งสำคัญ ในขณะที่การสังเกตการณ์จะช่วยให้คุณสามารถตั้งคำถามใหม่เกี่ยวกับระบบได้โดยไม่ต้องเตรียมตัวชี้วัดทั้งหมดไว้ล่วงหน้า กล่าวอีกนัยหนึ่งคือ ความสามารถในการสังเกตการณ์จะเปลี่ยนข้อมูลการวัดระยะทางให้เป็นบริบทที่นำไปใช้ได้จริง เพื่อการพัฒนา การดำเนินงาน และธุรกิจ
การเปลี่ยนแปลงนี้ยังได้รับแรงผลักดันจากปัจจัยเฉพาะเจาะจงหลายประการ ได้แก่ ก. แรงกดดันอย่างหนักให้คิดค้นนวัตกรรมอย่างรวดเร็วลูกค้าที่เรียกร้องมากขึ้นเรื่อยๆ ซึ่งมักเลิกใช้แอปพลิเคชันทันทีที่พบข้อผิดพลาดเพียงเล็กน้อย เทคโนโลยีและบริการจัดการที่มีให้เลือกมากมายแทบไม่จำกัด และการเติบโตอย่างต่อเนื่อง การทำให้กระบวนการพัฒนาซอฟต์แวร์ทั้งหมดเป็นไปโดยอัตโนมัติระบบอัตโนมัติทั้งหมดนั้นก็เป็นซอฟต์แวร์ที่อาจเกิดความผิดพลาดได้ และจำเป็นต้องมีระบบตรวจสอบการทำงานของมันเองด้วย
ความซับซ้อน ความเสี่ยง และเครื่องมือมากมายเกินไป: เหตุใดการตรวจสอบจึงมีความสำคัญอย่างยิ่ง

สถาปัตยกรรมสมัยใหม่ก่อให้เกิดปัญหาใหญ่สี่ประการที่ทำให้ ความสามารถในการสังเกตการณ์นั้นแทบจะเป็นสิ่งที่จำเป็นอย่างยิ่ง หากคุณต้องการรักษาการควบคุมไว้:
ก่อนอื่น ความซับซ้อนเพิ่มสูงขึ้นอย่างมากคอนเทนเนอร์อาจมีอายุเพียงไม่กี่นาทีหรือวินาที ไมโครเซอร์วิสอาจเปลี่ยนเวอร์ชันได้หลายครั้งต่อวัน และส่วนประกอบต่างๆ ก็เพิ่มจำนวนขึ้นเรื่อยๆ สิ่งที่เคยเป็นแอปพลิเคชันขนาดใหญ่กลายเป็นกลุ่มของบริการที่เชื่อมต่อถึงกัน ทีมปฏิบัติการพบว่าตนเองต้องรับมือกับเอนทิตีที่เปลี่ยนแปลงอยู่ตลอดเวลานับร้อยหรือนับพันรายการ ซึ่งหลายรายการนั้นพวกเขาไม่ได้พัฒนาขึ้นเอง
นอกจากนี้ ความเสี่ยงที่เพิ่มขึ้นอย่างชัดเจนการปรับใช้ระบบหลายครั้งต่อวันหมายถึงการเปลี่ยนแปลงอย่างต่อเนื่อง และอาจต้องย้อนกลับไปใช้เวอร์ชันก่อนหน้า แนวทางปฏิบัติแบบ Agile และการส่งมอบอย่างต่อเนื่อง (Continuous Delivery) เพิ่มเครื่องมือ กระบวนการทำงาน และระบบอัตโนมัติมากขึ้น ซึ่งจำเป็นต้องนำมาพิจารณาด้วย ความสามารถในการตรวจจับปัญหา ระบุสาเหตุที่แท้จริง และย้อนกลับหรือแก้ไขปัญหาได้ภายในไม่กี่นาที ไม่ใช่เพียงแค่สิ่งที่พึงปรารถนาอีกต่อไป แต่เป็นสิ่งจำเป็น
ในขณะเดียวกัน ช่องว่างทักษะเทคโนโลยีที่ใช้มีความซับซ้อนมากจนเป็นไปไม่ได้ที่คนเพียงคนเดียวจะเชี่ยวชาญทั้งฐานข้อมูล เครือข่าย API ความปลอดภัย คอนเทนเนอร์ แพลตฟอร์มการจัดการ และเครื่องมือ CI/CD จึงจำเป็นต้องมีกลไกเพื่อช่วยให้เข้าใจว่าทุกอย่างเชื่อมโยงกันอย่างไร อะไรขึ้นอยู่กับอะไร และควรตรวจสอบที่ไหนเมื่อเกิดปัญหา หากไม่มีมุมมองที่เชื่อมโยงกันนี้ เวลาที่เสียไปกับการสลับไปมาระหว่างเครื่องมือต่างๆ อาจมากมายมหาศาล
และยิ่งไปกว่านั้น ปัญหาต่างๆ ก็เกิดขึ้นตามมาด้วย “เครื่องมือเยอะเกินไป” หรือมีเครื่องมือมากเกินไปแต่ละชั้นของระบบจะมีโซลูชันการตรวจสอบของตัวเอง: โซลูชันหนึ่งสำหรับฐานข้อมูล อีกโซลูชันหนึ่งสำหรับโครงสร้างพื้นฐาน อีกโซลูชันหนึ่งสำหรับส่วนหน้า อีกโซลูชันหนึ่งสำหรับบันทึก อีกโซลูชันหนึ่งสำหรับการติดตาม... การเชื่อมโยงข้อมูลระหว่างโซลูชันเหล่านี้เกี่ยวข้องกับการสลับบริบทอย่างต่อเนื่อง การค้นหาด้วยตนเอง และเวลาในการแก้ไขปัญหาที่ยาวนานขึ้น ซึ่งเป็นสิ่งที่ตรงกันข้ามกับสิ่งที่จำเป็นเมื่อแอปพลิเคชันล่มและผู้ใช้กำลังร้องเรียน
คำตอบของเรื่องทั้งหมดนี้อยู่ที่... แพลตฟอร์มการตรวจสอบแบบครบวงจร ระบบนี้รวบรวมข้อมูลการวัดระยะทางที่เกี่ยวข้องทั้งหมด เชื่อมโยงข้อมูลเหล่านั้นกับหน่วยงานที่สร้างข้อมูล และช่วยให้ทุกทีม ไม่ว่าจะเป็นทีมพัฒนา ทีมปฏิบัติการ ทีมรักษาความปลอดภัย หรือทีมธุรกิจ สามารถสำรวจและใช้ประโยชน์จากข้อมูลเหล่านั้นได้จากที่เดียว ซึ่งรวมถึงไม่เพียงแต่ตัวชี้วัดประสิทธิภาพเท่านั้น แต่ยังรวมถึงเหตุการณ์และสัญญาณทางธุรกิจที่แสดงให้เห็นถึงผลกระทบทางเศรษฐกิจของแต่ละเหตุการณ์ด้วย
OpenTelemetry เป็นภาษากลางของการตรวจสอบ
หนึ่งในแนวโน้มที่ชัดเจนที่สุดคือการรวมตัวกันของ OpenTelemetry (OTel) คือมาตรฐานการวัดระยะทางแบบเปิดเป็นเฟรมเวิร์กโอเพนซอร์สที่กำหนด API, SDK และส่วนประกอบต่างๆ เพื่อรวบรวมเมตริก บันทึก และข้อมูลการติดตามในรูปแบบที่เป็นเนื้อเดียวกัน โดยไม่ผูกติดกับผู้ผลิตเครื่องมือตรวจสอบระบบรายใดรายหนึ่งโดยเฉพาะ
คาดว่าในปีต่อๆ ไป บริษัทต่างๆ ต้องการความเข้ากันได้กับ OpenTelemetry ให้กับผู้จำหน่าย เหตุผลนั้นง่ายมาก: โดยการใช้ "ภาษาที่เป็นสากล" ในการอธิบายข้อมูลการวัดระยะไกล องค์กรสามารถเปลี่ยนแพลตฟอร์มการตรวจสอบได้โดยไม่ต้องเขียนโค้ดใหม่หรือติดตั้งเครื่องมือใหม่ทั้งหมด ซึ่งจะช่วยลดความเสี่ยงจากการผูกขาดผู้จำหน่าย และให้ความยืดหยุ่นในการพัฒนาระบบตามความต้องการ
ตรงกันข้ามกับโซลูชันที่เป็นกรรมสิทธิ์โดยสมบูรณ์ ซึ่งการผสานรวมใหม่แต่ละครั้งขึ้นอยู่กับแผนงานของผู้ผลิต OTel สิ่งนี้ช่วยให้ระบบบูรณาการสามารถคงอยู่ได้แม้เทคโนโลยีจะเปลี่ยนแปลงไปเมื่อมีบริการคลาวด์ เฟรมเวิร์ก หรือรันไทม์ใหม่ๆ เกิดขึ้น พวกมันก็เพียงแค่ต้องส่งข้อมูลการวัดผลในรูปแบบมาตรฐาน เพื่อให้สามารถส่งไปยังแบ็กเอนด์ที่เข้ากันได้ทุกตัว
นอกจากนี้ การใช้ OpenTelemetry เป็นสิ่งสำคัญอย่างยิ่งต่อ ป้อนข้อมูลให้กับปัญญาประดิษฐ์อย่างเหมาะสมโมเดล AI ไม่ว่าจะเป็นแมชชีนเลิร์นนิงแบบดั้งเดิม การตรวจจับความผิดปกติ หรือ AI แบบสร้างข้อมูล จะทำงานได้ดีที่สุดเมื่อข้อมูลสะอาด มีโครงสร้าง และสม่ำเสมอ OTel มอบกรอบการทำงานที่เป็นมาตรฐานนั้นสำหรับการสร้างและติดป้ายกำกับข้อมูลโทรมาตร ซึ่งอัลกอริทึมจะนำไปประมวลผลต่อไป
ผลการศึกษาล่าสุดชี้ให้เห็นว่า องค์กรที่ใช้งาน OpenTelemetry อยู่แล้วแม้ว่าจะนำไปใช้เพียงบางส่วน พวกเขาก็เห็นผลกระทบเชิงบวกต่อตัวชี้วัดต่างๆ เช่น การเติบโตของรายได้ อัตรากำไรจากการดำเนินงานที่ดีขึ้น และชื่อเสียงของแบรนด์ นี่ไม่ใช่เรื่องมหัศจรรย์: การมีฐานข้อมูลการตรวจสอบที่สม่ำเสมอและพกพาได้ ทำให้ตรวจจับปัญหาได้ง่ายขึ้นก่อนที่จะส่งผลกระทบต่อลูกค้า และเพิ่มประสิทธิภาพของบริการหลักๆ ได้
สามเสาหลักของการปฏิบัติงานด้านการตรวจสอบที่ทันสมัย
นอกเหนือจากการนำมาตรฐานอย่าง OTel มาใช้แล้ว แนวทางปฏิบัติด้านการตรวจสอบที่ดีนั้นยังต้องอาศัยสิ่งต่อไปนี้ด้วย สามองค์ประกอบพื้นฐานที่ส่งเสริมซึ่งกันและกัน: การวัดแบบเปิด, เอนทิตี (หรือข้อมูลที่เชื่อมต่อกัน) และความสามารถในการเขียนโปรแกรม
La เครื่องมือวัดแบบเปิด กระบวนการนี้เกี่ยวข้องกับการรวบรวมข้อมูลการวัดระยะทางจากทั้งเอเจนต์ที่เป็นกรรมสิทธิ์และเอเจนต์โอเพนซอร์ส แอปพลิเคชัน บริการ โฮสต์ คอนเทนเนอร์ ฟังก์ชันไร้เซิร์ฟเวอร์ แอปมือถือ บริการคลาวด์แบบจัดการ ทุกอย่างต้องสามารถส่งเมตริก เหตุการณ์ บันทึก และร่องรอยในรูปแบบที่สามารถกำหนดมาตรฐานได้ นี่คือจุดที่เอเจนต์จากผู้จำหน่ายแบบดั้งเดิมเข้ามามีบทบาท รวมถึงตัวส่งออกและไลบรารีจาก OpenTelemetry และโครงการโอเพนซอร์สอื่นๆ ด้วย
ส่วนที่สองคือส่วนของ เอนทิตีที่เชื่อมโยงและเมตาเดตาการรวบรวมข้อมูลตัวชี้วัดและบันทึกต่างๆ เพียงอย่างเดียวไม่เพียงพอ คุณต้องเข้าใจว่าใครเป็นผู้สร้างข้อมูลเหล่านั้น และข้อมูลเหล่านั้นมีความสัมพันธ์กันอย่างไร ซึ่งต้องอาศัยการระบุบริการ ฐานข้อมูล คิว ฟังก์ชัน พอด คลัสเตอร์ บัญชีคลาวด์ และเชื่อมโยงข้อมูลการวัดและส่วนที่เกี่ยวข้องเข้าด้วยกัน ด้วยบริบทนี้ แพลตฟอร์มจะสามารถแสดงแผนผังสถาปัตยกรรม แผนผังการไหลของการโทร และไทม์ไลน์ของเหตุการณ์ได้โดยอัตโนมัติ โดยที่ทีมไม่ต้องตั้งค่าทุกอย่างด้วยตนเอง
จากนั้นจึงสามารถนำไปประยุกต์ใช้ได้ ความฉลาดและการวิเคราะห์ขั้นสูงด้วยการระบุรูปแบบ ความผิดปกติ และความสัมพันธ์ภายในชุดข้อมูล แพลตฟอร์มการสังเกตการณ์สามารถช่วยจัดลำดับความสำคัญของการแจ้งเตือน ลดสัญญาณรบกวน ตรวจจับเหตุการณ์ที่ซับซ้อน และเร่งการวิเคราะห์สาเหตุที่แท้จริง นี่คือเส้นทางที่เป็นธรรมชาติไปสู่การสังเกตการณ์เชิงรุกที่เพิ่มมากขึ้น และดังที่เราจะเห็นในภายหลัง ไปสู่ความเป็นอิสระของตัวแทน (agentic autonomy)
ในที่สุดก็มี ความสามารถในการตั้งโปรแกรมทุกธุรกิจมีความต้องการเฉพาะเจาะจง: ตัวชี้วัดประสิทธิภาพ (KPI) ของตนเอง กระบวนการสำคัญที่แตกต่างกัน และรูปแบบต้นทุนที่เป็นเอกลักษณ์ แพลตฟอร์มการตรวจสอบที่ทันสมัยต้องอนุญาตให้สร้างแอปพลิเคชันและมุมมองที่กำหนดเองบนพื้นฐานของข้อมูลการวัดทั้งหมด: แดชบอร์ดที่ผสมผสานข้อมูลทางเทคนิคกับตัวชี้วัดทางธุรกิจ การวิเคราะห์ผลกระทบทางเศรษฐกิจของการหยุดชะงักหรือความเสื่อมสภาพ หรือแอปพลิเคชันภายในเพื่อตรวจสอบเหตุการณ์ที่ซับซ้อนตามขั้นตอนการทำงานของบริษัท
ความสามารถในการ "ตั้งโปรแกรม" บนข้อมูลการสังเกตการณ์นี้ เปิดโอกาสให้เกิดกรณีการใช้งานต่างๆ เช่น ประเมินต้นทุนที่แท้จริงของข้อผิดพลาด ในกระบวนการชำระเงิน ให้เชื่อมโยงปัญหากับสาเหตุทางเทคนิค (ตัวอย่างเช่น ข้อผิดพลาดในไมโครเซอร์วิสการชำระเงิน) และจัดลำดับความสำคัญของความพยายามในการแก้ไขโดยพิจารณาจากผลกระทบทางเศรษฐกิจเพียงอย่างเดียว
การตรวจสอบเชิงธุรกิจ: จากคอนโซลสู่ผลลัพธ์
หนึ่งในความเปลี่ยนแปลงครั้งสำคัญที่คาดการณ์ไว้คือการเปลี่ยนจากแบบหนึ่งไปสู่อีกแบบหนึ่ง การตรวจสอบมุ่งเน้นไปที่การดำเนินงานทางเทคนิค ไปสู่แนวทางที่มุ่งเน้นธุรกิจอย่างชัดเจน ข้อมูลชุดเดียวกัน—บันทึกข้อมูล ร่องรอย ตัวชี้วัด เหตุการณ์—เริ่มถูกนำมาใช้ไม่เพียงแต่เพื่อบำรุงรักษาโครงสร้างพื้นฐานเท่านั้น แต่ยังรวมถึงเพื่อ... ตอบคำถามสำคัญเกี่ยวกับรายได้ ต้นทุน และประสบการณ์ของผู้ใช้.
ตัวอย่างเช่น ในภาคอุตสาหกรรม ความสามารถในการตรวจสอบของเซ็นเซอร์ IoT ช่วยให้ คาดการณ์ความล้มเหลวของเครื่องจักร และปรับแผนการบำรุงรักษาให้เหมาะสม หากตรวจพบรูปแบบการสั่นสะเทือนที่ผิดปกติหรืออุณหภูมิที่อยู่นอกช่วงที่กำหนด สามารถกำหนดเวลาการแก้ไขได้ก่อนที่สายการผลิตจะหยุดลง เพื่อป้องกันการหยุดทำงานโดยไม่คาดคิดและผลกระทบทางเศรษฐกิจที่ตามมา
ในภาคการเงิน การวิเคราะห์แบบเรียลไทม์ บันทึกธุรกรรม ระบบนี้ช่วยระบุธุรกรรมที่น่าสงสัยซึ่งอาจเกี่ยวข้องกับการฉ้อโกง เมื่อระบบตรวจพบลำดับเหตุการณ์ที่ผิดปกติ ตำแหน่งทางภูมิศาสตร์ที่ไม่ธรรมดา หรือจำนวนเงินที่ผิดไปจากรูปแบบปกติ ระบบสามารถเรียกใช้กลไกการบล็อกอัตโนมัติหรือตรวจสอบด้วยตนเองก่อนที่การโจมตีจะประสบความสำเร็จ
ในด้านการตลาดและการขาย การเชื่อมโยงความสัมพันธ์ระหว่าง การติดตามแอปพลิเคชันพร้อมเมตริกแคมเปญ ระบบนี้ช่วยให้คุณตอบคำถามที่ตรงไปตรงมาได้ เช่น ความล่าช้าของเว็บไซต์ส่งผลต่ออัตราการคลิกหรือการแปลงหรือไม่? ฟีเจอร์เวอร์ชันใดช่วยปรับปรุงการนำทางและระยะเวลาการใช้งานได้ดีที่สุด? หากประสิทธิภาพลดลงระหว่างแคมเปญ การตรวจสอบจะช่วยระบุจำนวนยอดขายที่อาจเกิดขึ้นที่สูญเสียไป และปัญหาเกิดขึ้นที่จุดใดในกระบวนการขายอย่างแม่นยำ
ทั้งหมดนี้เกี่ยวข้องกับการแปลงข้อมูลการวัดทางเทคนิคให้เป็นรูปแบบต่างๆ ความรู้ที่นำไปใช้ได้จริงสำหรับผู้นำทางธุรกิจประเด็นสำคัญไม่ได้อยู่ที่การแสดงกราฟการใช้งาน CPU ให้ผู้จัดการฝ่ายขายดู แต่เป็นการแสดงให้เห็นว่ามีธุรกรรมกี่รายการที่ล้มเหลวเนื่องจากคุณภาพการบริการลดลง และค่าใช้จ่ายโดยประมาณคือเท่าใด และเพื่อให้บรรลุเป้าหมายนี้ ระบบการตรวจสอบจะต้องเชื่อมโยงข้อมูลทางเทคนิค เหตุการณ์ของผู้ใช้ และตัวชี้วัดทางธุรกิจเข้าไว้ในโมเดลเดียวกัน
บริษัทที่ปรึกษาที่เชี่ยวชาญด้านการตรวจสอบ เช่น Nettaro กำลังให้ความช่วยเหลือบริษัทและสถาบันต่างๆ อยู่แล้ว เพื่อก้าวข้ามจากวิสัยทัศน์เชิงปฏิบัติการล้วนๆ ไปสู่วิสัยทัศน์เชิงกลยุทธ์ออกแบบโมเดลที่เชื่อมโยงตัวชี้วัดประสิทธิภาพทางธุรกิจ (KPI) กับสัญญาณข้อมูลทางไกลแบบเรียลไทม์
จาก AIOps สู่การตรวจสอบเอเจนต์
การรับบุตรบุญธรรมของ ปัญญาประดิษฐ์ในแพลตฟอร์มการสังเกตการณ์ ปัจจุบันนี้มันกลายเป็นความจริงแล้ว ทีม ITOps ส่วนใหญ่ได้นำส่วนประกอบ AIOps ซึ่งเป็นอัลกอริธึมที่วิเคราะห์ข้อมูลการดำเนินงานจำนวนมากเพื่อตรวจจับความผิดปกติ จัดกลุ่มเหตุการณ์ หรือคาดการณ์ปัญหา เข้ามาใช้ในขั้นตอนการทำงานของตนแล้ว
ในหลายกรณี ก็มีการบูรณาการเข้าด้วยกันด้วยเช่นกัน กำเนิดAI เพื่อโต้ตอบกับข้อมูลการวัดระยะทางโดยใช้ภาษาธรรมชาติ: ถามคำถามแบบสนทนา เช่น "ทำไมจำนวนข้อผิดพลาด 500 ครั้งถึงเพิ่มขึ้นในยุโรปเมื่อ 20 นาทีที่แล้ว?" และรับคำอธิบายโดยอิงจากบันทึก ข้อมูลตัวชี้วัด และร่องรอย โดยไม่ต้องสร้างคำสั่งค้นหาที่ซับซ้อน
อย่างไรก็ตาม ในปัจจุบัน การตัดสินใจส่วนใหญ่ขึ้นอยู่กับปัญญาประดิษฐ์ (AI) ผู้คนยังคงตรวจสอบสิ่งเหล่านี้อย่างต่อเนื่องอัลกอริทึมช่วยกรองสิ่งรบกวนและระบุสาเหตุที่เป็นไปได้ แต่ทีมปฏิบัติการยังคงควบคุม ตรวจสอบความถูกต้องของคำแนะนำ และดำเนินการแก้ไขหลายอย่างด้วยตนเอง ความไว้วางใจอย่างเต็มที่ต่อการตัดสินใจอัตโนมัติยังคงมีข้อจำกัด
นี่คือที่ที่ ความสามารถในการสังเกตการณ์ของเอเจนต์นี่คือแนวทางที่ตัวแทน AI มีบทบาทที่เป็นอิสระมากขึ้น: พวกมันไม่เพียงแต่ตรวจจับรูปแบบและอธิบายสิ่งที่เกิดขึ้นเท่านั้น แต่ยัง... พวกเขาจัดการเวิร์กโฟลว์ทั้งหมดตั้งแต่การระบุข้อผิดพลาดไปจนถึงการดำเนินการแก้ไขที่เหมาะสม
ในแบบจำลองนี้ เอเจนต์สามารถตรวจจับการเพิ่มขึ้นที่ผิดปกติของเวลาแฝงของบริการที่สำคัญ เชื่อมโยงกับระบบที่ใช้งานจริง ตรวจสอบประวัติเหตุการณ์ที่คล้ายคลึงกัน และตัดสินใจด้วยตนเองว่าควรดำเนินการอย่างไรต่อไป เริ่มการย้อนกลับ ปรับขนาดความจุ หรือใช้การกำหนดค่าทางเลือกอื่นข้อมูลทั้งหมดนี้จะถูกบันทึกไว้อย่างละเอียดเพื่อใช้ในการตรวจสอบและอาจมีการทบทวนโดยมนุษย์ในภายหลัง
ปัจจุบัน มีบริษัทเพียงส่วนน้อยเท่านั้นที่ใช้เทคโนโลยีนี้ ความสามารถในการสังเกตการณ์ของเอเจนต์ที่ใช้งานอยู่ด้วยระบบแก้ไขปัญหาอัตโนมัติและการคาดการณ์ปัญหาขั้นสูง แต่การคาดการณ์ชี้ให้เห็นว่าการนำไปใช้จะเติบโตขึ้นอย่างมาก โดยได้รับแรงผลักดันจากการแสวงหาประสิทธิภาพการทำงานที่มากขึ้นในทีมไอทีและความต้องการที่จะลดเวลาที่พวกเขาใช้ไปกับงานบำรุงรักษาซ้ำซาก
ข้อจำกัดของการกำกับดูแลด้วยตนเองและความจำเป็นในการมีอิสระในการตัดสินใจ
เราจะเข้าใจความต้องการตัวแทนอิสระได้ดียิ่งขึ้นหากเราพิจารณากรณีสุดขั้ว เช่น กรณีต่อไปนี้ ความสามารถในการสังเกตการณ์ของแบบจำลองภาษาขนาดใหญ่ (LLM)การตรวจสอบระบบประเภทนี้ด้วยตนเองเป็นงานที่แทบเป็นไปไม่ได้ เนื่องจากปริมาณข้อมูลมหาศาล สถาปัตยกรรมประกอบด้วยส่วนประกอบแบบกระจายหลายส่วน และจำเป็นต้องมีการตรวจสอบแบบเรียลไทม์อย่างต่อเนื่อง
ความอุดมสมบูรณ์ของข้อมูลและตัวชี้วัดทำให้... การระบุปัญหาด้วยตนเองนั้นช้ามากความล่าช้าใดๆ ในการตรวจจับการเปลี่ยนแปลงพฤติกรรม การเพิ่มขึ้นของข้อผิดพลาด หรือการลดลงของคุณภาพการตอบสนอง อาจส่งผลร้ายแรงต่อสภาพแวดล้อมการผลิต ทั้งในแง่ของประสบการณ์ของผู้ใช้ ชื่อเสียง และการปฏิบัติตามกฎระเบียบ
นอกจากนี้ การสังเกตด้วยตนเองยังต้องใช้ทรัพยากรบุคคลจำนวนมาก มีแนวโน้มที่จะเกิดข้อผิดพลาดและไม่สามารถขยายขนาดได้ดี เมื่อจำนวนโมเดล อินสแตนซ์ หรือการบูรณาการกับแอปพลิเคชันทางธุรกิจเพิ่มมากขึ้น สิ่งที่อาจได้ผลในโครงการนำร่องกับผู้ใช้เพียงไม่กี่ราย อาจกลายเป็นปัญหาคอขวดเมื่อระบบถูกนำไปใช้ทั่วทั้งองค์กร
ดังนั้น ในสภาพแวดล้อมที่ซับซ้อน เช่น สภาพแวดล้อมที่เกี่ยวข้องกับ LLM หรือสถาปัตยกรรมแบบกระจายตัวสูง ความจำเป็นสำหรับ โซลูชันการสังเกตการณ์แบบอัตโนมัติเรากำลังพูดถึงระบบที่มีความสามารถในการวิเคราะห์ข้อมูลทางไกลอย่างต่อเนื่อง ตรวจจับความผิดปกติ เสนอหรือดำเนินการแก้ไข และเรียนรู้จากแต่ละการดำเนินการเพื่อปรับปรุงประสิทธิภาพให้ดียิ่งขึ้นเมื่อเวลาผ่านไป
ตัวแทนการมองเห็นและการกระทำ รวมถึงระบบอัตโนมัติบนอินเทอร์เฟซ
ความก้าวหน้าของ AI ไม่ได้จำกัดอยู่แค่ในขอบเขตของการสังเกตการณ์แบบ "ดั้งเดิม" เท่านั้น งานวิจัยจากบริษัทต่างๆ เช่น NVIDIA กับโครงการต่างๆ เช่น ไนโตรเจน เป็นการพัฒนาโมเดลขับเคลื่อนที่ผสานความสามารถในการมองเห็นและการกระทำเข้าด้วยกัน กล่าวคือ เอージェนต์ที่สังเกตหน้าจอ อนุมานสถานะของสภาพแวดล้อม และตัดสินใจว่าจะทำอะไรต่อไป โดยไม่ต้องมีการบูรณาการเฉพาะเจาะจงกับระบบที่พวกมันควบคุมอยู่
ในทางเทคนิคแล้ว ขั้นตอนนี้เกี่ยวข้องกับการฝึกฝนโมเดลด้วย คลังวิดีโอขนาดใหญ่เกี่ยวกับเกมหรือปฏิสัมพันธ์ต่างๆ เพื่อให้พวกเขาเรียนรู้ที่จะเชื่อมโยงสิ่งที่พวกเขาเห็นกับการกระทำที่ผู้เชี่ยวชาญจะทำ พวกเขาทำงานเกี่ยวกับลำดับเวลา การแบ่งการเคลื่อนไหว เป้าหมายระยะยาว และการเพิ่มประสิทธิภาพภายใต้ข้อจำกัดหลายประการ เช่น ความหน่วงหรือความเสถียร
แม้ว่าตัวอย่างที่เห็นได้ชัดที่สุดคือเกม แต่แนวทางการมองการณ์ไกลและลงมือปฏิบัติแบบนี้มีศักยภาพมหาศาลในธุรกิจ: มันช่วยให้สามารถสร้างสรรค์สิ่งต่างๆ ได้ เอเจนต์ที่ทำงานบนอินเทอร์เฟซแบบกราฟิก โดยทั่วไปแล้ว การใช้งานแอปพลิเคชันที่ซับซ้อน การเรียกใช้ขั้นตอนซ้ำๆ การตรวจสอบความถูกต้องของกระบวนการ หรือการทำการทดสอบแบบครบวงจรโดยไม่จำเป็นต้องใช้ API เฉพาะเจาะจง
นี่แสดงให้เห็นถึงวิวัฒนาการตามธรรมชาติของ RPA แบบดั้งเดิมไปสู่รูปแบบใหม่ ระบบอัตโนมัติที่ชาญฉลาดและสอดคล้องกับบริบทมากขึ้นตัวอย่างการใช้งานทั่วไป ได้แก่ การทดสอบซอฟต์แวร์อัตโนมัติที่จำลองพฤติกรรมของผู้ใช้จริง การสนับสนุนแบบมีคำแนะนำที่จำลองขั้นตอนการคลิกทีละขั้นตอนที่พนักงานควรทำ การสร้างข้อมูลสังเคราะห์สำหรับการควบคุมคุณภาพ หรือ "ดิจิทัลทวิน" ที่จำลองกิจกรรมของมนุษย์ในระบบขององค์กร
เพื่อให้ทุกอย่างเป็นไปได้ด้วยดี จำเป็นต้องมี กรอบการทำงานที่แข็งแกร่งสำหรับการรักษาความปลอดภัยทางไซเบอร์ การกำกับดูแล และการตรวจสอบเอเจนต์ที่ติดต่อกับอินเทอร์เฟซและระบบที่สำคัญต้องปฏิบัติตามนโยบายการเข้าถึง หลีกเลี่ยงการกระทำที่เป็นอันตราย บันทึกทุกขั้นตอนเพื่อวัตถุประสงค์ในการตรวจสอบ และดำเนินการภายในขอบเขตที่กำหนดไว้อย่างชัดเจน การตรวจสอบได้ในที่นี้ทำหน้าที่ทั้งเป็น "กล่องดำ" และ "กล่องเครื่องมือ": มันบันทึกสิ่งที่เอเจนต์ทำและให้ข้อมูลเพื่อปรับเทียบและปรับปรุงพฤติกรรมของมัน
ความปลอดภัย การกำกับดูแล และความไว้วางใจเป็นศูนย์ในยุคของเอเจนต์ AI
การขยายตัวของปัญญาประดิษฐ์เชิงตัวแทนและระบบอัตโนมัตินำมาซึ่งสิ่งต่างๆ มากมาย ความเสี่ยงใหม่ที่ต้องได้รับการจัดการอย่างระมัดระวังหนึ่งในประเด็นที่ถูกพูดถึงมากที่สุดคือสิ่งที่เรียกว่า "AI เงา": เอเจนต์ โมเดล หรือระบบบูรณาการที่ถูกเปิดใช้งานนอกช่องทางอย่างเป็นทางการขององค์กร โดยปราศจากมาตรการรักษาความปลอดภัยหรือการปฏิบัติตามกฎระเบียบที่เพียงพอ
นอกจากนี้ยังมีความเสี่ยงอีกด้วย สายลับสองหน้าหรือสายลับที่ประสงค์ร้ายสิ่งนี้อาจเกิดขึ้นได้ทั้งจากการออกแบบ (การโจมตีจากภายนอก การเปลี่ยนแปลงข้อความแจ้งเตือน การแทรกคำสั่ง) หรือเนื่องจากข้อผิดพลาดในการกำหนดค่าที่ทำให้ระบบที่มีเจตนาดีสามารถกระทำการที่ไม่พึงประสงค์ได้ เพื่อลดความเสี่ยงเหล่านี้ จึงเป็นสิ่งสำคัญที่จะต้องนำหลักการของ Zero Trust โดยเฉพาะอย่างยิ่งในส่วนที่เกี่ยวข้องกับปัญญาประดิษฐ์.
ในบริบทนี้ Zero Trust หมายความว่า ไม่มีเอเจนต์หรือส่วนประกอบ AI ใดที่ถือว่า "น่าเชื่อถือ" โดยค่าเริ่มต้นทุกการกระทำต้องได้รับการอนุมัติอย่างชัดเจน สิทธิ์การเข้าถึงต้องจำกัดให้เหลือเพียงสิ่งที่จำเป็นขั้นต่ำ (หลักการสิทธิ์ขั้นต่ำสุด) และการปฏิสัมพันธ์ทั้งหมดต้องถูกบันทึกไว้เพื่อตรวจสอบในภายหลัง ดังนั้น ความสามารถในการสังเกตการณ์จึงกลายเป็นองค์ประกอบสำคัญของการกำกับดูแล AI
การมีระบบสังเกตการณ์ที่ดีช่วยให้สามารถตรวจสอบการทำงานของเอเจนต์แบบเรียลไทม์ ตรวจจับพฤติกรรมที่ผิดปกติ ตรวจสอบความถูกต้องของนโยบายการเข้าถึง และมีหลักฐานครบถ้วนในกรณีที่เกิดเหตุการณ์ เครื่องมือต่างๆ เช่น รายการการกระทำที่ได้รับอนุญาต การตรวจสอบลูปที่สำคัญโดยมนุษย์ การตรวจสอบความถูกต้องของข้อมูลที่ละเอียดอ่อน และการควบคุมตำแหน่งที่ตั้งของการประมวลผล (ภายในองค์กร คลาวด์สาธารณะ คลาวด์ส่วนตัว) ล้วนเป็นองค์ประกอบสำคัญของรายการตรวจสอบที่แข็งแกร่ง การกำกับดูแล AI ที่มีประสิทธิภาพ.
ในสถานการณ์นี้ การค้นหาเป็นสิ่งสำคัญอย่างยิ่ง ความสมดุลระหว่างนวัตกรรมและการควบคุมองค์กรต่างๆ ต้องการใช้ศักยภาพของ AI เชิงตัวแทนอย่างเต็มที่ เพื่อเพิ่มผลผลิตและความสามารถในการแข่งขัน โดยไม่ลดทอนความปลอดภัย การปฏิบัติตามกฎระเบียบ หรือความโปร่งใสในการตัดสินใจอัตโนมัติ
ข้อมูล โครงสร้างพื้นฐาน และปัญญาประดิษฐ์ (AI) คือรากฐานสำคัญของธุรกิจ
เมื่อมองในภาพรวม ปัญญาประดิษฐ์กำลังพัฒนาจากเครื่องมือเสริมไปสู่การเป็นส่วนสำคัญ ชั้นโครงสร้างพื้นฐานที่เป็นรากฐานของความสามารถในการแข่งขันทางเศรษฐกิจทุกสิ่งทุกอย่างล้วนเกี่ยวข้องกับการเปลี่ยนแปลงครั้งนั้น ไม่ว่าจะเป็นกลยุทธ์ด้านข้อมูล สถาปัตยกรรมคลาวด์ การออกแบบฮาร์ดแวร์ รูปแบบกำลังคน และแม้กระทั่งนโยบายระดับชาติเกี่ยวกับโครงสร้างพื้นฐานดิจิทัล
ในแง่หนึ่ง ข้อมูลถูกรวบรวมไว้เป็นปัจจัยสำคัญในการสร้างความได้เปรียบในการแข่งขันเมื่อการคำนวณและการสร้างแบบจำลองกลายเป็นสินค้าทั่วไปมากขึ้น สิ่งที่สร้างความแตกต่างคือการมีข้อมูลคุณภาพสูงและมีการจัดการที่ดีเป็นของตนเอง ความสามารถในการสังเกตการณ์ โดยการเก็บรวบรวมข้อมูลทางไกลที่ครบถ้วนและมีบริบท จะกลายเป็นแหล่งข้อมูลที่มีค่าที่สุดแหล่งหนึ่งสำหรับ ระบบ AI ที่ทรงพลัง และปรับปรุงกระบวนการให้ดียิ่งขึ้น
ในทางกลับกันไฟล์ โครงสร้างพื้นฐานด้านปัญญาประดิษฐ์เริ่มถูกมองว่าเป็นสินทรัพย์เชิงกลยุทธ์ของชาติการเกิดขึ้นของระบบคลาวด์แบบอธิปไตยเกิดขึ้นจากความต้องการควบคุมสถานที่จัดเก็บและประมวลผลข้อมูลที่ละเอียดอ่อน วิธีการฝึกอบรมโมเดล และกรอบการกำกับดูแลที่ระบบเหล่านั้นดำเนินการ ประเทศต่างๆ กำลังลงทุนในศูนย์ข้อมูลที่ได้รับการปรับให้เหมาะสมสำหรับงานด้านปัญญาประดิษฐ์ ประหยัดพลังงาน และสอดคล้องกับข้อกำหนดด้านการปฏิบัติตามกฎระเบียบ
ทั้งหมดนี้สอดคล้องกับ การปรับปรุงศูนย์ข้อมูลให้ทันสมัยอย่างรวดเร็วเนื่องจากความต้องการด้านพลังงานและการระบายความร้อนของงาน AI และระบบเอเจนต์เพิ่มสูงขึ้น ประสิทธิภาพการใช้พลังงานจึงไม่ใช่เพียงแค่ประเด็นด้านการดำเนินงานอีกต่อไป แต่ได้กลายเป็นปัจจัยจำกัดนวัตกรรมและข้อกำหนดด้านสิ่งแวดล้อมอีกด้วย
ในขณะเดียวกัน บริษัทต่างๆ ก็ถูกบังคับให้ต้อง ฝึกอบรมบุคลากรใหม่เป้าหมายไม่ใช่การเปลี่ยนทุกคนให้เป็นโปรแกรมเมอร์ แต่เป็นการฝึกอบรมผู้เชี่ยวชาญที่มีความสามารถในการจัดการและใช้ประโยชน์จากระบบอัตโนมัติเหล่านี้ ได้แก่ ผู้เชี่ยวชาญด้านธุรกิจที่ขับเคลื่อนด้วย AI วิศวกรที่สามารถแปลงความต้องการด้านการดำเนินงานให้เป็นนโยบายด้านการตรวจสอบและการรักษาความปลอดภัย และผู้ที่มีบทบาทแบบผสมผสานที่เข้าใจทั้งผลกระทบทางเทคนิคและเศรษฐกิจของการตัดสินใจ
โดยรวมแล้ว วิวัฒนาการนี้จะนำไปสู่สถานการณ์ที่ การตรวจสอบที่เปิดกว้างและเป็นอิสระมากขึ้น มันกลายเป็นกาวที่เชื่อมโยงเทคโนโลยี ธุรกิจ และกฎระเบียบเข้าด้วยกัน มาตรฐานต่างๆ เช่น OpenTelemetry รับประกันความสามารถในการเคลื่อนย้ายและคุณภาพของข้อมูล AI และ Agent Observability ช่วยลดความซับซ้อนในการดำเนินงานและเร่งการตอบสนองต่อเหตุการณ์ และการกำกับดูแลและแนวปฏิบัติ Zero Trust ช่วยให้มั่นใจได้ว่าทุกอย่างเกิดขึ้นภายใต้การควบคุม ปลอดภัย และตรวจสอบได้จริง
องค์กรที่สามารถผสานรวมองค์ประกอบเหล่านี้เข้าด้วยกันได้อย่างลงตัว ได้แก่ ระบบวัดข้อมูลทางไกลที่เป็นมาตรฐาน แพลตฟอร์มที่เป็นหนึ่งเดียว การมุ่งเน้นผลลัพธ์ทางธุรกิจ และเอเจนต์ AI ที่ควบคุมด้วยระบบตรวจสอบที่ดี จะอยู่ในตำแหน่งที่ดีที่สุดในการแข่งขันในสภาพแวดล้อมที่ระบบดิจิทัลมีความสำคัญ ซับซ้อน และเป็นอิสระมากขึ้นเรื่อย ๆ แต่ก็มีความสามารถในการสร้างมูลค่าที่จับต้องได้มากขึ้นเมื่อได้รับการจัดการด้วยการมองเห็นที่เหมาะสม