Project Genie ต้นแบบ AI ของ Google สำหรับสร้างโลกเสมือนจริงแบบโต้ตอบได้

  • Project Genie ผสานรวม Genie 3, Nano Banana Pro และ Gemini เพื่อสร้างโลกเสมือนจริงแบบโต้ตอบจากข้อความหรือรูปภาพ
  • การเข้าถึงจำกัดเฉพาะผู้สมัครใช้ Google AI Ultra ในสหรัฐอเมริกา โดยมีระยะเวลาการใช้งานสูงสุด 60 วินาที และความละเอียดประมาณ 720p
  • เครื่องมือนี้ช่วยให้คุณสามารถร่างภาพ สำรวจ และผสมผสานโลกต่างๆ ได้แบบเรียลไทม์ แต่ก็มีปัญหาเรื่องความสมจริง ปัญหาเรื่องความหน่วง และการควบคุมตัวละครที่ไม่ดี
  • ความสามารถในการเลียนแบบเกมชื่อดังทำให้เกิดการถกเถียงเรื่องลิขสิทธิ์และสร้างความกังวลให้กับบางส่วนของอุตสาหกรรมวิดีโอเกม

โครงการ AI เพื่อสร้างโลกเสมือนจริงแบบโต้ตอบ

Google ได้ก้าวไปอีกขั้นในการรุกโจมตี ปัญญาประดิษฐ์ประยุกต์ใช้กับวิดีโอเกมและ โลกเสมือน ด้วยการเปิดตัว Project Genie ซึ่งเป็นต้นแบบที่ช่วยให้ผู้ใช้สามารถสร้างและสำรวจสภาพแวดล้อมแบบโต้ตอบได้โดยอาศัยข้อความหรือรูปภาพเพียงไม่กี่คำ บริษัทได้นำเสนอเครื่องมือนี้ในฐานะการทดลองที่ยังอยู่ในระหว่างการทดสอบ อย่างไรก็ตาม การสาธิตเบื้องต้นได้จุดประกายทั้งความตื่นเต้นและความสงสัยในอุตสาหกรรม

ขณะนี้ การเข้าถึงยังจำกัดอยู่เพียง... ผู้สมัครใช้บริการแพ็กเกจ Google AI Ultra ในสหรัฐอเมริกาด้วยช่วงเวลาการใช้งานที่สั้นและประสิทธิภาพที่แสดงให้เห็นอย่างชัดเจนถึงลักษณะการทดลองของระบบ ถึงกระนั้น โครงการนี้ชี้ให้เห็นถึงอนาคตที่ผู้ใช้ทุกคนสามารถใช้งานได้ สร้าง "โลกจำลองขนาดเล็ก" ได้ภายในเวลาไม่กี่วินาทีโดยไม่จำเป็นต้องมีความรู้ด้านการเขียนโปรแกรมหรือการจัดการเอนจิ้นกราฟิก

Project Genie คืออะไร และมันผสานรวมเทคโนโลยีอะไรบ้าง?

โปรแกรมสร้างโลกด้วยปัญญาประดิษฐ์

โปรเจ็กต์ Genie คือ ต้นแบบงานวิจัยที่พัฒนาโดย Google DeepMind และ Google AI ซึ่งทำหน้าที่เป็นเครื่องมือสร้างโลกเสมือนจริงแบบโต้ตอบได้ รากฐานทางเทคนิคของมันตั้งอยู่บนสามเสาหลัก ได้แก่ โมเดล Genie 3 ซึ่งเชี่ยวชาญในการจำลองสภาพแวดล้อมแบบไดนามิก โมเดล Nano Banana Pro ซึ่งรับผิดชอบด้านภาพและการร่างภาพ และโมเดล Gemini ซึ่งเป็นโมเดลแบบมัลติโมดอลที่ตีความคำสั่งของผู้ใช้และทำหน้าที่เป็นผู้ช่วยเหลือในระหว่างการสร้างสรรค์

หัวใจของระบบคือ Genie 3 คือแบบจำลอง "โลก" ที่สามารถทำนายสิ่งที่เกิดขึ้นบนหน้าจอได้แบบเฟรมต่อเฟรมแตกต่างจากเทคโนโลยีรุ่นก่อนๆ ที่สร้างฉาก 3 มิติแบบคงที่เท่านั้น วิธีการนี้ช่วยให้สภาพแวดล้อมตอบสนองต่อการเคลื่อนไหวของผู้เล่นแบบเรียลไทม์ ด้วยความละเอียดประมาณ 720p และความสอดคล้องทางภาพนานหลายนาที ตามการทดลองภายในของ DeepMind

จากนั้นจึงทำการบูรณาการ Nano Banana Pro ทำหน้าที่สร้างภาพเริ่มต้นของเวที เริ่มต้นด้วยข้อความบรรยายหรือภาพอ้างอิง มุมมองเบื้องต้นนี้ทำหน้าที่เป็นภาพร่างเพื่อตัดสินใจเกี่ยวกับรูปแบบกราฟิก องค์ประกอบของโลก และรูปลักษณ์ของตัวละครที่จะควบคุมระหว่างการสำรวจ

ในที่สุด Gemini ทำหน้าที่เป็นตัวประสานและผู้ช่วยโปรแกรมนี้ตีความคำสั่งในภาษาธรรมชาติ ช่วยปรับแต่งโลกในเกมแบบเรียลไทม์ และอำนวยความสะดวกในการทำงานต่างๆ เช่น การเปลี่ยนมุมมอง (บุคคลที่หนึ่งหรือบุคคลที่สาม) การปรับแต่งสภาพแวดล้อมที่สร้างไว้แล้ว หรือการรวมหลายๆ แนวคิดเข้าไว้ในสถานการณ์การเล่นเดียว

วิธีการสร้างและสำรวจโลกเสมือนจริง

โลกเสมือนจริงแบบโต้ตอบที่สร้างขึ้นโดยปัญญาประดิษฐ์

การดำเนินงานของ Project Genie มีโครงสร้างหลักดังนี้ กระบวนการก้าวหน้าในสามขั้นตอน Google สรุปไว้ว่าเป็นการร่างแบบ สำรวจ และผสมผสานโลกต่างๆ เป้าหมายคือเพื่อให้ทุกคนสามารถเปลี่ยนความคิดไปสู่ประสบการณ์แบบโต้ตอบขนาดเล็กได้โดยไม่ต้องใช้เครื่องมือเพิ่มเติม

ในขั้นตอนแรก ผู้ใช้จะเขียนคำอธิบายของโลกที่ต้องการสร้าง หรืออัปโหลดภาพอ้างอิง จากข้อมูลที่ป้อนเข้ามานั้น Nano Banana Pro สร้างภาพตัวอย่างแบบคงที่ ฉากหลังอาจเป็นป่าในสไตล์โพลีต่ำ สภาพแวดล้อมทางเมืองในอนาคต ภูมิทัศน์ทางประวัติศาสตร์ หรืออะไรก็ตามที่อธิบายไว้ในข้อความ ประเภทตัวละคร โหมดกล้อง และพารามิเตอร์การเคลื่อนไหวพื้นฐานบางอย่างจะถูกกำหนดในขั้นตอนนี้ด้วย

เมื่อแบบร่างได้รับการยอมรับแล้ว Genie 3 จะเข้ามามีบทบาทเพื่อให้ผู้เล่น สำรวจสภาพแวดล้อมได้อย่างอิสระ โดยใช้ปุ่มควบคุมทั่วไปของพีซี เช่น ปุ่ม W, A, S และ Dโมเดลนี้สร้างสิ่งที่ปรากฏอยู่ตรงหน้าตัวละครแบบเรียลไทม์ โดยคาดการณ์แต่ละเฟรมจากเฟรมก่อนหน้า และรักษาความสอดคล้องในระดับหนึ่งเมื่อกล้องหมุนหรือกลับไปยังพื้นที่ที่เคยเยี่ยมชมแล้ว

ความสามารถหลักประการที่สามคือ การผสมผสานและการผสมผสานโลกต่างๆ เข้าด้วยกันระบบนี้อนุญาตให้ผู้ใช้กลับมาดูสถานการณ์ที่สร้างไว้ก่อนหน้านี้ ปรับเปลี่ยนด้วยพารามิเตอร์ใหม่ ผสานรวมเข้าด้วยกัน หรือแม้กระทั่งใช้โลกที่สร้างไว้ล่วงหน้าจาก Google เป็นพื้นฐานในการสร้างรูปแบบต่างๆ นอกจากนี้ ยังสามารถแชร์วิดีโอของการใช้งานเพื่อให้ผู้ใช้รายอื่นรับชมหรือใช้เป็นแรงบันดาลใจได้อีกด้วย

ทั้งหมดนี้ทำงานผ่านแอปพลิเคชันบนเว็บ คล้ายกับบริการ AI อื่นๆ ของ Google ดังนั้น ไม่จำเป็นต้องติดตั้งโปรแกรมเพิ่มเติม และไม่จำเป็นต้องมีความรู้ทางเทคนิคขั้นสูงเพียงแค่เข้าใช้งานเครื่องมือ ป้อนคำสั่ง และเริ่มทดสอบการผสมผสานต่างๆ จนกว่าคุณจะพบผลลัพธ์ที่น่าสนใจ

ข้อจำกัดทางเทคนิค: เวลา ประสิทธิภาพ และความสมจริง

ข้อจำกัดของต้นแบบ AI สำหรับโลกเสมือนจริง

Google ยืนยันที่จะนิยาม Project Genie ว่าเป็น ต้นแบบงานวิจัยที่มีลักษณะการทดลองอย่างชัดเจนป้ายกำกับนั้นไม่ใช่เพียงแค่พิธีการเท่านั้น ประสบการณ์ในปัจจุบันแสดงให้เห็นถึงข้อจำกัดที่ชัดเจนหลายประการ ซึ่งส่งผลต่อการใช้งานจริงของเครื่องมือนี้ นอกเหนือจากความอยากรู้อยากเห็นในเบื้องต้น

ข้อที่เห็นได้ชัดที่สุดคือ จำกัดเวลา 60 วินาทีต่อการสร้างและการสำรวจแต่ละครั้งหลังจากผ่านไปหนึ่งนาที โลกก็จะปิดตัวลง และประสบการณ์ใหม่ก็จะเริ่มต้นขึ้น บริษัทอธิบายว่าข้อจำกัดนี้ช่วยให้การจัดสรรทรัพยากรการประมวลผลมีประสิทธิภาพมากขึ้น เนื่องจากแต่ละเซสชันจะสงวนชิปเฉพาะไว้สำหรับผู้ใช้ที่กำลังเล่นอยู่

ในแง่ของประสิทธิภาพ การทดสอบสาธารณะอธิบายว่า ความละเอียดใกล้เคียง 720p และความถี่ระหว่าง 20 ถึง 24 เฟรมต่อวินาทีคุณสมบัติเหล่านี้มาพร้อมกับอาการหน่วงของการตอบสนองที่เห็นได้ชัดเมื่อขยับตัวละครหรือเปลี่ยนมุมกล้อง จากการทดสอบเบื้องต้นของผู้ทดสอบบางราย ประสบการณ์ที่ได้รับนั้นให้ความรู้สึกเหมือนวิดีโอแบบโต้ตอบมากกว่าวิดีโอเกมแบบดั้งเดิมที่ลื่นไหลอย่างสมบูรณ์

นอกจากนี้ควรทราบด้วยว่า Genie 3 มันไม่ใช่เอนจิ้นกราฟิกแบบคลาสสิก แต่เป็นโมเดลที่คาดการณ์เฟรมถัดไป จากข้อมูลข้างต้น ส่งผลให้เกิดพฤติกรรมแปลกๆ เช่น เส้นทางที่เปลี่ยนพื้นผิวโดยไม่มีเหตุผลชัดเจน องค์ประกอบที่หายไป ฟิสิกส์ที่ไม่สมจริง หรือแอนิเมชั่นที่บิดเบี้ยวอย่างสุ่ม

Google เองก็เตือนว่าโลกเสมือนจริงที่สร้างขึ้นนั้น... “สิ่งเหล่านั้นอาจดูไม่สมจริงทั้งหมด หรืออาจไม่สอดคล้องกับข้อบ่งชี้หรือกฎของฟิสิกส์เสมอไป”และการควบคุมตัวละครอาจไม่แม่นยำนัก กล่าวอีกนัยหนึ่ง เทคโนโลยีนี้มีศักยภาพ แต่ยังห่างไกลจากการมอบประสบการณ์การเล่นเกมที่สมบูรณ์แบบในแง่ของรูปแบบการเล่นและความเสถียรของภาพ

การเข้าถึงที่จำกัดและแผนงานระดับนานาชาติ

การเข้าถึงต้นแบบ AI มีจำกัด

ในระยะแรกนี้ Project Genie เปิดให้ใช้งานได้เฉพาะสำหรับ... ลูกค้า Google AI Ultra ในสหรัฐอเมริกาแผนการสมัครสมาชิกขั้นสูงสุดของบริษัทนี้ออกแบบมาสำหรับธุรกิจและผู้สร้างสรรค์ที่ต้องการความสามารถด้าน AI ประสิทธิภาพสูง เป็นบริการระดับพรีเมียมซึ่งจำกัดจำนวนผู้ใช้ที่สามารถเข้าถึงการทดลองได้

การตัดสินใจจำกัดการทดสอบนั้นได้รับการอธิบายโดยทั้ง... ต้นทุนการคำนวณของแต่ละเซสชัน นี่เป็นเพราะ Google สนใจที่จะรวบรวมความคิดเห็นอย่างละเอียดก่อนที่จะเปิดตัวในวงกว้าง Shlomi Frutcher ผู้อำนวยการฝ่ายวิจัยของ DeepMind เน้นย้ำว่า “น่าตื่นเต้น” ที่ได้เปิดให้ผู้คนจำนวนมากขึ้นได้ใช้เครื่องมือเหล่านี้เพื่อรวบรวมความคิดเห็นจากการใช้งานจริง แต่ในขณะนี้ยังไม่มีกำหนดวันที่แน่นอนสำหรับการเปิดตัวในยุโรปหรือตลาดอื่นๆ

จากมุมมองของผู้ใช้และงานวิจัยในสเปนและยุโรป สิ่งนี้หมายความว่า อย่างน้อยในระยะสั้น บทบาทที่สมจริงที่สุดคือบทบาทของผู้สังเกตการณ์ติดตามผลการทดสอบอย่างใกล้ชิด วิเคราะห์วิดีโอที่เผยแพร่ในโซเชียลมีเดีย และประเมินว่าเทคโนโลยีนี้สามารถนำไปบูรณาการเข้ากับขั้นตอนการทำงานด้านการออกแบบระดับ การสร้างต้นแบบอย่างรวดเร็ว หรือการแสดงภาพไอเดียได้มากน้อยเพียงใด

Google ได้แสดงเจตจำนงที่จะ... ค่อยๆ ขยายการเข้าถึง ทั้งนี้ขึ้นอยู่กับประสิทธิภาพ ต้นทุน และประเด็นทางกฎหมาย อย่างไรก็ตาม อัตราการขยายตัวนั้นจะขึ้นอยู่กับการตอบสนองของชุมชน และวิวัฒนาการของการถกเถียงเกี่ยวกับลิขสิทธิ์และการใช้เนื้อหาของบุคคลที่สามอย่างมีความรับผิดชอบด้วย

ความสามารถในการเลียนแบบเกมที่มีชื่อเสียงและการถกเถียงเรื่องลิขสิทธิ์

หนึ่งในประเด็นที่ละเอียดอ่อนที่สุดของโครงการ Genie คือ... ความสามารถในการสร้างโลกขึ้นมาใหม่ โดยได้รับแรงบันดาลใจอย่างชัดเจนจากวิดีโอเกมที่มีอยู่แล้ว ด้วยระดับความสำเร็จที่แตกต่างกันไปนักข่าวเฉพาะทางบางคนสามารถสร้างสถานการณ์ที่คล้ายคลึงกับเกมต่างๆ เช่น Super Mario 64, Metroid Prime หรือ The Legend of Zelda: Breath of the Wild ได้อย่างชัดเจน

ในกรณีของเซลด้า พวกเขายังเคยถูกพบเห็นอีกด้วย ตัวละครที่กางร่มร่อนเมื่อกระโดดลงมาท่าทางนี้มีความเกี่ยวข้องอย่างใกล้ชิดกับเกมของนินเทนโด ความบังเอิญเหล่านี้ชี้ให้เห็นว่าแบบจำลองได้รับการฝึกฝนโดยใช้คลิปวิดีโอการเล่นเกมจำนวนมากที่เผยแพร่สู่สาธารณะ ซึ่งก่อให้เกิดคำถามเกี่ยวกับการจัดการทรัพย์สินทางปัญญาในการฝึกฝน AI

หลังจากทำการทดสอบหลายครั้งโดยสร้างโลกจำลองที่ได้รับแรงบันดาลใจจากแฟรนไชส์ชื่อดังต่างๆ Google ก็ได้เริ่มดำเนินการแล้ว ขัดขวางการสร้างสถานการณ์และตัวละครบางอย่างโดยเฉพาะอย่างยิ่งเมื่อมีการกล่าวถึงชื่อหรือเครื่องหมายการค้าเฉพาะ ในบางกรณี เครื่องมือนี้จะป้องกันการสร้างโลกที่อิงจากตำนานบางเรื่องโดยตรง โดยอ้างถึง "ผลประโยชน์ของผู้ให้บริการเนื้อหาบุคคลที่สาม"

บริษัทอธิบายว่า Project Genie คือ “ได้รับการฝึกฝนโดยใช้ข้อมูลเว็บสาธารณะเป็นหลัก”แต่โปรดจำไว้ว่าเนื้อหานี้ยังคงอยู่ภายใต้กฎหมายลิขสิทธิ์ ผลลัพธ์ที่ได้คือระบบการตรวจสอบที่ยังอยู่ระหว่างการพัฒนา ซึ่งความพยายามบางอย่างในการทำซ้ำผลงานที่มีลิขสิทธิ์จะถูกบล็อกอย่างชัดเจน ในขณะที่บางอย่างจะผ่านไปได้ตราบใดที่หลีกเลี่ยงการอ้างอิงโดยตรงมากเกินไป

พฤติกรรมที่ผิดปกตินี้ยิ่งทำให้เกิดการถกเถียงกันมากขึ้นเกี่ยวกับเรื่องนี้ ปัญญาประดิษฐ์ (AI) สามารถหรือควรได้รับแรงบันดาลใจจากเกมที่มีอยู่แล้วในระดับใด? แล้วเส้นแบ่งระหว่างการแสดงความเคารพ การเลียนแบบ และการคัดลอกอยู่ตรงไหน? นี่เป็นประเด็นถกเถียงที่น่าจะมีความสำคัญเป็นพิเศษในภูมิภาคอย่างสหภาพยุโรป ซึ่งกรอบกฎหมายเกี่ยวกับข้อมูลการฝึกอบรมและลิขสิทธิ์ในปัญญาประดิษฐ์ยังอยู่ในระหว่างการกำหนด

ผลกระทบที่อาจเกิดขึ้นต่ออุตสาหกรรมวิดีโอเกม

นอกเหนือจากความน่าสนใจของสื่อในการรับชมแล้ว สร้างโลก "แบบมาริโอ" หรือ "แบบเซลดา" ได้ในเวลาเพียงไม่กี่วินาทีProject Genie เป็นส่วนหนึ่งของการแข่งขันในวงกว้างระหว่างบริษัทเทคโนโลยีชั้นนำต่างๆ ในการนำปัญญาประดิษฐ์เชิงสร้างสรรค์ (AI) มาประยุกต์ใช้ในการพัฒนาเกม ตัวอย่างเช่น Microsoft ได้เปิดตัวโครงการต่างๆ เช่น Muse เพื่อทำให้กระบวนการออกแบบและการผลิตบางส่วนเป็นไปโดยอัตโนมัติ และบริษัทอื่นๆ ก็กำลังสำรวจโซลูชันที่คล้ายกันเพื่อลดต้นทุนและเร่งการพัฒนา

ในบริบทนี้ ข้อเสนอของ Google มีเป้าหมายที่จะเป็น เครื่องมือสำหรับการสร้างต้นแบบและการทดลองอย่างรวดเร็ว สิ่งนี้อาจเป็นที่สนใจของทั้งสตูดิโออิสระและสำนักพิมพ์ขนาดใหญ่ ความสามารถในการสร้างสถานการณ์ที่เล่นได้จากภาพร่างหรือข้อความเพียงย่อหน้าเดียว ช่วยให้สามารถตรวจสอบแนวคิดเบื้องต้น สร้างเดโมภายใน หรือทดสอบกลไกต่างๆ ได้โดยไม่ต้องเสียเวลาทำงานหลายเดือน

อย่างไรก็ตาม การเกิดขึ้นของโซลูชันประเภทนี้กำลังสร้างความกังวลให้กับบางคนในภาคส่วนนี้ ในด้านหนึ่ง มีความกังวลเกี่ยวกับผลกระทบที่อาจเกิดขึ้นกับบางสายอาชีพ หากเนื้อหาบางส่วนถูกสร้างขึ้นโดยอัตโนมัติ ในทางกลับกัน นักพัฒนาหลายคนก็ระแวงต่อโมเดลธุรกิจที่ใช้ AI ในการฝึกฝนจากผลงานที่เผยแพร่ไปแล้ว โดยไม่มีการจ่ายค่าตอบแทนที่ชัดเจนให้กับผู้เขียน

ในตลาดของยุโรปและสเปน ซึ่งมีการถกเถียงกันอย่างเข้มข้นเกี่ยวกับการคุ้มครองผลงานสร้างสรรค์ทางวัฒนธรรม การพิจารณาว่าเครื่องมืออย่าง Project Genie จะเข้ากับกฎระเบียบในอนาคตได้อย่างไรจึงเป็นเรื่องสำคัญ แง่มุมต่างๆ เช่น ความโปร่งใสเกี่ยวกับข้อมูลการฝึกอบรม ระบบการยกเลิกการใช้งานสำหรับผู้ถือสิทธิ์ และการระบุแหล่งที่มาของเนื้อหาที่สร้างขึ้น อาจเป็นปัจจัยที่ทำให้เกิดความแตกต่างระหว่างการนำไปใช้อย่างรอบคอบและความขัดแย้งอย่างต่อเนื่องกับนักพัฒนาและผู้เผยแพร่

ในขณะนี้ โครงการ Genie ยังอยู่ในช่วงเริ่มต้น มันทำหน้าที่เป็นเหมือนห้องปฏิบัติการสาธารณะมากกว่าจะเป็นผลิตภัณฑ์สำเร็จรูปวิวัฒนาการของมัน และวิธีที่ Google จัดการกับประเด็นทางกฎหมายและจริยธรรมที่เกี่ยวข้อง จะเป็นตัวกำหนดว่าในที่สุดมันจะถูกบูรณาการเข้ากับกระบวนการทำงานของสตูดิโอหรือไม่ หรือจะยังคงเป็นเพียงการทดลองที่ดูหวือหวาแต่มีข้อจำกัด

อย่างไรก็ตาม การปรากฏตัวของต้นแบบนี้ทำให้เห็นได้อย่างชัดเจนว่าบริษัทเทคโนโลยีชั้นนำมองเห็นศักยภาพในสิ่งนี้ การสร้างโลกแบบโต้ตอบโดยอัตโนมัติ เป็นพื้นที่ยุทธศาสตร์ชั้นเยี่ยม แม้ว่าการใช้งานจริงในปัจจุบันจะถูกจำกัดและเต็มไปด้วยข้อบกพร่องทางเทคนิค แต่ทิศทางในอนาคตนั้นชัดเจน: โมเดลต่างๆ ที่มีความสามารถในการแปลงข้อความและรูปภาพให้กลายเป็นประสบการณ์การเล่นได้มากขึ้นเรื่อยๆ และอุตสาหกรรมที่ต้องตัดสินใจว่าจะอยู่ร่วมกับเครื่องมือใหม่เหล่านี้อย่างไร

บทความที่เกี่ยวข้อง:
นิยามของ Virtual Reality ที่คุณควรรู้!