20th Century Fox ใช้ AI ทำนายว่าใครจะไปดูภาพยนตร์หลังจากได้ดูหนังตัวอย่าง

การค้นหาตัวตนของผู้ชมภาพยนตร์ให้พบ เป็นงานหนึ่งที่มีความสำคัญต่อผู้สร้างภาพยนตร์ ดังนั้นเพื่อช่วยในการตัดสินใจให้ดีที่สุดก่อนเลือกหนังที่จะไปดูจริง ทีมวิจัยจากโรงถ่ายทำภาพยนตร์ชื่อดัง 20th Century Fox จึงใช้ประโยชน์จากปัญญาประดิษฐ์ โดยการพัฒนาแบบจำลองการเรียนรู้เชิงลึก (deep learning) เพื่อทำนายว่า ผู้รับชมเหล่านั้นจะชื่นชอบอะไรมากที่สุดหลังจากที่พวกเขาได้ดูหนังตัวอย่าง

วิดีโอหนังตัวอย่างเป็นสิ่งที่สำคัญที่สุดอย่างหนึ่งทางการตลาดสำหรับหนังใหม่ที่จะเข้าฉายในโรงภาพยนตร์ หนังตัวอย่างนั้นช่วยเพิ่มการรับรู้ให้กับผู้ที่ชื่นชอบการดูหนัง เป็นการสื่อสารให้เห็นถึงเค้าโครงของเรื่อง การนำเสนอบทบาทที่สำคัญของตัวละคร และเปิดเผยนัยสำคัญเกี่ยวกับเรื่องราว ลักษณะทั่วไป และเทคนิคด้านภาพของหนัง ในขณะที่โครงข่ายประสาทเทียม (neural network) มีศักยภาพในการช่วยผู้สร้างหนัง และผู้บริหาร ใช้ตัดสินใจในแต่ละขั้นตอนของการรณรงค์ทางการตลาดที่อยู่ในโลกความเป็นจริงได้

นี่คือครั้งแรกในวงการภาพยนตร์ที่นำเอาการเรียนรู้เชิงลึกมาใช้เพื่อทำนายสิ่งที่ลูกค้าสนใจเมื่อได้ชมหนังตัวอย่าง

ทีมวิจัยของ 20th Century Fox ใช้หน่วยประมวลผลกราฟิก NVIDIA Tesla P100 บน Google Cloud พร้อมกับชุดไลบรารี่ cuDNN-accelerated TensorFlow ซึ่งเป็นแบบแผนของการเรียนรู้เชิงลึก ทีมวิจัยได้ฝึกโครงข่ายประสาทเทียมแบบ convolutional ให้รู้จักชุดข้อมูลภาพขนาดใหญ่จากหนังตัวอย่างนับร้อยเรื่องที่ออกฉายมาตั้งแต่ปีที่แล้ว รวมทั้งได้บันทึกจำนวนการเข้าชมเอาไว้นับล้านครั้ง

แบบจำลองการเรียนรู้เชิงลึกสำหรับโครงข่ายประสาทเทียมแบบ convolutional จะแยกลักษณะเด่นต่างๆ ของหนังตัวอย่างออกมาก่อน และให้ค่าออกมาด้วยรูปแบบที่เหมาะสมต่อการทำนายได้

การสกัดแยกลักษณะเด่นต่างๆ จะทำให้สามารถดำเนินการทางข้อมูลของหนังตัวอย่างที่ออกเผยแพร่สู่สาธารณะได้ การสกัดแยกลักษณะเด่นต่างๆ ออกมานั้นเป็นแบบเฟรมต่อเฟรม เช่น สี, การส่องสว่าง, ใบหน้า, วัตถุ, ภูมิประเทศ ฯลฯ แล้วสร้างรูปแบบตัวแทนในระดับวิดีโอขึ้นมา ซึ่งการใช้รูปแบบตัวแทนในระดับวิดีโอนั้น ก็เพื่อฝึกการเรียนรู้ของแบบจำลอง Collaborative Filtering แบบไฮบริด ซึ่งได้รวมเอาลักษณะเด่นแต่ละอย่างของวิดีโอเข้ากับบันทึกประวัติจำนวนการเข้าชม ทำให้มีความเป็นไปได้ที่ระบบจะสามารถค้นหาองค์ประกอบที่ไม่ธรรมดาซึ่งเป็นจุดเด่นต่างๆ ของวิดีโอหนังตัวอย่าง และเป็นทางเลือกของผู้ชมในอนาคตหลังจากที่ปล่อยหนังเข้าฉายในโรงภาพยนตร์ หรือการให้บริการแบบสตรีมมิ่ง

แบบจำลองนี้ไม่ใช่เพียงแค่ฝึกการเรียนรู้เพื่อให้ได้ผลจำนวนการเข้าชมและคาดการณ์ผู้รับชมภาพยนตร์ที่มีอยู่ได้อย่างแม่นยำเท่านั้น แต่ยังทำให้เห็นเค้าโครงสำหรับหนังที่จะเข้าใหม่ในอีก 6 ถึง 8 เดือนข้างหน้าว่าควรจะปล่อยหนังเรื่องใดออกฉายก่อน

สำหรับการทำงานในอนาคต ทีมวิจัยกำลังมุ่งไปที่การพัฒนาระบบที่อาศัยลักษณะเด่นต่างๆ ทั้งในรูปแบบของตัวอักษรและวิดีโอ เพื่อคาดการณ์อีกว่า หนังเรื่องใดจะประสพผลสำเร็จ

ที่มา nvidia

ภาพรวมของแบบจำลอง hybrid recommendation model ที่ใช้กับวิดีโอตามวิธีของ Merlin โดยที่ระดับชั้นการถดถอยโลจิสติก (logistic regression) เป็นการรวมกันของแบบจำลองการแนะนำแบบ CF (Collaborative Filtering) ซึ่งอยู่บนพื้นฐานของความห่าง (distance-based) รวมเข้ากับความถี่ (frequency) และความใหม่ (recency) ของผู้ใช้ เพื่อให้ผลจำนวนการเข้าชมภาพยนตร์มีความเป็นไปได้ แบบจำลองได้รับการฝึกให้รู้แบบ end-to-end และส่วนที่ขาดหายไปของการถดถอยโลจิสติกก็คือ ส่วนที่ทำ back-propagation กลับไปสู่องค์ประกอบที่สามารถฝึกการเรียนรู้ได้ทั้งหมด
Image Credit: Nvidia
ตัวอย่างคำประกาศที่ปรากฎในวิดีโอหนังตัวอย่างเพื่อให้เกิดความเหมาะสมสำหรับผู้ชม ที่ได้รับความเห็นชอบแล้วจากสมาคมการค้าอเมริกัน (MPAA) ซึ่งเป็นตัวแทนของบริษัทผู้ถ่ายทำภาพยนตร์รายใหญ่ของฮอลิวูด