Ensemble Methods - ภาพรวมหมวดหมู่ประเภทหลัก

วิธีการ Ensemble เป็นเทคนิคที่มีเป้าหมายในการปรับปรุงความแม่นยำของผลลัพธ์ในแบบจำลองโดยการรวมหลาย ๆ แบบแทนที่จะใช้แบบจำลองเดียว แบบจำลองที่รวมกันช่วยเพิ่มความแม่นยำของผลลัพธ์อย่างมาก สิ่งนี้ได้เพิ่มความนิยมของวิธีการทั้งมวลในแมชชีนเลิร์นนิง

วิธีการทั้งมวล

สรุปย่อ

  • วิธีการ Ensemble มีจุดมุ่งหมายเพื่อปรับปรุงความสามารถในการคาดเดาในแบบจำลองโดยการรวมหลาย ๆ แบบเข้าด้วยกันเพื่อสร้างแบบจำลองที่น่าเชื่อถือมาก
  • วิธีการทั้งชุดที่ได้รับความนิยมมากที่สุดคือการเพิ่มการบรรจุหีบห่อและการซ้อน
  • วิธีการ Ensemble เหมาะอย่างยิ่งสำหรับการถดถอยและการจำแนกประเภทซึ่งจะช่วยลดอคติและความแปรปรวนเพื่อเพิ่มความแม่นยำของแบบจำลอง

หมวดหมู่ของ Ensemble Methods

วิธีการรวมกลุ่มแบ่งออกเป็นสองประเภทกว้าง ๆ ได้แก่ เทคนิคการเรียงตามลำดับและเทคนิคการรวมตัวแบบขนานเทคนิคการรวมกลุ่มตามลำดับจะสร้างผู้เรียนพื้นฐานตามลำดับเช่น Adaptive Boosting (AdaBoost) การสร้างฐานผู้เรียนตามลำดับส่งเสริมการพึ่งพาระหว่างผู้เรียนฐาน จากนั้นประสิทธิภาพของแบบจำลองจะได้รับการปรับปรุงโดยการกำหนดน้ำหนักที่สูงขึ้นให้กับผู้เรียนที่บิดเบือนความจริงก่อนหน้านี้

ในเทคนิคชุดคู่ขนานผู้เรียนพื้นฐานจะถูกสร้างขึ้นในรูปแบบคู่ขนานเช่นสุ่มฟอเรสต์ Random Forest Random Forest เป็นเทคนิคที่ใช้ในการคาดการณ์แบบจำลองและการวิเคราะห์พฤติกรรมและสร้างขึ้นจากต้นไม้การตัดสินใจ ฟอเรสต์แบบสุ่มมีต้นไม้แห่งการตัดสินใจมากมาย วิธีการแบบคู่ขนานใช้การสร้างผู้เรียนแบบคู่ขนานเพื่อส่งเสริมความเป็นอิสระระหว่างผู้เรียนพื้นฐาน ความเป็นอิสระของผู้เรียนพื้นฐานช่วยลดข้อผิดพลาดได้อย่างมากเนื่องจากการใช้ค่าเฉลี่ย

เทคนิคการรวมกลุ่มส่วนใหญ่ใช้อัลกอริทึมเดียวในการเรียนรู้พื้นฐานซึ่งส่งผลให้เกิดความเป็นเนื้อเดียวกันในผู้เรียนทุกฐาน ผู้เรียนฐานที่เป็นเนื้อเดียวกันหมายถึงผู้เรียนพื้นฐานประเภทเดียวกันที่มีคุณสมบัติคล้ายคลึงกัน วิธีการอื่นใช้ผู้เรียนพื้นฐานที่แตกต่างกันทำให้เกิดวงดนตรีที่แตกต่างกัน ผู้เรียนที่มีพื้นฐานต่างกันคือผู้เรียนที่แตกต่างกัน

ประเภทหลักของวิธีการทั้งมวล

1. การบรรจุถุง

Bagging ซึ่งเป็นรูปแบบสั้น ๆ สำหรับการรวม bootstrap ส่วนใหญ่จะใช้ในการจำแนกประเภทและการวิเคราะห์การถดถอย Regression Analysis การวิเคราะห์การถดถอยเป็นชุดของวิธีการทางสถิติที่ใช้สำหรับการประมาณความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระอย่างน้อยหนึ่งตัว สามารถใช้เพื่อประเมินความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรและเพื่อสร้างแบบจำลองความสัมพันธ์ในอนาคตระหว่างตัวแปรเหล่านี้ . เพิ่มความแม่นยำของแบบจำลองผ่านการใช้แผนผังการตัดสินใจซึ่งจะช่วยลดความแปรปรวนได้มาก การลดความแปรปรวนจะเพิ่มความแม่นยำดังนั้นการกำจัดการฟิตติ้งมากเกินไปซึ่งเป็นความท้าทายสำหรับแบบจำลองการคาดการณ์จำนวนมาก

การบรรจุถุงแบ่งออกเป็นสองประเภท ได้แก่ การบูตและการรวมตัว Bootstrappingเป็นเทคนิคการสุ่มตัวอย่างที่ตัวอย่างได้มาจากประชากรทั้งหมด (ชุด) โดยใช้ขั้นตอนการแทนที่ การสุ่มตัวอย่างด้วยวิธีการแทนที่ช่วยให้ขั้นตอนการคัดเลือกเป็นแบบสุ่ม อัลกอริธึมการเรียนรู้พื้นฐานจะรันบนตัวอย่างเพื่อทำตามขั้นตอน

การรวมกันในการบรรจุถุงนั้นทำขึ้นเพื่อรวมผลลัพธ์ที่เป็นไปได้ทั้งหมดของการทำนายและสุ่มผลลัพธ์ หากไม่มีการรวมการคาดการณ์จะไม่ถูกต้องเนื่องจากไม่ได้คำนึงถึงผลลัพธ์ทั้งหมด ดังนั้นการรวมจึงขึ้นอยู่กับขั้นตอนการบูตความน่าจะเป็นหรือบนพื้นฐานของผลลัพธ์ทั้งหมดของแบบจำลองการคาดการณ์

การบรรจุถุงเป็นข้อได้เปรียบเนื่องจากผู้เรียนพื้นฐานที่อ่อนแอถูกรวมเข้าด้วยกันเพื่อสร้างผู้เรียนที่แข็งแกร่งเพียงคนเดียวซึ่งมีความมั่นคงมากกว่าผู้เรียนคนเดียว นอกจากนี้ยังขจัดความแปรปรวนใด ๆ ซึ่งจะช่วยลดการใส่โมเดลมากเกินไป ข้อ จำกัด อย่างหนึ่งของการบรรจุถุงคือมีราคาแพงพอสมควร ดังนั้นจึงอาจทำให้เกิดอคติในแบบจำลองได้มากขึ้นเมื่อละเลยขั้นตอนที่เหมาะสมในการบรรจุถุง

2. การส่งเสริม

Boosting เป็นเทคนิคทั้งชุดที่เรียนรู้จากความผิดพลาดของตัวทำนายก่อนหน้านี้เพื่อทำการคาดการณ์ที่ดีขึ้นในอนาคต เทคนิคนี้รวมผู้เรียนพื้นฐานที่อ่อนแอหลายคนเข้าด้วยกันเพื่อสร้างผู้เรียนที่แข็งแกร่งเพียงคนเดียวซึ่งจะช่วยเพิ่มความสามารถในการคาดเดาของแบบจำลองได้อย่างมีนัยสำคัญ การส่งเสริมผลงานโดยการจัดเรียงผู้เรียนที่อ่อนแอตามลำดับเพื่อให้ผู้เรียนที่อ่อนแอเรียนรู้จากผู้เรียนคนถัดไปตามลำดับเพื่อสร้างแบบจำลองการคาดการณ์ที่ดีขึ้น

การบูสต์มีหลายรูปแบบซึ่งรวมถึงการเพิ่มการไล่ระดับสี, การเพิ่มแบบปรับอัตโนมัติ (AdaBoost) และ XGBoost (การเพิ่มการไล่ระดับสีอย่างมาก) AdaBoost ใช้ประโยชน์จากผู้เรียนที่อ่อนแอซึ่งอยู่ในรูปแบบของต้นไม้แห่งการตัดสินใจซึ่งส่วนใหญ่รวมถึงการแบ่งแยกที่เรียกกันว่าตอการตัดสินใจ ตอการตัดสินใจหลักของ AdaBoost ประกอบด้วยการสังเกตที่มีน้ำหนักใกล้เคียงกัน

Gradient boosting Gradient Boosting Gradient boosting เป็นเทคนิคที่ใช้ในการสร้างโมเดลสำหรับการทำนาย เทคนิคนี้ส่วนใหญ่ใช้ในขั้นตอนการถดถอยและการจำแนกประเภท เพิ่มตัวทำนายตามลำดับให้กับวงดนตรีโดยที่ตัวทำนายก่อนหน้าจะแก้ไขผู้สืบทอดของพวกเขาด้วยเหตุนี้จึงเพิ่มความแม่นยำของแบบจำลอง ตัวทำนายใหม่เหมาะที่จะตอบโต้ผลของข้อผิดพลาดในตัวทำนายก่อนหน้านี้ การไล่ระดับสีของการสืบเชื้อสายช่วยผู้สนับสนุนการไล่ระดับสีในการระบุปัญหาในการคาดคะเนของผู้เรียนและตอบโต้ตาม

XGBoost ใช้ประโยชน์จากต้นไม้การตัดสินใจด้วยการไล่ระดับสีที่เพิ่มขึ้นซึ่งให้ความเร็วและประสิทธิภาพที่ดีขึ้น ขึ้นอยู่กับความเร็วในการคำนวณและประสิทธิภาพของโมเดลเป้าหมายเป็นอย่างมาก การฝึกโมเดลควรเป็นไปตามลำดับจึงทำให้การใช้งานเครื่องไล่ระดับสีช้าลง

3. การซ้อน

การซ้อนกันเป็นอีกวิธีหนึ่งที่มักเรียกกันว่าการวางซ้อน เทคนิคนี้ทำงานโดยให้อัลกอริทึมการฝึกรวบรวมการคาดการณ์อัลกอริทึมการเรียนรู้อื่น ๆ ที่คล้ายกัน การซ้อนได้ถูกนำไปใช้อย่างประสบความสำเร็จในการถดถอยการประมาณความหนาแน่นการเรียนทางไกลและการจำแนกประเภท นอกจากนี้ยังสามารถใช้เพื่อวัดอัตราความผิดพลาดที่เกี่ยวข้องระหว่างการบรรจุถุง

การลดความแปรปรวน

วิธีการ Ensemble เหมาะอย่างยิ่งสำหรับการลดความแปรปรวนในแบบจำลองซึ่งจะช่วยเพิ่มความแม่นยำของการคาดการณ์ ความแปรปรวนจะถูกกำจัดเมื่อมีการรวมแบบจำลองหลายแบบเพื่อสร้างการคาดคะเนเดียวซึ่งเลือกจากการคาดการณ์อื่น ๆ ที่เป็นไปได้ทั้งหมดจากแบบจำลองที่รวมกัน แบบจำลองทั้งมวลคือการรวมแบบจำลองต่างๆเข้าด้วยกันเพื่อให้แน่ใจว่าการคาดการณ์ที่เป็นผลลัพธ์นั้นดีที่สุดโดยพิจารณาจากการคาดการณ์ทั้งหมด

แหล่งข้อมูลเพิ่มเติม

Finance เป็นผู้ให้บริการอย่างเป็นทางการของ Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ Certification ระดับโลกการรับรอง Certified Banking & Credit Analyst (CBCA) ™เป็นมาตรฐานระดับโลกสำหรับนักวิเคราะห์สินเชื่อที่ครอบคลุมด้านการเงินการบัญชีการวิเคราะห์เครดิตการวิเคราะห์กระแสเงินสด การสร้างแบบจำลองตามพันธสัญญาการชำระคืนเงินกู้และอื่น ๆ โปรแกรมการรับรองซึ่งออกแบบมาเพื่อช่วยให้ทุกคนเป็นนักวิเคราะห์การเงินระดับโลก เพื่อความก้าวหน้าในอาชีพการงานของคุณแหล่งข้อมูลด้านการเงินเพิ่มเติมด้านล่างนี้จะเป็นประโยชน์:

  • Elastic Net Elastic Net สุทธิยืดหยุ่นเชิงเส้นใช้บทลงโทษจากทั้งเทคนิคบ่วงบาศและสันในเพื่อสร้างแบบจำลองการถดถอยให้เป็นปกติ เทคนิคนี้ผสมผสานทั้งเชือกและ
  • Overfitting Overfitting Overfitting เป็นคำที่ใช้ในสถิติที่อ้างถึงข้อผิดพลาดในการสร้างแบบจำลองที่เกิดขึ้นเมื่อฟังก์ชันตรงกับชุดข้อมูลเฉพาะมากเกินไป
  • ความสามารถในการปรับขนาดความสามารถในการปรับขนาดความสามารถในการปรับขนาดสามารถตกอยู่ในบริบททางการเงินและกลยุทธ์ทางธุรกิจ ในทั้งสองกรณีหมายถึงความสามารถของเอนทิตีในการทนต่อแรงกดดัน
  • การปลอมแปลงการปลอมแปลงการปลอมแปลงเป็นแนวทางปฏิบัติในการซื้อขายอัลกอริทึมที่ก่อกวนซึ่งเกี่ยวข้องกับการเสนอราคาเพื่อซื้อหรือเสนอขายสัญญาซื้อขายล่วงหน้าและยกเลิกการเสนอราคาหรือข้อเสนอก่อนที่จะมีการดำเนินการของดีล แนวปฏิบัตินี้ตั้งใจที่จะสร้างภาพความต้องการที่ผิดพลาดหรือการมองโลกในแง่ร้ายที่ผิดพลาดในตลาด