XGBoost

Xgboost
توسعه‌دهنده(ها)	The XGBoost Contributors
انتشار ابتدایی	۲۷ مارس ۲۰۱۴؛ ۸ سال پیش
انتشار پایدار	۰٫۷۰ ; ۳۰ دسامبر ۲۰۱۷؛ ۵ سال پیش
مخزن	github.com/dmlc/xgboost ;
نوشته‌شده با	سی پلاس‌پلاس
سیستم‌عامل	لینوکس، مک‌اواس، مایکروسافت ویندوز
گونه	یادگیری ماشین
پروانه	مجوز آپاچی ۲٫۰
وبگاه	xgboost.ai

XGBoost یک کتابخانه نرم‌افزار آزاد است که چارچوب تقویت گرادیان برای ++C، جاوا، پایتون، R, و جولیا، پرل و اسکالا را فراهم می‌کند. در لینوکس، ویندوز، MacOS کار می‌کند. هدف ارائه یک کتابخانه «مقیاس‌پذیر، قابل‌حمل و توزیع‌شده» (gbm, GBRT, GBDT) است. علاوه بر اجرای یک ماشین واحد، همچنین از چارچوب‌های پردازش توزیع‌شده آپاچی اسپارک، آپاچی هدوپ، آپاچی فلینک و داسک (نرم‌افزار) پشتیبانی می‌کند. این الگوریتم انتخاب بسیاری از تیم‌های برندهٔ شماری از رقابت‌های یادگیری ماشین بود و محبوبیت و توجه زیادی به دست آورده‌است.

تاریخچه

XGBoost در ابتدا به عنوان یک پروژه تحقیقاتی توسط تیانگی چن به عنوان بخشی از گروه یادگیری عمیق ماشینی توزیع‌شده آغاز شد. در ابتدا به عنوان یک برنامه ترمینال (terminal application) آغاز شد که می‌توانست با استفاده از یک فایل پیکربندی libsvm پیکربندی شود. پس از پیروزی در چالش یادگیری ماشین هیگز، به عنوان بخشی از چرخهٔ مسابقه شناخته شد. پس از آن بسته‌های زبان‌های پایتون و R ساخته شدند و اکنون برای بسیاری از زبان‌های دیگر مثل جولیا، Scala، جاوا و غیره بسته‌هایی دارد و در بین جامعه Kaggle که برای تعداد زیادی از رقابت‌ها از آن استفاده شده‌است، محبوب است.

خیلی زود با چندین بسته دیگر مورد استفاده قرار گرفت و در حال حاضر برای کاربران پایتون همراه با کتابخانهٔ scikit-learn و برای کاربران R همراه با بسته caret ارائه می‌شود.

الگوریتم

الگوریتم $N$

داده آموزشیِ

\{(x_{i},y_{i})\}_{i=1}^{N}

، یک تابع مشتق‌پذیر هزینه

L(y,F(x))

و یک نرخ یادگیریِ

\alpha

به عنوان ورودی می‌گیرد و به این شکل مدل نهائی را می‌سازدː

اولین مدل ضعیف عددی ثابت است که تابع هزینه را کمینه می‌کند:
${\hat {f}}_{(0)}(x)={\underset {\theta }{\arg \min }}\sum _{i=1}^{N}L(y_{i},\theta ).$
برای $m=1$
تا $M$
:
1. گرادیان و هسین به این شکل محاسبه می‌شوند
  ${\hat {g}}_{m}(x_{i})=\left[{\frac {\partial L(y_{i},f(x_{i}))}{\partial f(x_{i})}}\right]_{f(x)={\hat {f}}_{(m-1)}(x)}.$
  
  ${\hat {h}}_{m}(x_{i})=\left[{\frac {\partial ^{2}L(y_{i},f(x_{i}))}{\partial f(x_{i})^{2}}}\right]_{f(x)={\hat {f}}_{(m-1)}(x)}.$
2. مدل برای داده‌های $\left\{x_{i},-{\frac {{\hat {g}}_{m}(x_{i})}{{\hat {h}}_{m}(x_{i})}}\right\}_{i=1}^{N}$ به این شکل یادگرفته می‌شود:
  ${\hat {\phi }}_{m}={\underset {\phi \in \mathbf {\Phi } }{\arg \min }}\sum _{i=1}^{N}{\frac {1}{2}}{\hat {h}}_{m}(x_{i})\left[-{\frac {{\hat {g}}_{m}(x_{i})}{{\hat {h}}_{m}(x_{i})}}-\phi (x_{i})\right]^{2}.$
  
  ${\hat {f}}_{m}(x)=\alpha {\hat {\phi }}_{m}(x).$
3. مدل به این شکل به روز می‌شود:
  ${\hat {f}}_{(m)}(x)={\hat {f}}_{(m-1)}(x)+{\hat {f}}_{m}(x).$
مدل نهائی عبارت است از ${\hat {f}}(x)={\hat {f}}_{(M)}(x)=\sum _{m=0}^{M}{\hat {f}}_{m}(x).$

جوایز

جایزه جان چمبرز (۲۰۱۶)
جایزه High Energy Physics meets Machine Learning (2016)

جستارهای وابسته

منابع

↑ "GitHub project webpage".
↑ "Python Package Index PYPI: xgboost". Retrieved 2016-08-01.
↑ "CRAN package xgboost". Retrieved 2016-08-01.
↑ "Julia package listing xgboost". Archived from the original on 18 August 2016. Retrieved 2016-08-01.
↑ "CPAN module AI::XGBoost". Retrieved 2020-02-09.
↑ "Installing XGBoost for Anaconda in Windows". Retrieved 2016-08-01.
↑ "Installing XGBoost on Mac OSX". Retrieved 2016-08-01.
↑ "Dask Homepage".
↑ "Distributed XGBoost with Dask — xgboost 1.5.0-dev documentation". xgboost.readthedocs.io. Retrieved 2021-07-15.
↑ "XGBoost - ML winning solutions (incomplete list)". Retrieved 2016-08-01.
↑ "Story and Lessons behind the evolution of XGBoost". Archived from the original on 7 August 2016. Retrieved 2016-08-01.
↑ "XGBoost - ML winning solutions (incomplete list)". Retrieved 2016-08-01.

[source-code-1] "GitHub project webpage".

[xgboost-python-2] "Python Package Index PYPI: xgboost". Retrieved 2016-08-01.

[xgboost-cran-3] "CRAN package xgboost". Retrieved 2016-08-01.

[xgboost-julia-4] "Julia package listing xgboost". Archived from the original on 18 August 2016. Retrieved 2016-08-01.

[xgboost-perl-5] "CPAN module AI::XGBoost". Retrieved 2020-02-09.

[xgboost-windows-6] "Installing XGBoost for Anaconda in Windows". Retrieved 2016-08-01.

[xgboost-macos-7] "Installing XGBoost on Mac OSX". Retrieved 2016-08-01.

[Dask-docs-8] "Dask Homepage".

[9] "Distributed XGBoost with Dask — xgboost 1.5.0-dev documentation". xgboost.readthedocs.io. Retrieved 2021-07-15.

[xgboost-competition-winners-10] "XGBoost - ML winning solutions (incomplete list)". Retrieved 2016-08-01.

[history-11] "Story and Lessons behind the evolution of XGBoost". Archived from the original on 7 August 2016. Retrieved 2016-08-01.

[xgboost-competition-winners2-12] "XGBoost - ML winning solutions (incomplete list)". Retrieved 2016-08-01.