این وزوز همه جا وجود دارد – Learning Machine!

بنابراین ، این “آموزش ماشین (ML) چیست؟”

بیایید یک مثال عملی را در نظر بگیریم. اگر می توانید احتمال نتیجه کار را برای اولین بار انجام دهید تصور کنید — بیایید بگوییم کار این است که یاد بگیریم که سوار ماشین شوید. یعنی می توانید خود را چگونه بازخورد کنید؟ با عدم اطمینان?

از طرف دیگر ، چگونه می خواهید بعد از چند سال تمرین ، خود را به همان وظیفه تسلیم کنید؟ احتمالاً شما می توانید طرز فکر خود را از پارامتر عدم قطعیت یا موارد خاص تر منتقل کنید. بنابراین ، چگونه شما این تخصص را در کار دارید?

به احتمال زیاد ، شما با استفاده از پارامترهای مختلف پارامترهایی را تجربه کرده اید و عملکرد شما بهبود یافته است. درست؟ این یادگیری ماشینی است.

گفته می شود که یک برنامه کامپیوتری برای کسب بهترین نتیجه (P) از تجربه (E) در بعضی از کارها (T) یاد می گیرد..

در همین راستا ، ماشین آلات با برخی از مفاهیم پیچیده ریاضیات یاد می گیرند ، و هر داده ای برای آنها به شکل 0 و 1 است. در نتیجه ، ما منطقی را برای برنامه خود کد نمی کنیم. درعوض ، ما می خواهیم یک دستگاه بتواند منطق داده ها را به تنهایی تشخیص دهد.

علاوه بر این ، اگر می خواهید رابطه بین تجربه ، سطح شغل ، مهارت نادر و حقوق را پیدا کنید ، باید الگوریتم های یادگیری ماشین را آموزش دهید.

مجموعه داده های پیچیده با ویژگی های بیشترمجموعه داده های پیچیده با ویژگی های بیشتر

با توجه به این مطالعه موردی ، برای به دست آوردن برچسب ها باید ویژگی ها را تغییر دهید. اما ، شما الگوریتم را رمزگذاری نمی کنید ، و تمرکز شما باید روی داده ها باشد.

بنابراین ، مفهوم است داده + الگوریتم = بینش. دوم ، الگوریتم ها قبلاً برای ما ساخته شده اند و باید بدانیم از کدام الگوریتم برای حل مشکلات خود استفاده خواهیم کرد. بیایید به مسئله رگرسیون و بهترین روش برای انتخاب یک الگوریتم نگاهی بیندازیم.

بررسی اجمالی ماشین

مطابق با آندریب, یک دانشمند آلمانی با بیش از 5 سال تجربه یادگیری ماشین ، “اگر می توانید درک کنید که آیا کار یادگیری ماشین یک مشکل رگرسیون یا طبقه بندی است ، انتخاب الگوریتم مناسب یک تکه کیک است.”

گروه بندی های مختلف یادگیری ماشینگروه بندی های مختلف یادگیری ماشین

برای ذکر ، تفاوت اصلی بین آنها این است که متغیر خروجی در رگرسیون عددی (یا پیوسته) است در حالی که آن برای طبقه بندی از نظر موضوعی (یا گسسته) است..

رگرسیون در یادگیری ماشین

برای شروع ، الگوریتم های رگرسیون سعی در تخمین عملکرد نقشه برداری (f) از متغیرهای ورودی (x) به متغیرهای خروجی عددی یا پیوسته (y) دارند. حال متغیر خروجی می تواند یک مقدار واقعی باشد که می تواند یک عدد صحیح یا یک مقدار نقطه شناور باشد. بنابراین ، مشکلات پیش بینی رگرسیون معمولاً کمیت یا اندازه هستند.

به عنوان مثال ، اگر یک مجموعه داده در مورد خانه ها در اختیار شما قرار گرفته است و از شما خواسته می شود قیمت آنها را پیش بینی کنید ، این یک کار رگرسیون است زیرا قیمت یک بازده مستمر خواهد بود.

نمونه هایی از الگوریتم های رگرسیون رایج شامل رگرسیون خطی است, رگرسیون بردار پشتیبانی (SVR), و درختان رگرسیون.

طبقه بندی در یادگیری ماشین

در مقابل ، در مورد الگوریتم های طبقه بندی ، y دسته ای است که عملکرد نقشه برداری پیش بینی می کند. برای توضیح ، برای متغیرهای ورودی یک یا چند ، یک مدل طبقه بندی تلاش خواهد کرد تا مقدار یک یا چند نتیجه را پیش بینی کند..

به عنوان مثال ، اگر یک مجموعه داده در مورد خانه ها در اختیار شما قرار گرفته باشد ، یک الگوریتم طبقه بندی می تواند پیش بینی کند که آیا قیمت خانه ها “بیشتر یا کمتر از قیمت خرده فروشی پیشنهادی می فروشد.” در اینجا دو دسته گسسته: بالاتر یا پایین از قیمت گفته شده.

نمونه هایی از الگوریتم های طبقه بندی مشترک عبارتند از: رگرسیون لجستیک ، Na ،ve Bayes ، درختان تصمیم گیری و K نزدیکترین همسایگان.

انتخاب الگوریتم های مناسب

ارزیابی درست MLحفاری اطلاعات دقیق برای ارزیابی درست ML

اطلاعات خود را درک کنید

  • به آمار خلاصه نگاهی بیندازید
  • از پارامتر “درصد” برای شناسایی دامنه های داده استفاده کنید
  • میانگین ها و میانه گراها تمایل اصلی را توصیف می کنند
  • همبستگی ها می توانند روابط محکم را نشان دهند

داده ها را تجسم کنید

  • توطئه های جعبه می توانند استثنائات را نشان دهند.
  • توطئه های چگالی و هیستوگرام گسترش داده ها را نشان می دهد
  • توطئه های پراکندگی می توانند روابط کمیت را توصیف کنند

داده ها را تمیز کنید

پیدا کردن قطعات گمشدهیافتن قطعات مفقود شده riPriority در لیست کارهای انجام شده برای پیدا کردن الگوریتم مناسب ML

  • با یک مقدار از دست رفته مقابله کنید. نتیجه در نتیجه نتایج حساس را ارائه می دهد (داده های گمشده برای متغیرهای خاص می توانند منجر به پیش بینی های نادرست شوند)
  • اگرچه مدل های درخت نسبت به حضور در خارج از منزل حساسیت کمتری دارند ، اما مدلهای رگرسیون یا مدلهای دیگری که از معادلات استفاده می کنند نسبت به استثناها حساس تر هستند.
  • در اصل ، افراد دور افتاده می توانند نتیجه جمع آوری داده های بد باشند ، یا می توانند مقادیر شدید افراطی باشند

داده ها را مرتب کنید

علاوه بر این ، در حالی که داده های خام را به یک مدل صاف مطابق با مدل ها تبدیل می کنید ، باید از موارد زیر مراقبت کند:

  • تفسیر داده ها را آسان تر کنید.
  • گرفتن داده های پیچیده تر.
  • تمرکز خود را بر کاهش افزونگی داده ها و ابعاد بعدی متمرکز کنید.
  • مقادیر متغیر را عادی کنید.

مشکل را از طریق متغیر ورودی طبقه بندی کنید

  • شما داده ها را برچسب گذاری کرده اید؛ این یک مشکل یادگیری نظارت شده است.
  • اگر داده های دارای مجوز ندارید و می خواهید ساختار پیدا کنید ، یک مشکل یادگیری بدون نظارت است.
  • اگر می خواهید با تعامل با یک محیط ، یک عملکرد هدف را بهینه کنید ، این یک مشکل یادگیری تقویتی است.

مشکل را از طریق متغیر خروجی طبقه بندی کنید

  • خروجی مدل شما یک عدد است. این یک مشکل رگرسیون است.
  • وقتی خروجی مدل شما یک کلاس است ، پس از آن یک مشکل طبقه بندی است.
  • خروجی مدل شما مجموعه ای از گروه های ورودی است. این یک مشکل خوشه ای است.

عامل محدودیت

  • توجه داشته باشید که ظرفیت ذخیره سازی آن برای مدل های مختلف متفاوت است.
  • آیا پیش بینی باید سریع باشد؟ به عنوان مثال ، در زمان واقعی سناریوهایی مانند طبقه بندی علائم راهنمایی و رانندگی به همان سرعت ممکن هستند تا از بروز حوادث جلوگیری کنند.

در آخر ، الگوریتم را پیدا کنید

روش منطقیروش منطقی: رویه را دنبال کنید

اکنون که تصویری شفاف از داده های خود دارید ، می توانید ابزارهای مناسبی را برای انتخاب الگوریتم مناسب پیاده سازی کنید.

در ضمن ، برای تصمیم بهتر ، یک چک لیست از عوامل برای شما آورده شده است:

  • ببینید آیا مدل با هدف تجاری شما هماهنگ است یا خیر
  • چقدر پیش پردازش مدل نیاز دارد
  • دقت مدل را بررسی کنید
  • مدل چقدر واضح است
  • مدل چقدر سریع است: برای ساختن یک مدل چه مدت زمان لازم است و مدل برای چه مدت پیش بینی می کند
  • مقیاس پذیری مدل

برای افزودن ، باید هنگام انتخاب ، به پیچیدگی الگوریتم توجه داشت.

به طور کلی ، شما می توانید پیچیدگی مدل را با استفاده از پارامترها اندازه گیری کنید:

  • وقتی برای یادگیری و پیش بینی هدف به دو یا بیش از ده ویژگی نیاز دارد
  • این متکی بر مهندسی ویژگی های پیچیده تر است (به عنوان مثال ، استفاده از اصطلاحات چند جمله ای ، تعامل یا مؤلفه های اصلی)
  • هنگامی که سناریو دارای سربار محاسباتی بیشتری است (به عنوان مثال ، یک درخت تصمیم واحد در برابر یک جنگل تصادفی از 100 درخت)

علاوه بر این ، همان الگوریتم را می توان به صورت دستی پیچیده تر کرد. این صرفاً به تعداد پارامترهای جبران شده و سناریوی مورد نظر بستگی دارد. به عنوان مثال ، شما می توانید یک مدل رگرسیون را با ویژگی های بیشتر یا اصطلاحات چند جمله ای و اصطلاحات تعامل طراحی کنید. یا ، شما می توانید یک درخت تصمیم گیری با عمق کمتر طراحی کنید.

الگوریتم های یادگیری ماشین رایج

رگرسیون خطی

اینها احتمالاً ساده ترین موارد هستند.
تعداد کمی از نمونه هایی که در آن از رگرسیون خطی استفاده شده است:

  • اولا ، وقت آن است که یک مکان به مکان دیگر برویم
  • پیش بینی فروش محصول خاص در ماه آینده
  • تأثیر محتوای الکل خون بر هماهنگی
  • پیش بینی فروش کارت هدیه ماهانه و بهبود پیش بینی درآمد سالانه

رگرسیون لجستیک

ظاهراً مزایای زیادی برای این الگوریتم وجود دارد: ادغام ویژگی های بیشتر با یک امکانات تفسیر خوب ، امکانات به روزرسانی آسان برای پیوست کردن داده های جدید.

برای بیان متفاوت ، می توانید از این موارد استفاده کنید:

  • پیش بینی رکود مشتری.
  • مورد خاص اعتبارسنجی یا کشف تقلب.
  • اندازه گیری کارآیی کمپین های بازاریابی.

درختان تصمیم گیری

ظاهراً از درختان مجرد به ندرت استفاده می شود ، اما در ترکیب با بسیاری دیگر ، الگوریتم های موثری مانند Random Forest یا Gradient Tree Boosting ایجاد می کنند. با این حال ، یکی از معایب این است که آنها از یادگیری آنلاین پشتیبانی نمی کنند ، بنابراین مجبورید وقتی نمونه های جدیدی ظاهر می شوند ، درخت خود را دوباره بسازید.

درختان عالی هستند:

  • تصمیمات مربوط به سرمایه گذاری
  • پیش فرض وام بانکی
  • صلاحیت سرب فروش

بیز ساده و بی تکلف

از همه مهمتر ، Naive Bayes هنگامی که CPU و منابع حافظه عامل محدود کننده ای هستند انتخاب درستی است. با این حال ، نقطه ضعف اصلی آن این است که نمی تواند تعامل بین ویژگی ها را بیاموزد.

می توان برای موارد زیر استفاده کرد:

  • تشخیص چهره
  • برای علامت گذاری به عنوان ایمیل به عنوان اسپم یا خیر.
  • تجزیه و تحلیل احساسات و طبقه بندی متن.

نتیجه

بنابراین ، به طور کلی ، در یک سناریو در زمان واقعی ، تحت الگوریتم یادگیری ماشین صحیح برای این هدف بسیار دشوار است. با این حال ، شما می توانید از این لیست چک برای لیست کوتاه چند الگوریتم در دسترس خود استفاده کنید.

علاوه بر این ، انتخاب راه حل مناسب برای یک مشکل در زندگی واقعی نیاز به درک تجاری متخصص و همچنین الگوریتم مناسب دارد. بنابراین ، داده های خود را در الگوریتم های صحیح آموزش دهید ، همه آنها را به صورت موازی یا سریال اجرا کنید ، و در پایان عملکرد الگوریتم ها را ارزیابی کنید تا بهترین (های) برتر را انتخاب کنید.

اگر به دنبال تخصص در یادگیری عمیق هستید ، ممکن است نتیجه بگیرید این دوره با یادگیری عمیق.

برچسب ها:

  • هوش مصنوعی

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me