সরাসরি প্রধান সামগ্রীতে চলে যান

ডেটা সায়েন্স প্রজেক্ট: মেশিন লার্নিং মডেল ট্রেনিং এবং ইভ্যালুয়েশন


ভূমিকা (Introduction)

এই ভিডিওটিতে দেখানো হয়েছে কীভাবে একটি মেশিন লার্নিং মডেলকে প্রশিক্ষণ (Training) দিতে হয় এবং তার পারফরম্যান্স যাচাই করতে হয়। মূলত ইমেজ ক্লাসিফিকেশন বা ছবি দেখে তা শনাক্ত করার প্রজেক্টের ওপর ভিত্তি করে এটি তৈরি। এখানে বিভিন্ন অ্যালগরিদম ব্যবহার করে দেখা হয়েছে কোনটি ভালো কাজ করে এবং শেষে সেই মডেলটিকে সেভ করে রাখা হয়েছে যাতে পরে ব্যবহার করা যায়।


ভিডিও রেফারেন্স

এই আলোচনার মূল ভিডিওটি এখানে দেওয়া হলো: Data Science & Machine Learning Project - Part 5 Training a Model | Image Classification


১. ডেটা প্রস্তুতি এবং মডেল ট্রেনিং

প্রজেক্টের শুরুতে ক্লিনিং করা ডেটা ব্যবহার করে মডেল তৈরি করা হয়েছে। প্রতিটি ছবিকে একটি ১-ডাইমেনশনাল অ্যারে (অ্যারে হলো অনেকগুলো তথ্যের তালিকা বা ডাটা স্ট্রাকচার) হিসেবে রূপান্তর করা হয়েছে যাতে কম্পিউটার সহজে বুঝতে পারে।

  • মডেল: এখানে সাপোর্ট ভেক্টর মেশিন (SVM) ব্যবহার করা হয়েছে কারণ এটি ক্লাসিফিকেশনের ক্ষেত্রে বেশ ভালো কাজ করে।

  • স্কেলিং: ডেটা স্কেল করার জন্য StandardScaler ব্যবহার করা হয়েছে।

  • ট্রেনিং: মডেলটি fit মেথড ব্যবহার করে প্রশিক্ষিত করা হয়েছে।

কোড স্নিপেট:

Python

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

# পাইপলাইন তৈরি করা হচ্ছে ডেটা স্কেল এবং মডেল ট্রেনিং এর জন্য
pipe = Pipeline([('scaler', StandardScaler()), ('svc', SVC(kernel='rbf', C=10))])
pipe.fit(X_train, y_train)
pipe.score(X_test, y_test) 
  • ব্যাখ্যা: এখানে একটি পাইপলাইন তৈরি করা হয়েছে যা প্রথমে ডেটাগুলোকে একই স্কেলে আনে (যাতে বড় বা ছোট সংখ্যার কারণে মডেল বিভ্রান্ত না হয়) এবং তারপর SVM মডেল দিয়ে প্রশিক্ষণ দেয়।

২. পারফরম্যান্স যাচাই (Classification Report)

মডেলটি কতটা নির্ভুল কাজ করছে তা দেখার জন্য classification_report ব্যবহার করা হয়েছে। এখানে কিছু কঠিন শব্দ এসেছে, যেমন:

  • Precision (নির্ভুলতা): মডেল যদি কোনো ছবিকে "মেসি" বলে, তবে তা আসলেই কতটুকু মেসির ছবি, সেই হার।

  • Recall (রিকল): মোট যতগুলো মেসির ছবি ছিল, তার মধ্যে মডেল কতগুলো সঠিকভাবে শনাক্ত করতে পেরেছে।

  • F1 Score: প্রিসিশন এবং রিকলের একটি সমন্বয় বা গড় মান, যা মডেলের সামগ্রিক দক্ষতা বোঝায়।

সহজ ভাষায়, এগুলো দিয়ে বোঝা যায় মডেলটি কোথায় ভুল করছে এবং কোথায় নির্ভুল।


৩. হাইপার-প্যারামিটার টিউনিং (Grid Search CV)

মডেলের সেরা পারফরম্যান্স পাওয়ার জন্য অনেক সময় বিভিন্ন প্যারামিটার পরিবর্তন করে দেখতে হয়। এটিই হলো হাইপার-প্যারামিটার টিউনিং।

  • Grid Search CV: এটি স্বয়ংক্রিয়ভাবে বিভিন্ন প্যারামিটারের কম্বিনেশন দিয়ে মডেল চালিয়ে দেখে কোনটি সেরা ফলাফল দিচ্ছে। এতে Cross Validation ব্যবহার করা হয়, যা ডেটাকে কয়েকটি ভাগে ভাগ করে বারবার টেস্ট করে, যাতে মডেলটি কোনো একটি নির্দিষ্ট ডেটার ওপর বেশি নির্ভরশীল না হয়ে পড়ে।

৪. মডেল সেভ করা (Deployment এর প্রস্তুতি)

মডেল যখন সেরা ফলাফল দেয়, তখন সেটিকে ফাইল আকারে সেভ করে রাখা হয়, যাতে অন্য কোনো সফটওয়্যারে এটিকে ব্যবহার করা যায়।

  • Joblib: এটি একটি লাইব্রেরি যা দিয়ে মেশিন লার্নিং মডেলকে ডিস্কে সেভ করা যায়। এটি একটি Pickle বা বাইনারি ফরম্যাটে ফাইল তৈরি করে।

কোড স্নিপেট:

Python

import joblib
# মডেল সেভ করা
joblib.dump(best_clf, 'saved_model.pkl') 
  • ব্যাখ্যা: dump ফাংশনটি আমাদের তৈরি করা প্রশিক্ষিত মডেলটিকে saved_model.pkl নামে সেভ করে রাখে।

বিশ্লেষণ এবং মন্তব্য

ভিডিওটির নির্মাতা অত্যন্ত সুন্দরভাবে একটি প্রজেক্টের ধাপগুলো ফুটিয়ে তুলেছেন।

  • বাস্তবতা: বাস্তবে একটি মডেল শুধু ট্রেনিং করলেই হয় না, তার জন্য হাইপার-প্যারামিটার টিউনিং এবং সঠিক ইভ্যালুয়েশন অত্যন্ত জরুরি।

  • পরামর্শ: প্রজেক্ট করার সময় সবসময় 'ট্রেনিং সেট' এবং 'টেস্ট সেট' আলাদা রাখা উচিত, যা এখানে ভিডিওতে খুব গুরুত্ব সহকারে দেখানো হয়েছে। যদি মডেল ট্রেনিং ডেটায় ভালো করে কিন্তু টেস্ট ডেটায় খারাপ করে, তবে বুঝতে হবে মডেলটি 'ওভারফিটিং' (Overfitting) করছে, অর্থাৎ সে ডেটা মুখস্থ করে ফেলেছে, শিখছে না।

  • বিকল্প: আপনি যদি আরও উন্নত কিছু করতে চান, তবে পরবর্তীতে 'নিউরাল নেটওয়ার্ক' (CNN) ব্যবহার করে দেখতে পারেন, কারণ ইমেজ ক্লাসিফিকেশনে এটি বর্তমানে সবচেয়ে শক্তিশালী টুল।

এই পুরো বিষয়টি একজন নতুন শেখার জন্য ডাটা সায়েন্সের কাজের ধারা (Workflow) বোঝার একটি চমৎকার উদাহরণ।

[

Data Science & Machine Learning Project - Part 5 Training a Model | Image Classification

codebasics · 58K views

](http://www.youtube.com/watch?v=5Uc_m9CRWro)

মন্তব্যসমূহ

এই ব্লগটি থেকে জনপ্রিয় পোস্টগুলি

সিজ্জিন (Sijjin) vs ইল্লিয়িন (Illiyin) পার্থক্য Difference

Sijjin (سِجِّين) এবং Illiyin (عِلِّيِّين) —এ দুটি শব্দ কুরআনে এসেছে এবং দুটোই মানুষের আমলনামা সংরক্ষণ সম্পর্কিত স্থানকে নির্দেশ করে। ১. সিজ্জিন (Sijjin) সিজ্জিন হলো পাপীদের (কাফের, মুনাফিক ও দুরাচারীদের) আমলনামা সংরক্ষণের স্থান। এটি সাত তলদেশের নীচে এক কারাগার বা অন্ধকার জগতে অবস্থিত বলে উল্লেখ রয়েছে। সূরা আল-মুতাফফিফীন (৮৩:৭-৯) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْفُجَّارِ لَفِي سِجِّينٍ ۝ وَمَا أَدْرَاكَ مَا سِجِّينٌ ۝ كِتَابٌ مَرْقُومٌ" অর্থ: "না, পাপীদের আমলনামা সিজ্জিনে সংরক্ষিত। তুমি কি জানো, সিজ্জিন কী? এটি এক লিখিত দলিল।" সিজ্জিনকে একটি কারাগার, সংকীর্ণ স্থান, বা নিচের স্তরে অবস্থিত এক অন্ধকার দুনিয়া হিসেবে ব্যাখ্যা করা হয়। ২. ইল্লিয়িন (Illiyin) ইল্লিয়িন হলো সৎকর্মশীলদের (মুমিন ও নেককারদের) আমলনামা সংরক্ষণের স্থান । এটি সপ্তম আসমানের ওপরে সংরক্ষিত এক সম্মানিত স্থান। সূরা আল-মুতাফফিফীন (৮৩:১৮-২১) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْأَبْرَارِ لَفِي عِلِّيِّينَ ۝ وَمَا أَدْرَاكَ مَا عِلِّيُّونَ ۝ كِتَابٌ مَرْقُومٌ ۝ يَش...

তারাবিহ সমগ্র - প্রথম আলো

রামাদান ২০২৪ উপলক্ষে প্রথম আলোর নিয়মিত আয়োজন - খতমে তারাবিহ'র সূরা গুলো নিয়ে সংক্ষিপ্ত আলোচনা'র লিংক  নিচে দেওয়া হলো।  লিংকে ক্লিক করলেই আপনাকে আলোচনা তে নিয়ে যাবে। তারাবিহ: ১ | একটি খুন ও গাভি নিয়ে বনি ইসরাইলের বাড়াবাড়ি তারাবিহ: ২ | নারীর মর্যাদা ও অধিকার এবং অলৌকিক তিন ঘটনা তারাবিহ: ৩ | যে ১৪ নারীকে বিয়ে করা হারাম তারাবিতে: ১২ | মহানবী (সা.)–এর আকাশভ্রমণ এবং আসহাবে কাহাফের কাহিনি

রেডমি নোট ৯ এর বিস্তারিত | Redmi Note 9 in Bangla

৩০ এপ্রিল, ২০২০ এ শাওমির ঘোষনা আসে এই ফোনটি নিয়ে। কিন্তু ফোনটি মার্কেটে আসে মে মাসের শেষের দিকে৷ করোনার কারনে ফোনটি বাংলাদেশে আসতে আরো সময় নেয়। বর্তমানে বাংলাদেশে আন অফিশিয়াল ভাবে ফোনটি পাওয়া যাচ্ছে৷ বাংলাদেশে অফিশিয়াল ভাবে এখনো ফোনটি আসার তথ্য নেয়৷ চলুন ফোনটি নিয়ে বিস্তারিত আলোচনা করা যাক। শাওমি নোট সিরিজের ফোন বের করে এদের রেডমি নামে সাব ব্যান্ড৷ এদের কাজ হল এই নোট সিরিজ নিয়ে কাজ করা৷ প্রতিবছর নোট সিরিজের ১/২ টা ফোন বাজারে আসে। সাথে সেই ফোন গুলার বিভিন্ন ভার্সন (যেমন - র‍্যাম ও রমের ভিত্তিতে) বাজারে আসে। এই বছরও তারা রেডমি সিরিজের নোট ৯ বাজারে আনে। এই বছর হয়তো এই সিরিজের আরো ফোন বাজারে আসবে। ডিস্পলেঃ ফোনটির ডিসপ্লে সাইজ ৬.৫৩ ইঞ্চি। এতে আইপিএস এলসিডি ডিসপ্লে ব্যবহার করা হয়েছে। এই ফোনের ডিসপ্লে প্রটেকশন হিসেবে আছে গরিলা গ্লাস ফাইভ। স্ক্রিন আর ফোনের বডির অনুপাত প্রায় ৮৩.৫%। এই ফোনের ডিসপ্লে ফুলএইচডি মানে ১০৮০পি। এই ডিস্পলের দৈর্ঘ্য ১৯.৫ একক এবং প্রস্থ হল ৯ একক। এত বড় ফোনের কারনে এই ফোনের পিপি আই ডেনসিটি ৩৯৫। যা একটু কম। প্লাটফর্মঃ এই ফোনের অপারেটিং সিস্টেম এন্ড্রয়েড ১০ এবং এর...