সরাসরি প্রধান সামগ্রীতে চলে যান

ইমেজ ক্লাসিফিকেশনের জন্য ফিচার ইঞ্জিনিয়ারিং

পরিচিতি

মেশিন লার্নিং বা এআই মডেলে কোনো ছবি দেখে সেটা কার ছবি তা শনাক্ত করার আগে কিছু প্রস্তুতিমূলক কাজ করতে হয়। আমরা গত ভিডিওগুলোতে ছবিগুলো ক্রপ (crop) বা কেটে ছোট করে নিয়েছিলাম। এই ভিডিওতে আমরা শিখব কীভাবে সেই ছবিগুলো থেকে গুরুত্বপূর্ণ তথ্য বা ফিচার (feature) বের করে আনা যায়। মূলত, কম্পিউটারের জন্য ছবির প্রতিটি পিক্সেলকে এমনভাবে তৈরি করা যাতে সে সহজেই মুখমন্ডলের বৈশিষ্ট্য (যেমন চোখ, নাক, ঠোঁট) বুঝতে পারে। এই প্রক্রিয়াকেই বলে 'ফিচার ইঞ্জিনিয়ারিং'।


ওয়েভলেট ট্রান্সফর্ম কী?

ভিডিও লিঙ্ক: https://www.youtube.com/watch?v=sWAPtaBZKBQ [00:07]

ওয়েভলেট ট্রান্সফর্ম (Wavelet Transform) হলো একটি গাণিতিক পদ্ধতি, যা ব্যবহার করে ছবির গুরুত্বপূর্ণ অংশগুলো আলাদা করা যায়। সাধারণ রঙিন ছবিতে অনেক রঙের শেড থাকে, যা কম্পিউটার সহজে বুঝতে পারে না। ওয়েভলেট ট্রান্সফর্ম ছবিটিকে একটি বিশেষ ব্ল্যাক-অ্যান্ড-হোয়াইট ফরম্যাটে নিয়ে আসে, যেখানে চোখের কোণ, নাক বা ঠোঁটের মতো অংশগুলো খুব স্পষ্টভাবে ফুটে ওঠে। কম্পিউটারের জন্য এই তথ্যগুলোই আসল 'ফিচার'।

সহজ ব্যাখ্যা: চিন্তা করুন একটি জটিল রান্না করা খাবার (ছবি), আর তার আসল উপকরণগুলো (চোখ, নাক, ঠোঁট) আলাদা করা। ওয়েভলেট ট্রান্সফর্ম অনেকটা সেই মশলাপাতি বা উপাদানের মতো যা একটি সাধারণ ছবিকে ভেঙে তার মূল গঠন স্পষ্ট করে দেয়।


ইমেজ প্রসেসিং ও কোডিং

আমরা এখন পাইথন কোড ব্যবহার করে ছবিগুলো প্রসেস করব। এখানে আমরা দুই ধরণের ডেটা নিচ্ছি: ১. মূল ছবি (Raw Image): এর সাধারণ বৈশিষ্ট্য বোঝার জন্য। ২. ওয়েভলেট ট্রান্সফর্ম করা ছবি: এর সূক্ষ্ম বৈশিষ্ট্য বোঝার জন্য।

এই দুই ধরণের ছবিকে আমরা উপর-নিচ করে জোড়া (Vertical Stacking) দেব, যাতে মডেল একই সাথে উভয় ধরণের তথ্য পায়।

Python

# একটি কাল্পনিক কোড স্নীপেট যা ভিডিওর ধারণার ওপর ভিত্তি করে তৈরি
import numpy as np
import cv2
import pywt

def w2d(img):
    # এটি ওয়েভলেট ট্রান্সফর্ম করার একটি ফাংশন
    coeffs = pywt.wavedec2(img, 'db1', level=2)
    # প্রসেসিং করার পর নতুন ছবি রিটার্ন করবে
    return processed_img

# ছবি প্রসেসিং ও স্ট্যাকিং
combined_img = np.vstack((scaled_raw_img, scaled_wavelet_img)) 

কোড ব্যাখ্যা:

  • pywt.wavedec2: এটি ওয়েভলেট ট্রান্সফর্ম করার প্রধান ফাংশন।

  • np.vstack: এটি দুটি ছবিকে লম্বালম্বিভাবে একসাথে জোড়া দেয় (Vertical Stacking)। এর ফলে মডেলের কাছে ইনপুট হিসেবে অনেক বেশি শক্তিশালী ডেটা যায়।


মডেলের জন্য ডেটা সেট তৈরি (X ও Y)

মেশিন লার্নিং মডেলকে শেখানোর জন্য আমাদের দুটি জিনিস লাগে— X এবং Y

  • X (Features): আমাদের প্রসেস করা ছবিগুলো (ছবিগুলোকে সংখ্যায় রূপান্তর করা হয়েছে)।

  • Y (Labels): ছবিগুলো কোন ব্যক্তির, সেই নামের একটি সংখ্যাবাচক কোড (যেমন: মেসি = ০, অন্য খেলোয়াড় = ১)।

ভিডিওটিতে দেখা গেছে কীভাবে for লুপ ব্যবহার করে প্রতিটি ছবিকে প্রসেস করে এই X এবং Y ডেটা সেট তৈরি করা হয়েছে। [10:17]


বিশ্লেষণ ও উপলব্ধি

এই পুরো প্রক্রিয়ার মূল উদ্দেশ্য হলো ডেটাকে এমন পর্যায়ে নিয়ে আসা যাতে মেশিন লার্নিং অ্যালগরিদম খুব কম ভুল করে।

আমার চিন্তা ও পরামর্শ: ১. বাস্তবসম্মত ধারণা: বাস্তবে সব ছবি সবসময় পরিষ্কার থাকে না। তাই ভালো মানের ডেটাসেট তৈরির জন্য ছবিগুলো সঠিকভাবে ক্রপ করা এবং নয়েজ (অপ্রয়োজনীয় অংশ) দূর করা খুব জরুরি। ২. বিকল্প উপায়: ওয়েভলেট ট্রান্সফর্ম ছাড়াও বর্তমানে অনেক উন্নত 'ডিপ লার্নিং' (যেমন CNN - Convolutional Neural Networks) পদ্ধতি আছে যা ছবি থেকে নিজেই ফিচার শিখে নিতে পারে। তবে প্রাথমিক পর্যায়ের শেখার জন্য ওয়েভলেট ট্রান্সফর্ম বুঝতে পারা খুবই কার্যকর একটি ভিত্তি। ৩. পরবর্তী পদক্ষেপ: এখন যেহেতু আমাদের X ও Y রেডি, পরবর্তী ধাপে এই ডেটা দিয়ে মডেল ট্রেইনিং করা হবে। মডেল ট্রেইনিং করার সময় ডেটা যদি পরিষ্কার বা ক্লিন না থাকে, তবে মডেল ভালো রেজাল্ট দেবে না। তাই এই ধাপটি পুরো প্রকল্পের হৃদপিণ্ডস্বরূপ।

আপনি যদি ডেটা সায়েন্স নিয়ে নতুন কাজ শুরু করেন, তবে ওয়েভলেট ট্রান্সফর্মের পেছনের গণিতটা বিস্তারিত না বুঝলেও সমস্যা নেই, এর প্রয়োগটা বুঝতে পারলেই চলবে। সময়ের সাথে সাথে এই কনসেপ্টগুলো আপনার কাছে আরও সহজ মনে হবে।

[

Data Science & Machine Learning Project - Part 4 Feature Engineering | Image Classification

codebasics · 62K views

](http://www.youtube.com/watch?v=sWAPtaBZKBQ)

মন্তব্যসমূহ

এই ব্লগটি থেকে জনপ্রিয় পোস্টগুলি

সিজ্জিন (Sijjin) vs ইল্লিয়িন (Illiyin) পার্থক্য Difference

Sijjin (سِجِّين) এবং Illiyin (عِلِّيِّين) —এ দুটি শব্দ কুরআনে এসেছে এবং দুটোই মানুষের আমলনামা সংরক্ষণ সম্পর্কিত স্থানকে নির্দেশ করে। ১. সিজ্জিন (Sijjin) সিজ্জিন হলো পাপীদের (কাফের, মুনাফিক ও দুরাচারীদের) আমলনামা সংরক্ষণের স্থান। এটি সাত তলদেশের নীচে এক কারাগার বা অন্ধকার জগতে অবস্থিত বলে উল্লেখ রয়েছে। সূরা আল-মুতাফফিফীন (৮৩:৭-৯) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْفُجَّارِ لَفِي سِجِّينٍ ۝ وَمَا أَدْرَاكَ مَا سِجِّينٌ ۝ كِتَابٌ مَرْقُومٌ" অর্থ: "না, পাপীদের আমলনামা সিজ্জিনে সংরক্ষিত। তুমি কি জানো, সিজ্জিন কী? এটি এক লিখিত দলিল।" সিজ্জিনকে একটি কারাগার, সংকীর্ণ স্থান, বা নিচের স্তরে অবস্থিত এক অন্ধকার দুনিয়া হিসেবে ব্যাখ্যা করা হয়। ২. ইল্লিয়িন (Illiyin) ইল্লিয়িন হলো সৎকর্মশীলদের (মুমিন ও নেককারদের) আমলনামা সংরক্ষণের স্থান । এটি সপ্তম আসমানের ওপরে সংরক্ষিত এক সম্মানিত স্থান। সূরা আল-মুতাফফিফীন (৮৩:১৮-২১) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْأَبْرَارِ لَفِي عِلِّيِّينَ ۝ وَمَا أَدْرَاكَ مَا عِلِّيُّونَ ۝ كِتَابٌ مَرْقُومٌ ۝ يَش...

তারাবিহ সমগ্র - প্রথম আলো

রামাদান ২০২৪ উপলক্ষে প্রথম আলোর নিয়মিত আয়োজন - খতমে তারাবিহ'র সূরা গুলো নিয়ে সংক্ষিপ্ত আলোচনা'র লিংক  নিচে দেওয়া হলো।  লিংকে ক্লিক করলেই আপনাকে আলোচনা তে নিয়ে যাবে। তারাবিহ: ১ | একটি খুন ও গাভি নিয়ে বনি ইসরাইলের বাড়াবাড়ি তারাবিহ: ২ | নারীর মর্যাদা ও অধিকার এবং অলৌকিক তিন ঘটনা তারাবিহ: ৩ | যে ১৪ নারীকে বিয়ে করা হারাম তারাবিতে: ১২ | মহানবী (সা.)–এর আকাশভ্রমণ এবং আসহাবে কাহাফের কাহিনি

রেডমি নোট ৯ এর বিস্তারিত | Redmi Note 9 in Bangla

৩০ এপ্রিল, ২০২০ এ শাওমির ঘোষনা আসে এই ফোনটি নিয়ে। কিন্তু ফোনটি মার্কেটে আসে মে মাসের শেষের দিকে৷ করোনার কারনে ফোনটি বাংলাদেশে আসতে আরো সময় নেয়। বর্তমানে বাংলাদেশে আন অফিশিয়াল ভাবে ফোনটি পাওয়া যাচ্ছে৷ বাংলাদেশে অফিশিয়াল ভাবে এখনো ফোনটি আসার তথ্য নেয়৷ চলুন ফোনটি নিয়ে বিস্তারিত আলোচনা করা যাক। শাওমি নোট সিরিজের ফোন বের করে এদের রেডমি নামে সাব ব্যান্ড৷ এদের কাজ হল এই নোট সিরিজ নিয়ে কাজ করা৷ প্রতিবছর নোট সিরিজের ১/২ টা ফোন বাজারে আসে। সাথে সেই ফোন গুলার বিভিন্ন ভার্সন (যেমন - র‍্যাম ও রমের ভিত্তিতে) বাজারে আসে। এই বছরও তারা রেডমি সিরিজের নোট ৯ বাজারে আনে। এই বছর হয়তো এই সিরিজের আরো ফোন বাজারে আসবে। ডিস্পলেঃ ফোনটির ডিসপ্লে সাইজ ৬.৫৩ ইঞ্চি। এতে আইপিএস এলসিডি ডিসপ্লে ব্যবহার করা হয়েছে। এই ফোনের ডিসপ্লে প্রটেকশন হিসেবে আছে গরিলা গ্লাস ফাইভ। স্ক্রিন আর ফোনের বডির অনুপাত প্রায় ৮৩.৫%। এই ফোনের ডিসপ্লে ফুলএইচডি মানে ১০৮০পি। এই ডিস্পলের দৈর্ঘ্য ১৯.৫ একক এবং প্রস্থ হল ৯ একক। এত বড় ফোনের কারনে এই ফোনের পিপি আই ডেনসিটি ৩৯৫। যা একটু কম। প্লাটফর্মঃ এই ফোনের অপারেটিং সিস্টেম এন্ড্রয়েড ১০ এবং এর...