Introduction
সবাইকে স্বাগতম! আজকের এই আলোচনায় আমরা মেশিন লার্নিংয়ের খুব গুরুত্বপূর্ণ একটি টপিক Principal Component Analysis বা সংক্ষেপে PCA নিয়ে কথা বলব। সহজ ভাষায় বলতে গেলে, আমাদের কাছে যখন অনেক বেশি তথ্য বা 'ফিচার' (যেমন- দৈর্ঘ্য, প্রস্থ, ওজন, বয়স ইত্যাদি) থাকে, তখন সবগুলোকে একসাথে সামলানো কঠিন হয়ে পড়ে। PCA আমাদের সাহায্য করে এই অনেকগুলো তথ্য থেকে সবচেয়ে গুরুত্বপূর্ণ অংশগুলো ছেঁকে বের করতে, যাতে ডাটা ছোট হয়ে যায় কিন্তু এর ভেতরের আসল অর্থ বা 'ইনফরমেশন' হারিয়ে না যায়। এটি একটি Unsupervised Learning পদ্ধতি, যার মানে হলো এটি ডাটার লেবেল ছাড়াই কাজ করতে পারে।
১. PCA আসলে কী এবং কেন প্রয়োজন?
ভিডিও রেফারেন্স: ০৩:৩১:০৭
সহজ ব্যাখ্যা: কল্পনা করুন আপনার কাছে একটি টেবিল আছে যেখানে কোনো জিনিসের ১০টি আলাদা বৈশিষ্ট্য দেওয়া আছে। এখন ১০টি মাত্রা বা 'Dimension' নিয়ে কাজ করা এবং সেগুলো গ্রাফে দেখানো অসম্ভব। PCA যা করে তা হলো, এই ১০টি বৈশিষ্ট্যকে মিলিয়ে মাত্র ২-৩টি নতুন বৈশিষ্ট্য তৈরি করে। এই নতুন বৈশিষ্ট্যগুলোকে বলা হয় Principal Components। এতে করে আমরা সহজেই ডাটা ভিজ্যুয়ালাইজ করতে পারি এবং কম্পিউটারও দ্রুত প্রসেস করতে পারে।
কঠিন শব্দের ব্যাখ্যা:
-
Dimensionality Reduction: এর মানে হলো ডাটার মাত্রা কমানো। ধরুন, ৩ডি মুভিকে ২ডি স্ক্রিনে দেখা।
-
Feature (ফিচার): ডাটাবেজের কলামগুলোকে ফিচার বলে। যেমন- মানুষের উচ্চতা একটি ফিচার।
২. PCA এর কাজ করার ধরন (Theory)
ভিডিও রেফারেন্স: ০৩:৩৮:০০
PCA ডাটার ভেতরে এমন কিছু দিক বা 'অক্ষ' (Axis) খুঁজে বের করে যেখানে ডাটা সবচেয়ে বেশি ছড়িয়ে আছে (যাকে টেকনিক্যাল ভাষায় Variance বলে)।
-
প্রথম যে অক্ষ বরাবর ডাটা সবচেয়ে বেশি বিস্তৃত থাকে, তাকে বলা হয় Principal Component 1 (PC1)।
-
দ্বিতীয় অক্ষটি এমনভাবে নেওয়া হয় যা প্রথমটির সাথে লম্ব (Orthogonal) থাকে এবং বাকি থাকা তথ্যের সবচেয়ে বেশি অংশ ধারণ করে। একে বলে PC2।
এভাবে আমরা অনেকগুলো ফিচার থেকে কমিয়ে মাত্র কয়েকটি কম্পোনেন্টে ডাটাকে নিয়ে আসি।
৩. কোডিংয়ের মাধ্যমে PCA প্রয়োগ
ভিডিও রেফারেন্স: ০৩:৪৮:০০
মেশিন লার্নিংয়ে পাইথন ব্যবহার করে খুব সহজেই PCA করা যায়। নিচে একটি উদাহরণ দেওয়া হলো যেখানে ৭টি ফিচারকে কমিয়ে ২টিতে আনা হয়েছে:
Python
from sklearn.decomposition import PCA
import pandas as pd
# মনে করি x আমাদের মূল ডাটা যাতে ৭টি কলাম আছে
# PCA মডেল তৈরি, আমরা ২টি কম্পোনেন্ট চাই
pca = PCA(n_components=2)
# ডাটাকে ট্রান্সফর্ম করা
transformed_x = pca.fit_transform(x)
# এখন transformed_x এর আকার হবে (samples, 2)
# অর্থাৎ ৭টি কলাম এখন মাত্র ২টি কলামে চলে এসেছে!
print(transformed_x.shape)
কোড ব্যাখ্যা:
-
PCA(n_components=2): এখানে আমরা কম্পিউটারকে বলছি যে আমার অনেক কলাম দরকার নেই, তুমি শুধু সেরা ২টিকে রাখো। -
fit_transform: এই ফাংশনটি ডাটা থেকে প্যাটার্ন শিখে এবং সাথে সাথে ডাটাকে ছোট করে ফেলে।
আমার বিশ্লেষণ ও চিন্তাভাবনা
PCA হলো ডাটা সায়েন্সের একটি শক্তিশালী হাতিয়ার। তবে আমাদের মনে রাখতে হবে: ১. সব তথ্য পাওয়া যায় না: PCA করলে কিছু না কিছু তথ্য হারিয়ে যায়। কিন্তু লক্ষ্য থাকে যাতে গুরুত্বপূর্ণ তথ্যগুলো থেকে যায়। ২. স্কেলিং জরুরি: PCA করার আগে ডাটাকে স্কেল করে নেওয়া খুব দরকার, না হলে বড় মানের ডাটা (যেমন- বেতন) ছোট মানের ডাটাকে (যেমন- বয়স) ডমিনেট করবে।
বিকল্প চিন্তা: PCA ছাড়াও ডাটা কমানোর জন্য t-SNE বা UMAP এর মতো আরও আধুনিক পদ্ধতি আছে, যা বিশেষ করে ডাটা গ্রাফে দেখানোর জন্য (Visualization) খুব ভালো কাজ করে। তবে থিওরি বোঝার জন্য এবং গাণিতিক শুদ্ধতার জন্য PCA এখনও অপ্রতিদ্বন্দ্বী।
পরামর্শ: আপনি যদি নতুন হন, তবে প্রথমে ছোট কোনো ডাটা সেট (যেমন- Iris dataset) নিয়ে PCA প্র্যাকটিস করুন। এতে আপনি সরাসরি দেখতে পারবেন কীভাবে ৩-৪টি কলাম কমে ২টি হয়ে যাচ্ছে এবং গ্রাফে সেগুলো সুন্দরভাবে আলাদা করা যাচ্ছে।
[
Machine Learning for Everybody – Full Course
freeCodeCamp.org · 9.4M views
](http://www.youtube.com/watch?v=i_LwzRVP7bg)

মন্তব্যসমূহ
একটি মন্তব্য পোস্ট করুন
আপনার সমস্যাটি কমেন্ট করে আমাদের জানান :-d