আনসুপারভাইজড লার্নিং: কে-মিনস ক্লাস্টারিংয়ের সহজ পাঠ

Introduction

পুরো ভিডিওর এই অংশটি মূলত Unsupervised Learning এর একটি জনপ্রিয় পদ্ধতি K-Means Clustering নিয়ে। এখানে দেখানো হয়েছে কীভাবে আমাদের কাছে কোনো লেবেল বা উত্তর না থাকলেও কম্পিউটার নিজে থেকে ডেটার ভেতরকার মিল খুঁজে বের করে সেগুলোকে আলাদা আলাদা দলে বা গ্রুপে ভাগ করতে পারে। এটি মেশিন লার্নিংয়ের এমন এক জাদুকরী পদ্ধতি যেখানে কম্পিউটারকে বলে দিতে হয় না যে "এটি বিড়াল" বা "এটি কুকুর", সে নিজেই তাদের বৈশিষ্ট্য দেখে আলাদা করে ফেলে।

১. আনসুপারভাইজড লার্নিং কী? (What is Unsupervised Learning?)

রেফারেন্স: [03:15:38]

আনসুপারভাইজড লার্নিং হলো মেশিন লার্নিংয়ের এমন একটা শাখা যেখানে আপনার কাছে শুধু ইনপুট ডেটা থাকে, কিন্তু কোনো 'লেবেল' বা সঠিক উত্তর থাকে না। সহজ কথায়, আপনার কাছে এক ব্যাগ ফল আছে কিন্তু আপনি জানেন না কোনটার নাম কী। কম্পিউটার তখন ফলের আকার, রং বা ওজন দেখে নিজে থেকেই আপেলগুলোকে একদিকে আর কমলাগুলোকে অন্যদিকে সরিয়ে রাখবে। এখানে কম্পিউটার নিজেই ডেটার ভেতরকার প্যাটার্ন খুঁজে বের করে।

২. কে-মিনস ক্লাস্টারিংয়ের ধারণা (Concept of K-Means Clustering)

রেফারেন্স: [03:18:20]

K-Means Clustering হলো আনসুপারভাইজড লার্নিংয়ের সবচেয়ে কমন অ্যালগরিদম। এখানে 'K' মানে হলো আপনি কয়টি গ্রুপ বা দল করতে চান। আর 'Means' মানে হলো গড় বা কেন্দ্রবিন্দু।

ক্লাস্টার (Cluster): একই ধরনের ডেটা নিয়ে তৈরি একটি দল।
সেন্ট্রয়েড (Centroid): প্রতিটি দলের মাঝখানের একটি কাল্পনিক বিন্দু যেটিকে কেন্দ্র করে ওই দলের সবাই জড়ো হয়।

সহজ উদাহরণ: মনে করুন একটি মাঠে অনেক মানুষ ছড়িয়ে ছিটিয়ে আছে। আপনি চাইলেন তাদের ৩টি দলে ভাগ করতে (এখানে K=৩)। অ্যালগরিদমটি ৩টি বিন্দু ঠিক করবে এবং মানুষের কাছাকাছি গিয়ে দেখবে কে কার কাছে আছে। এভাবে বারবার হিসাব করে সে ৩টি আলাদা আলাদা মানুষের দল তৈরি করে ফেলবে।

৩. কোডিংয়ের মাধ্যমে বাস্তবায়ন (Coding Implementation)

রেফারেন্স: [03:22:15]

ভিডিওতে Python-এর scikit-learn লাইব্রেরি ব্যবহার করে এই ক্লাস্টারিং দেখানো হয়েছে। নিচে একটি সহজ কোড ব্লক দেওয়া হলো যা দিয়ে আপনি ডেটাকে ক্লাস্টারে ভাগ করতে পারবেন:

Python

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# মনে করি আমাদের কাছে x এবং y কোঅর্ডিনেট সহ কিছু ডেটা আছে
# k=3 মানে আমরা ৩টি গ্রুপ করতে চাই
kmeans = KMeans(n_clusters=3, random_state=0)

# মডেলটিকে ডেটা দিয়ে শেখানো বা 'Fit' করা
kmeans.fit(data)

# কোন ডেটা পয়েন্ট কোন গ্রুপে পড়েছে তা দেখা
labels = kmeans.labels_

# রেজাল্ট গ্রাফে দেখা
plt.scatter(data[:, 0], data[:, 1], c=labels, cmap='viridis')
plt.show()

কোডের ব্যাখ্যা:

KMeans(n_clusters=3): এখানে আমরা কম্পিউটারকে বলছি যে ভাই, তুমি সব ডেটাকে ৩টি গ্রুপে ভাগ করো।
kmeans.fit(data): এই লাইনটি মূলত আসল কাজ করে। এটি ডেটাগুলো পড়ে এবং সেন্ট্রয়েড বা কেন্দ্রবিন্দুগুলো খুঁজে বের করে।
kmeans.labels_: এটি আমাদের বলে দেয় প্রথম ডেটাটি ১ নম্বর গ্রুপে, দ্বিতীয়টি ৩ নম্বর গ্রুপে—এভাবে প্রতিটি পয়েন্টের গ্রুপ আইডি।
plt.scatter: এটি দিয়ে আমরা রঙিন ম্যাপের মতো দেখতে পাই কীভাবে দলগুলো আলাদা হয়েছে।

৪. মডেলের ফলাফল বিশ্লেষণ (Analyzing Results)

রেফারেন্স: [03:28:45]

ক্লাস্টারিং করার পর আমরা দেখতে পাই যে কম্পিউটার খুব সুন্দরভাবে ডেটাগুলোকে আলাদা করতে পেরেছে। যদিও আমরা তাকে বলিনি কোন ডেটাটি কীসের, তবুও সে তাদের বৈশিষ্ট্যের মিল দেখে সুন্দর দল তৈরি করেছে। তবে কিছু ক্ষেত্রে যেখানে ডেটাগুলো খুব কাছাকাছি থাকে (Overlap), সেখানে মাঝে মাঝে কম্পিউটার কিছুটা কনফিউজড হতে পারে, যা খুবই স্বাভাবিক।

বিশ্লেষণ ও আমার ভাবনা (Analysis & Perceptions)

মূল উদ্দেশ্য: কন্টেন্ট ক্রিয়েটর এখানে বোঝাতে চেয়েছেন যে, রিয়েল লাইফে আমাদের কাছে সবসময় লেবেল করা ডেটা থাকে না। যেমন: কাস্টমার সেগমেন্টেশন। আপনার দোকানে হাজার হাজার কাস্টমার আছে, আপনি জানেন না কারা বেশি দামি জিনিস কেনে আর কারা সস্তা। K-Means ব্যবহার করে আপনি সহজেই কাস্টমারদের গ্রুপ করে ফেলতে পারেন এবং সেই অনুযায়ী মার্কেটিং করতে পারেন।

বাস্তব প্রেক্ষাপট ও সীমাবদ্ধতা: ১. K এর মান নির্ধারণ: K-Means এর সবচেয়ে বড় চ্যালেঞ্জ হলো আগে থেকে জানা যে কয়টি দল হবে। যদি আপনি ভুল করে ৩টির জায়গায় ৫টি দল চান, তবে রেজাল্ট অগোছালো হতে পারে। এর সমাধানের জন্য 'Elbow Method' নামে একটি টেকনিক ব্যবহার করা হয়। ২. আউটলায়ার (Outliers): যদি কোনো ডেটা পয়েন্ট অন্য সবার থেকে অনেক দূরে থাকে, তবে সেটি সেন্ট্রয়েডকে টেনে নিজের দিকে নিয়ে যেতে পারে, ফলে পুরো ক্লাস্টারটি নষ্ট হতে পারে।

বিকল্প ও পরামর্শ: যদি ডেটাগুলো গোল আকৃতির না হয়ে বাঁকা বা অন্য শেপের হয়, তবে K-Means ভালো কাজ করে না। সেক্ষেত্রে DBSCAN বা Hierarchical Clustering এর মতো বিকল্প পদ্ধতিগুলো ব্যবহার করা যেতে পারে। যারা একদম নতুন, তাদের জন্য পরামর্শ থাকবে প্রথমে ২-৩টি বৈশিষ্ট্য (Features) নিয়ে কাজ শুরু করার, যাতে গ্রাফে বিষয়টি সহজে বোঝা যায়।

এই পদ্ধতিটি ডেটা সায়েন্সের জগতে একটি শক্তিশালী হাতিয়ার যা তথ্যকে সুন্দরভাবে সাজাতে সাহায্য করে।

[

Machine Learning for Everybody – Full Course

freeCodeCamp.org · 9.4M views

](http://www.youtube.com/watch?v=i_LwzRVP7bg)

Blog of SH

এই ব্লগটি সন্ধান করুন