সরাসরি প্রধান সামগ্রীতে চলে যান

মেশিন লার্নিং-এ ডামি ভেরিয়েবল এবং ওয়ান হট এনকোডিং

ভূমিকা

মেশিন লার্নিং মডেলে সাধারণত সংখ্যা বা গাণিতিক ডেটা নিয়ে কাজ করা হয়। কিন্তু বাস্তব জীবনের ডেটায় অনেক সময় নাম বা ক্যাটাগরি (যেমন শহরের নাম, রঙের নাম) থাকে। এই ধরনের টেক্সট বা ক্যাটাগরি ডেটাকে মডেলে ব্যবহারের উপযোগী সংখ্যায় রূপান্তর করার পদ্ধতিই হলো ডামি ভেরিয়েবল এবং ওয়ান হট এনকোডিং। এই ভিডিওটিতে আমরা শিখব কীভাবে ক্যাটাগরিকাল ডেটাকে সঠিকভাবে প্রসেস করে লিনিয়ার রিগ্রেশন মডেলে ব্যবহার করা যায়।


১. ক্যাটাগরিকাল ডেটা কী?

ভিডিও রেফারেন্স: [00:00]

আমরা যখন কোনো ডেটাসেটে শহরের নাম বা কোনো ক্যাটাগরি দেখি, তখন সেগুলোকে বলা হয় ক্যাটাগরিকাল ভেরিয়েবল (Categorical Variable)। এগুলো প্রধানত দুই ধরণের হয়:

  • নমিনাল (Nominal): এখানে ক্যাটাগরিগুলোর মধ্যে কোনো গাণিতিক ক্রম বা অর্ডার থাকে না। যেমন: শহরের নাম (ঢাকা, খুলনা, চট্টগ্রাম)। এখানে কোনো শহর অন্যটির চেয়ে বড় বা ছোট এমন কোনো গাণিতিক সম্পর্ক নেই।

  • অর্ডিনাল (Ordinal): এখানে ক্যাটাগরিগুলোর মধ্যে একটি নির্দিষ্ট অর্ডার বা ক্রম থাকে। যেমন: শিক্ষাগত যোগ্যতা (ব্যাচেলর < মাস্টার্স < পিএইচডি)।

সহজ ব্যাখ্যা: ক্যাটাগরিকাল ডেটা মানে হলো এমন ডেটা যা কোনো সংখ্যার বদলে ক্যাটাগরি বা গ্রুপ বোঝায়। নমিনাল হলো এমন গ্রুপ যেখানে কোনো ছোট-বড় নেই, আর অর্ডিনাল হলো এমন গ্রুপ যেখানে একটির পর আরেকটি আসে।


২. কেন সরাসরি নম্বর বসানো উচিত নয়?

যদি আমরা নমিনাল ক্যাটাগরিকে ১, ২, ৩ নম্বর দিয়ে দেই (যেমন: ঢাকা=১, খুলনা=২, চট্টগ্রাম=৩), তাহলে মেশিন লার্নিং মডেল ভুল বুঝতে পারে যে, ৩ নম্বরটি ১-এর চেয়ে বড় বা এদের মধ্যে গাণিতিক সম্পর্ক আছে। একে বলা হয় ইনটিজার এনকোডিংয়ের সমস্যা


৩. ওয়ান হট এনকোডিং (One Hot Encoding)

ভিডিও রেফারেন্স: [02:52]

এই সমস্যার সমাধান হলো ওয়ান হট এনকোডিং। এখানে প্রতিটি ক্যাটাগরির জন্য আলাদা কলাম তৈরি করা হয়। যদি কোনো ডেটা ওই ক্যাটাগরির হয়, তবে তার নিচে ১ বসে, আর বাকিগুলোতে ০ বসে। একেই বলে ডামি ভেরিয়েবল

পান্ডাস (Pandas) দিয়ে কোড উদাহরণ:

Python

import pandas as pd
# town কলামকে ডামি ভেরিয়েবলে রূপান্তর করা
dummies = pd.get_dummies(df.town)
# অরিজিনাল ডেটার সাথে ডামি কলাম যোগ করা
merged = pd.concat([df, dummies], axis='columns')
# অরিজিনাল town কলামটি ড্রপ করা
final = merged.drop(['town'], axis='columns') 

ব্যাখ্যা: pd.get_dummies ফাংশনটি স্বয়ংক্রিয়ভাবে ক্যাটাগরিগুলোকে আলাদা কলামে ভাগ করে ০ এবং ১ বসিয়ে দেয়। এরপর concat দিয়ে আগের ডেটার সাথে যুক্ত করা হয়।


৪. ডামি ভেরিয়েবল ট্র্যাপ (Dummy Variable Trap)

ভিডিও রেফারেন্স: [05:44]

যখন একটি ভেরিয়েবলকে অন্য ভেরিয়েবলগুলো দিয়ে বের করা যায়, তখন তাকে মাল্টিকোলিনিয়ারিটি (Multicollinearity) বলে। এটি মডেলকে বিভ্রান্ত করতে পারে, তাই নিয়ম হলো—যদি ৩টি ক্যাটাগরি থাকে, তবে অন্তত একটি ডামি কলাম বাদ দিতে হবে। একেই ডামি ভেরিয়েবল ট্র্যাপ থেকে বাঁচার উপায় বলে।

Python

# একটি কলাম ড্রপ করা (যেমন: west_windsor)
final = final.drop(['west_windsor'], axis='columns') 

৫. সাইকিট-লার্ন (Scikit-Learn) ব্যবহার করে এনকোডিং

ভিডিও রেফারেন্স: [12:24]

পান্ডাসের পাশাপাশি sklearn লাইব্রেরি থেকেও OneHotEncoder ব্যবহার করে একইভাবে ক্যাটাগরি হ্যান্ডেল করা যায়। এটি বড় প্রজেক্টের ক্ষেত্রে খুব কার্যকরী।


বিশ্লেষণ ও পরামর্শ

ভিডিওটির মূল উদ্দেশ্য হলো আমাদের বোঝানো যে, মডেলের কাছে ডেটা পাঠানোর আগে তাকে সঠিকভাবে "বোঝানো" জরুরি। কম্পিউটার গাণিতিক হিসাব ভালো বোঝে, তাই টেক্সট বা ক্যাটাগরিকে ওয়ান হট এনকোডিংয়ের মাধ্যমে ০ এবং ১-এ রূপান্তর করা অপরিহার্য।

পরামর্শ: ১. সবসময় আপনার মডেলে ডামি ভেরিয়েবল ট্র্যাপ এড়াতে একটি কলাম বাদ দেওয়ার চেষ্টা করবেন (যদিও কিছু লাইব্রেরি এটি অটোমেটিক করে নেয়)। ২. যদি ক্যাটাগরির সংখ্যা অনেক বেশি হয় (যেমন: ১০০০টি শহর), তবে ওয়ান হট এনকোডিং করলে কলামের সংখ্যা অনেক বেড়ে যাবে (একে বলা হয় কার্স অফ ডাইমেনশনালিটি)। সেক্ষেত্রে অন্য কোনো এনকোডিং পদ্ধতি ভাবা উচিত।

লিংক: মেশিন লার্নিং টিউটোরিয়াল - ৬

[

Machine Learning Tutorial Python - 6: Dummy Variables & One Hot Encoding

codebasics · 490K views

](http://www.youtube.com/watch?v=9yl6-HEY7_s)

মন্তব্যসমূহ

এই ব্লগটি থেকে জনপ্রিয় পোস্টগুলি

সিজ্জিন (Sijjin) vs ইল্লিয়িন (Illiyin) পার্থক্য Difference

Sijjin (سِجِّين) এবং Illiyin (عِلِّيِّين) —এ দুটি শব্দ কুরআনে এসেছে এবং দুটোই মানুষের আমলনামা সংরক্ষণ সম্পর্কিত স্থানকে নির্দেশ করে। ১. সিজ্জিন (Sijjin) সিজ্জিন হলো পাপীদের (কাফের, মুনাফিক ও দুরাচারীদের) আমলনামা সংরক্ষণের স্থান। এটি সাত তলদেশের নীচে এক কারাগার বা অন্ধকার জগতে অবস্থিত বলে উল্লেখ রয়েছে। সূরা আল-মুতাফফিফীন (৮৩:৭-৯) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْفُجَّارِ لَفِي سِجِّينٍ ۝ وَمَا أَدْرَاكَ مَا سِجِّينٌ ۝ كِتَابٌ مَرْقُومٌ" অর্থ: "না, পাপীদের আমলনামা সিজ্জিনে সংরক্ষিত। তুমি কি জানো, সিজ্জিন কী? এটি এক লিখিত দলিল।" সিজ্জিনকে একটি কারাগার, সংকীর্ণ স্থান, বা নিচের স্তরে অবস্থিত এক অন্ধকার দুনিয়া হিসেবে ব্যাখ্যা করা হয়। ২. ইল্লিয়িন (Illiyin) ইল্লিয়িন হলো সৎকর্মশীলদের (মুমিন ও নেককারদের) আমলনামা সংরক্ষণের স্থান । এটি সপ্তম আসমানের ওপরে সংরক্ষিত এক সম্মানিত স্থান। সূরা আল-মুতাফফিফীন (৮৩:১৮-২১) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْأَبْرَارِ لَفِي عِلِّيِّينَ ۝ وَمَا أَدْرَاكَ مَا عِلِّيُّونَ ۝ كِتَابٌ مَرْقُومٌ ۝ يَش...

তারাবিহ সমগ্র - প্রথম আলো

রামাদান ২০২৪ উপলক্ষে প্রথম আলোর নিয়মিত আয়োজন - খতমে তারাবিহ'র সূরা গুলো নিয়ে সংক্ষিপ্ত আলোচনা'র লিংক  নিচে দেওয়া হলো।  লিংকে ক্লিক করলেই আপনাকে আলোচনা তে নিয়ে যাবে। তারাবিহ: ১ | একটি খুন ও গাভি নিয়ে বনি ইসরাইলের বাড়াবাড়ি তারাবিহ: ২ | নারীর মর্যাদা ও অধিকার এবং অলৌকিক তিন ঘটনা তারাবিহ: ৩ | যে ১৪ নারীকে বিয়ে করা হারাম তারাবিতে: ১২ | মহানবী (সা.)–এর আকাশভ্রমণ এবং আসহাবে কাহাফের কাহিনি

রেডমি নোট ৯ এর বিস্তারিত | Redmi Note 9 in Bangla

৩০ এপ্রিল, ২০২০ এ শাওমির ঘোষনা আসে এই ফোনটি নিয়ে। কিন্তু ফোনটি মার্কেটে আসে মে মাসের শেষের দিকে৷ করোনার কারনে ফোনটি বাংলাদেশে আসতে আরো সময় নেয়। বর্তমানে বাংলাদেশে আন অফিশিয়াল ভাবে ফোনটি পাওয়া যাচ্ছে৷ বাংলাদেশে অফিশিয়াল ভাবে এখনো ফোনটি আসার তথ্য নেয়৷ চলুন ফোনটি নিয়ে বিস্তারিত আলোচনা করা যাক। শাওমি নোট সিরিজের ফোন বের করে এদের রেডমি নামে সাব ব্যান্ড৷ এদের কাজ হল এই নোট সিরিজ নিয়ে কাজ করা৷ প্রতিবছর নোট সিরিজের ১/২ টা ফোন বাজারে আসে। সাথে সেই ফোন গুলার বিভিন্ন ভার্সন (যেমন - র‍্যাম ও রমের ভিত্তিতে) বাজারে আসে। এই বছরও তারা রেডমি সিরিজের নোট ৯ বাজারে আনে। এই বছর হয়তো এই সিরিজের আরো ফোন বাজারে আসবে। ডিস্পলেঃ ফোনটির ডিসপ্লে সাইজ ৬.৫৩ ইঞ্চি। এতে আইপিএস এলসিডি ডিসপ্লে ব্যবহার করা হয়েছে। এই ফোনের ডিসপ্লে প্রটেকশন হিসেবে আছে গরিলা গ্লাস ফাইভ। স্ক্রিন আর ফোনের বডির অনুপাত প্রায় ৮৩.৫%। এই ফোনের ডিসপ্লে ফুলএইচডি মানে ১০৮০পি। এই ডিস্পলের দৈর্ঘ্য ১৯.৫ একক এবং প্রস্থ হল ৯ একক। এত বড় ফোনের কারনে এই ফোনের পিপি আই ডেনসিটি ৩৯৫। যা একটু কম। প্লাটফর্মঃ এই ফোনের অপারেটিং সিস্টেম এন্ড্রয়েড ১০ এবং এর...