সরাসরি প্রধান সামগ্রীতে চলে যান

ডেটা থেকে আউলায়ার (Outlier) চেনার ও সরানোর সহজ উপায়

ভূমিকা

ডেটা অ্যানালাইসিস বা ডেটা নিয়ে কাজ করার সময় অনেক সময় আমরা এমন কিছু ভ্যালু বা ডেটা পয়েন্ট দেখি, যা বাকি সব ডেটার থেকে একদম আলাদা। যেমন—মানুষের বয়সের ডেটা সেটে যদি কারো বয়স ১০০০ বছর লেখা থাকে, সেটা অসম্ভব। এই অদ্ভুত বা অস্বাভাবিক ডেটা পয়েন্টগুলোকেই বলা হয় আউলায়ার (Outlier)। এগুলো আমাদের মডেল বা অ্যানালাইসিসকে ভুল পথে চালিত করতে পারে। আজকের এই টিউটোরিয়ালে আমরা শিখব কীভাবে পার্সেন্টাইল (Percentile) পদ্ধতি ব্যবহার করে খুব সহজে এই আউলায়ারগুলো শনাক্ত করে সরিয়ে ফেলা যায়।


আউলায়ার কী এবং কেন সরাবেন?

[00:00] আউলায়ার হলো এমন ডেটা যা সাধারণ প্যাটার্নের সাথে মেলে না। এটি দুই কারণে হতে পারে: ১. ডেটা কালেকশনের ভুল: যেমন—কারো উচ্চতা ১৪ ফুট হওয়া। এটি নিশ্চিতভাবে একটি ভুল তথ্য। ২. স্বাভাবিক ভিন্নতা: অনেক সময় ডেটা সঠিক হতে পারে, কিন্তু সেটি বাকি ডেটার থেকে অনেক দূরে অবস্থিত (যেমন—অস্বাভাবিক বেশি দামের বাড়ি)।

এগুলোকে সরিয়ে ফেলা জরুরি, কারণ এগুলো আপনার পরিসংখ্যান বা মডেলের ক্যালকুলেশনকে প্রভাবিত করে এবং ফলাফলে ভুল আনে।


পার্সেন্টাইল কী? (সহজ ব্যাখ্যা)

পার্সেন্টাইল হলো ডেটার অবস্থানের একটি পরিমাপ। ধরুন, আপনার ডেটার ৯০তম পার্সেন্টাইল (90th Percentile) মান হলো ৫০০। এর মানে হলো, আপনার সেটের ৯০% ডেটা ৫০০-এর নিচে। এর উপরের ডেটাগুলো সাধারণত অস্বাভাবিক বা আউলায়ার হিসেবে গণ্য হতে পারে।


পাইথনে কোডিংয়ের মাধ্যমে আউলায়ার রিমুভাল

আমরা পাইথনের Pandas লাইব্রেরি ব্যবহার করে খুব সহজেই এটি করতে পারি।

১. আউলায়ার শনাক্ত করা

নিচের কোডটি দিয়ে আমরা ডেটার উপরের এবং নিচের ৫% আউলায়ার শনাক্ত করছি:

Python

# কোড ব্যাখ্যা: quantile(0.95) মানে ৯০তম পার্সেন্টাইল, অর্থাৎ উপরের ৫% ডেটা
max_threshold = df['height'].quantile(0.95)
min_threshold = df['height'].quantile(0.05)

# এখন যাদের উচ্চতা এর বাইরে, তারা আউলায়ার
outliers = df[(df['height'] > max_threshold) | (df['height'] < min_threshold)] 

২. ডেটা ক্লিন বা পরিষ্কার করা

শনাক্ত করার পর আমরা নিচের কোড দিয়ে সেই আউলায়ারগুলো বাদ দিয়ে নতুন ক্লিন ডেটা সেট তৈরি করতে পারি:

Python

# কোড ব্যাখ্যা: শুধুমাত্র সেই ডেটাগুলো রাখছি যা আমাদের নির্ধারিত সীমার মধ্যে আছে
df_cleaned = df[(df['height'] < max_threshold) & (df['height'] > min_threshold)] 

এই কোডের মাধ্যমে আমরা এমন ডেটাগুলো ছেঁটে ফেললাম যা অস্বাভাবিক (যেমন খুব কম উচ্চতা বা খুব বেশি উচ্চতা), ফলে আমাদের অ্যানালাইসিস অনেক বেশি নিখুঁত হবে।


রিয়েল-লাইফ উদাহরণের সাথে বিশ্লেষণ

ভিডিওতে বেঙ্গালুরুর প্রপার্টি প্রাইসের উদাহরণ দেওয়া হয়েছে। যখনই কোনো প্রপার্টির দাম অস্বাভাবিকভাবে কম বা বেশি থাকে, তখন তা মডেলকে বিভ্রান্ত করে। পার্সেন্টাইল ব্যবহার করে আমরা সহজেই উপরের এবং নিচের প্রান্তের (far ends) অস্বাভাবিক ডেটাগুলো ফিল্টার করে ফেলতে পারি।


বিশ্লেষণ ও আমার মতামত

ভিডিওটির ক্রিয়েটর অত্যন্ত কার্যকর একটি পদ্ধতি শিখিয়েছেন। আমার মতে:

  • কেন এটি ভালো: যখন আমাদের কোনো নির্দিষ্ট ডোমেইন নলেজ (যেমন—প্রপার্টি মার্কেট সম্পর্কে গভীর ধারণা) থাকে না, তখন পার্সেন্টাইল মেথড খুব নিরপেক্ষভাবে কাজ করে।

  • সতর্কতা: সবসময় পার্সেন্টাইল ব্যবহার করে ডেটা ফেলে দেওয়া ঠিক নয়। যদি আউলায়ারগুলো আসল ডেটা হয় (যেমন—বিশ্বের সবচেয়ে ধনী ব্যক্তির সম্পদের তথ্য), তবে সেগুলো বাদ দিলে ভুল সিদ্ধান্ত হতে পারে। সবসময় চেক করা উচিত ডেটাটি কেন আলাদা।

পরামর্শ: এই কাজটি করার আগে সবসময় ডেটা ভিজ্যুয়ালাইজেশন (Box Plot বা Scatter Plot) করে দেখুন। এতে আপনি খালি চোখেই বুঝতে পারবেন কোথায় ডেটার অসামঞ্জস্য রয়েছে।

রেফারেন্স ভিডিও: Outlier detection and removal using percentile

[

Outlier detection and removal using percentile | Feature engineering tutorial python # 2

codebasics · 149K views

](http://www.youtube.com/watch?v=7sJaRHF03K8)

মন্তব্যসমূহ

এই ব্লগটি থেকে জনপ্রিয় পোস্টগুলি

সিজ্জিন (Sijjin) vs ইল্লিয়িন (Illiyin) পার্থক্য Difference

Sijjin (سِجِّين) এবং Illiyin (عِلِّيِّين) —এ দুটি শব্দ কুরআনে এসেছে এবং দুটোই মানুষের আমলনামা সংরক্ষণ সম্পর্কিত স্থানকে নির্দেশ করে। ১. সিজ্জিন (Sijjin) সিজ্জিন হলো পাপীদের (কাফের, মুনাফিক ও দুরাচারীদের) আমলনামা সংরক্ষণের স্থান। এটি সাত তলদেশের নীচে এক কারাগার বা অন্ধকার জগতে অবস্থিত বলে উল্লেখ রয়েছে। সূরা আল-মুতাফফিফীন (৮৩:৭-৯) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْفُجَّارِ لَفِي سِجِّينٍ ۝ وَمَا أَدْرَاكَ مَا سِجِّينٌ ۝ كِتَابٌ مَرْقُومٌ" অর্থ: "না, পাপীদের আমলনামা সিজ্জিনে সংরক্ষিত। তুমি কি জানো, সিজ্জিন কী? এটি এক লিখিত দলিল।" সিজ্জিনকে একটি কারাগার, সংকীর্ণ স্থান, বা নিচের স্তরে অবস্থিত এক অন্ধকার দুনিয়া হিসেবে ব্যাখ্যা করা হয়। ২. ইল্লিয়িন (Illiyin) ইল্লিয়িন হলো সৎকর্মশীলদের (মুমিন ও নেককারদের) আমলনামা সংরক্ষণের স্থান । এটি সপ্তম আসমানের ওপরে সংরক্ষিত এক সম্মানিত স্থান। সূরা আল-মুতাফফিফীন (৮৩:১৮-২১) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْأَبْرَارِ لَفِي عِلِّيِّينَ ۝ وَمَا أَدْرَاكَ مَا عِلِّيُّونَ ۝ كِتَابٌ مَرْقُومٌ ۝ يَش...

তারাবিহ সমগ্র - প্রথম আলো

রামাদান ২০২৪ উপলক্ষে প্রথম আলোর নিয়মিত আয়োজন - খতমে তারাবিহ'র সূরা গুলো নিয়ে সংক্ষিপ্ত আলোচনা'র লিংক  নিচে দেওয়া হলো।  লিংকে ক্লিক করলেই আপনাকে আলোচনা তে নিয়ে যাবে। তারাবিহ: ১ | একটি খুন ও গাভি নিয়ে বনি ইসরাইলের বাড়াবাড়ি তারাবিহ: ২ | নারীর মর্যাদা ও অধিকার এবং অলৌকিক তিন ঘটনা তারাবিহ: ৩ | যে ১৪ নারীকে বিয়ে করা হারাম তারাবিতে: ১২ | মহানবী (সা.)–এর আকাশভ্রমণ এবং আসহাবে কাহাফের কাহিনি

রেডমি নোট ৯ এর বিস্তারিত | Redmi Note 9 in Bangla

৩০ এপ্রিল, ২০২০ এ শাওমির ঘোষনা আসে এই ফোনটি নিয়ে। কিন্তু ফোনটি মার্কেটে আসে মে মাসের শেষের দিকে৷ করোনার কারনে ফোনটি বাংলাদেশে আসতে আরো সময় নেয়। বর্তমানে বাংলাদেশে আন অফিশিয়াল ভাবে ফোনটি পাওয়া যাচ্ছে৷ বাংলাদেশে অফিশিয়াল ভাবে এখনো ফোনটি আসার তথ্য নেয়৷ চলুন ফোনটি নিয়ে বিস্তারিত আলোচনা করা যাক। শাওমি নোট সিরিজের ফোন বের করে এদের রেডমি নামে সাব ব্যান্ড৷ এদের কাজ হল এই নোট সিরিজ নিয়ে কাজ করা৷ প্রতিবছর নোট সিরিজের ১/২ টা ফোন বাজারে আসে। সাথে সেই ফোন গুলার বিভিন্ন ভার্সন (যেমন - র‍্যাম ও রমের ভিত্তিতে) বাজারে আসে। এই বছরও তারা রেডমি সিরিজের নোট ৯ বাজারে আনে। এই বছর হয়তো এই সিরিজের আরো ফোন বাজারে আসবে। ডিস্পলেঃ ফোনটির ডিসপ্লে সাইজ ৬.৫৩ ইঞ্চি। এতে আইপিএস এলসিডি ডিসপ্লে ব্যবহার করা হয়েছে। এই ফোনের ডিসপ্লে প্রটেকশন হিসেবে আছে গরিলা গ্লাস ফাইভ। স্ক্রিন আর ফোনের বডির অনুপাত প্রায় ৮৩.৫%। এই ফোনের ডিসপ্লে ফুলএইচডি মানে ১০৮০পি। এই ডিস্পলের দৈর্ঘ্য ১৯.৫ একক এবং প্রস্থ হল ৯ একক। এত বড় ফোনের কারনে এই ফোনের পিপি আই ডেনসিটি ৩৯৫। যা একটু কম। প্লাটফর্মঃ এই ফোনের অপারেটিং সিস্টেম এন্ড্রয়েড ১০ এবং এর...