সরাসরি প্রধান সামগ্রীতে চলে যান

রিয়েল এস্টেট প্রাইস প্রেডিকশন: ডেটা ক্লিনিং প্রজেক্ট

ভূমিকা

মেশিন লার্নিং প্রজেক্টে সবথেকে গুরুত্বপূর্ণ ধাপ হলো 'ডেটা ক্লিনিং' (Data Cleaning)। আমাদের কাছে থাকা raw বা কাঁচা ডেটাতে অনেক ভুল, ফাঁকা ঘর (missing values) বা অসামঞ্জস্য থাকে। সরাসরি সেই ডেটা দিয়ে মডেল বানালে ভালো ফলাফল পাওয়া যায় না। এই ভিডিওতে আমরা শিখব কীভাবে Pandas লাইব্রেরি ব্যবহার করে রিয়েল এস্টেট বা ফ্ল্যাটের প্রাইস প্রেডিকশনের জন্য ডেটাকে নিখুঁত ও ব্যবহারের উপযোগী করে তোলা যায়।


১. ডেটা লোড এবং প্রাথমিক পর্যবেক্ষণ

ভিডিও রেফারেন্স: [00:00]

শুরুতেই আমাদের ডেটাসেটটিকে Pandas DataFrame-এ লোড করতে হয়। CSV ফাইল থেকে ডেটা পড়ার পর shape ফাংশন দিয়ে আমরা দেখতে পারি ডেটাতে কতগুলো সারি (rows) এবং কলাম (columns) আছে।

  • সহজ ব্যাখ্যা: * DataFrame: এটা অনেকটা এক্সেল ফাইলের মতো একটি টেবিল, যেখানে ডেটা সাজানো থাকে।

    • Independent Variable: যেসব তথ্যের ওপর ভিত্তি করে আমরা দাম নির্ধারণ করব (যেমন: লোকেশন, সাইজ, স্কয়ার ফুট)।

    • Dependent Variable: যে জিনিসটি আমরা প্রেডিক্ট বা অনুমান করতে চাই (যেমন: ঘরের দাম)।


২. অপ্রয়োজনীয় কলাম বাদ দেওয়া

ভিডিও রেফারেন্স: [02:46]

মডেলকে সহজ রাখার জন্য যে কলামগুলো দাম নির্ধারণে খুব একটা প্রভাব ফেলে না, সেগুলোকে আমরা ড্রপ (Drop) বা বাদ দিয়ে দিই।

Python

# অপ্রয়োজনীয় কলামগুলো বাদ দেওয়া
df2 = df1.drop(['area_type', 'availability', 'society', 'balcony'], axis='columns') 
  • ব্যাখ্যা: drop() ফাংশন দিয়ে আমরা অপ্রয়োজনীয় কলামগুলোকে ডিলিট করে দিচ্ছি, যাতে মডেল শুধু প্রয়োজনীয় তথ্যের ওপর ফোকাস করতে পারে।

৩. মিসিং ভ্যালু (NA Values) হ্যান্ডল করা

ভিডিও রেফারেন্স: [03:29]

ডেটাতে অনেক সময় কিছু ঘর ফাঁকা থাকে, যেগুলোকে আমরা 'NA' ভ্যালু বলি। এগুলো মডেলের জন্য ক্ষতিকর।

  • কীভাবে সমাধান করবেন: * যদি মিসিং ভ্যালুর সংখ্যা খুব কম হয়, তবে সেই পুরো সারিটি dropna() ফাংশন দিয়ে মুছে ফেলা যায়।

    • অথবা, গড় মান (median) দিয়ে সেই ফাঁকা জায়গাগুলো পূরণ করা যায়।

৪. সাইজ কলাম ঠিক করা (Feature Engineering)

ভিডিও রেফারেন্স: [04:38]

ডেটাতে সাইজের জায়গায় কোথাও লেখা আছে '2 BHK', আবার কোথাও '4 Bedroom'। মডেলের জন্য দুটোই একই জিনিস বোঝানো উচিত। তাই আমরা একটি নতুন কলাম 'BHK' তৈরি করছি।

Python

# 'size' কলাম থেকে শুধু সংখ্যাটি নিয়ে নতুন 'bhk' কলাম বানানো
df3['bhk'] = df3['size'].apply(lambda x: int(x.split(' ')[0])) 
  • সহজ ব্যাখ্যা: * split(' '): একটি টেক্সটকে স্পেস অনুযায়ী আলাদা করা।

    • lambda: এটি একটি ছোট ফাংশন যা প্রতিটি সারির ওপর কাজ করে।

    • অর্জন: এখন আমাদের কাছে পরিষ্কার একটি সংখ্যা আছে যেটা দিয়ে সহজেই মডেল ক্যালকুলেশন করতে পারবে।


৫. টোটাল স্কয়ার ফুট ঠিক করা

ভিডিও রেফারেন্স: [08:14]

কিছু জায়গায় স্কয়ার ফুটের মান রেঞ্জে দেওয়া থাকে (যেমন: '1133 - 1384')। এগুলোকে গাণিতিক মানে রূপান্তর করতে হবে।

  • পদ্ধতি: আমরা একটি কাস্টম ফাংশন লিখব যা রেঞ্জ থাকলে তার গড় (average) বের করবে এবং অন্য মানগুলো সরাসরি সংখ্যায় রূপান্তর করবে।

Python

# রেঞ্জ থাকলে তার গড় বের করার ফাংশন
def convert_sqft_to_num(x):
    tokens = x.split('-')
    if len(tokens) == 2:
        return (float(tokens[0]) + float(tokens[1]))/2
    try:
        return float(x)
    except:
        return None 
  • অর্জন: এই কোডটি ডেটাকে গাণিতিকভাবে সঠিক করে তুলল।

বিশ্লেষণ ও চিন্তা

এই ভিডিওটির মূল লক্ষ্য হলো বাস্তব ডেটা নিয়ে কাজ করার সাহস তৈরি করা। রিয়েল লাইফ প্রজেক্টে ডেটা কখনোই বইয়ের মতো পরিষ্কার থাকে না। ক্রিয়েটর এখানে 'Data Cleaning Pipeline' তৈরি করেছেন, যা একজন বিগিনার হিসেবে বোঝা খুবই জরুরি।

পরামর্শ: * বাস্তবতা: ডেটা ক্লিনিংয়েই একজন ডেটা সায়েন্টিস্টের ৮০% সময় ব্যয় হয়। এটি বিরক্তিকর মনে হতে পারে, কিন্তু এটি ছাড়া মডেল কখনোই ভালো পারফর্ম করবে না।

  • বিকল্প উপায়: যদি রেঞ্জ বা বড় ধরনের আউটলায়ার (ভুল ডেটা) অনেক বেশি থাকে, তবে সেগুলোকে বাদ না দিয়ে পরিসংখ্যানের নিয়ম (যেমন: standard deviation ব্যবহার করে) অনুযায়ী হ্যান্ডল করা ভালো।

ভিডিও লিংক: https://www.youtube.com/watch?v=_drqJ9SFCgU

[

Machine Learning & Data Science Project - 2 : Data Cleaning (Real Estate Price Prediction Project)

codebasics · 418K views

](http://www.youtube.com/watch?v=_drqJ9SFCgU)

মন্তব্যসমূহ

এই ব্লগটি থেকে জনপ্রিয় পোস্টগুলি

সিজ্জিন (Sijjin) vs ইল্লিয়িন (Illiyin) পার্থক্য Difference

Sijjin (سِجِّين) এবং Illiyin (عِلِّيِّين) —এ দুটি শব্দ কুরআনে এসেছে এবং দুটোই মানুষের আমলনামা সংরক্ষণ সম্পর্কিত স্থানকে নির্দেশ করে। ১. সিজ্জিন (Sijjin) সিজ্জিন হলো পাপীদের (কাফের, মুনাফিক ও দুরাচারীদের) আমলনামা সংরক্ষণের স্থান। এটি সাত তলদেশের নীচে এক কারাগার বা অন্ধকার জগতে অবস্থিত বলে উল্লেখ রয়েছে। সূরা আল-মুতাফফিফীন (৮৩:৭-৯) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْفُجَّارِ لَفِي سِجِّينٍ ۝ وَمَا أَدْرَاكَ مَا سِجِّينٌ ۝ كِتَابٌ مَرْقُومٌ" অর্থ: "না, পাপীদের আমলনামা সিজ্জিনে সংরক্ষিত। তুমি কি জানো, সিজ্জিন কী? এটি এক লিখিত দলিল।" সিজ্জিনকে একটি কারাগার, সংকীর্ণ স্থান, বা নিচের স্তরে অবস্থিত এক অন্ধকার দুনিয়া হিসেবে ব্যাখ্যা করা হয়। ২. ইল্লিয়িন (Illiyin) ইল্লিয়িন হলো সৎকর্মশীলদের (মুমিন ও নেককারদের) আমলনামা সংরক্ষণের স্থান । এটি সপ্তম আসমানের ওপরে সংরক্ষিত এক সম্মানিত স্থান। সূরা আল-মুতাফফিফীন (৮৩:১৮-২১) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْأَبْرَارِ لَفِي عِلِّيِّينَ ۝ وَمَا أَدْرَاكَ مَا عِلِّيُّونَ ۝ كِتَابٌ مَرْقُومٌ ۝ يَش...

তারাবিহ সমগ্র - প্রথম আলো

রামাদান ২০২৪ উপলক্ষে প্রথম আলোর নিয়মিত আয়োজন - খতমে তারাবিহ'র সূরা গুলো নিয়ে সংক্ষিপ্ত আলোচনা'র লিংক  নিচে দেওয়া হলো।  লিংকে ক্লিক করলেই আপনাকে আলোচনা তে নিয়ে যাবে। তারাবিহ: ১ | একটি খুন ও গাভি নিয়ে বনি ইসরাইলের বাড়াবাড়ি তারাবিহ: ২ | নারীর মর্যাদা ও অধিকার এবং অলৌকিক তিন ঘটনা তারাবিহ: ৩ | যে ১৪ নারীকে বিয়ে করা হারাম তারাবিতে: ১২ | মহানবী (সা.)–এর আকাশভ্রমণ এবং আসহাবে কাহাফের কাহিনি

রেডমি নোট ৯ এর বিস্তারিত | Redmi Note 9 in Bangla

৩০ এপ্রিল, ২০২০ এ শাওমির ঘোষনা আসে এই ফোনটি নিয়ে। কিন্তু ফোনটি মার্কেটে আসে মে মাসের শেষের দিকে৷ করোনার কারনে ফোনটি বাংলাদেশে আসতে আরো সময় নেয়। বর্তমানে বাংলাদেশে আন অফিশিয়াল ভাবে ফোনটি পাওয়া যাচ্ছে৷ বাংলাদেশে অফিশিয়াল ভাবে এখনো ফোনটি আসার তথ্য নেয়৷ চলুন ফোনটি নিয়ে বিস্তারিত আলোচনা করা যাক। শাওমি নোট সিরিজের ফোন বের করে এদের রেডমি নামে সাব ব্যান্ড৷ এদের কাজ হল এই নোট সিরিজ নিয়ে কাজ করা৷ প্রতিবছর নোট সিরিজের ১/২ টা ফোন বাজারে আসে। সাথে সেই ফোন গুলার বিভিন্ন ভার্সন (যেমন - র‍্যাম ও রমের ভিত্তিতে) বাজারে আসে। এই বছরও তারা রেডমি সিরিজের নোট ৯ বাজারে আনে। এই বছর হয়তো এই সিরিজের আরো ফোন বাজারে আসবে। ডিস্পলেঃ ফোনটির ডিসপ্লে সাইজ ৬.৫৩ ইঞ্চি। এতে আইপিএস এলসিডি ডিসপ্লে ব্যবহার করা হয়েছে। এই ফোনের ডিসপ্লে প্রটেকশন হিসেবে আছে গরিলা গ্লাস ফাইভ। স্ক্রিন আর ফোনের বডির অনুপাত প্রায় ৮৩.৫%। এই ফোনের ডিসপ্লে ফুলএইচডি মানে ১০৮০পি। এই ডিস্পলের দৈর্ঘ্য ১৯.৫ একক এবং প্রস্থ হল ৯ একক। এত বড় ফোনের কারনে এই ফোনের পিপি আই ডেনসিটি ৩৯৫। যা একটু কম। প্লাটফর্মঃ এই ফোনের অপারেটিং সিস্টেম এন্ড্রয়েড ১০ এবং এর...