সরাসরি প্রধান সামগ্রীতে চলে যান

রিয়েল এস্টেট প্রাইস প্রেডিকশন: মেশিন লার্নিং মডেল তৈরি

ভূমিকা

আমাদের এই আলোচনার মূল বিষয় হলো একটি মেশিন লার্নিং মডেল তৈরি করা, যা দিয়ে বাসার দাম অনুমান করা যায়। সহজ কথায়, আমরা কম্পিউটারকে আমাদের ডাটা বা তথ্যগুলো শিখিয়ে দিচ্ছি যাতে সে নতুন কোনো বাসার লোকেশন, সাইজ এবং কয়টি রুম আছে—তা দেখে দাম বলে দিতে পারে। এই পর্যায়ে আমরা মডেলটি তৈরি করে তার কার্যকারিতা পরীক্ষা করব।


১. টেক্সট ডাটাকে সংখ্যায় রূপান্তর (One-Hot Encoding)

ভিডিও রেফারেন্স: [00:21]

মেশিন লার্নিং মডেল টেক্সট বা লেখা বুঝতে পারে না, সে শুধু সংখ্যা বোঝে। আমাদের ডাটাতে বাসার লোকেশনগুলো ছিল লেখা (যেমন: JP Nagar, Indiranagar)। এগুলোকে সংখ্যায় রূপান্তর করার জন্য আমরা 'One-Hot Encoding' ব্যবহার করেছি।

সহজ ভাষায়: ধরুন, আপনার কাছে তিনটি এলাকা আছে—ক, খ, গ। এই মডেলটি তিনটি নতুন কলাম তৈরি করবে। যদি কোনো বাসা 'ক' এলাকার হয়, তবে 'ক' কলামে ১ থাকবে, বাকিগুলোতে ০। এতে কম্পিউটার বুঝতে পারে কোন বাসা কোথায়।

কোড স্নিপেট:

Python

dummies = pd.get_dummies(df10.location)
df11 = pd.concat([df10, dummies.drop('other', axis='columns')], axis='columns')
df12 = df11.drop('location', axis='columns') 
  • ব্যাখ্যা: get_dummies দিয়ে লোকেশনগুলোকে কলামে ভাগ করা হয়েছে। drop ব্যবহার করা হয়েছে 'Dummy Variable Trap' বা অপ্রয়োজনীয় জটিলতা এড়াতে। এরপর concat দিয়ে মূল ডাটা ফ্রেমের সাথে যোগ করা হয়েছে।

২. মডেল প্রশিক্ষণ এবং মূল্যায়ন (Training & Evaluation)

ভিডিও রেফারেন্স: [05:31]

এখন আমরা আমাদের ডাটাকে দুটি ভাগে ভাগ করেছি: ট্রেনিং ডাটা (৮০%) এবং টেস্ট ডাটা (২০%)। ট্রেনিং ডাটা দিয়ে মডেলকে শিখিয়েছি এবং টেস্ট ডাটা দিয়ে দেখেছি মডেলটি কতটা সঠিক দাম বলতে পারছে।

  • Linear Regression: এটি একটি গাণিতিক পদ্ধতি যা দামের সম্পর্ক বের করে।

  • K-Fold Cross-Validation: এটি মডেলকে অনেকবার আলাদা আলাদা ডাটা দিয়ে যাচাই করে নিশ্চিত করে যে মডেলটি সব ধরণের ডাটার জন্যই ঠিকমতো কাজ করছে।


৩. সেরা মডেল খুঁজে বের করা (Grid Search CV)

ভিডিও রেফারেন্স: [08:28]

আমরা শুধু একটি মডেলের উপর নির্ভর না করে GridSearchCV ব্যবহার করে বেশ কিছু অ্যালগরিদম (যেমন: Lasso, Decision Tree) যাচাই করেছি। এটি স্বয়ংক্রিয়ভাবে দেখে কোন মডেলটি সবচেয়ে ভালো কাজ করছে। আমাদের ক্ষেত্রে Linear Regression সেরা ফল দিয়েছে।


৪. মডেল এক্সপোর্ট করা (Pickle File)

ভিডিও রেফারেন্স: [16:12]

মডেলটি যখন তৈরি হয়ে গেল, তখন আমরা এটিকে একটি pickle ফাইলে সেভ করেছি।

সহজ ভাষায়: Pickle হলো এমন একটি ফাইল ফরম্যাট যা আপনার তৈরি করা পুরো মডেলটিকে একটি ছোট প্যাকেটে ভরে রাখে, যাতে পরে অন্য কোনো ওয়েবসাইট বা সার্ভারে এটি সহজেই ব্যবহার করা যায়।

কোড স্নিপেট:

Python

import pickle
with open('banglore_home_prices_model.pickle','wb') as f:
    pickle.dump(lr_clf,f) 
  • ব্যাখ্যা: pickle.dump কমান্ডটি আমাদের তৈরি করা মডেলকে ফাইল আকারে সেভ করে ফেলেছে।

বিশ্লেষণ ও আমার মতামত

এই ভিডিওটিতে খুব সুন্দরভাবে একটি রিয়েল-ওয়ার্ল্ড প্রবলেম সমাধান করা হয়েছে। একজন ডাটা সায়েন্টিস্ট হিসেবে এখানে যে প্রক্রিয়াটি দেখানো হয়েছে (ডাটা ক্লিনিং থেকে শুরু করে মডেল সেভ করা পর্যন্ত), তা বাস্তব জীবনে দারুণ কার্যকর।

বাস্তবতা ও সাজেশন: ১. মডেলটিতে কিছু অস্বাভাবিক রেজাল্ট দেখা গেছে, যেমন ২ বেডরুমের দাম ৩ বেডরুমের চেয়ে বেশি। এর মানে হতে পারে আমাদের ডাটা সোর্সে তথ্যের অভাব ছিল। ভবিষ্যতে আরও সঠিক ডাটা ব্যবহার করলে এই ভুলগুলো থাকবে না। ২. নতুন কেউ যদি শিখতে চান, তবে One-Hot Encoding এবং Train-Test Split এর কনসেপ্টটি আগে ভালো করে আয়ত্ত করবেন। ৩. মডেলটি আরও উন্নত করতে চাইলে 'Outlier removal' (অস্বাভাবিক দামের ডাটা বাদ দেওয়া) আরও সতর্কভাবে করা উচিত।

এই পুরো প্রক্রিয়াটি একটি পেশাদার ডাটা সায়েন্স প্রোজেক্টের একটি গুরুত্বপূর্ণ অংশ, যা আপনাকে সরাসরি কাজের উপযোগী দক্ষতা অর্জনে সাহায্য করবে।

[

Machine Learning & Data Science Project - 5 : Model Building (Real Estate Price Prediction Project)

codebasics · 207K views

](http://www.youtube.com/watch?v=oCiRv94GMEc)

মন্তব্যসমূহ

এই ব্লগটি থেকে জনপ্রিয় পোস্টগুলি

সিজ্জিন (Sijjin) vs ইল্লিয়িন (Illiyin) পার্থক্য Difference

Sijjin (سِجِّين) এবং Illiyin (عِلِّيِّين) —এ দুটি শব্দ কুরআনে এসেছে এবং দুটোই মানুষের আমলনামা সংরক্ষণ সম্পর্কিত স্থানকে নির্দেশ করে। ১. সিজ্জিন (Sijjin) সিজ্জিন হলো পাপীদের (কাফের, মুনাফিক ও দুরাচারীদের) আমলনামা সংরক্ষণের স্থান। এটি সাত তলদেশের নীচে এক কারাগার বা অন্ধকার জগতে অবস্থিত বলে উল্লেখ রয়েছে। সূরা আল-মুতাফফিফীন (৮৩:৭-৯) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْفُجَّارِ لَفِي سِجِّينٍ ۝ وَمَا أَدْرَاكَ مَا سِجِّينٌ ۝ كِتَابٌ مَرْقُومٌ" অর্থ: "না, পাপীদের আমলনামা সিজ্জিনে সংরক্ষিত। তুমি কি জানো, সিজ্জিন কী? এটি এক লিখিত দলিল।" সিজ্জিনকে একটি কারাগার, সংকীর্ণ স্থান, বা নিচের স্তরে অবস্থিত এক অন্ধকার দুনিয়া হিসেবে ব্যাখ্যা করা হয়। ২. ইল্লিয়িন (Illiyin) ইল্লিয়িন হলো সৎকর্মশীলদের (মুমিন ও নেককারদের) আমলনামা সংরক্ষণের স্থান । এটি সপ্তম আসমানের ওপরে সংরক্ষিত এক সম্মানিত স্থান। সূরা আল-মুতাফফিফীন (৮৩:১৮-২১) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْأَبْرَارِ لَفِي عِلِّيِّينَ ۝ وَمَا أَدْرَاكَ مَا عِلِّيُّونَ ۝ كِتَابٌ مَرْقُومٌ ۝ يَش...

তারাবিহ সমগ্র - প্রথম আলো

রামাদান ২০২৪ উপলক্ষে প্রথম আলোর নিয়মিত আয়োজন - খতমে তারাবিহ'র সূরা গুলো নিয়ে সংক্ষিপ্ত আলোচনা'র লিংক  নিচে দেওয়া হলো।  লিংকে ক্লিক করলেই আপনাকে আলোচনা তে নিয়ে যাবে। তারাবিহ: ১ | একটি খুন ও গাভি নিয়ে বনি ইসরাইলের বাড়াবাড়ি তারাবিহ: ২ | নারীর মর্যাদা ও অধিকার এবং অলৌকিক তিন ঘটনা তারাবিহ: ৩ | যে ১৪ নারীকে বিয়ে করা হারাম তারাবিতে: ১২ | মহানবী (সা.)–এর আকাশভ্রমণ এবং আসহাবে কাহাফের কাহিনি

রেডমি নোট ৯ এর বিস্তারিত | Redmi Note 9 in Bangla

৩০ এপ্রিল, ২০২০ এ শাওমির ঘোষনা আসে এই ফোনটি নিয়ে। কিন্তু ফোনটি মার্কেটে আসে মে মাসের শেষের দিকে৷ করোনার কারনে ফোনটি বাংলাদেশে আসতে আরো সময় নেয়। বর্তমানে বাংলাদেশে আন অফিশিয়াল ভাবে ফোনটি পাওয়া যাচ্ছে৷ বাংলাদেশে অফিশিয়াল ভাবে এখনো ফোনটি আসার তথ্য নেয়৷ চলুন ফোনটি নিয়ে বিস্তারিত আলোচনা করা যাক। শাওমি নোট সিরিজের ফোন বের করে এদের রেডমি নামে সাব ব্যান্ড৷ এদের কাজ হল এই নোট সিরিজ নিয়ে কাজ করা৷ প্রতিবছর নোট সিরিজের ১/২ টা ফোন বাজারে আসে। সাথে সেই ফোন গুলার বিভিন্ন ভার্সন (যেমন - র‍্যাম ও রমের ভিত্তিতে) বাজারে আসে। এই বছরও তারা রেডমি সিরিজের নোট ৯ বাজারে আনে। এই বছর হয়তো এই সিরিজের আরো ফোন বাজারে আসবে। ডিস্পলেঃ ফোনটির ডিসপ্লে সাইজ ৬.৫৩ ইঞ্চি। এতে আইপিএস এলসিডি ডিসপ্লে ব্যবহার করা হয়েছে। এই ফোনের ডিসপ্লে প্রটেকশন হিসেবে আছে গরিলা গ্লাস ফাইভ। স্ক্রিন আর ফোনের বডির অনুপাত প্রায় ৮৩.৫%। এই ফোনের ডিসপ্লে ফুলএইচডি মানে ১০৮০পি। এই ডিস্পলের দৈর্ঘ্য ১৯.৫ একক এবং প্রস্থ হল ৯ একক। এত বড় ফোনের কারনে এই ফোনের পিপি আই ডেনসিটি ৩৯৫। যা একটু কম। প্লাটফর্মঃ এই ফোনের অপারেটিং সিস্টেম এন্ড্রয়েড ১০ এবং এর...