সরাসরি প্রধান সামগ্রীতে চলে যান

Naive Bayes দিয়ে ইমেইল স্প্যাম ডিটেকশন

ভূমিকা

এই ভিডিওতে আমরা শিখব কীভাবে 'Naive Bayes' (নাইভ বেয়েস) অ্যালগরিদম ব্যবহার করে কম্পিউটারকে দিয়ে ইমেইল 'স্প্যাম' (Spam) কি না তা শনাক্ত করা যায়। মেশিনের কাছে তো আর আমাদের মতো ভাষা বোঝার ক্ষমতা নেই, তাই টেক্সট বা ভাষাকে কীভাবে সংখ্যায় রূপান্তর করে মডেল ট্রেন করতে হয়, সেটিই এই টিউটোরিয়ালের মূল বিষয়।


ডাটা প্রসেসিং (Data Processing)

প্রথমে আমাদের হাতে থাকা ইমেইলের ডাটা সেটটিকে কম্পিউটারের উপযোগী করে তুলতে হবে।

রেফারেন্স: [00:13] থেকে [01:58]

আমাদের কাছে কিছু ইমেইল আছে, যার মধ্যে কিছু 'Ham' (ভালো ইমেইল) এবং কিছু 'Spam' (প্রয়োজনহীন বা ভুয়া ইমেইল)। কম্পিউটার যেহেতু শুধু সংখ্যা বোঝে, তাই আমাদের টেক্সট ডাটাকে সংখ্যায় রূপান্তর করতে হয়।

  • সহজ ব্যাখ্যা: ধরো, তুমি একটি ইমেইল পড়লে এবং দেখলে তাতে লেখা "ফ্রি এন্ট্রি" বা "উইনার"। তুমি বুঝলে এটা স্প্যাম। কিন্তু কম্পিউটারকে এটা বোঝানোর জন্য আমরা ইমেইলগুলোকে ক্যাটাগরি অনুযায়ী ১ (স্প্যাম) এবং ০ (হ্যাম) দিয়ে মার্ক করে দিই।

টেক্সট থেকে সংখ্যায় রূপান্তর (CountVectorizer)

মেশিন লার্নিং মডেল টেক্সট সরাসরি পড়তে পারে না, তাই আমাদের একটি কৌশল ব্যবহার করতে হয়।

রেফারেন্স: [02:39] থেকে [04:20]

এখানে 'CountVectorizer' নামক একটি টুল ব্যবহার করা হয়। এটি প্রতিটি ইমেইলে থাকা অনন্য বা ভিন্ন ভিন্ন শব্দগুলো খুঁজে বের করে একটি টেবিল তৈরি করে।

  • সহজ ব্যাখ্যা: ধরো তোমার কাছে তিনটি বাক্য আছে। CountVectorizer দেখবে কোন বাক্যটিতে কোন শব্দটি কতবার আছে। এর মাধ্যমে সে একটি ম্যাট্রিক্স বা টেবিল তৈরি করবে যেখানে শব্দগুলো কলাম হিসেবে কাজ করবে। এটাই কম্পিউটারকে বুঝতে সাহায্য করে যে কোন ইমেইলে স্প্যাম শব্দগুলো বেশি আছে।

Naive Bayes মডেল প্রয়োগ

সব ডাটা সংখ্যায় রূপান্তরের পর আমাদের মডেলটি তৈরি করার পালা।

রেফারেন্স: [04:35] থেকে [06:13]

এখানে 'Multinomial Naive Bayes' ব্যবহার করা হয়েছে।

  • সহজ ব্যাখ্যা: Naive Bayes মূলত একটি সম্ভাব্যতা বা Probability-এর ওপর ভিত্তি করে কাজ করে। অর্থাৎ, ইমেইলে যদি "ফ্রি" শব্দটি থাকে, তবে এর স্প্যাম হওয়ার সম্ভাবনা কতটুকু, তা সে ক্যালকুলেশন করে বের করে।

কোড স্নিপেট:

Python

from sklearn.naive_bayes import MultinomialNB
model = MultinomialNB()
model.fit(X_train_count, y_train) 
  • ব্যাখ্যা: এখানে MultinomialNB() দিয়ে আমরা মডেলটিকে কল করেছি এবং fit মেথড ব্যবহার করে আমাদের ট্রেনিং ডাটা দিয়ে মডেলটিকে শেখালাম বা ট্রেন করলাম।

পাইপলাইন (Pipeline) ব্যবহার

বারবার ট্রান্সফর্মেশন বা রূপান্তর করা একটু ঝামেলার, তাই কোড সহজ করার জন্য 'Pipeline' ব্যবহার করা হয়।

রেফারেন্স: [07:13] থেকে [09:24]

Pipeline ব্যবহার করলে আমাদের বারবার CountVectorizer কল করতে হয় না, এটি অটোমেটিক সব কাজ করে দেয়।

কোড স্নিপেট:

Python

from sklearn.pipeline import Pipeline
clf = Pipeline([
    ('vectorizer', CountVectorizer()),
    ('nb', MultinomialNB())
])
clf.fit(X_train, y_train) 
  • ব্যাখ্যা: এখানে একটি পাইপলাইন তৈরি করা হয়েছে যার প্রথম ধাপ হলো টেক্সটকে সংখ্যায় রূপান্তর করা, আর দ্বিতীয় ধাপ হলো Naive Bayes মডেল দিয়ে প্রেডিকশন করা। এতে কোড অনেক পরিষ্কার হয়।

বিশ্লেষণ ও পরামর্শ

ভিডিওটির নির্মাতা মূলত হাতে-কলমে দেখিয়েছেন কীভাবে টেক্সট ডাটাকে প্রসেস করে ক্লাসিফায়ার তৈরি করতে হয়। এটি মেশিন লার্নিং শেখার জন্য চমৎকার একটি প্র্যাকটিক্যাল উদাহরণ।

  • বাস্তবতা: বাস্তবে ইমেইল স্প্যাম ডিটেকশনের জন্য আরও জটিল টেকনিক যেমন TF-IDF ব্যবহার করা হয়, যা শব্দের গুরুত্ব বিবেচনা করে। তবে শুরুতে শেখার জন্য CountVectorizer এবং Naive Bayes খুবই কার্যকর।

  • পরামর্শ: আপনি যদি নিজে এটি ট্রাই করতে চান, তবে ভিডিওর ডেসক্রিপশনে দেওয়া প্র্যাকটিস ডাটা সেটটি নিয়ে কাজ করুন। মনে রাখবেন, কোড শুধু দেখলে হয় না, নিজে টাইপ করে প্র্যাকটিস করলে শেখাটা দীর্ঘস্থায়ী হয়।

মূল ভিডিও লিংক: https://www.youtube.com/watch?v=nHIUYwN-5rM

[

Machine Learning Tutorial Python - 15: Naive Bayes Classifier Algorithm Part 2

codebasics · 162K views

](http://www.youtube.com/watch?v=nHIUYwN-5rM)

মন্তব্যসমূহ

এই ব্লগটি থেকে জনপ্রিয় পোস্টগুলি

সিজ্জিন (Sijjin) vs ইল্লিয়িন (Illiyin) পার্থক্য Difference

Sijjin (سِجِّين) এবং Illiyin (عِلِّيِّين) —এ দুটি শব্দ কুরআনে এসেছে এবং দুটোই মানুষের আমলনামা সংরক্ষণ সম্পর্কিত স্থানকে নির্দেশ করে। ১. সিজ্জিন (Sijjin) সিজ্জিন হলো পাপীদের (কাফের, মুনাফিক ও দুরাচারীদের) আমলনামা সংরক্ষণের স্থান। এটি সাত তলদেশের নীচে এক কারাগার বা অন্ধকার জগতে অবস্থিত বলে উল্লেখ রয়েছে। সূরা আল-মুতাফফিফীন (৮৩:৭-৯) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْفُجَّارِ لَفِي سِجِّينٍ ۝ وَمَا أَدْرَاكَ مَا سِجِّينٌ ۝ كِتَابٌ مَرْقُومٌ" অর্থ: "না, পাপীদের আমলনামা সিজ্জিনে সংরক্ষিত। তুমি কি জানো, সিজ্জিন কী? এটি এক লিখিত দলিল।" সিজ্জিনকে একটি কারাগার, সংকীর্ণ স্থান, বা নিচের স্তরে অবস্থিত এক অন্ধকার দুনিয়া হিসেবে ব্যাখ্যা করা হয়। ২. ইল্লিয়িন (Illiyin) ইল্লিয়িন হলো সৎকর্মশীলদের (মুমিন ও নেককারদের) আমলনামা সংরক্ষণের স্থান । এটি সপ্তম আসমানের ওপরে সংরক্ষিত এক সম্মানিত স্থান। সূরা আল-মুতাফফিফীন (৮৩:১৮-২১) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْأَبْرَارِ لَفِي عِلِّيِّينَ ۝ وَمَا أَدْرَاكَ مَا عِلِّيُّونَ ۝ كِتَابٌ مَرْقُومٌ ۝ يَش...

তারাবিহ সমগ্র - প্রথম আলো

রামাদান ২০২৪ উপলক্ষে প্রথম আলোর নিয়মিত আয়োজন - খতমে তারাবিহ'র সূরা গুলো নিয়ে সংক্ষিপ্ত আলোচনা'র লিংক  নিচে দেওয়া হলো।  লিংকে ক্লিক করলেই আপনাকে আলোচনা তে নিয়ে যাবে। তারাবিহ: ১ | একটি খুন ও গাভি নিয়ে বনি ইসরাইলের বাড়াবাড়ি তারাবিহ: ২ | নারীর মর্যাদা ও অধিকার এবং অলৌকিক তিন ঘটনা তারাবিহ: ৩ | যে ১৪ নারীকে বিয়ে করা হারাম তারাবিতে: ১২ | মহানবী (সা.)–এর আকাশভ্রমণ এবং আসহাবে কাহাফের কাহিনি

রেডমি নোট ৯ এর বিস্তারিত | Redmi Note 9 in Bangla

৩০ এপ্রিল, ২০২০ এ শাওমির ঘোষনা আসে এই ফোনটি নিয়ে। কিন্তু ফোনটি মার্কেটে আসে মে মাসের শেষের দিকে৷ করোনার কারনে ফোনটি বাংলাদেশে আসতে আরো সময় নেয়। বর্তমানে বাংলাদেশে আন অফিশিয়াল ভাবে ফোনটি পাওয়া যাচ্ছে৷ বাংলাদেশে অফিশিয়াল ভাবে এখনো ফোনটি আসার তথ্য নেয়৷ চলুন ফোনটি নিয়ে বিস্তারিত আলোচনা করা যাক। শাওমি নোট সিরিজের ফোন বের করে এদের রেডমি নামে সাব ব্যান্ড৷ এদের কাজ হল এই নোট সিরিজ নিয়ে কাজ করা৷ প্রতিবছর নোট সিরিজের ১/২ টা ফোন বাজারে আসে। সাথে সেই ফোন গুলার বিভিন্ন ভার্সন (যেমন - র‍্যাম ও রমের ভিত্তিতে) বাজারে আসে। এই বছরও তারা রেডমি সিরিজের নোট ৯ বাজারে আনে। এই বছর হয়তো এই সিরিজের আরো ফোন বাজারে আসবে। ডিস্পলেঃ ফোনটির ডিসপ্লে সাইজ ৬.৫৩ ইঞ্চি। এতে আইপিএস এলসিডি ডিসপ্লে ব্যবহার করা হয়েছে। এই ফোনের ডিসপ্লে প্রটেকশন হিসেবে আছে গরিলা গ্লাস ফাইভ। স্ক্রিন আর ফোনের বডির অনুপাত প্রায় ৮৩.৫%। এই ফোনের ডিসপ্লে ফুলএইচডি মানে ১০৮০পি। এই ডিস্পলের দৈর্ঘ্য ১৯.৫ একক এবং প্রস্থ হল ৯ একক। এত বড় ফোনের কারনে এই ফোনের পিপি আই ডেনসিটি ৩৯৫। যা একটু কম। প্লাটফর্মঃ এই ফোনের অপারেটিং সিস্টেম এন্ড্রয়েড ১০ এবং এর...