সরাসরি প্রধান সামগ্রীতে চলে যান

মেশিন লার্নিং প্রজেক্টের জন্য ডেটা সংগ্রহের নিয়মাবলী

ভূমিকা

মেশিন লার্নিং বা এআই (AI) প্রজেক্টের সবচেয়ে গুরুত্বপূর্ণ ধাপ হলো প্রচুর পরিমাণে সঠিক ডেটা বা তথ্য সংগ্রহ করা। আপনি যদি একটি কম্পিউটারকে শেখাতে চান যে কোন ছবিটি কার (যেমন- মারিয়া শারাপোভা বা অন্য কেউ), তবে তাকে ওই ব্যক্তির প্রচুর ছবি দেখাতে হবে। এই ভিডিওটিতে ডেটা সংগ্রহের চারটি কার্যকরী উপায় নিয়ে আলোচনা করা হয়েছে।


১. ম্যানুয়ালি বা হাতে-কলমে ছবি ডাউনলোড করা

রেফারেন্স: ভিডিও থেকে পর্যন্ত।

এটি হলো সবচেয়ে সহজ পদ্ধতি। আপনি গুগল ইমেজ-এ গিয়ে ছবিগুলো একটি একটি করে ডাউনলোড করবেন।

  • সুবিধা: যদি আপনার খুব কম সংখ্যক (যেমন ৫০টি) ছবির প্রয়োজন হয়, তবে এই পদ্ধতিটিই সেরা এবং ঝামেলামুক্ত।

  • অসুবিধা: যদি আপনার হাজার হাজার ছবির প্রয়োজন হয়, তবে এটি অনেক সময়সাপেক্ষ এবং ক্লান্তিকর কাজ।


২. ওয়েব স্ক্র্যাপিং বা অটোমেশনের মাধ্যমে ছবি সংগ্রহ

রেফারেন্স: ভিডিও থেকে পর্যন্ত।

এখানে আপনি পাইথন কোড এবং অটোমেশন সফটওয়্যার ব্যবহার করে স্বয়ংক্রিয়ভাবে গুগল থেকে ছবি নামাতে পারেন।

  • সেলেনিয়াম (Selenium): এটি একটি অটোমেশন টুলের নাম। এটি এমনভাবে কাজ করে যেন কোনো মানুষ নিজে ব্রাউজারে গিয়ে ক্লিক করছে, স্ক্রল করছে এবং ছবি ডাউনলোড করছে।

  • সতর্কতা: ওয়েব স্ক্র্যাপিং সবসময় খুব একটা নিরাপদ নয়। গুগল বা বড় বড় ওয়েবসাইটগুলো সবসময় চায় না যে কেউ তাদের ডেটা এভাবে টেনে নিয়ে যাক (Scrap)। তাদের অ্যালগরিদম নিয়মিত আপডেট হয়, ফলে আজ যে কোড কাজ করছে, তা কাল নাও করতে পারে। আইনি দিক থেকেও এটি একটি ধূসর এলাকা বা 'Grey Area'—অর্থাৎ পুরোপুরি বৈধ বা অবৈধ বলা কঠিন।


৩. ব্রাউজার এক্সটেনশন ব্যবহার করা

রেফারেন্স: ভিডিও থেকে পর্যন্ত।

এটি ব্যক্তিগতভাবে সাজেস্ট করা একটি সহজ উপায়। 'Fatkun' এর মতো ক্রোম এক্সটেনশন ব্যবহার করে আপনি খুব সহজেই গুগল ইমেজ থেকে শত শত ছবি এক ক্লিকেই ডাউনলোড করতে পারেন।

  • কেন এটি ভালো: আপনাকে কোনো কোড লিখতে হবে না। আপনি ছবির সাইজ বা রেজোলিউশন অনুযায়ী ফিল্টারও করতে পারেন।

৪. ছবি কেনা বা নিজস্ব ডেটাসেট ব্যবহার করা

রেফারেন্স: ভিডিও থেকে পর্যন্ত।

বড় বড় কোম্পানিগুলো সাধারণত সরাসরি ছবি কিনে নেয়।

  • পেশাদার পদ্ধতি: নিউজ এজেন্সি বা ইমেজ ভেন্ডরদের কাছ থেকে টাকা দিয়ে ছবি কেনা যায়। অথবা আপনি যদি বড় কোম্পানিতে কাজ করেন, তবে তাদের কাছে থাকা নিজস্ব ডেটা ওয়্যারহাউস (যেখানে সব ডেটা জমা থাকে) থেকে ছবি সংগ্রহ করতে পারেন।

কঠিন শব্দগুলোর সহজ ব্যাখ্যা

  • সুপারভাইজড লার্নিং (Supervised Learning): কম্পিউটারকে যখন লেবেল বা উত্তরসহ ডেটা দিয়ে শেখানো হয়, তাকে সুপারভাইজড লার্নিং বলে। (যেমন- একটি ছবিতে মারিয়ার নাম লিখে দেওয়া, যাতে কম্পিউটার পরে চিনতে পারে)।

  • ওয়েব স্ক্র্যাপিং (Web Scraping): ইন্টারনেট থেকে স্বয়ংক্রিয়ভাবে তথ্য বা ছবি সংগ্রহ করার প্রযুক্তি।

  • অ্যালগরিদম (Algorithm): কোনো কাজ ধাপে ধাপে করার জন্য নির্দিষ্ট কিছু নিয়ম বা গাণিতিক সূত্র।

  • ডেটাসেট (Dataset): কোনো প্রজেক্টের জন্য যে বিপুল পরিমাণ তথ্য বা ছবি একসাথে সংগ্রহ করা হয়।


বিশ্লেষণ ও ব্যক্তিগত মতামত

ভিডিওর নির্মাতা খুব সুন্দরভাবে দেখিয়েছেন যে একটি মেশিন লার্নিং প্রজেক্টের শুরুটা কীভাবে করতে হয়। রিয়েল লাইফ প্রজেক্টের ক্ষেত্রে, স্ক্র্যাপিং কোড লেখার চেয়ে অনেক সময় 'Fatkun' বা ভালো এক্সটেনশন ব্যবহার করা অনেক বেশি কার্যকর, কারণ এতে সময়ের সাশ্রয় হয়।

আমার পরামর্শ: আপনি যদি শেখার জন্য প্রজেক্ট করেন, তবে আগে গুগল থেকে অল্প কিছু ম্যানুয়াল ছবি নিয়ে শুরু করুন। এরপর একটু জটিল প্রজেক্টের জন্য স্ক্র্যাপিং শিখতে পারেন। আর যদি প্রফেশনাল লেভেলের কাজ হয়, তবে ডেটাসেট কেনা বা কোম্পানির নিজস্ব ভাণ্ডার ব্যবহার করাই সবচেয়ে বুদ্ধিমানের কাজ।

ভিডিওর রেফারেন্স লিংক: https://www.youtube.com/watch?v=m1dQ38qDABw

[

0 views

](http://www.youtube.com/watch?v=m1dQ38qDAB7)

[

Data Science & Machine Learning Project - Part 2 Data Collection | Image Classification

codebasics · 115K views

](http://www.youtube.com/watch?v=m1dQ38qDABw)

মন্তব্যসমূহ

এই ব্লগটি থেকে জনপ্রিয় পোস্টগুলি

সিজ্জিন (Sijjin) vs ইল্লিয়িন (Illiyin) পার্থক্য Difference

Sijjin (سِجِّين) এবং Illiyin (عِلِّيِّين) —এ দুটি শব্দ কুরআনে এসেছে এবং দুটোই মানুষের আমলনামা সংরক্ষণ সম্পর্কিত স্থানকে নির্দেশ করে। ১. সিজ্জিন (Sijjin) সিজ্জিন হলো পাপীদের (কাফের, মুনাফিক ও দুরাচারীদের) আমলনামা সংরক্ষণের স্থান। এটি সাত তলদেশের নীচে এক কারাগার বা অন্ধকার জগতে অবস্থিত বলে উল্লেখ রয়েছে। সূরা আল-মুতাফফিফীন (৮৩:৭-৯) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْفُجَّارِ لَفِي سِجِّينٍ ۝ وَمَا أَدْرَاكَ مَا سِجِّينٌ ۝ كِتَابٌ مَرْقُومٌ" অর্থ: "না, পাপীদের আমলনামা সিজ্জিনে সংরক্ষিত। তুমি কি জানো, সিজ্জিন কী? এটি এক লিখিত দলিল।" সিজ্জিনকে একটি কারাগার, সংকীর্ণ স্থান, বা নিচের স্তরে অবস্থিত এক অন্ধকার দুনিয়া হিসেবে ব্যাখ্যা করা হয়। ২. ইল্লিয়িন (Illiyin) ইল্লিয়িন হলো সৎকর্মশীলদের (মুমিন ও নেককারদের) আমলনামা সংরক্ষণের স্থান । এটি সপ্তম আসমানের ওপরে সংরক্ষিত এক সম্মানিত স্থান। সূরা আল-মুতাফফিফীন (৮৩:১৮-২১) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْأَبْرَارِ لَفِي عِلِّيِّينَ ۝ وَمَا أَدْرَاكَ مَا عِلِّيُّونَ ۝ كِتَابٌ مَرْقُومٌ ۝ يَش...

তারাবিহ সমগ্র - প্রথম আলো

রামাদান ২০২৪ উপলক্ষে প্রথম আলোর নিয়মিত আয়োজন - খতমে তারাবিহ'র সূরা গুলো নিয়ে সংক্ষিপ্ত আলোচনা'র লিংক  নিচে দেওয়া হলো।  লিংকে ক্লিক করলেই আপনাকে আলোচনা তে নিয়ে যাবে। তারাবিহ: ১ | একটি খুন ও গাভি নিয়ে বনি ইসরাইলের বাড়াবাড়ি তারাবিহ: ২ | নারীর মর্যাদা ও অধিকার এবং অলৌকিক তিন ঘটনা তারাবিহ: ৩ | যে ১৪ নারীকে বিয়ে করা হারাম তারাবিতে: ১২ | মহানবী (সা.)–এর আকাশভ্রমণ এবং আসহাবে কাহাফের কাহিনি

রেডমি নোট ৯ এর বিস্তারিত | Redmi Note 9 in Bangla

৩০ এপ্রিল, ২০২০ এ শাওমির ঘোষনা আসে এই ফোনটি নিয়ে। কিন্তু ফোনটি মার্কেটে আসে মে মাসের শেষের দিকে৷ করোনার কারনে ফোনটি বাংলাদেশে আসতে আরো সময় নেয়। বর্তমানে বাংলাদেশে আন অফিশিয়াল ভাবে ফোনটি পাওয়া যাচ্ছে৷ বাংলাদেশে অফিশিয়াল ভাবে এখনো ফোনটি আসার তথ্য নেয়৷ চলুন ফোনটি নিয়ে বিস্তারিত আলোচনা করা যাক। শাওমি নোট সিরিজের ফোন বের করে এদের রেডমি নামে সাব ব্যান্ড৷ এদের কাজ হল এই নোট সিরিজ নিয়ে কাজ করা৷ প্রতিবছর নোট সিরিজের ১/২ টা ফোন বাজারে আসে। সাথে সেই ফোন গুলার বিভিন্ন ভার্সন (যেমন - র‍্যাম ও রমের ভিত্তিতে) বাজারে আসে। এই বছরও তারা রেডমি সিরিজের নোট ৯ বাজারে আনে। এই বছর হয়তো এই সিরিজের আরো ফোন বাজারে আসবে। ডিস্পলেঃ ফোনটির ডিসপ্লে সাইজ ৬.৫৩ ইঞ্চি। এতে আইপিএস এলসিডি ডিসপ্লে ব্যবহার করা হয়েছে। এই ফোনের ডিসপ্লে প্রটেকশন হিসেবে আছে গরিলা গ্লাস ফাইভ। স্ক্রিন আর ফোনের বডির অনুপাত প্রায় ৮৩.৫%। এই ফোনের ডিসপ্লে ফুলএইচডি মানে ১০৮০পি। এই ডিস্পলের দৈর্ঘ্য ১৯.৫ একক এবং প্রস্থ হল ৯ একক। এত বড় ফোনের কারনে এই ফোনের পিপি আই ডেনসিটি ৩৯৫। যা একটু কম। প্লাটফর্মঃ এই ফোনের অপারেটিং সিস্টেম এন্ড্রয়েড ১০ এবং এর...