সরাসরি প্রধান সামগ্রীতে চলে যান

ডেটা সায়েন্স প্রজেক্টের জন্য ছবি সংগ্রহের সহজ উপায়

ভূমিকা

একটি ডেটা সায়েন্স বা মেশিন লার্নিং প্রজেক্টে সবচেয়ে গুরুত্বপূর্ণ হলো 'ডেটা'। আপনি যদি কম্পিউটারকে শেখাতে চান যে একটি ছবি দেখে চিনতে পারতে হবে সেটি কার ছবি, তবে সেই বিষয়ের অনেকগুলো ছবি আপনাকে সংগ্রহ করতে হবে। এই ভিডিওতে আমরা জানবো কিভাবে আমাদের ইমেজ ক্লাসিফিকেশন (Image Classification) প্রজেক্টের জন্য প্রয়োজনীয় ছবিগুলো বিভিন্ন উপায়ে সংগ্রহ করা যায়।


ছবি সংগ্রহের ৪টি প্রধান উপায়

ভিডিওটির রেফারেন্স: Data Science & Machine Learning Project - Part 2 Data Collection | Image Classification

ডেটা সায়েন্স প্রজেক্টের জন্য ছবি সংগ্রহের মূল ৪টি পদ্ধতি নিচে আলোচনা করা হলো:

১. ম্যানুয়ালি ডাউনলোড করা (Manual Method)

এটি সবচেয়ে সহজ কিন্তু সময়সাপেক্ষ পদ্ধতি। আপনি গুগল ইমেজেস-এ গিয়ে সরাসরি একটি একটি করে ছবি ডাউনলোড করতে পারেন।

  • কেন এটি করবেন: যদি আপনার প্রজেক্টের জন্য খুব অল্প সংখ্যক ছবির (যেমন ৫০-১০০টি) প্রয়োজন হয়, তবে এটিই সেরা উপায়।

  • সীমাবদ্ধতা: যদি আপনার হাজার হাজার ছবির প্রয়োজন হয়, তবে এটি অনেক শ্রমসাধ্য এবং ধৈর্যের কাজ।

২. অটোমেশন বা ওয়েব স্ক্র্যাপিং (Web Scraping)

পাইথনের মাধ্যমে স্ক্রিপ্ট লিখে বা অটোমেশন টুল ব্যবহার করে ইন্টারনেট থেকে স্বয়ংক্রিয়ভাবে ছবি ডাউনলোড করা।

  • কিভাবে কাজ করে: এখানে Selenium বা Chrome Driver এর মতো টুল ব্যবহার করা হয় যা ব্রাউজারকে নিয়ন্ত্রণ করে এবং মানুষের মতো ক্লিক করে ছবি ডাউনলোড করে।

  • সতর্কতা: ওয়েব স্ক্র্যাপিং একটি কিছুটা জটিল বিষয়। গুগল বা বড় ওয়েবসাইটগুলো তাদের তথ্য চুরি বা অতিরিক্ত লোড আটকাতে বিভিন্ন সিকিউরিটি আপডেট দেয়, যার ফলে আপনার কোড আজ কাজ করলেও কাল কাজ নাও করতে পারে।

  • সহজ ব্যাখ্যা: Web Scraping (ওয়েব স্ক্র্যাপিং) হলো এমন একটি পদ্ধতি যেখানে একটি কম্পিউটার প্রোগ্রাম কোনো ওয়েবসাইটের তথ্য বা ছবি মানুষের মতো দেখে সেগুলোকে কপি করে নিয়ে আসে। এটি অনেকটা রোবটকে দিয়ে ইন্টারনেট থেকে তথ্য সংগ্রহ করানোর মতো।

৩. ব্রাউজার এক্সটেনশন ব্যবহার করা (Chrome Extension)

এটি খুব কার্যকর এবং সহজ উপায়। আপনি 'Fatkun' এর মতো ক্রোম এক্সটেনশন ব্যবহার করে সরাসরি ব্রাউজার থেকেই সব ছবি ডাউনলোড করতে পারেন।

  • কেন এটি ভালো: আপনাকে কোনো কোড লিখতে হবে না। শুধু এক্সটেনশনটি ইনস্টল করে ব্রাউজারে ছবিগুলো ওপেন করে 'Download' বাটনে ক্লিক করলেই সব ছবি একসাথে সেভ হয়ে যাবে। আপনি ছবিগুলোর সাইজ বা রেজল্যুশন অনুযায়ী ফিল্টারও করতে পারবেন।

৪. ছবি কিনে নেওয়া (Paid Method)

যদি আপনি কোনো বড় কোম্পানিতে কাজ করেন, তবে অনেক সময় কোম্পানি বিভিন্ন নিউজ পোর্টাল (যেমন: CNN, Times of India) বা থার্ড-পার্টি ভেন্ডরের কাছ থেকে ছবি কেনার বাজেট রাখে। এটি সবচেয়ে নির্ভরযোগ্য উপায়, কারণ এতে কপিরাইট সংক্রান্ত ঝামেলা থাকে না।


প্রযুক্তিগত কিছু বিষয়: অটোমেশন কেন কঠিন হতে পারে?

ভিডিওতে 'Selenium' বা অটোমেশনের কথা বলা হয়েছে। এর পেছনে মূল ধারণা হলো 'Robotic Process Automation (RPA)'। অর্থাৎ, মানুষ যেভাবে ব্রাউজারে গিয়ে সার্চ করছে, ছবি দেখছে এবং ডাউনলোড করছে, প্রোগ্রাম ঠিক সেই কাজগুলোই নকল (simulate) করে।

সমস্যা: বড় কোম্পানিগুলো চায় না মানুষ বটস (bots) ব্যবহার করে তাদের সার্ভার থেকে প্রচুর তথ্য টেনে আনুক। তাই তারা নিয়মিত তাদের সিকিউরিটি সিস্টেম পরিবর্তন করে। এর মানে হলো, আপনি যদি কোনো অটোমেশন কোড লিখেন, তবে সেটি সবসময় আপডেট রাখতে হবে, না হলে তা অকেজো হয়ে যাবে।


বিশ্লেষণ এবং আমার মতামত

এই ভিডিওর নির্মাতা মূলত আমাদের বাস্তব প্রজেক্টের চ্যালেঞ্জগুলোর সাথে পরিচয় করিয়ে দিচ্ছেন। তার এই আলোচনার মূল উদ্দেশ্য হলো—সবসময় কঠিন বা জটিল কোড লেখার প্রয়োজন নেই। যদি ছোট প্রজেক্ট হয়, তবে ম্যানুয়ালি বা টুল ব্যবহার করে কাজ চালানোই বুদ্ধিমানের কাজ।

আমার পরামর্শ: ১. নতুনদের জন্য: শুরুতে জটিল স্ক্র্যাপিং কোড না লিখে 'Fatkun' বা এই ধরনের সহজ এক্সটেনশন ব্যবহার করুন। এতে সময় বাঁচবে এবং আপনি মূল ডেটা সায়েন্স অ্যালগরিদম শেখার দিকে মনোযোগ দিতে পারবেন। ২. রিয়েলিটি চেক: প্রফেশনাল লেভেলে কাজ করার সময় অবশ্যই কপিরাইট বা আইনি বিষয়গুলো খেয়াল রাখবেন। পাবলিক ইমেজের ক্ষেত্রেও অনেক সময় নিয়ম থাকে। ৩. বিকল্প: অনেক সময় ইন্টারনেটে আগে থেকেই সাজানো (Cleaned) ডেটাসেট থাকে, যেমন Kaggle-এ। নিজের কোড লেখার আগে সেখানে একবার খুঁজে দেখা ভালো, এতে আপনার কাজ সহজ হয়ে যাবে।

পরবর্তী ধাপে এই সংগৃহীত ডেটাগুলোকে কীভাবে 'ক্লিন' করতে হয় এবং সেগুলোকে প্রজেক্টের উপযোগী করে তুলতে হয়, তা নিয়ে কাজ করা হবে।

[

Data Science & Machine Learning Project - Part 2 Data Collection | Image Classification

codebasics · 115K views

](http://www.youtube.com/watch?v=m1dQ38qDABw)

মন্তব্যসমূহ

এই ব্লগটি থেকে জনপ্রিয় পোস্টগুলি

সিজ্জিন (Sijjin) vs ইল্লিয়িন (Illiyin) পার্থক্য Difference

Sijjin (سِجِّين) এবং Illiyin (عِلِّيِّين) —এ দুটি শব্দ কুরআনে এসেছে এবং দুটোই মানুষের আমলনামা সংরক্ষণ সম্পর্কিত স্থানকে নির্দেশ করে। ১. সিজ্জিন (Sijjin) সিজ্জিন হলো পাপীদের (কাফের, মুনাফিক ও দুরাচারীদের) আমলনামা সংরক্ষণের স্থান। এটি সাত তলদেশের নীচে এক কারাগার বা অন্ধকার জগতে অবস্থিত বলে উল্লেখ রয়েছে। সূরা আল-মুতাফফিফীন (৮৩:৭-৯) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْفُجَّارِ لَفِي سِجِّينٍ ۝ وَمَا أَدْرَاكَ مَا سِجِّينٌ ۝ كِتَابٌ مَرْقُومٌ" অর্থ: "না, পাপীদের আমলনামা সিজ্জিনে সংরক্ষিত। তুমি কি জানো, সিজ্জিন কী? এটি এক লিখিত দলিল।" সিজ্জিনকে একটি কারাগার, সংকীর্ণ স্থান, বা নিচের স্তরে অবস্থিত এক অন্ধকার দুনিয়া হিসেবে ব্যাখ্যা করা হয়। ২. ইল্লিয়িন (Illiyin) ইল্লিয়িন হলো সৎকর্মশীলদের (মুমিন ও নেককারদের) আমলনামা সংরক্ষণের স্থান । এটি সপ্তম আসমানের ওপরে সংরক্ষিত এক সম্মানিত স্থান। সূরা আল-মুতাফফিফীন (৮৩:১৮-২১) তে বলা হয়েছে: "كَلَّا إِنَّ كِتَابَ الْأَبْرَارِ لَفِي عِلِّيِّينَ ۝ وَمَا أَدْرَاكَ مَا عِلِّيُّونَ ۝ كِتَابٌ مَرْقُومٌ ۝ يَش...

তারাবিহ সমগ্র - প্রথম আলো

রামাদান ২০২৪ উপলক্ষে প্রথম আলোর নিয়মিত আয়োজন - খতমে তারাবিহ'র সূরা গুলো নিয়ে সংক্ষিপ্ত আলোচনা'র লিংক  নিচে দেওয়া হলো।  লিংকে ক্লিক করলেই আপনাকে আলোচনা তে নিয়ে যাবে। তারাবিহ: ১ | একটি খুন ও গাভি নিয়ে বনি ইসরাইলের বাড়াবাড়ি তারাবিহ: ২ | নারীর মর্যাদা ও অধিকার এবং অলৌকিক তিন ঘটনা তারাবিহ: ৩ | যে ১৪ নারীকে বিয়ে করা হারাম তারাবিতে: ১২ | মহানবী (সা.)–এর আকাশভ্রমণ এবং আসহাবে কাহাফের কাহিনি

রেডমি নোট ৯ এর বিস্তারিত | Redmi Note 9 in Bangla

৩০ এপ্রিল, ২০২০ এ শাওমির ঘোষনা আসে এই ফোনটি নিয়ে। কিন্তু ফোনটি মার্কেটে আসে মে মাসের শেষের দিকে৷ করোনার কারনে ফোনটি বাংলাদেশে আসতে আরো সময় নেয়। বর্তমানে বাংলাদেশে আন অফিশিয়াল ভাবে ফোনটি পাওয়া যাচ্ছে৷ বাংলাদেশে অফিশিয়াল ভাবে এখনো ফোনটি আসার তথ্য নেয়৷ চলুন ফোনটি নিয়ে বিস্তারিত আলোচনা করা যাক। শাওমি নোট সিরিজের ফোন বের করে এদের রেডমি নামে সাব ব্যান্ড৷ এদের কাজ হল এই নোট সিরিজ নিয়ে কাজ করা৷ প্রতিবছর নোট সিরিজের ১/২ টা ফোন বাজারে আসে। সাথে সেই ফোন গুলার বিভিন্ন ভার্সন (যেমন - র‍্যাম ও রমের ভিত্তিতে) বাজারে আসে। এই বছরও তারা রেডমি সিরিজের নোট ৯ বাজারে আনে। এই বছর হয়তো এই সিরিজের আরো ফোন বাজারে আসবে। ডিস্পলেঃ ফোনটির ডিসপ্লে সাইজ ৬.৫৩ ইঞ্চি। এতে আইপিএস এলসিডি ডিসপ্লে ব্যবহার করা হয়েছে। এই ফোনের ডিসপ্লে প্রটেকশন হিসেবে আছে গরিলা গ্লাস ফাইভ। স্ক্রিন আর ফোনের বডির অনুপাত প্রায় ৮৩.৫%। এই ফোনের ডিসপ্লে ফুলএইচডি মানে ১০৮০পি। এই ডিস্পলের দৈর্ঘ্য ১৯.৫ একক এবং প্রস্থ হল ৯ একক। এত বড় ফোনের কারনে এই ফোনের পিপি আই ডেনসিটি ৩৯৫। যা একটু কম। প্লাটফর্মঃ এই ফোনের অপারেটিং সিস্টেম এন্ড্রয়েড ১০ এবং এর...