ভূমিকা
একটি ডেটা সায়েন্স বা মেশিন লার্নিং প্রজেক্টে সবচেয়ে গুরুত্বপূর্ণ হলো 'ডেটা'। আপনি যদি কম্পিউটারকে শেখাতে চান যে একটি ছবি দেখে চিনতে পারতে হবে সেটি কার ছবি, তবে সেই বিষয়ের অনেকগুলো ছবি আপনাকে সংগ্রহ করতে হবে। এই ভিডিওতে আমরা জানবো কিভাবে আমাদের ইমেজ ক্লাসিফিকেশন (Image Classification) প্রজেক্টের জন্য প্রয়োজনীয় ছবিগুলো বিভিন্ন উপায়ে সংগ্রহ করা যায়।
ছবি সংগ্রহের ৪টি প্রধান উপায়
ভিডিওটির রেফারেন্স: Data Science & Machine Learning Project - Part 2 Data Collection | Image Classification
ডেটা সায়েন্স প্রজেক্টের জন্য ছবি সংগ্রহের মূল ৪টি পদ্ধতি নিচে আলোচনা করা হলো:
১. ম্যানুয়ালি ডাউনলোড করা (Manual Method)
এটি সবচেয়ে সহজ কিন্তু সময়সাপেক্ষ পদ্ধতি। আপনি গুগল ইমেজেস-এ গিয়ে সরাসরি একটি একটি করে ছবি ডাউনলোড করতে পারেন।
-
কেন এটি করবেন: যদি আপনার প্রজেক্টের জন্য খুব অল্প সংখ্যক ছবির (যেমন ৫০-১০০টি) প্রয়োজন হয়, তবে এটিই সেরা উপায়।
-
সীমাবদ্ধতা: যদি আপনার হাজার হাজার ছবির প্রয়োজন হয়, তবে এটি অনেক শ্রমসাধ্য এবং ধৈর্যের কাজ।
২. অটোমেশন বা ওয়েব স্ক্র্যাপিং (Web Scraping)
পাইথনের মাধ্যমে স্ক্রিপ্ট লিখে বা অটোমেশন টুল ব্যবহার করে ইন্টারনেট থেকে স্বয়ংক্রিয়ভাবে ছবি ডাউনলোড করা।
-
কিভাবে কাজ করে: এখানে
SeleniumবাChrome Driverএর মতো টুল ব্যবহার করা হয় যা ব্রাউজারকে নিয়ন্ত্রণ করে এবং মানুষের মতো ক্লিক করে ছবি ডাউনলোড করে। -
সতর্কতা: ওয়েব স্ক্র্যাপিং একটি কিছুটা জটিল বিষয়। গুগল বা বড় ওয়েবসাইটগুলো তাদের তথ্য চুরি বা অতিরিক্ত লোড আটকাতে বিভিন্ন সিকিউরিটি আপডেট দেয়, যার ফলে আপনার কোড আজ কাজ করলেও কাল কাজ নাও করতে পারে।
-
সহজ ব্যাখ্যা: Web Scraping (ওয়েব স্ক্র্যাপিং) হলো এমন একটি পদ্ধতি যেখানে একটি কম্পিউটার প্রোগ্রাম কোনো ওয়েবসাইটের তথ্য বা ছবি মানুষের মতো দেখে সেগুলোকে কপি করে নিয়ে আসে। এটি অনেকটা রোবটকে দিয়ে ইন্টারনেট থেকে তথ্য সংগ্রহ করানোর মতো।
৩. ব্রাউজার এক্সটেনশন ব্যবহার করা (Chrome Extension)
এটি খুব কার্যকর এবং সহজ উপায়। আপনি 'Fatkun' এর মতো ক্রোম এক্সটেনশন ব্যবহার করে সরাসরি ব্রাউজার থেকেই সব ছবি ডাউনলোড করতে পারেন।
- কেন এটি ভালো: আপনাকে কোনো কোড লিখতে হবে না। শুধু এক্সটেনশনটি ইনস্টল করে ব্রাউজারে ছবিগুলো ওপেন করে 'Download' বাটনে ক্লিক করলেই সব ছবি একসাথে সেভ হয়ে যাবে। আপনি ছবিগুলোর সাইজ বা রেজল্যুশন অনুযায়ী ফিল্টারও করতে পারবেন।
৪. ছবি কিনে নেওয়া (Paid Method)
যদি আপনি কোনো বড় কোম্পানিতে কাজ করেন, তবে অনেক সময় কোম্পানি বিভিন্ন নিউজ পোর্টাল (যেমন: CNN, Times of India) বা থার্ড-পার্টি ভেন্ডরের কাছ থেকে ছবি কেনার বাজেট রাখে। এটি সবচেয়ে নির্ভরযোগ্য উপায়, কারণ এতে কপিরাইট সংক্রান্ত ঝামেলা থাকে না।
প্রযুক্তিগত কিছু বিষয়: অটোমেশন কেন কঠিন হতে পারে?
ভিডিওতে 'Selenium' বা অটোমেশনের কথা বলা হয়েছে। এর পেছনে মূল ধারণা হলো 'Robotic Process Automation (RPA)'। অর্থাৎ, মানুষ যেভাবে ব্রাউজারে গিয়ে সার্চ করছে, ছবি দেখছে এবং ডাউনলোড করছে, প্রোগ্রাম ঠিক সেই কাজগুলোই নকল (simulate) করে।
সমস্যা: বড় কোম্পানিগুলো চায় না মানুষ বটস (bots) ব্যবহার করে তাদের সার্ভার থেকে প্রচুর তথ্য টেনে আনুক। তাই তারা নিয়মিত তাদের সিকিউরিটি সিস্টেম পরিবর্তন করে। এর মানে হলো, আপনি যদি কোনো অটোমেশন কোড লিখেন, তবে সেটি সবসময় আপডেট রাখতে হবে, না হলে তা অকেজো হয়ে যাবে।
বিশ্লেষণ এবং আমার মতামত
এই ভিডিওর নির্মাতা মূলত আমাদের বাস্তব প্রজেক্টের চ্যালেঞ্জগুলোর সাথে পরিচয় করিয়ে দিচ্ছেন। তার এই আলোচনার মূল উদ্দেশ্য হলো—সবসময় কঠিন বা জটিল কোড লেখার প্রয়োজন নেই। যদি ছোট প্রজেক্ট হয়, তবে ম্যানুয়ালি বা টুল ব্যবহার করে কাজ চালানোই বুদ্ধিমানের কাজ।
আমার পরামর্শ: ১. নতুনদের জন্য: শুরুতে জটিল স্ক্র্যাপিং কোড না লিখে 'Fatkun' বা এই ধরনের সহজ এক্সটেনশন ব্যবহার করুন। এতে সময় বাঁচবে এবং আপনি মূল ডেটা সায়েন্স অ্যালগরিদম শেখার দিকে মনোযোগ দিতে পারবেন। ২. রিয়েলিটি চেক: প্রফেশনাল লেভেলে কাজ করার সময় অবশ্যই কপিরাইট বা আইনি বিষয়গুলো খেয়াল রাখবেন। পাবলিক ইমেজের ক্ষেত্রেও অনেক সময় নিয়ম থাকে। ৩. বিকল্প: অনেক সময় ইন্টারনেটে আগে থেকেই সাজানো (Cleaned) ডেটাসেট থাকে, যেমন Kaggle-এ। নিজের কোড লেখার আগে সেখানে একবার খুঁজে দেখা ভালো, এতে আপনার কাজ সহজ হয়ে যাবে।
পরবর্তী ধাপে এই সংগৃহীত ডেটাগুলোকে কীভাবে 'ক্লিন' করতে হয় এবং সেগুলোকে প্রজেক্টের উপযোগী করে তুলতে হয়, তা নিয়ে কাজ করা হবে।
[
Data Science & Machine Learning Project - Part 2 Data Collection | Image Classification
codebasics · 115K views
](http://www.youtube.com/watch?v=m1dQ38qDABw)

মন্তব্যসমূহ
একটি মন্তব্য পোস্ট করুন
আপনার সমস্যাটি কমেন্ট করে আমাদের জানান :-d