ডেটা সায়েন্স প্রজেক্টের জন্য ছবি সংগ্রহের সহজ উপায়

ভূমিকা

একটি ডেটা সায়েন্স বা মেশিন লার্নিং প্রজেক্টে সবচেয়ে গুরুত্বপূর্ণ হলো 'ডেটা'। আপনি যদি কম্পিউটারকে শেখাতে চান যে একটি ছবি দেখে চিনতে পারতে হবে সেটি কার ছবি, তবে সেই বিষয়ের অনেকগুলো ছবি আপনাকে সংগ্রহ করতে হবে। এই ভিডিওতে আমরা জানবো কিভাবে আমাদের ইমেজ ক্লাসিফিকেশন (Image Classification) প্রজেক্টের জন্য প্রয়োজনীয় ছবিগুলো বিভিন্ন উপায়ে সংগ্রহ করা যায়।

ছবি সংগ্রহের ৪টি প্রধান উপায়

ভিডিওটির রেফারেন্স: Data Science & Machine Learning Project - Part 2 Data Collection | Image Classification

ডেটা সায়েন্স প্রজেক্টের জন্য ছবি সংগ্রহের মূল ৪টি পদ্ধতি নিচে আলোচনা করা হলো:

১. ম্যানুয়ালি ডাউনলোড করা (Manual Method)

এটি সবচেয়ে সহজ কিন্তু সময়সাপেক্ষ পদ্ধতি। আপনি গুগল ইমেজেস-এ গিয়ে সরাসরি একটি একটি করে ছবি ডাউনলোড করতে পারেন।

কেন এটি করবেন: যদি আপনার প্রজেক্টের জন্য খুব অল্প সংখ্যক ছবির (যেমন ৫০-১০০টি) প্রয়োজন হয়, তবে এটিই সেরা উপায়।
সীমাবদ্ধতা: যদি আপনার হাজার হাজার ছবির প্রয়োজন হয়, তবে এটি অনেক শ্রমসাধ্য এবং ধৈর্যের কাজ।

২. অটোমেশন বা ওয়েব স্ক্র্যাপিং (Web Scraping)

পাইথনের মাধ্যমে স্ক্রিপ্ট লিখে বা অটোমেশন টুল ব্যবহার করে ইন্টারনেট থেকে স্বয়ংক্রিয়ভাবে ছবি ডাউনলোড করা।

কিভাবে কাজ করে: এখানে Selenium বা Chrome Driver এর মতো টুল ব্যবহার করা হয় যা ব্রাউজারকে নিয়ন্ত্রণ করে এবং মানুষের মতো ক্লিক করে ছবি ডাউনলোড করে।
সতর্কতা: ওয়েব স্ক্র্যাপিং একটি কিছুটা জটিল বিষয়। গুগল বা বড় ওয়েবসাইটগুলো তাদের তথ্য চুরি বা অতিরিক্ত লোড আটকাতে বিভিন্ন সিকিউরিটি আপডেট দেয়, যার ফলে আপনার কোড আজ কাজ করলেও কাল কাজ নাও করতে পারে।
সহজ ব্যাখ্যা: Web Scraping (ওয়েব স্ক্র্যাপিং) হলো এমন একটি পদ্ধতি যেখানে একটি কম্পিউটার প্রোগ্রাম কোনো ওয়েবসাইটের তথ্য বা ছবি মানুষের মতো দেখে সেগুলোকে কপি করে নিয়ে আসে। এটি অনেকটা রোবটকে দিয়ে ইন্টারনেট থেকে তথ্য সংগ্রহ করানোর মতো।

৩. ব্রাউজার এক্সটেনশন ব্যবহার করা (Chrome Extension)

এটি খুব কার্যকর এবং সহজ উপায়। আপনি 'Fatkun' এর মতো ক্রোম এক্সটেনশন ব্যবহার করে সরাসরি ব্রাউজার থেকেই সব ছবি ডাউনলোড করতে পারেন।

কেন এটি ভালো: আপনাকে কোনো কোড লিখতে হবে না। শুধু এক্সটেনশনটি ইনস্টল করে ব্রাউজারে ছবিগুলো ওপেন করে 'Download' বাটনে ক্লিক করলেই সব ছবি একসাথে সেভ হয়ে যাবে। আপনি ছবিগুলোর সাইজ বা রেজল্যুশন অনুযায়ী ফিল্টারও করতে পারবেন।

৪. ছবি কিনে নেওয়া (Paid Method)

যদি আপনি কোনো বড় কোম্পানিতে কাজ করেন, তবে অনেক সময় কোম্পানি বিভিন্ন নিউজ পোর্টাল (যেমন: CNN, Times of India) বা থার্ড-পার্টি ভেন্ডরের কাছ থেকে ছবি কেনার বাজেট রাখে। এটি সবচেয়ে নির্ভরযোগ্য উপায়, কারণ এতে কপিরাইট সংক্রান্ত ঝামেলা থাকে না।

প্রযুক্তিগত কিছু বিষয়: অটোমেশন কেন কঠিন হতে পারে?

ভিডিওতে 'Selenium' বা অটোমেশনের কথা বলা হয়েছে। এর পেছনে মূল ধারণা হলো 'Robotic Process Automation (RPA)'। অর্থাৎ, মানুষ যেভাবে ব্রাউজারে গিয়ে সার্চ করছে, ছবি দেখছে এবং ডাউনলোড করছে, প্রোগ্রাম ঠিক সেই কাজগুলোই নকল (simulate) করে।

সমস্যা: বড় কোম্পানিগুলো চায় না মানুষ বটস (bots) ব্যবহার করে তাদের সার্ভার থেকে প্রচুর তথ্য টেনে আনুক। তাই তারা নিয়মিত তাদের সিকিউরিটি সিস্টেম পরিবর্তন করে। এর মানে হলো, আপনি যদি কোনো অটোমেশন কোড লিখেন, তবে সেটি সবসময় আপডেট রাখতে হবে, না হলে তা অকেজো হয়ে যাবে।

বিশ্লেষণ এবং আমার মতামত

এই ভিডিওর নির্মাতা মূলত আমাদের বাস্তব প্রজেক্টের চ্যালেঞ্জগুলোর সাথে পরিচয় করিয়ে দিচ্ছেন। তার এই আলোচনার মূল উদ্দেশ্য হলো—সবসময় কঠিন বা জটিল কোড লেখার প্রয়োজন নেই। যদি ছোট প্রজেক্ট হয়, তবে ম্যানুয়ালি বা টুল ব্যবহার করে কাজ চালানোই বুদ্ধিমানের কাজ।

আমার পরামর্শ: ১. নতুনদের জন্য: শুরুতে জটিল স্ক্র্যাপিং কোড না লিখে 'Fatkun' বা এই ধরনের সহজ এক্সটেনশন ব্যবহার করুন। এতে সময় বাঁচবে এবং আপনি মূল ডেটা সায়েন্স অ্যালগরিদম শেখার দিকে মনোযোগ দিতে পারবেন। ২. রিয়েলিটি চেক: প্রফেশনাল লেভেলে কাজ করার সময় অবশ্যই কপিরাইট বা আইনি বিষয়গুলো খেয়াল রাখবেন। পাবলিক ইমেজের ক্ষেত্রেও অনেক সময় নিয়ম থাকে। ৩. বিকল্প: অনেক সময় ইন্টারনেটে আগে থেকেই সাজানো (Cleaned) ডেটাসেট থাকে, যেমন Kaggle-এ। নিজের কোড লেখার আগে সেখানে একবার খুঁজে দেখা ভালো, এতে আপনার কাজ সহজ হয়ে যাবে।

পরবর্তী ধাপে এই সংগৃহীত ডেটাগুলোকে কীভাবে 'ক্লিন' করতে হয় এবং সেগুলোকে প্রজেক্টের উপযোগী করে তুলতে হয়, তা নিয়ে কাজ করা হবে।

[

Data Science & Machine Learning Project - Part 2 Data Collection | Image Classification

codebasics · 115K views

](http://www.youtube.com/watch?v=m1dQ38qDABw)

Blog of SH

এই ব্লগটি সন্ধান করুন