ওপেনএআই যেভাবে ৮০০ মিলিয়ন ইউজারের জন্য পোস্টগ্রেস স্কেল করেছে

Introduction (ভূমিকা)

আজকের এই আলোচনায় আমরা জানবো বিশ্বের অন্যতম জনপ্রিয় AI প্ল্যাটফর্ম OpenAI (চ্যাটজিবিটি-র নির্মাতা) কীভাবে তাদের ডাটাবেস ম্যানেজ করে। ভাবুন তো, ৮০০ মিলিয়ন বা ৮০ কোটি মানুষ যখন একসাথে একটি সার্ভিস ব্যবহার করে, তখন ডাটাবেসের ওপর কতটা চাপ পড়ে! তারা PostgreSQL (পোস্টগ্রেস) নামক একটি ডাটাবেস ব্যবহার করে এই বিশাল ট্রাফিক সামলায়। এই কন্টেন্টে আমরা শিখবো তারা ধাপে ধাপে কীভাবে একটি সাধারণ ডাটাবেস থেকে বিশ্বমানের বিশাল এক সিস্টেমে রূপান্তরিত হয়েছে।

১. শুরুর ধাপ: ভার্টিক্যাল স্কেলিং (Vertical Scaling)

যেকোনো সিস্টেম যখন শুরু হয়, তখন সাধারণত একটি মাত্র ডাটাবেস থাকে। যখন ইউজার বাড়তে থাকে, তখন ডাটাবেসটি স্লো হয়ে যায়।

ভিডিও রেফারেন্স: [01:00]

বিস্তারিত ব্যাখ্যা: ওপেনএআই শুরুতে একটি মাত্র ডাটাবেস দিয়ে কাজ শুরু করেছিল। যখনই চাপ বাড়ত, তারা Vertical Scaling করত।

সহজ কথায়: আপনার কম্পিউটারের র‍্যাম (RAM) বা প্রসেসর বাড়িয়ে নেওয়াকে ভার্টিক্যাল স্কেলিং বলে। যেমন, আগে ৮ জিবি র‍্যাম ছিল, এখন ১৬ জিবি করলেন।
আমার চিন্তা: এটা সাময়িক সমাধানের জন্য ভালো, কিন্তু একটা সময় পর হার্ডওয়্যার আর বাড়ানো সম্ভব হয় না। তখন অন্য বুদ্ধি বের করতে হয়।

২. রিড রেপ্লিকা এবং রাইট অ্যাহেড লগ (Read Replicas & WAL)

যখন ভার্টিক্যাল স্কেলিং দিয়ে আর কাজ হচ্ছিল না, তখন তারা ডাটাবেসের কপি তৈরি করা শুরু করল।

ভিডিও রেফারেন্স: [01:45]

বিস্তারিত ব্যাখ্যা: তারা একটি মাত্র "Primary Write Database" (যেখানে ডাটা সেভ হয়) রাখে এবং প্রায় ৫০টি "Read Replicas" (যেখান থেকে শুধু ডাটা পড়া হয়) ব্যবহার করে।

WAL (Write Ahead Log): এটি একটি ডায়েরির মতো যেখানে ডাটাবেসের সব পরিবর্তন আগে লিখে রাখা হয়। এই ডায়েরি দেখেই অন্য কপিগুলো (Replicas) নিজেদের আপডেট করে নেয়।
সহজ কথায়: আসল বই একজন লিখছেন (Primary), কিন্তু সেই বইয়ের ৫০টি ফটোকপি (Replicas) করা হয়েছে যাতে অনেক মানুষ একসাথে পড়তে পারে।
সুবিধা: এর ফলে আসল ডাটাবেসের ওপর চাপ কমে যায়।

৩. পিজি বাউন্সার (PG Bouncer) - কানেকশন পুলিং

ডাটাবেসের সাথে কানেক্ট হতে অনেক সময় লাগে। এই সমস্যা সমাধানের জন্য তারা PG Bouncer ব্যবহার করে।

ভিডিও রেফারেন্স: [06:05]

বিস্তারিত ব্যাখ্যা: ডাটাবেসে প্রতিবার নতুন করে কানেক্ট হওয়া বেশ সময়সাপেক্ষ (প্রায় ৫০ মিলি-সেকেন্ড)। PG Bouncer একটি মাঝখানের মাধ্যম হিসেবে কাজ করে যা কানেকশনগুলো ধরে রাখে।

সহজ কথায়: এটি একটি হোটেলের রিসেপশনের মতো। আপনাকে বারবার আইডি কার্ড দেখাতে হবে না, একবার দেখালেই তারা আপনাকে রুমের চাবি (Connection) দিয়ে দেবে যা আগে থেকেই তৈরি আছে।
ফলাফল: কানেকশন পাওয়ার সময় ৫০ms থেকে কমে মাত্র ৫ms-এ চলে আসে!

৪. ক্যাশিং এবং লক ম্যানেজমেন্ট (Caching with Redis)

বারবার ডাটাবেসে না গিয়ে যদি আগের খোঁজা তথ্য কোথাও জমা রাখা যায়, তবে কাজ দ্রুত হয়। একেই বলে ক্যাশিং।

ভিডিও রেফারেন্স: [08:50]

বিস্তারিত ব্যাখ্যা: তারা ডাটাবেসের সামনে একটি Cache (সম্ভবত Redis) স্তর ব্যবহার করে।

Cache Stampede: যদি হঠাৎ ক্যাশ মেমোরি খালি হয়ে যায় এবং লাখ লাখ ইউজার একসাথে ডাটাবেসে অ্যাটাক করে, তাকে ক্যাশ স্ট্যাম্পিড বলে। এটি ঠেকাতে তারা "Strict Locking" ব্যবহার করে।
সহজ কথায়: লাইব্রেরিতে কোনো বই নেই দেখে সবাই একসাথে স্টোরে যাওয়ার বদলে, একজন গিয়ে বইটা নিয়ে আসবে আর বাকিরা লাইনে দাঁড়াবে। এতে স্টোরে ভিড় হবে না।

৫. কোডিং উদাহরণ: প্রাইমারি এবং রিড রেপ্লিকা কনফিগারেশন

সিস্টেমে কীভাবে রাইট এবং রিড আলাদা করা হয়, তার একটি কাল্পনিক সহজ উদাহরণ নিচে দেওয়া হলো:

// রাইট অপারেশন (Primary Database-এ যাবে)
public async Task SaveUserData(User user) {
    using var context = new PrimaryDbContext(); 
    context.Users.Add(user);
    await context.SaveChangesAsync();
}

// রিড অপারেশন (Read Replica-তে যাবে)
public async Task<User> GetUserData(int id) {
    using var context = new ReadReplicaDbContext(); 
    return await context.Users.FirstOrDefaultAsync(u => u.Id == id);
}

ব্যাখ্যা: এখানে আমরা দুটি আলাদা ডাটাবেস কানেকশন ব্যবহার করছি। ডাটা সেভ করার সময় PrimaryDbContext ব্যবহার করছি আর ডাটা খোঁজার সময় ReadReplicaDbContext ব্যবহার করছি। এতে মেইন ডাটাবেসের ওপর লোড কমছে।

বিশ্লেষণ এবং আমার মতামত (Analysis & Thinking)

সারাংশ: OpenAI আসলে খুব জটিল কিছু করেনি, বরং তারা পরিচিত টেকনিকগুলোকেই (যেমন: রেপ্লিকা, কানেকশন পুলিং, ক্যাশিং) অত্যন্ত নিপুণভাবে এবং বিশাল স্কেলে ব্যবহার করেছে। তাদের মূল লক্ষ্য ছিল ডাটাবেসের ওপর সরাসরি চাপ কমানো এবং রিড-রাইট অপারেশন আলাদা করা।

বাস্তবতা ও সম্ভাবনা:

সিঙ্গেল পয়েন্ট অফ ফেইলিওর: তাদের এখনো একটিই রাইট ডাটাবেস আছে। যদি সেটি নষ্ট হয়, তবে ইউজাররা নতুন কিছু লিখতে পারবে না। তবে তারা একটি "Standby" ডাটাবেস রাখে যা বিপদের সময় কয়েক সেকেন্ডের মধ্যে মেইন ডাটাবেস হয়ে যেতে পারে।
বিকল্প ব্যবস্থা: অনেক বড় কোম্পানি Sharding (ডাটাবেসকে টুকরো টুকরো করা) ব্যবহার করে, কিন্তু ওপেনএআই এখনো পর্যন্ত রেপ্লিকা দিয়েই কাজ চালাচ্ছে, যা বেশ অবাক করার মতো এবং শিক্ষণীয়।

পরামর্শ: আপনি যদি ছোট বা মাঝারি প্রজেক্ট করেন, তবে শুরুতেই এত জটিলতায় যাওয়ার দরকার নেই। প্রথমে Vertical Scaling এবং পরে Read Replicas ব্যবহার করাই যথেষ্ট। OpenAI-এর এই মডেলটি শেখায় যে, সিস্টেমকে ধাপে ধাপে বড় করা উচিত, একবারে নয়।

সহজ ভাষায় কিছু কঠিন শব্দের অর্থ: ১. Instance (ইন্সট্যান্স): ডাটাবেসের একটি কপি বা রানিং প্রোগ্রাম। ২. Load Balancer (লোড ব্যালেন্সার): ট্রাফিক বা ইউজারদের বিভিন্ন সার্ভারে সমানভাবে ভাগ করে দেওয়ার ট্রাফিক পুলিশ। ৩. Asynchronous (অ্যাসিনক্রোনাস): একটার পর একটা কাজ না করে, ব্যাকগ্রাউন্ডে কাজ চলতে থাকা। যেমন- মেইন ডাটাবেসে সেভ হওয়ার কিছুক্ষণ পর রেপ্লিকাতে আপডেট হওয়া।

URL: https://www.youtube.com/watch?v=0uV-2latI-4

[

How OpenAI Scaled Postgres to 800 Million Users (Step-by-Step)

Milan Jovanović · 12K views

](http://www.youtube.com/watch?v=0uV-2latI-4)

Blog of SH

এই ব্লগটি সন্ধান করুন