আমেরিকা চায়নার সাথে টেক্কা দিতে যেয়ে তাদের শক্তির এমন কোনো জায়গা নাই যেটা ইউজ করেনি। চায়না হুয়াওয়ে দিয়ে নেটওয়ার্কিং রিলেটেড মার্কেট দখল করতে যাচ্ছিলো, আমেরিকা ব্যান করে দেয় । আমেরিকান যুবকদের প্রথম পছন্দের সোশ্যাল মিডিয়া টিকটক কিন্তু নন-আমেরিকান কোম্পানি বলে মনিটরিং এবং ইনফরমেশন কন্ট্রোল করতে পারে না,তাও ব্যান করে দেয়। আমেরিকান ম্যাক্সিমাম ওয়েল নোন এ্যাপ চায়নাও তাদের দেশে ব্যান করে রাখছে,আমেরিকান প্রতিটি অ্যাপেরই চীনা ভার্সন আছে।
চায়নাকে আমেরিকা সবচেয়ে বেশি বাঁধা দিছে সেমিকন্ডাক্টর নিয়ে। চায়না যাতে সেমিকন্ডাক্টর (এবং এ আই) প্রতিযোগিতায় এগিয়ে না যায় সেজন্য আমেরিকান টেক জায়ান্টদের যেমনঃ (ইন্টেল , এনভিডিয়া , এএমডি (NVidia, AMD, Intel) চায়নায় চিপ বিক্রি নিষিদ্ধ করে । আবার চায়না যাতে নিজেরা চিপ তৈরি করতে না পারে, সেজন্য পৃথিবীর সবচেয়ে বড় চিপ ম্যানুফ্যকচারার তাইওয়ানের TSMC (Taiwan Semiconductor Manufacturing Company Limited) এবং চিপ ম্যানুফ্যাকচারিংয়ের সবচেয়ে সফিস্টিকেটেড টেক বানায় যারা, ডাচ কোম্পানি ASML, এদের উপরও নানা বিধিনিষেধ আছে আমেরিকার। এক কথায় আমেরিকা তাদের ক্ষমতার সৰ্বোচ্চ ব্যবহার করছে চায়নাকে আটকানোর জন্য ।
তবে, চায়নাও কম না, তারা শেল কোম্পানি খুলে অন্যান্য দেশ থেকে আমেরিকান কোম্পানির চিপ কিনে দেশে নিয়ে গিয়ে রিভার্স ইঞ্জিনিয়ারিং করে অনেক কিছু ক্র্যাক করে ফেলছে। রিভার্স ইঞ্জিনিয়ারিংকে তারা শিল্পের পর্যায়ে নিয়ে গেছে। তবে এবার তারা যা করছে তা সম্ভবত এখন পর্যন্ত তাদের করা কাজগুলির মধ্যে সবচেয়ে বড় এবং প্রভাবশালী।
চায়নিজ এক স্টার্টাপ LLM (Large Language Model) তৈরি করেছে যা বর্তমানের অন্যান্য সমস্ত LLM (যেমন ChatGPT, Claude, Llama) এর তুলনায় ভাল পারফর্ম করে এবং এটি তৈরি করতে সেই কোম্পানির খরচ হয়েছে মাত্র দুই মাসে ৬ মিলিয়ন ডলার, যেখানে উল্লিখিত অন্যান্য সমস্ত LLM এর খরচ মাল্টিবিলিয়ন ডলারের উপরে খরচে করেছে । অর্থাৎ আমেরিকান মডেলগুলির তুলনায় তারা অনেক কম খরচে ভাল মডেল তৈরি করেছে মডেলটির নাম Deepseek R1 এবং যে কোম্পানি এটি তৈরি করেছে তার নাম Deepseek।
অনেক কারণ আছে Deepseek নিয়ে মাতামাতির :
১) উপরে যেটা বললাম, চীনে যেহেতু সর্বশেষ ভার্সন GPU বিক্রি করতে পারে না Nvidia, Deepseek পুরানো Nvidia চিপ দিয়েই মডেল ট্রেন করছে। কিন্তু হার্ডওয়্যার অপ্টিমাইজেশনে না গিয়ে তারা সফটওয়্যার অপ্টিমাইজ করছে অর্থাৎ কোড এমনভাবে অপ্টিমাইজ করছে যাতে মেমোরি কম লাগে এবং পুরানো চিপের যা সক্ষমতা সেটার পুরোটাই ব্যবহার করা যায়।হার্ডওয়্যার লেয়ারে অপ্টিমাইজেশনের সুযোগ যেহেতু নাই, এ্যাপ্লিকেশন লেয়ারে অপ্টিমাইজেশন করে ওরা সেটাকে ওভারকাম করছে।
২) AI মডেল ট্রেইন করার সময় সবকিছু আপডেট করা লাগে, এমনকি যা ব্যবহার হচ্ছে না সেগুলাও; এইটা একটা বিশাল রিসোর্স লস। Deepseek এখানে যুগান্তকারী কাজ করছে। সবকিছু আপডেট না করে যা যা দরকার শুধুমাত্র সেই অংশ আপডেট করছে। এরা একটা টেকনিক(Auxiliary-Loss-Free Load Balancing) ব্যবহার করে মাত্র ৫% প্যারামিটার আপডেট করে মডেল ট্রেইন করছে মানে ৯৫% GPU ইউজ কম হইছে। আর GPU ইউজ কম হওয়া মানেই কম খরচ হওয়া এবং হেভি প্রসেসিং কম হওয়া মানে কম সময়ে মডেল ট্রেইন হওয়া।
৩) AI মডেল যখন আউটপুট জেনারেট করে(inference বলে) তখন প্রচুর মেমোরি লাগে যেটা এক্সপেন্সিভ। Deepseek মেমোরি যাতে কম ইউজ হয় এজন্য ডেটা কম্প্রেশন টেকনিক(Low-Rank Key-Value (KV) Joint Compression) ইউজ করছে যেটা মেমোরি ইউসেজ কমাইছে, আউটপুট দ্রুত দিছে এবং খরচ বাচাইছে; সবদিকে উইন উইন।
৪) Deepseek মডেলকে ট্রেডিশনালি সব ধরনের টাস্ক দিয়ে ট্রেইন না করায়ে যেসব টাস্কের রেজাল্ট ভ্যারিফাই করা সম্ভব সেসব টাস্ক দিয়ে ট্রেইন করাইছে। ধরেন ওকে একটা কোড লিখতে বলা হলো, ও কোড আউটপুট দিলো। আউটপুট ঠিক হলে ওকে বলা হবে 'গুড জব', এরপরের বার থেকে এমন প্রবলেম আসলে এইভাবে কোড লিইখো। আর ভুল আউটপুট দিলে কি ভুল আছে সেগুলা দেখায়ে দিয়ে আবার কোড করতে বলা হইছে যতোক্ষণ না উত্তর সঠিক দেয়।
এইটা খুব কমন প্রসেস মনে হচ্ছে না? আমরা ছোট থেকে নরমালি যেভাবে শিখি ট্রায়াল এ্যান্ড এররের মাধ্যমে তেমন! একটা অংক করতে পারলে আমরা মাথায় রাখি যে সলভ করার প্রসেসটা কি যেনো পরেরবার একই ধরনের অংক আসলে করতে পারি। আর ভুল হলে কি ভুল হলো সেটা দেখায়ে দিলে আবার অংকটা করি যতোক্ষণ না উত্তর ঠিক আসে। এইটাকে বলে Reinforcement learning।
Deepseek এই ট্রায়াল এ্যান্ড এরর মেথড ইউজ করে মডেল ট্রেইন করছে। এতে মডেল যেমন দ্রুত স্মার্ট হইছে তেমনি ওর চিন্তা এবং রিজনিং করার ক্ষমতাও সময়ের সাথে বাড়ছে।
৫) ওরা মডেলটা MIT licenceর আন্ডারে ওপেন সোর্স করে দিছে। অর্থাৎ পৃথিবীর যে কোনো মানুষ/প্রতিষ্ঠান, যারা LLM নিয়ে কাজ করতে চায়, তারা বিনামূল্যে মডেলটা ইউজ করে নিজেদের মতো করে মডিফাই করে প্রোডাক্ট বানাতে পারবে। এইটা একটা বিশাল ব্যাপার। এমন শক্তিশালী একটা মডেল যদি পাবলিকলি এ্যাভেইলেবল হয় তখন সবচেয়ে বেশি সুবিধা হয় ছোট উদ্যোক্তা এবং রিসার্চারদের, তারা নিজেদের প্রজেক্ট/গবেষণার কাজ অনেক কম/বিনা খরচে করতে পারে।
আইরনিকালি ইলন মাস্করা যখন OpenAI শুরু করে তখন ওদের উদ্দেশ্যও একই টাইপের ছিলো, এআই'কে ডেমোক্রেটাইজ করা, ওদের নামেই ওপেন আছে। অথচ তারা কিছুদিন আগে উল্টা নন-প্রফিট থেকে ফর-প্রফিট কোম্পানি হইছে।
Deepseekর এই কাজটা পৃথিবীর ইতিহাস একটা বড় মাইলস্টোন হয়ে থাকবে। কিভাবে 'যা আছে তাই নিয়ে' এমন অসাধারণ জিনিস বানানো সম্ভব যেটা পুরা দুনিয়াকে তাক লাগায়ে দিতে পারে তাও অনেক অনেক কম খরচে; ওরা চোখে আঙ্গুল দিয়ে দেখায় দিছে। এবং এই অসাধারণ কাজকে শতভাগ কমার্শিয়ালাইজ না করে ওপেন সোর্স করে দিছে যেনো পুরা পৃথিবীর মানুষ এটার এ্যাকসেস পায়।
এই কোম্পানির মালিক ৪০ বছর বয়সী লিয়াং ওয়েনফ্যাং যে একটা কোয়ান্ট ট্রেডিং হেজ ফান্ডের মালিক। ওরা মুলত এই মডেল বানাইছিলো ওদের কোয়ান্ট ট্রেডিংয়ের কিছু গাণিতিক কাজ এআই'কে দিয়ে করানোর জন্য, পরবর্তীতে যখন মডেল দাড়ায়ে গেছে এবং অন্যান্য মডেলকে আউটপারফর্ম করছে তখন ওরা এটা বাইরে আনছে এবং উন্মুক্ত করে দিছে সবার জন্য। এই মডেল বানানোর পিছনের ম্যাথমেটিকাল ব্রেইনগুলা চায়নার অন্যতম সেরা দুই বিশ্ববিদ্যালয়- পিকিং ইউনিভার্সিটি এবং সিংহুয়া ইউনিভার্সিটির। এই মডেল তাই 'বানাতে বানাতে হয়ে গেছে' টাইপের কিছু না, এর পিছে খুব শার্প কিছু মানুষ আছে।
ডিপসিক আসায় আপাততো সবচেয়ে বেশি বিপদে পড়ছে দুইটা কোম্পানি: OpenAI আর Nvidia। OpenAI ওদের প্রিমিয়াম মডেলের জন্য যে চার্জ করে সেটার চেয়ে ডিপসিকের খরচ কয়েকগুণ কম অর্থাৎ মার্কেটে টিকে থাকতে হলে এখন OpenAIকে ওদের প্রাইস কমাতে হবে। কিন্তু OpenAI এর মডেল ট্রেইন এবং ইনফার করার কস্ট যেহেতু অনেক বেশি, প্রাইস কমালে ওদের লস কমবে না বরং বাড়বে। ওরা সামনে এটাকে কিভাবে ট্যাকল করে সেটা দেখার বিষয়, এটা করতে না পারলে ওদের বিপদ আছে।
Nvidia ধরা খাবে দামি GPU বিক্রি করতে। Nvidia অনেক বেশি ওভারভ্যালুড একটা কোম্পানি এবং ওদের ভ্যালুয়েশন দাড়ায়ে ছিলো এআই জগতে ওদের GPUর একছত্র আধিপত্যের কারণে। এখন যেহেতু ডিপসিক প্রমাণ করে দিলো সব কাজে ফ্যান্সি GPU দরকার নাই, সামনে অনেক কোম্পানি এইটা নিয়ে কাজ করবে এবং আমরা আরো কম খরচে আরো ভালো মডেলও পেতে পারি। সোজা কথায় সামনের দিনগুলায় কোম্পানিগুলার লক্ষ্য হবে কিভাবে স্বস্তা জিপিইউ ইউজ করে মডেল ট্রেইন করা যায়। যদি সেটাই হয় তাহলে Nvidiaর রেভিনিউ কি আগের মতো থাকবে?
OpenAI পাবলিক কোম্পানি না তাই পাবলিক রিয়েকশনের পুরাটাই গেছে Nvidiaর উপর দিয়ে। গতকাল ওদের স্টক প্রাইস ১৭% নামছে এবং একদিনে ভ্যালুয়েশন কমছে ৫৯৩ বিলিয়ন ডলার যেটা স্টক মার্কেটের ইতিহাসে একদিনে সবচেয়ে বেশি ভ্যালুয়েশন কমার রেকর্ড। এইগুলা অবশ্য মার্কেটের শর্ট টাইম রিয়েকশান, ব্যক্তিগত মতামত(ফাইনান্সিয়াল এ্যাডভাইজ না) হলো Nvidiaর প্রাইস বাউন্স ব্যাক করবে, OpenAI কি করে সেটাই দেখার বিষয়।
এখন ভবিষ্যৎ নিয়ে কিছু ভাবনা:
১) আমেরিকা উঠে পড়ে লাগবে কিভাবে ডিপসিককে প্যারা দেয়া যায়। যেহেতু ডিপসিক ওপেনসোর্স এবং একটা আমেরিকান পাবলিক লাইসেন্সের(MIT) আন্ডারে তাই হুয়াওয়ে বা টিকটকের মতো ব্যান করা ডিফিকাল্ট হবে সিকিউরিটি কনসার্নের দোহায় দিয়ে তবে ওরা সর্বাত্মক চেষ্টা করবে।
এমনও হতে পারে যে কিছুতেই কিছু না পারলে গায়ের জোরেই বন্ধ করবে। আর এই সুযোগে আমেরিকায় চায়নিজদের প্রতি ঘৃণা বাড়ার সম্ভাবনা আছে।
২) ট্রাম্প আসার পরই ৫০০ বিলিয়নের 'Stargate' প্রজেক্ট ঘোষণা করছে OpenAI, Oracle আর Softbankকে নিয়ে। বাইরে থেকে যেমনই দেখাক, এই প্রজেক্ট সিনেট থেকে পাশ করাইছে মেইনলি মাইক্রোসফট। ডিপসিকের এই বহিঃপ্রকাশ এই প্রজেক্টকে সফল করার জন্য আরো বেশি চাপে ফেলবে OpenAIর প্যারেন্ট কোম্পানি মাইক্রোসফটকে।
এমনিও কানাঘুষা আছে যে মাইক্রোসফটের এআই চিফ মুস্তাফা সুলাইমানের সাথে স্যাম আল্টম্যানের সম্পর্ক ভালোনা তাই সামনের দিনগুলায় মাইক্রোসফট কিভাবে পারসোনালিটি ক্ল্যাশ ট্যাকল করে ডিপসিকের চেয়ে ভালো কিছু বানাবে সেটা দেখার বিষয়। হয়তো আমরা দেখবো এদের একজন বের হয়ে যাবে মাইক্রোসফট/OpenAI থেকে।
৩) এআই গবেষকদের জন্য এইটা হিউজ ডিল। এই লেভেলের মডেল ওপেনসোর্স হওয়ায় এআই আরো রিসার্চ অনেক আগাবে এবং অচিরেই কিভাবে কমোডিটি হার্ডওয়্যার দিয়ে লার্জ স্কেল এআই ট্রেইন এবং ইনফার করা যায় এই বিষয়ক গবেষণা দেখবো। এ আই আরো স্বস্তা, এফোর্টেবল, ওয়াইডলি এ্যাকসেসিবল হবে।
৪) প্রচুর গারবেজ এবং স্ক্যাম এ্যাপ আসবে মার্কেটে ডিপসিক ইউজ করে বা ইউজ করার দাবি করে যারা মানুষের কাছ থেকে টাকা হাতায়ে নিবে ক্রিপ্টো, ডে ট্রেডিং, ফোরেক্স ট্রেডিং, মাল্টিলেভেল মার্কেটিং ইত্যাদি নানান কথা বলে।
৫) চায়না এখনো (সম্ভবত) ৩ ন্যানোমিটার চিপ বানাতে পারেনি TSMC আর ASMLর রেস্ট্রিকশনের কারণে, এইটা ক্র্যাক করতে পারলে এবং সেটা আমেরিকার এই বিধিনিষেধের মধ্যে থেকে করতে পারলে আরেকটা বিশাল ব্যাপার হবে। আর সেটা হলে চায়না কি করবে সেটাই দেখার বিষয়।
৬) চায়না আরেকটা টেকনোলজি(যেটা আসলে নেক্সট বিগ থিংগ) কোয়ান্টাম কম্পিউটার গবেষণায়ও অনেক আগায়ে গেছে। ওরা যেহেতু ব্ল্যাকবক্স, বাইরে থেকে বোঝা যাচ্ছে না করতেছে কি, তাই নিজেরা না বলা পর্যন্ত বোঝা কঠিন তবে চায়না যদি ২০২৫/২৬এ কোয়ান্টাম কম্পিউটিংয়ে কোনো ব্রেকথ্রু নিয়ে আসে তাহলে জায়ান্ট কোম্পানিগুলা (গুগল, আইবিএম) এবং খোদ আমেরিকার জন্য সেটা আরো থ্রেটেনিং হবে।
Collected: FB
কোন মন্তব্য নেই
একটি মন্তব্য পোস্ট করুন