সিসিম ফাঁক: ভাষা-প্রযুক্তির নতুন দিগন্ত

শিশির ভট্টাচার্য্যশিশির ভট্টাচার্য্য
Published : 3 Oct 2018, 01:50 PM
Updated : 3 Oct 2018, 01:50 PM

আরব্য উপন্যাসে আলীবাবার গল্প মনে আছে? দস্যুদল গুহার প্রবেশদ্বারে এসে বলতো- 'সিসিম ফাঁক', আর ওম্নি দরজা খুলে যেত। ভাবুন না কেন, দস্যুরা ব্যবহার করতো একটা ভয়েস রিকগনিশন ডিভাইস। আজকাল নাকি আমেরিকায় শতকরা ষাটভাগ লেনদেন 'মুখের কথাতেই' হয়ে যায়। কীভাবে?  প্রথমে ব্যাংক বা অন্য কোনও প্রতিষ্ঠানের কর্মচারী কিংবা কম্পিউটার-রোবট টেলিফোনে আপনার কণ্ঠ শুনে নিশ্চিত হবে, যে আপনিই হচ্ছেন 'মিস্টার আপনি'।

এরপর আপনি বলবেন, 'সিসিম, তুমি আমার এত টাকার ফোন বিলটা দিয়ে দাও! আর আমার কাছে অত নম্বরের, ওমুকের দেওয়া একটা চেক আছে। সেটাও জমা দিয়ে দাও।' সব কাজ সেরে সিসিম হয়তো জিগ্যেস করবে, আর কিছু কি করতে হবে স্যার? আপনার বিদ্যুৎ বিল দেবার লাস্ট ডেইট কিন্তু তিন দিন পরেই। সেটাও কি এখনি দিয়ে দিবো স্যার?' কয়েক মিনিটের মধ্যে আপনার সব বিল দেওয়া, ব্যাংকে চেক জমা করার কাজ শেষ। অমূল্য সময় বাঁচলো। হাজার মানুষকে রাস্তায় নামতে হলো না বলে যানজটও অন্তত খানিকটা কমে গেল।

হাজার হাজার পুঁথি পড়ে আছে ঢাকা বিশ্ববিদ্যালয়ের গ্রন্থাগারে। এমন একটা ডিভাইস যদি আবিষ্কার করা যেত, দেখামাত্র পুঁথির এক একটি পৃষ্ঠা টাইপ হয়ে যাচ্ছে, কতই না সুবিধা হতো তবে! 'ও-সি-আর' সেই ডিভাইসের নাম। টাইপ হওয়া লেখা যদি অন্য একটি ডিভাইস গড়গড় করে পড়ে ফেলতে পারে, তাহলেও কি সুবিধা হয় না আমাদের এবং বিশেষ করে আমাদের মধ্যে যারা দৃষ্টিপ্রতিবন্ধী, তাদের? এই ডিভাইসের নাম- 'টাইপ-টু-স্পিচ'। আচ্ছা বলুন তো, টাইপ করার এই যন্ত্রণা কবে শেষ হবে? কম্পিউটারের কি-বোর্ড টাইপ মেশিনের কিবোর্ডের তুলনায় সুন্দর ও সহজ, কিন্তু সেই টাইপই তো করছি আমরা!

আমরা অনেকেই হাঁফ ছেড়ে বাঁচি, আমাদের মুখের কথা যদি কম্পিউটার কিংবা মোবাইলের পর্দায় মুহূর্তে টাইপ হয়ে যায়। এই ডিভাইসের নাম- 'স্পিচ-টু-টেক্সট'।  এছাড়া ইশারা বা সঙ্কেতকে ধ্বনি ও লিপিতে পরিবর্তিত করতে পারলে সুবিধা হতো শ্রবণ ও বাক-প্রতিবন্ধীদের। এই ডিভাইসের নাম দেওয়া যেতে পারে- 'সাইন-টু-স্পিচ' বা 'সাইন-টু-টেক্সট'। মনের ভাবনাও হয়তো একদিন টাইপ হয়ে যাবে। তখন তার নাম হয়তো 'থট-টু-টেক্সট'।

বাইবেলে একটা গল্প আছে এ রকম যে পৃথিবীর সব মানুষ নাকি আগে একভাষী ছিল। একবার তাদের কী খেয়াল হলো, সবাই মিলে নাকি একটা বুরুজ বা টাওয়ার নির্মাণ করতে শুরু করলো, যাতে ওটার সিঁড়ি বেয়ে তারা ড্যাং ড্যাং করে স্বর্গে উঠে যেতে পারে। সেই বুরুজের নাম বাবেল টাওয়ার। মানুষের কর্মকাণ্ড দেখেশুনে ভয় পেয়ে ঈশ্বর মানুষদের মধ্যে ভাষার ভেদ জন্মালেন। ফলে তাদের একেক দল, একেক ভাষা বলতে শুরু করলো এবং একের বক্তব্য অন্যের কাছে আর বোধগম্য রইল না। বাবেল বুরুজ অসমাপ্ত রয়ে গেল। ঈশ্বরের ইচ্ছায়ই হোক কিংবা প্রাকৃতিক কারণেই হোক, মানুষ কখনই আর একভাষী হতে পারবে না। কিন্তু বিমানে বসে বসেই যদি উড়তে পারি, তবে পাখির মতো ঘাড়ের দুপাশে পাখা গজানোর দরকারটা কী?  একের ভাষা অন্যে যদি মুহূর্তে বুঝে যায়, তবে একভাষী না হলেও তো চলে। এর জন্য দরকার মেশিন-ট্রান্সলেশন বা যন্ত্রানুবাদ ডিভাইস।

'বাড়ির পাশে আরশি নগর; সেথা এক পড়শি বসত করে!'। বিংশ শতকের চল্লিশের দশক ছিল মটরগাড়ি উন্নয়নের যুগ। নব্বইয়ের দশক ছিল কম্পিউটার উন্নয়নের যুগ। একবিংশ শতকের প্রথম ও দ্বিতীয় দশক আরশি নগরের যুগ, প্রথমে কম্পিউটার, তারপর মোবাইলের আরশি যাতে ভেসে ওঠা পড়শি বা পড়শিদের নিয়ে সারাক্ষণই ব্যস্ত আমরা সবাই। একবিংশ শতকের তৃতীয় দশক হবে ভাষা-প্রযুক্তির যুগ। উপরে যে যন্ত্রগুলোর কথা বলা হয়েছে, আশা করছি, সেগুলো একে একে আবিষ্কৃত হয়ে যাবে আগামী কয়েক দশকের মধ্যে। ইংরেজি-ফরাসি-চীনা-জাপানি ভাষায় এইসব যন্ত্র এখনি কমবেশি সফলতার সঙ্গে ব্যবহার করা যায়। ইস্তাম্বুল বিমানবন্দরে তুর্কি-ইংরেজি-তুর্কি অনুবাদ মেশিন ব্যবহার করে তুর্কি অ্যাটেন্ডেন্টকে দেখেছি আমার বক্তব্য বুঝে নিতে। বাংলা ভাষার জন্যেও কি অনুরূপ যন্ত্র আবিষ্কৃত হবে না কোনদিন!

এইসব যন্ত্র আবিষ্কার করতে হলে, আমাদের জানতে হবে ভাষার একক বা উপাদানগুলো কী কী এবং কোন সহজতম প্রক্রিয়ায় সেই সব একক বা উপাদান পরষ্পর জোড়া লাগতে পারে। একাধিক দৃষ্টিকোণ থেকে বিশ্লেষণ করতে হবে বাংলা ভাষাকে, যাতে সর্বোত্তম ব্যাকরণটি আবিষ্কার করা যায়। হ্যাঁ, 'ব্যাকরণ' নামক যে সোনার হরিণ ভাষাবনের ঝোপের আড়ালে লুকিয়ে আছে, তাকে খুঁজে বের করতে হবে। বাংলা ভাষার 'করপাস' তৈরি করতে হবে আমাদের। কোন ভাষার 'করপাস' হচ্ছে সেই ভাষার 'ট্যাগ করা' শব্দ, প্রয়োজনে শব্দাংশ, শব্দক্রম এমনকি যদি প্রয়োজন হয় বাক্যাংশ বা বাক্যের সমষ্টি। 'ট্যাগিং' বা 'ট্যাগ করা' মানে প্রতিটি শব্দের গায়ে ট্যাগ বা টিকেট এঁটে দেওয়া, যেমন ধরুন, শব্দটি কি বিশেষ্য, নাকি ক্রিয়া, নাকি বিশেষণ। কোনও বিশেষ শব্দক্রমের একটি বাক্যে একটি বিশেষ শ্রেণি বা পদভুক্ত  শব্দের কী কী বৈয়াকরণিক ভূমিকা থাকে, কিংবা কোন কোন বিশেষ অর্থে শব্দটি ব্যবহৃত হতে পারে।

বিশেষ্য-বিশেষণ-ক্রিয়া ইত্যাদি হচ্ছে শব্দের 'ক্যাটাগরিক্যাল' বা শ্রেণিগত পরিচিতি। শব্দের 'সাবক্যাটাগরিক্যাল' বা উপশ্রেণিগত পরিচিতিও আছে। যেমন, 'আমি তোমার দিকে তাকাই', কিন্তু 'আমি তোমাকে দেখি'। 'আমি তোমাকে তাকাই' বলা যায় না। এই যে 'তাকানো' ক্রিয়ার সঙ্গে 'দিকে' পরসর্গ ব্যবহারের বাধ্যবাধকতা এবং 'দেখা'  ক্রিয়ার সঙ্গে সেই বাধ্যবাধকতা না থাকা শব্দের সাবক্যাটাগরিক্যাল বৈশিষ্ট্যের উদাহরণ।

ট্যাগড বা ট্যাগকৃত করপাস ভাষা-শিক্ষাদান, ভাষা-গবেষণা, ভাষা-প্রযুক্তিসহ বহু বিচিত্র কাজে ব্যবহৃত হতে পারে। কে যে ঠিক কোন কাজে একটি করপাসকে ব্যবহার করবে সেটা বলা মুশকিল। তবে ট্যাগিংকে যত সূক্ষ্মতম পর্যায়ে নিয়ে যাওয়া যাবে, করপাস ততই ব্যবহারযোগ্য, ততই চৌকস হয়ে উঠবে। ট্যাগিংবিহীন করপাসের কোনো মূল্য নেই। উপনিষদে বলা হয়েছে: 'তেন ত্যাক্তেন ভুঞ্জিথা' অর্থাৎ 'ত্যাগ করে ভোগ কর!' আজ আমরা বলতে পারি 'ট্যাগ' করে ভোগ কর, কিংবা 'ভোগে সুখ নাই, ট্যাগেই সুখ।'

এর পরে কিংবা এর আগে শিখতে হবে প্রোগ্রামিং। কম্পিউটার নামক যন্ত্রটি একটি জড়ভরত, মহামূর্খ। কিন্তু তার ভিতরে প্রোগ্রাম ঢুকিয়ে তাকে মহা বুদ্ধিমানও করে তোলা যায়, যাতে সে ও-সি-আর, স্পিচ-টু-টেক্সট, যন্ত্রানুবাদ ইত্যাদি কাজ চৌকসভাবে, চোখের পলকে করে ফেলতে পারে। প্রোগ্রামিং-এর বিভিন্ন ভাষা আছে, যার মধ্যে একটি হচ্ছে 'জাভা' এবং সেই ভাষাটি দিয়েই নাকি প্রায় সব ধরনের প্রোগ্রাম লেখা যায়। শব্দকোষ আর ব্যাকরণ মিলে ভাষা। ভাষার মতো জাভারও শব্দকোষ আছে, আছে ব্যাকরণ। জাভা শেখা মানে এই শব্দকোষ ও ব্যাকরণ শেখা। প্রোগ্রামিং শিখবে অনেকেই, তবে সবাই প্রোগ্রামিং  ব্যবহারে সমান চৌকস হবে না, হতে পারবে না। ঠিক যেমন আমরা সবাই বাংলা জানি, কিন্তু একজন নজরুলের বাংলা ভাষা ব্যবহারের যে ক্ষমতা ছিল, সেটা কি আমার বা আপনার আছে? কিন্তু কার মধ্যে কোন শক্তি সুপ্ত আছে, সেটা একবার যাচাই না করলে জানা যাবে কী করে?

বাংলাদেশে চৌদ্দ কোটি লোক মোবাইল ব্যবহার করে। এমন একটি ডিভাইস যদি আবিষ্কার করা যায় যা দিয়ে  এদের মধ্যে কমবেশি সাত কোটি লোক স্রেফ মুখের কথায়, ধরা যাক, তাদের বিল পরিশোধ করতে পারবে, তবে প্রতিটি লেনদেনের জন্যে প্রত্যেক মোবাইল ব্যবহারকারী দুই টাকা দিতে নিশ্চয়ই গররাজি হবে না। সেক্ষেত্রে প্রতি মাসে সেই ডিভাইস প্রস্তুতকারক কোম্পানির আয় হতে পারে কমবেশি চৌদ্দ কোটি, যা টাকার অংকে মোটেও ফেলনা নয়। এগুলো কোন কল্পকাহিনির 'সিসিম ফাঁক' নয়। পাশ্চাত্যে ইতিমধ্যেই বহু লক্ষ কোটি ডলার আয় হচ্ছে, এই সব ভাষাভিত্তিক প্রোগ্রাম বিক্রি করে। কোম্পানিগুলোর বহু লক্ষ কোটি ডলার সাশ্রয় হচ্ছে এইসব প্রোগ্রাম ব্যবহার করে। এই প্রোগ্রামগুলোর প্রভাব পড়ছে সমাজ, ব্যক্তি ও নগরজীবনে।

আধুনিক ভাষা ইনস্টিটিউটে 'আলোকিত বিকাল' শীর্ষক এক সেমিনারে উপরের  বেশ কিছু কথা বলেছেন মার্কিন যুক্তরাষ্ট্রের সিলিকন ভ্যালির একজন ডিভাইস উদ্ভাবক ব্যবসায়ী ফুয়াদ রহমান। 'অপূর্ব টেকনোলজিস' তার কোম্পানির নাম। পেশায় কম্পিউটার বিজ্ঞানী, বুয়েটের প্রাক্তন শিক্ষক ফুয়াদ ভাষাপ্রযুক্তি নিয়ে কাজ করেন, তবে আপাতত তার করপাস হচ্ছে মুখ্যত ইংরেজি এবং গৌণত স্প্যানিশ কিংবা অন্য কোনও পাশ্চাত্য ভাষার।

ফুয়াদ এই সেমিনারে বলেছেন, মাতৃভাষা হিসেবে বাংলা ব্যবহার করেন এমন লোকের সংখ্যার দিক থেকে বিচার করলে বাংলা পৃথিবীর প্রধান সাতটি ভাষার মধ্যে একটি। বিশাল বাজার এই ভাষার। কিন্তু বাংলা ভাষাকে 'ভাষাপ্রযুক্তি'র বিষয় করা যাচ্ছে না, শুধু একটিমাত্র কারণে: করপাস নেই। করপাস হয়তো এর আগে বিভিন্ন জন বিচ্ছিন্নভাবে তৈরি করেছেন, সরকারী অনুদানে কিংবা ব্যক্তিগত উদ্যোগে, কিন্তু সঠিকভাবে ট্যাগ করা নেই বলে সেই করপাস ব্যবহারযোগ্য হচ্ছে না। যোগাযোগ ও পরিচয়ের অভাবে একের করপাসে অন্যের প্রবেশাধিকার নেই। আমরা জানিই কে, কোথায়, কতটুকু কাজ সেরে রেখেছেন। 'দেবে আর নেবে, মিলাবে, মিলিবে'- রবীন্দ্রনাথের এই উপদেশে কান দিইনি আমরা কেউ।  সুতরাং অনেকেই নিজের মতো বার বার চাকা পুনরাবিষ্কারের পণ্ডশ্রম করে যাচ্ছি বছরের পর বছর ধরে। নষ্ট হচ্ছে সময়, অর্থ ও শ্রম- ব্যক্তি, দেশ ও জাতির।

ফুয়াদের সঙ্গে আলাপ গত ২১-২২ সেপ্টেম্বর ২০১৮, সিলেটের শাহ জালাল বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয়ে আয়োজিত প্রথম আন্তর্জাতিক কনফারেন্সে। বাংলা ভাষা ও ভাষা-প্রযুক্তি বিষয়ক ৩টি কি-নোট বক্তৃতা, ২টি আমন্ত্রিত বক্তৃতা, ১টি কর্মশালা ছাড়াও (বহু শত প্রস্তাবিত প্রবন্ধের মধ্য থেকে নির্বাচিত) বাংলাদেশের বিভিন্ন বিশ্ববিদ্যালয়ের শিক্ষার্থীদের ৭১টি উদ্ভাবন-প্রচেষ্টাসহ ভাষা-প্রযুক্তির বহু বিচিত্র দিক আলোচিত হয়েছে এই কনফারেন্সে। চমৎকার মণিপুরি নৃত্য দেখতে দেখতে রাত্রিকালীন ভোজ এবং সুস্বাদু মধ্যাহ্নভোজ ছিল উপরি পাওয়া। প্রধান আয়োজক অধ্যাপক জাফর ইকবালের নির্ভুল ম্যানেজমেন্ট প্রশংসা করার মতো।

উপস্থাপনকারী তরুণ-তরুণীদের বাংলা ও ইংরেজি ভাষায় দক্ষতা, উপস্থাপনার মুন্সিয়ানা দেখে অবাক হয়েছি। সবাই যে একটি ব্যাপারে একমত সেটি হচ্ছে, বাংলাভাষায় সঠিকভাবে ট্যাগিং করা ডাটা বা করপাস নেই বললেই চলে এবং এই কারণে বাংলা শব্দকোষ ও ব্যাকরণ সম্পর্কে আমরা এখনও প্রায় কিছুই জানি না। কনফারেন্সের অন্যতম প্রবন্ধ উপস্থাপক নীলাদ্রীশেখর দাশ, যিনি গত বিশ বছর যাবৎ পশ্চিমবঙ্গে ভাষাপ্রযুক্তি নিয়ে কাজ করে চলেছেন, ভাষাকে তুলনা করেছেন 'পাঁকাল মাছ'-এর সঙ্গে। ভাষা, লালনের ভাষায়: 'নড়ে-চড়ে হাতের কাছে, খুঁজলে জনমভর মিলে না। কথা কয়রে দেখা দেয় না।' সুতরাং ট্যাগ করা সহজ কাজ নয় মোটেই, কারণ ভাষাবস্তু, সে শব্দই হোক, কিংবা বাক্যই হোক, তার অর্থ, অর্থাৎ অভিধা, লক্ষণা ও ব্যঞ্জনার রয়েছে বহু বিচিত্র বর্ণালী।

বাংলাদেশ সরকার সম্প্রতি বাংলা ভাষার উন্নয়নের জন্যে প্রায় ১৬০ কোটি টাকা বরাদ্দ করেছেন। কিন্তু বাংলা ভাষার উন্নয়ন করার মতো জনশক্তি ও পেশাদার বৈয়াকরণ বাংলাদেশে নেই, কখনও ছিল না। উভয় বাংলার ভাষা-সংক্রান্ত যাবতীয় অ্যাকাডেমি, ইনস্টিটিউট ও ভাষাবিজ্ঞান বিভাগের সঙ্গে যুক্ত তথাকথিত ভাষাবিশেষজ্ঞগং  আশংকাজনকভাবে অশিক্ষিত এবং হতাশাজনকভাবে বন্ধ্যা। বিভাগের নাম 'ভাষাতত্ত্ব' থেকে 'ভাষাবিজ্ঞান' হয়েছে, কিন্তু 'ঢাকা' কিংবা 'চট্টগ্রাম'-এর ইংরেজি প্রতিশব্দের বানান পরিবর্তনের মতো, নাম বা বানান পরিবর্তন হলেই বস্তু বা স্থানের পরিবর্তন হয় না। এতে অবশ্য অবাক হবার কিছু নেই, ব্যক্তি বা গোষ্ঠিবিশেষকে দোষও দেওয়া যাবে না- সমাজের সার্বিক অশিক্ষা এবং বন্ধ্যাত্বই প্রতিফলিত হয় অ্যাকাডেমিয়ায়।

আলোকিত বিকালে ফুয়াদ বলেছেন, আমাদের অবশ্যই প্রোগ্রামিং শিখতে হবে এবং যে কেউ আগ্রহ থাকলে ভালো প্রোগ্রামার হতে পারেন। নিজে নিজেই প্রোগ্রামিং শেখা যায়, এবং সুশিক্ষিত ব্যক্তিমাত্রেই যে স্বশিক্ষিত সে প্রবাদবাক্যটা প্রোগ্রামিং-এর ক্ষেত্রে অনেকটাই সত্য। সফল প্রোগ্রামিং যারা করছেন, তাদের সিংহভাগ কিন্তু কম্পিউটার বিজ্ঞানী নন। বৈয়াকরণদের দায়িত্ব প্রোগ্রামারদের কাছে ব্যাকরণটা বোধগম্যভাবে উপস্থাপন করা। প্রোগ্রামাররা বাংলা ভাষার ব্যাকরণটা কাজ চালানোর মতো বুঝে নিলেই বাংলা ভাষাপ্রযুক্তির গবেষণা শুরু হয়ে যেতে পারে। ভাষা-প্রোগ্রামারদের ঝেড়ে কাশতে হবে। তাদের বলতে হবে, তারা ঠিক কী চান এবং বৈয়াকরণদের শিখতে হবে, কীভাবে তারা প্রোগ্রামারদের চাহিদা কতটা পূরণ করতে পারবেন।

ভাষাপ্রযুক্তির কাজ শুরু করতে পারলে তরুণদের নিজেদের বেকারত্ব যেমন ঘুচবে, তেমনি দেশেরও উন্নয়ন হবে। আমরা যদি আজ ভাষা-প্রযুক্তি নিয়ে গবেষণা শুরু না করি, তবে অন্য জাতি অচিরেই সেটা করবে, বিশেষ করে বাংলা ভাষার বিশাল বাজারের লোভ সামলাতে না পেরেই করবে। তখন বাংলা ভাষার প্রযুক্তিও আমাদের বিদেশ থেকেই আমদানি করতে হবে, ঠিক যেমন আজ, (সত্যজিৎ রায়ের 'জনঅরণ্য' ছবিতে উৎপল দত্তের সেই বিখ্যাত সংলাপ) 'আলপিন থেকে এলিফেন্ট'- প্রায় সবই আমরা আমদানি করি কষ্টার্জিত বৈদেশিক মুদ্রা ব্যয় করে। সুতরাং শুভস্য শীঘ্রম। আপনি যদি আজ সিসিম ফাকের কলাকৌশল না শেখেন, তবে আপনি অন্য জাতির সিসিম ফাকের শিকার হবেন। আপনি শুধু নন, আপনার উত্তরপুরুষকেও তারা রেহাই দেবে না- বংশানুক্রমে অগ্রসর সব জাতি বাঙালিকে 'সিসিম ফাঁক' করবে স্বদেশে এবং বিদেশে, তা সে যে অর্থেই হোক না কেন।

'সময় গেলে সাধন হবে না! জান না মন খালে-বিলে, থাকে না মীন জল শুকালে!' জল থাকতে থাকতেই ভাষার পাঁকাল মাছকে ট্যাগ আর প্রযুক্তির ছাই দিয়ে কষে ধরতে হবে আমাদের। হায়! যত কথা লালন ফকির বলে গেছেন, তার কতটাই বা আমরা মনে লালন করি, আচরণে ধারণ করি! ভাষা প্রযুক্তির ক্ষেত্রে ফকিরের কথা বাসি হয়ে যেন না ফলে।