Logo
Indic TTS

Speech Technologies in Indian Languages

Under the mandate of the National Language Translation Mission: Bhashini — a MeitY / GoI initiative — led by IIT Madras and IIIT Hyderabad as Consortium Leaders.

🌍 Project Summary

The project titled “Speech Technologies in Indian Languages”(SP/2122/1960/CSMEIT/003119) is a sub-project under the National Language Translation Mission: Bhashini, funded by MeiTY, GoI, of which IIT Madras along with IIIT Hyderabad is a Consortium Leader. Under the mandate of this project, a team of faculties, research associates and interns have been working to produce a standard corpus of spontaneous speech in Indian Languages. This is to improve the results of automated speech transcriptions and translations that can be implemented to optimize Automated Speech Recognition(ASR) and Text-To-Speech(TTS) systems for various purposes.

Keeping in mind this broad objective, we present the collective efforts of the team dedicated to improving the automated speech transcripts and translations of the National Programme on Technology Enhanced Learning (NPTEL) technical lectures. This team, consisting of four interns, project associates, and several distinguished faculty members from IIT Madras and SNU Chennai, worked across three languages (Bangla, Malayalam, Telugu). We have attempted to provide parallel corpora for academic lectures and materials using the available database of NPTEL course lectures, many of which have already been translated and dubbed from English into regional Indian languages. The idea has been to identify and list out semantic, grammatical and contextual errors in these NPTEL courses and work towards fixing these issues, contributing to the curation of better machine language translations of technical lectures, ensuring the lectures are lucid and accessible to every learner, regardless of language background or linguistic competence.

In our experience with indigenous and open-source models, we have found significant shortcomings in the translation of these lectures. Notably, the translation of spontaneous speech must account for disfluencies, corrections, repetitions, code-mixing, code-switching, and the use of simpler expressions that are common in spoken language but rare in written texts. As language models are primarily trained on open-source written texts and frequently for major high-resource languages, their translated outputs often compromise the semantic and syntactic integrity of the original languages (Ramesh et al., 2022; Siripragada et al., 2020). Furthermore, we aim to retain the domain-specific terms within each lecture because our goal is to familiarize learners with English terminologies, enabling them to refer to original sources. Over-translation of these domain terms not only diverges from this goal but also fragments the overall semantic unity of the lecture (Ramesh et al., 2022).We have endeavored to produce corpora that consist of the original audio subtitles, the translation provided by a language model (here, BhashaVerse, IIIT Hyderabad), and our proposed translations, including a glossary of terms for which we have provided alternatives as needed. Through our informal field trials, we have identified many archaic and incorrect terms and expressions used in these lectures, which we have strived to correct in our translations. We hope to receive valuable feedback from our reviewers to further colloquialize these translations, maintain the dialectal styles inherent in various spontaneous speech corpora, and leverage overall translation accuracy (Siripragada et al., 2020).

📚 Translation Excerpts (Original, MT, Corrected)

English-Malayalam

Source Text:

Macro expressions, as we have studied in our previous module, are what is known as the regular or normal expressions that appear on our face. These expressions match the content of what we are saying and also match the voice modulations.They can normally be seen and evaluated by people, and therefore, they form the basis of communication. They can, in general, be understood by viewers, and they also have what is known as a repeatable capability.

BhashaVerse Translation:

ഞങ്ങളുടെ മുൻ മൊഡ്യൂളിൽ ഞങ്ങൾ പഠിച്ചതുപോലെ, സാധാരണ എക്സ്പ്രഷനുകൾ അല്ലെങ്കിൽ മുഖത്ത് വരുന്ന സാധാരണ എക്സ്പ്രഷനുകൾ എന്നറിയപ്പെടുന്നു. ഈ പദപ്രയോഗങ്ങൾ നമ്മൾ പറയുന്നതിന്റ്റെ ഉള്ളടക്കവുമായി പൊരുത്തപ്പെടുന്നു, അവ വോയ്സ് മോഡുലേഷനുകളുമായി പൊരുത്തപ്പെടുന്നു.അവ സാധാരണയായി ആളുകൾക്ക് കാണാനും വിലയിരുത്താനും കഴിയും, അതിനാൽ അവ ആശയവിനിമയത്തിന്റെ അടിസ്ഥാനമാണ്, അവ പൊതുവെ കാഴ്ചക്കാർക്ക് മനസ്സിലാക്കാൻ കഴിയുന്നു, മറുവശത്ത് ആവർത്തിക്കാവുന്ന ശേഷി മൈക്രോ എക്സ്പ്രഷൻ എന്നറിയപ്പെടുന്നു, മറുവശത്ത് മറച്ചുവെച്ച ഒരു വികാരം അല്ലെങ്കിൽ സ്പീക്കർ പരസ്യമായി പ്രദർശിപ്പിക്കാൻ ആഗ്രഹിക്കാത്ത ഒരു വികാരം പ്രദർശിപ്പിക്കുന്നു, അതിനാൽ അവ ഒരു അടിച്ചമർത്തൽ അല്ലെങ്കിൽ വികാരങ്ങളുടെ പ്രവർത്തനം പ്രദർശിപ്പിക്കുന്നു.

Corrected Translation:

മുന്‍പത്തെ മോഡ്യൂളിൽ നാം പഠിച്ചിരുന്നതുപോലെ, മാക്രോ എക്‌സ്‌പ്രെഷനുകൾ എന്നത് നമ്മുടെ മുഖത്ത് പതിവായി പ്രകടമാകുന്ന റെഗുലർ എക്‌സ്‌പ്രെഷനുകളാണ്. ഈ എക്‌സ്‌പ്രെഷനുകൾ നമുക്ക് സംസാരിക്കുന്ന കണ്ടെന്റ് അനുയോജ്യമായതും, ശബ്ദത്തിലെ വോയ്സ് മോഡുലേഷനുമായി പൊരുത്തപ്പെടുന്നതുമാണ്. അവയെ സാധാരണയായി മറ്റുള്ളവർ കാണാനും മൂല്യനിർണ്ണയം ചെയ്യാനും കഴിയുന്നതിനാൽ, അവ കമ്മ്യൂണിക്കേഷനിന്റെ അടിസ്ഥാനമായി പ്രവർത്തിക്കുന്നു. സാധാരണയായി, ഇതെല്ലാം വ്യൂവേഴ്സ്‌ക്ക് മനസ്സിലാക്കാനും സാധിക്കും, കൂടാതെ ഇവയ്ക്ക് റിപീറ്റബിൾ കപാബിലിറ്റി എന്നറിയപ്പെടുന്ന ഒരു പ്രത്യേകതയും ഉണ്ട്.

English-Bangla

Source Text:

These micro expressions may be very tiny for example, there may be a twitch in a muscle just below the eye or there may be a twitch of a muscle over here (hemifacial) or my smile may try to communicate something, but the eyes contradict that emotion. Now, these micro expressions are a significant aspect of body language much more significant than the macro ones.

BhashaVerse Translation:

উদাহরণস্বরূপ, মাইক্রো এক্সপ্রেশনগুলি খুব ছোট হতে পারে উদাহরণস্বরূপ, চোখের ঠিক নীচে একটি পেশীতে একটি ঝাঁকুনি থাকতে পারে বা এখানে একটি পেশীর ঝাঁকুনি থাকতে পারে (হেমিফেসিয়াল) বা আমার হাসি কিছু যোগাযোগ করার চেষ্টা করতে পারে, তবে চোখগুলি সেই আবেগের বিরোধিতা করে। এখন, এই মাইক্রো এক্সপ্রেশনগুলি শরীরের ভাষার উল্লেখযোগ্য দিক যা ম্যাক্রোগুলির চেয়ে অনেক বেশি তাৎপর্যপূর্ণ।

Corrected Translation:

যেমন, মাইক্রো এক্সপ্রেশনগুলো খুব ছোট হতে পারে। যেমন, চোখের ঠিক নিচে একটা মাসলে হালকা টান পড়তে পারে বা এখানে একটা মাসলের ঝাঁকুনি থাকতে পারে (হেমিফেসিয়াল), বা আমার হাসি কিছু বোঝাতে চেষ্টা করতে পারে, তবে চোখগুলো সেই আবেগকে কন্ট্রাডিক্ট করে। এখন, এই মাইক্রো এক্সপ্রেশনগুলো বডি ল্যাঙ্গুয়েজের উল্লেখযোগ্য দিক, যা ম্যাক্রো এক্সপ্রেশনগুলোর চেয়ে অনেক বেশি সিগনিফিকেন্ট।

We have endeavored to produce corpora that consist of the original audio subtitles, the translation provided by a language model (here, BhashaVerse, IIIT Hyderabad and SpringLab, IIT Madras), and our proposed translations, including a glossary of terms for which we have provided alternatives as needed. Through our informal field trials, we have identified many archaic and incorrect terms and expressions used in these lectures, which we have strived to correct in our translations. We hope to receive valuable feedback from our reviewers to further colloquialize these translations, maintain the dialectal styles inherent in various spontaneous speech corpora, and leverage overall translation accuracy (Siripragada et al., 2020).

📚 References

Logo
Indic TTS
Indic TTS : Enhancing text-to-speech (TTS) synthesis for Indian languages, optimizing quality and integrating compact TTS into disability aids and diverse applications.
Home
About
People
Publications
Demo
Research Resources
Contact Us
© Copyright 2026, Speech Technology Consortium,
Bhashini, MeiTY and by Hema A Murthy & S Umesh,
Department Of Computer Science and Engineering and Electrical Engineering, IIT MADRAS. All Rights Reserved
Maintained by NetPhenix IT Solutions.