В феврале 2026 года индийское правительство отчиталось парламенту: за год оцифровано 750 тысяч рукописей. Звучит внушительно — пока не знаешь, что их десять миллионов.
В 1955 году французский учёный Жан Филиоза начал объезжать деревни Тамилнад и просить у местных священников, монахов и просто крестьян пачки пожелтевших пальмовых листьев. Многие владельцы соглашались охотно — и часто не могли объяснить, что именно отдают. Листья хранились в семье поколениями, но прочитать их давно было некому. Так в бывшей столице французской Индии — Пондичерри — постепенно собралась коллекция из 8 187 рукописных связок. Сегодня она входит в реестр ЮНЕСКО «Память мира». А сколько таких связок осталось в деревнях, монастырях и частных домах — не знал никто.
Семьдесят лет спустя этот же вопрос стоит перед целым государством.
Крупнейшее собрание, которого никто не видел
По оценкам Национальной миссии по рукописям, Индия располагает примерно десятью миллионами манускриптов — предположительно, крупнейшей коллекцией в мире. Они написаны на пальмовых листьях, бересте, хлопковой бумаге, ткани. Языки: санскрит, тамильский, телугу, малаялам, персидский, арабский, бенгальский — и это неполный список. Темы: медицина, астрономия, математика, философия, право, поэзия.
Но большая их часть — более 80% — хранится в частных руках: в семьях, храмах, монастырях. Государство не может их изъять. Можно только договориться.
Пальмовый лист служит несколько сотен лет, после чего разрушается от влажности, плесени и насекомых. Часть коллекции уже исчезла — просто потому что время вышло раньше, чем кто-то успел постучать в дверь.
Двадцать лет и три с половиной процента
Национальная миссия по рукописям существует с 2003 года. За двадцать лет она оцифровала около 350 тысяч единиц — это 3,5% от оценочного общего числа. Темп объясняется просто: годовой бюджет программы составлял 3,5 крора рупий, около 420 тысяч долларов. На крупнейшую в мире рукописную коллекцию.
В начале 2025 года в ходе представления государственного бюджета была объявлена новая программа — «Гьян Бхаратам». Финансирование выросло в 17 раз: на период до 2031 года выделено 491 крор рупий, около 59 миллионов долларов. Поставлена конкретная цель: оцифровать один крор — десять миллионов — рукописей за пять лет.
Задача, для понимания масштаба: 500 миллионов страниц.
Стук в каждую дверь
В сентябре 2025 года в Нью-Дели прошла первая международная конференция «Гьян Бхаратам» — 1100 участников из Индии и других стран. Премьер-министр Моди лично запустил публичный портал, куда будут загружаться оцифрованные тексты.
Но реальная работа выглядит не так торжественно.
В феврале 2026 года власти Джамму и Кашмира объявили о программе с названием «Хар Гхар Дастак» — буквально «Стук в каждую дверь». Сотрудники миссии обходят дома и деревенские общины — не менее одной в день — и выясняют, есть ли у хозяев старые рукописи. Только в этом регионе таким образом уже выявлено почти 34 тысячи манускриптов у частных лиц, в храмах и архивах.
По всей стране работает сеть «Пандулипи Митра» — добровольцев примерно в ста районах, обученных находить рукописи и убеждать владельцев согласиться на оцифровку. Оригинал остаётся у хозяина. Взамен — бесплатная оцифровка и каталогизация.
Алгоритм, который учится читать мёртвые шрифты
Оцифровка — это не просто фотография страницы. Чтобы текст стал доступен для поиска и изучения, его нужно распознать: превратить изображение в текст. Для современных языков с этим справляется стандартное распознавание текста. Для рукописного санскрита X века — нет.
В рамках «Гьян Бхаратам» объявлен конкурс ИИ-решений Gyan-Setu: разработчикам предложено создать модели распознавания, адаптированные к древним индийским шрифтам — рукописным, многоязычным, с сотнями исторических вариаций написания. Сложность в том, что для обучения таких моделей нужна размеченная база данных — а её пока почти нет. Чтобы её создать, нужны учёные, которые умеют читать эти шрифты. Таких учёных мало. Круг замыкается.
Государственный ИИ-проект BharatGen — попытка создать суверенную языковую модель, поддерживающую 22 индийских языка одновременно, — уже подключён к программе и должен обеспечить работающее распознавание текста и поисковые интерфейсы к рукописному архиву.
Что внутри
Пока системы дообучаются, понятно одно: значительная часть ещё не описанных рукописей касается медицины, астрономии и математики. Исследователи предполагают, что среди них могут находиться тексты, не имеющие известных аналогов — и в этом смысле каждая новая оцифрованная коробка из монастырского чулана остаётся нераспечатанным конвертом.
Есть и конкретная параллельная задача. На конференции «Гьян Бхаратам» отдельная сессия была посвящена дешифровке письменности долины Инда — около 5000 надписей на печатях и керамике, сделанных более 4000 лет назад при раскопках городов Харапа и Мохенджо-Даро. Их до сих пор никто не умеет читать. Команда учёных из Института фундаментальных исследований Тата применяет машинное обучение к корпусу этих знаков и уже выявила 67 символов, составляющих 80% всех известных надписей. Расшифровать их пока не удалось. Но прежде чем расшифровывать — их нужно было хотя бы собрать в единую базу. Та же логика работает и с рукописями: сначала найти, потом читать.
750 тысяч из десяти миллионов
В феврале 2026 года, отвечая на запрос в нижней палате парламента, министр культуры Гаджендра Сингх Шекхават сообщил: оцифровано 750 тысяч рукописей, из которых 129 тысяч доступны на публичном портале. За несколько месяцев работы новой программы сделано вдвое больше, чем за предыдущие двадцать лет.
Целевой показатель — десять миллионов рукописей к 2030 году. Между этой цифрой и нынешними 750 тысячами — миллионы дверей, в которые ещё не постучали. Часть из них не откроется вовремя.

