LLM-based automation for translating mathematical formulae and symbols: challenges and perspectives for technical communication

Sachaniuk-Kavets`ka, N. V.; Nykyporets, S. S.; Сачанюк-Кавецька, Н. В.; Никипорець, С. С.

Автор

Sachaniuk-Kavets`ka, N. V.

Nykyporets, S. S.

Сачанюк-Кавецька, Н. В.

Никипорець, С. С.

Дата

2026

Metadata

Показати повну інформацію

Collections

Наукові роботи каф. ІМ [631]

Анотації

Зростаюча залежність студентів і дослідників від великих мовних моделей при перекладі технічних та наукових текстів випередила критичне осмислення ризиків, які така залежність несе в собі, – особливо там, де йдеться про формальний математичний запис. У цій статті досліджуються характерні типи помилок трьох сучасних генеративних мовних моделей – GPT-4o, Claude 3.5 Sonnet та Gemini 1.5 Pro – при виконанні завдання перекладу математичного дискурсу з англійської мови на українську на основі стратифікованого корпусу з 120 текстових фрагментів, відібраних із університетських підручників, рецензованих наукових статей та умов задач олімпіад. Застосовуючи двомовний промпт-дизайн, що порівнював режими zero-shot та few-shot, і оцінюючи результати на тлі еталонних перекладів, виконаних людьми, за чотирма критеріями – символьна точність, логічна зв’язність, термінологічна відповідність стандартам ISO 80000 та IEC 60050, а також регістрова узгодженість – дослідження виявляє та класифікує 274 критичні помилки за чотирма таксономічними категоріями: синтаксичні та структурні помилки, семантичне змішування символів, контекстуальні галюцинації та інтерференція природної мови. Кількісний аналіз засвідчує, що показники символьної точності відставали від оцінок логічної зв’язності на від чотирьох до дев’яти відсоткових пунктів у всіх парах «модель – умова», підтверджуючи, що сучасні моделі значно надійніше відтворюють пояснювальну прозу математичної аргументації, ніж формальний символьний апарат, який ця проза описує й інтерпретує. Claude 3.5 Sonnet продемонстрував найменшу загальну кількість критичних помилок, тоді як структурні спотворення у вкладених нотатках виявилися найпоширенішим типом помилок у всіх трьох моделях. Дослідження також виявляє раніше недостатньо описане явище – контекстно зумовлене мовчазне «виправлення» формально коректних, але нестандартних виразів у бік дистрибутивної типовості – і обстоює думку, що саме воно становить особливо серйозний ризик у контексті професійного та академічного перекладу. На завершення окреслено напрямки розробки вузькоспеціалізованих моделей, гібридних конвеєрів верифікації та спеціалізованих систем оцінювання математичного перекладу, а також визначено лінгвістичні та часові обмеження дослідження як орієнтири для майбутніх праць.

The growing reliance of students and researchers on large language models for the translation of technical and scientific texts has outpaced critical evaluation of the risks such reliance entails, particularly formal mathematical notation is concerned. This paper investigates the characteristic failure modes of three state-of-the-art generative language models – GPT-4o, Claude 3.5 Sonnet, and Gemini 1.5 Pro – when tasked with translating mathematical discourse English into Ukrainian across a stratified corpus of 120 text fragments drawn university-level textbooks, peer-reviewed journal articles, and olympiad problem sets. Employing a dual prompting design that contrasted zero-shot and few-shot conditions, and evaluating outputs against human-produced reference translations using four criteria – symbolic fidelity, logical coherence, terminological conformity with ISO 80000 and IEC 60050, and register consistency – the study identifies and classifies 274 critical errors into four taxonomic categories: syntactic and structural errors, semantic symbol conflation, contextual hallucination, and natural language interference. Quantitative analysis reveals that symbolic fidelity scores lagged behind logical coherence ratings by between four and nine percentage points across all model-condition pairs, confirming that current models handle the expository prose of mathematical argument more reliably than the formal notation it describes. Claude 3.5 Sonnet produced the fewest critical errors overall, whilst structural distortions in nested notation represented the single most prevalent failure type across all three models. The study further identifies a previously underdescribed phenomenon – the context-driven silent correction of formally correct but non-standard expressions toward distributional typicality – and argues that this constitutes a particularly consequential risk in professional and academic translation contexts. The paper concludes by outlining directions for domain-specialised model development, hybrid verification pipelines, and dedicated evaluation frameworks for mathematical translation, whilst acknowledging the study`s linguistic and temporal scope as avenues for future investigation.

URI:

https://ir.lib.vntu.edu.ua//handle/123456789/50880

Відкрити

197400.pdf (656.9Kb)