dc.contributor.author | Довгань, О. А. | uk |
dc.contributor.author | Овчинников, К. В. | uk |
dc.date.accessioned | 2024-12-04T14:50:57Z | |
dc.date.available | 2024-12-04T14:50:57Z | |
dc.date.issued | 2025 | |
dc.identifier.citation | Довгань О. А., Овчинников К. В. Алгоритми токенізації великих мовних моделей // Матеріали Всеукраїнської науково-практичної інтернет-конференції «Молодь в науці: дослідження, проблеми, перспективи (МН-2025)», Вінниця, 15-16 червня 2025 р. Електрон. текст. дані. Вінниця, 2025. URI: https://conferences.vntu.edu.ua/index.php/mn/mn2025/paper/download/22783. | uk |
dc.identifier.uri | https://ir.lib.vntu.edu.ua//handle/123456789/43691 | |
dc.description.abstract | This work is dedicated to the review of algorithms for text tokenization of modern large language models | en |
dc.description.abstract | Дана робота присвячена огляду алгоритмів текстової токенізації сучасних великих мовних моделей. | uk |
dc.language.iso | uk_UA | uk_UA |
dc.publisher | ВНТУ | uk |
dc.relation.ispartof | Матеріали Всеукраїнської науково-практичної інтернет-конференції «Молодь в науці: дослідження, проблеми, перспективи (МН-2025)», Вінниця, 15-16 червня 2025 р. | uk |
dc.relation.uri | https://conferences.vntu.edu.ua/index.php/mn/mn2025/paper/download/22783 | |
dc.subject | токенізація | uk |
dc.subject | алгоритм | uk |
dc.subject | велика мовна модель | uk |
dc.subject | tokenization | en |
dc.subject | algorithm | en |
dc.subject | large language model | en |
dc.title | Алгоритми токенізації великих мовних моделей | uk |
dc.type | Thesis | |
dc.identifier.udc | 004.9 | uk |
dc.relation.references | What is Tokenization? [Електронний ресурс] – Режим доступу: https://www.datacamp.com/blog/what-is-tokenization | en |
dc.relation.references | Tokenizer Choice For LLM Training: Negligible or Crucial? [Електронний ресурс] – Режим доступу:
https://aclanthology.org/2024.findings-naacl.247/ | en |
dc.relation.references | Neural Machine Translation of Rare Words with Subword Units [Електронний ресурс] – Режим доступу:
https://arxiv.org/abs/1508.07909v5 | en |
dc.relation.references | Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation [Електронний
ресурс] – Режим доступу: https://arxiv.org/abs/1609.08144v2 | en |
dc.relation.references | SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing
[Електронний ресурс] – Режим доступу: https://arxiv.org/abs/1808.06226v1 | en |
dc.relation.references | tiktoken [Електронний ресурс] – Режим доступу: https://github.com/openai/tiktoken | en |
dc.relation.references | The Llama 3 Herd of Models [Електронний ресурс] – Режим доступу: https://arxiv.org/abs/2407.21783 | en |