Інформаційна технологія оцінювання LogP та pKa фторвмісних насичених похідних на основі моделей машинного навчання
Author
Шевчук, О. Ф.
Павлюк, П. П.
Козловський, А. В.
Паночишин, Ю. М.
Сімончук, С. В.
Shevchuk, O.
Pavliuk, P.
Kozlovskyi, A.
Panochyshyn, Yu.
Simonchuk, S.
Date
2025Metadata
Show full item recordCollections
- Наукові роботи каф. КН [873]
Abstract
The physicochemical properties of organic compounds, in particular
lipophilicity (LogP) and acid–base characteristics (pKa), play a crucial role in drug
discovery and medicinal chemistry. Accurate prediction of these parameters is
essential for assessing the bioavailability, distribution, and toxicological profiles of
potential drug candidates. However, despite the availability of numerous
computational methods, their predictive efficiency significantly decreases when
applied to structurally specific and narrow classes of compounds, particularly
saturated fluorine-containing derivatives. Fluoroorganic fragments can substantially
modify the electronic, spatial, and energetic characteristics of molecules, yet
universal machine learning models built on heterogeneous datasets do not fully
account for these peculiarities.
Therefore, the developed information technology for evaluating LogP and pKa
of fluorine-containing saturated derivatives was based on a specially constructed
representative open-access dataset comprising 183 saturated fluorinated and nonfluorinated compounds, which ensured the highest predictive validity. For acid–base
property prediction, the best performance was achieved using a Graph Isomorphism
Network (R² ≈ 0.989), whereas for LogP prediction the optimal approach was a Graph
Convolutional Network with AttentiveFP descriptors (R² ≈ 0.955).
The proposed information technology has been implemented as a web-based
system that includes a chemical structure input module (SMILES, SDF/MOL,
interactive editor), an automated descriptor calculation block, integrated neural
network models, and a results visualization subsystem. In addition to the predicted
pKa and LogP values, the system displays supplementary physicochemical
characteristics such as molecular weight, polar surface area, dipole moment, and
topological indices, thereby enhancing interpretability of the results.
The functional versatility of the solution is ensured by its support for singlestructure input, batch processing of compound libraries, and interactive molecular design. This enables its use in virtual screening, preliminary analysis, experimental
data verification, educational purposes, and scientific research. The developed web
application does not require installation of specialized software or knowledge of
programming languages, making it accessible to a broad audience of chemists,
pharmacists, and researchers in related fields. Фізико-хімічні властивості органічних сполук, зокрема ліпофільність (LogP) та кислотно-основні характеристики (pKa), відіграють вирішальну роль у процесах пошуку лікарських засобів і медичній хімії. Точне прогнозування цих параметрів є необхідним для оцінки біодоступності, розподілу та токсикологічних профілів потенційних лікарських засобів. Проте незважаючи на наявність численних обчислювальних методів, їхня прогностична ефективність суттєво знижується при застосуванні до структурно специфічних та вузьких класів сполук, зокрема насичених фторовмісних похідних. Фторорганічні фрагменти здатні істотно модифікувати електронні, просторові та енергетичні характеристики молекул, однак універсальні моделі машинного навчання, побудовані на гетерогенних наборах даних, не враховують цих особливостей у повному обсязі. Таким чином, в основі розробленої інформаційної технології оцінювання LogP та pKa фторвмісних насичених похідних було використано спеціально побудований репрезентативний набір даних відкритого доступу із 183 насичених фторованих та нефторованих сполук, що забезпечував найвищі показники прогностичної валідності. Для прогнозування кислотно-основних властивостей найкращі результати досягалися за допомогою Graph Isomorphism Network (R² ≈ 0,989), тоді як для передбачення LogP оптимальною виявилася Graph Convolutional Network із застосуванням AttentiveFP-дескрипторів (R² ≈ 0,955). Запропонована інформаційна технологія реалізована у вигляді веборієнтованої системи, що включає модуль введення хімічних структур (SMILES, SDF/MOL, інтерактивний редактор), блок автоматизованого розрахунку дескрипторів, інтегровані нейромережеві моделі та підсистему візуалізації результатів. Окрім прогнозованих значень pKa та LogP, система відображає додаткові фізико-хімічні характеристики, такі як молекулярна маса, площа полярної поверхні, дипольний момент та топологічні індекси, що розширює можливості інтерпретації результатів. Функціональна універсальність рішення забезпечується підтримкою поодинокого завантаження структур, пакетної обробки бібліотек сполук та інтерактивного конструювання молекул. Це дає змогу застосовувати інструмент для віртуального скринінгу, попереднього аналізу, перевірки експериментальних даних, навчальних цілей і наукових досліджень. Розроблений вебзастосунок не потребує встановлення спеціалізованого програмного забезпечення чи знання мов програмування, що робить його доступним для широкого кола хіміків, фармацевтів і дослідників суміжних галузей.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/50273

