Статистичний аналіз спеціалізованого набору даних для прогнозування кислотно-основних властивостей і ліпофільності фторованих органічних сполук
Автор
Шевчук, О. Ф.
Павлюк, П. П.
Козловський, А. В.
Паночишин, Ю. М.
Сімончук, С. В.
Shevchuk, O.
Pavliuk, P.
Panochyshyn, Yu.
Simonchuk, S.
Дата
2025Metadata
Показати повну інформаціюCollections
- Наукові роботи каф. КН [875]
Анотації
Fluorine is a key element in pharmaceutical and organic chemistry
due to its unique electronic and spatial properties, which significantly influence the
physicochemical characteristics of organic compounds. The introduction of fluorine
atoms or fluorinated groups alters acid–base properties, lipophilicity, and
conformational stability of molecules, complicating their accurate prediction. In this
work, we analyzed a specialized dataset of experimental pKa and logP values for 183
saturated fluorinated organic compounds, including primary and secondary amines,
carboxylic acids, and their model derivatives, in order to evaluate the patterns of
fluorine influence on physicochemical properties and to assess the dataset’s
suitability for high-precision modeling. The dataset covers a broad range of structural
classes – monocyclic, bicyclic, and acyclic systems – and diverse fluorinated
substituents, enabling evaluation of the effects of the number and spatial arrangement
of fluorine atoms on acid–base properties and lipophilicity. A comprehensive data
preprocessing workflow was performed, including outlier removal using the Shapiro–
Wilk test, z-score criterion, and interquartile range method, as well as stratified
splitting into training (80 %) and test (20 %) subsets with control for structural
similarity based on the Tanimoto coefficient (≥ 90 %). Analysis of the target variables
revealed a bimodal distribution of pKa for amines and carboxylic acids and a more
uniform distribution of logP.
A systematic decrease in pKa was observed for secondary amines with
increasing number of fluorine atoms and their proximity to the deprotonation center,
whereas the effects of fluorination on carboxylic acids and logP exhibited complex
nonlinear patterns, including positional and cooperative effects. Application of graph
neural networks to this dataset demonstrated high predictive accuracy for both pKa
and logP values. These results confirm the suitability of the dataset for developing
high-precision predictive models of acid–base properties and lipophilicity of
fluorinated organic compounds, allowing consideration of electronic, spatial, and conformational effects of fluorination and providing prospects for its application in
pharmaceutical research and fundamental chemistry. Фтор є ключовим елементом у фармацевтичній та органічній хімії завдяки своїм унікальним електронним і просторовим властивостям, які істотно впливають на фізико-хімічні характеристики органічних сполук. Введення атомів фтору або фторвмісних груп змінює кислотно-основні властивості, ліпофільність та конформаційну стабільність молекул, що ускладнює їхнє прогнозування. У роботі проведено аналіз спеціалізованого набору даних (датасету) експериментальних значень pKa та logP для 183 насичених фторованих органічних сполук, включаючи первинні та вторинні аміни, карбонові кислоти та їх модельні похідні, з метою оцінки закономірностей впливу фтору на фізико-хімічні властивості та перевірки придатності набору для високоточного моделювання. Датасет охоплює широкий спектр структурних класів – моноциклічні, біциклічні та ациклічні системи та різноманітні фторовані замісники, що дозволяє оцінювати вплив кількості та просторового розташування атомів фтору на кислотно-основні властивості і ліпофільність молекул. Проведено комплексну попередню обробку даних, включаючи видалення аномальних викидів із застосуванням тесту Шапіро-Вілка, критерія z-score та методу інтерквартильного розмаху, а також стратифікований поділ на навчальну (80 %) і тестову (20 %) підмножини з контролем структурної подібності молекул за коефіцієнтом Танімото (≥ 90 %). Аналіз цільових змінних виявив бімодальний розподіл pKa для амінів та карбонових кислот і більш рівномірний розподіл logP. Було встановлено систематичне зниження pKa вторинних амінів зі збільшенням числа атомів фтору та наближенням їх до основного центру депротонування, тоді як вплив фторування на карбонові кислоти та logP характеризується складними нелінійними закономірностями, що включають позиційні та кооперативні ефекти. Застосування графових нейронних мереж на розглянутому датасеті показало високу точність прогнозування значень pKa та logP. Таким чином отримані дані підтверджують придатність сформованого датасету для розвитку високоточних моделей прогнозування кислотно-основних властивостей і ліпофільності фторованих органічних сполук, забезпечують можливість врахування електронних, просторових і конформаційних ефектів фторування, а також відкривають перспективи для його застосування у фармацевтичних дослідженнях і фундаментальній хімії.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/50406

