Методи інтелектуального аналізу даних для оцінки впливу хімічних речовин на здоров'я людини

Огляд деяких методів обчислювальної токсикології. Підходи до числового представлення молекулярних властивостей хімічних сполук. Сутність методу для кращого розуміння та прогнозування несприятливих наслідків для здоров'я, спричинених хімічними речовинами.

Рубрика Программирование, компьютеры и кибернетика
Вид магистерская работа
Язык украинский
Дата добавления 02.10.2018
Размер файла 3,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ УКРАЇНИ

"Київський політехнічний інститут імені Ігоря Сікорського"

Інститут прикладного системного аналізу

Кафедра математичних методів системного аналізу

"На правах рукопису"

УДК 51-76

"До захисту допущено"

Завідувач кафедри

О.Л. Тимощук

Магістерська дисертація

на здобуття ступеня магістра

зі спеціальності 124 "Системний аналіз"

на тему: "Методи інтелектуального аналізу даних для оцінки впливу хімічних речовин на здоров'я людини"

Виконав (-ла): студент (-ка) ІІ курсу, групи КА-62м

Разініна Валерія Володимирівна

Керівник: професор, д.ф.-м.н., проф.,

Макаренко О.С.

Рецензент: доцент ДНУ, к.физ.-мат. наук, доцент,

Трактинська В.Н.

Київ - 2018

Зміст

Реферат

  • Вступ
  • Розділ 1. Актуальність розв'язання задачі оцінки впливу хімічних речовин
    • 1.1 Вплив хімічних речовин на здоров'я людини
    • 1.2 Традиційні методи тестування токсичності
    • 1.3 Дослідження існуючих рішень
    • Висновки до розділу
  • Розділ 2. Токсикологія - базові поняття
    • 2.1 Наука токсикологія
      • 2.1.1 Предмет, мета і завдання токсикології
      • 2.1.2 Токсичність і специфікація токсинів
      • 2.1.3 Проблеми токсикології
      • 2.1.4 Методи випробувань
    • 2.2 Обчислювальна токсикологія
    • Висновки до розділу
  • Розділ 3. Вибір і опис методів інтелектуального аналізу даних для задачі оцінки впливу хімічних речовин
    • 3.1 Пошук кількісних співвідношень структура-властивість
    • 3.2 Специфікація однозначного опису складу та структури молекули хімічної речовини
      • 3.2.1 Основні принципи побудови SMILЕS
    • 3.3 Числове представлення молекулярних властивостей хімічних сполук
    • 3.4 Методи інтелектуального аналізу даних для прогнозування впливу хімічних речовин
      • 3.4.1 Логістична регресія
      • 3.4.2 Метод опорних векторів
      • 3.4.3 Rаndom forеst
      • 3.4.4 Побудова моделей "структура-властивість" за допомогою нейронних мереж
      • 3.4.5 Багатозадачні нейронні мережі
    • Висновки до розділу
  • Розділ 4. Побудова моделей та оцінювання прогнозування впливу хімічних сполук
    • 4.1 Статистичні дані аналізу на токсичність хімічних речовин
    • 4.2 Розбиття на набори даних
    • 4.3 Метрики
    • 4.4 Порівняння отриманих результатів
    • Висновки до розділу
  • Розділ 5. Розроблення стартап-проекту
    • 5.1 Опис ідеї проекту
    • 5.2 Технологічний аудит ідеї проекту
    • 5.3 Аналіз ринкових можливостей запуску стартап-проекту
    • 5.4 Розроблення ринкової стратегії проекту
    • 5.5 Розроблення маркетингової програми стартап-проекту
    • Висновки до розділу
  • Висновки по роботі і рекомендації для подальших досліджень
  • Перелік посилань
  • Додаток А. Ілюстративний матеріал
  • Додаток Б. Лістинг програми
  • Перелік прийнятих позначень та скорочень
  • Реферат
  • Магістерська дисертація: 94 с., 10 рис., 30 табл., 2 додатки, 33 джерел.
  • В роботі розглянуті і проаналізовані одні з найбільш вживаних сучасних методів інтелектуального аналізу даних. Був проведений огляд деяких методів обчислювальної токсикології, а також розглянуті підходи до числового представлення молекулярних властивостей хімічних сполук.
  • Розроблено метод для кращого розуміння та прогнозування несприятливих наслідків для здоров'я, спричинених хімічними речовинами. Виконано порівняння отриманих результатів і вибрано кращі для практичного використання.
  • Об'єкт досліджень: дані аналізу на біологічну активність хімічних речовин.
  • Предмет досліджень: математичні моделі інтелектуального аналізу даних для проведення класифікації на основі статистичних даних.
  • Ключові слова: МЕТОДИ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ДАНИХ, КЛАСИФІКАТОРИ, МОЛЕКУЛЯРНІ ДИСКРИПТОРИ, ТОКСИКОЛОГІЯ.
  • Abstract

Theme: Methods of intellectual data analysis for assessment of chemical exposure on human health.

The paper considers and analyzes some of the most used modern methods of data mining. An overview of some methods of computational toxicology was conducted, as well as approaches to the numerical representation of the molecular properties of chemical compounds were considered.

A method has been developed to better understand and predict the adverse effects of health caused by chemicals. The comparison of the obtained results and the best ones for practical use have been made.

Keywords: DАTА MINING, CLАSSIFIЕRS, MOLЕCULАR DISCRIPTORS, TOXICOLOGY, MOLЕCULАR DЕSCRIPTORS/

Вступ

Кожного дня людина стикається з величезною кількістю хімічних речовин: від синтетичних мийних засобів і засобів особистої гігієни до лікарських препаратів і харчових домішок. І врешті решт у кожного з нас виникають запитання, які з цих речовин є дійсно шкідливими, яким чином вони можуть проникати до нашого організму, що ми знаємо і що варто було б знати кожному про особливості впливу деяких речовин на здоров'я людини.

Більшість людей піддаються впливу багатьох різних хімікатів протягом усього періоду їх життя через джерела, включаючи продукти харчування, засоби для догляду за домашніми тваринами та ліки. У деяких випадках ці хімічні речовини можуть бути токсичними.

Багато перспективних фармацевтичних препаратів зазнали невдачі в клінічних випробуваннях на людях, оскільки вони були визнані токсичними, і це незважаючи на їх доклінічні дослідження на тваринах.

Виробники продукції, якою ми щоденно користуємося, наполегливо працюють, щоб гарантувати, що те, що в кінцевому підсумку продається, не є шкідливим та небезпечним для здоров'я людей.

Але це не є так просто. Ми не можемо насправді перевірити безпеку чого-небудь, перевіривши це одразу на людях. Окрім того факту, що іноді проблеми зі здоров'ям розвиваються протягом багатьох років, якщо ви були піддані впливу дії небезпечної речовини, експерименти з людьми не є абсолютно етичними.

Ось чому токсикологи використовують тварин, клітинні культури та інші тести, які не пов'язані з людьми. Вони використовують ці дані для вивчення того, що може трапитися з людьми.

Але ретельне тестування речовин все ще займає багато часу - іноді навіть кілька років. Частково через це, тільки кілька сотень з десятків тисяч хімічних речовин, які ми використовуємо сьогодні, були повністю оцінені.

Об'єкт досліджень: дані аналізу на біологічну активність хімічних речовин.

Предмет досліджень: математичні моделі інтелектуального аналізу даних для проведення класифікації на основі статистичних даних.

Метою досліджень є розробити метод для кращого розуміння та прогнозування несприятливих наслідків для здоров'я, спричинених хімічними речовинами.

Розділ 1. Актуальність розв'язання задачі оцінки впливу хімічних речовин

1.1 Вплив хімічних речовин на здоров'я людини

Так сталося, що неможливо жити в нашому світі, не піддаючись щоденному впливу хімічних речовин. Хімікати знаходяться навколо нас, оточують нас та проникають всередину нашого організму. Деякі з них, такі як кисень і водень, є важливими компонентами для живих істот, включаючи нас - людей. Однак деякі інші хімікати можуть бути шкідливими для нашого здоров'я [1].

Багато хімічних сполук (які часто, але не завжди, зроблені людьми) пов'язані з фізичними та когнітивними станами здоров'я і навіть змінами ДНК. Велика кількість хімічних речовин, таких як миш'як, фталати та леткі органічні сполуки, знаходиться в поширених товарах для дому, миючих засобах, косметиці або засобах особистої гігієни, якими кожна сучасна людина регулярно користується та піддається їх впливу [1].

Найчастіше хімікати потрапляють до організму живих істот через дихальні шляхи, наприклад, пари, газо- та пилоподібні речовини. Також це відбувається через шкіру (переважно рідкі речовини), через шлунково-кишкові шляхи під час ковтання, або при внесенні їх в рот забрудненими руками.

Шкідливі речовини, що потрапили тим, чи іншим шляхом в організм можуть викликати гострі чи хронічні отруєння. Ступінь отруєння залежить від токсичності речовини, її кількості, часу дії, шляху проникнення, метеорологічних умов, індивідуальних особливостей організму [1].

Гострі отруєння виникають в результаті одноразової дії великих доз шкідливих речовин (чадний газ, метан, сірководень).

Хронічні отруєння розвиваються внаслідок тривалої дії на людину невеликих концентрацій шкідливих речовин (свинець, ртуть, марганець).

В той же час речовини потрапивши в організм розподіляються в ньому нерівномірно. Наприклад, найбільша кількість свинцю накопичується в кістках, фтору - в зубах, марганцю - в печінці. Такі речовини мають властивість утворювати в організмі так зване "депо" і затримуватись в ньому тривалий час [2].

Таким чином, гостро постає задача оцінки впливу хімічних речовин на здоров'я людини.

Багато з тих хімічних речовин, які мають найвищий пріоритет, були вже перевірені [1]. Але на превеликий жаль сьогодні все ще існує величезна кількість хімічних речовин, про які ми не знаємо достятньо, або ж про які взагалі нічого не відомо.

Звичайно, відповідальні виробники роблять все можливе, щоб забезпечити безпеку своїх продуктів. Але повільна швидкість і вартість багатьох встановлених токсикологічних тестів означають, що компанії та виробники просто не можуть йти в ногу з оцінкою всього, що вони хотіли б.

Їм потрібно щось краще, щось швидше, щось дешевше. І в ідеалі те, що не передбачає використання такої великої кількості тварин.

Також, досить важливим є сортування списку очікування неперевірених хімічних речовин, щоб побачити, які з них найбільш гостро потребують уваги [1].

1.2 Традиційні методи тестування токсичності

Традиційно, токсикологічна оцінка хімічних речовин значною мірою спиралася на результати досліджень над тваринами, які використовувалися для прогнозування потенційно шкідливих наслідків для організму людини. Це розроблялося для оцінки конкретних токсикологічних впливів, таких як імунотоксичність, генотоксичність, репродуктивна токсичність, токсичність розвитку і канцерогенність [3].

З самого початку, тестування хімічних речовин на токсичність спиралося головним чином на досліди над тваринами, які піддавалися впливу максимально допустимої дози, при цьому результати екстраполювалися на результати здоров'я людей при більш низьких дозах [4].

Цей підхід бере свій початок з 1950-х років, коли використання більш конкретних або механічних моделей тварин та знання основних механізмів для будь-якої токсичної реакції були відносно невідомими [3].

Таке тестування in vivo є дорогим, трудомістким та низьким за рівнем пропускної спроможності [2].

Повне токсикологічне дослідження однієї хімічної речовини за стандартними тестами in vivo включало наступні тести токсичності: гостра, субхронічна та хронічна токсичність; репродуктивна токсичність; токсичність розвитку, очні подразнення та подразнення шкіри, гіперчутливість; фототоксичність; і токсикокінетичні дослідження [3].

Незважаючи на недоліки, пов'язані з тестуванням над тваринами, більшість знань щодо хімічної токсичності походить від даних, отриманих у саме такий досить жорстокий спосіб [4].

Проте, навіть екстенсивне тестування на тваринах не забезпечує повного розуміння токсичності, а знання щодо несприятливих ризиків для людей все ще залишаються неадекватними [5].

Хоча ці моделі, основані на дослідженнях над тваринами, надають корисну інформацію про безпеку (або небезпеку) хімічних речовин, вони досить дорогі, низької пропускної здатності та іноді помилково передбачають біологію та патофізіологію людини. Тому останнім часом деякі нові проекти почали використовувати методи in vitro та нові технології для розробки сигнатур in vitro та обчислювальних моделей, що передбачають реагування in vivo [1].

1.3 Дослідження існуючих рішень

Створення нових методів оцінки хімічної токсичності має потенціал для поліпшення того, як вчені оцінюють хімікати та розробляють нові ліки.

Деякий часок тому, досить компетентні люди у Національних академіях наук США взяла цю проблему під контроль. Результатом був вагомий звіт з багатообіцяючим титулом "Тестування токсичності в 21 столітті" [1].

В основі цієї доповіді була нова ідея, яка прискорила тестування токсичності, зменшила необхідний для цього час і ресурси, а також кількість тварин. Ідея була досить блискучою.

Якщо ми зможемо зрозуміти основні біологічні процеси, які керують тим, як наше тіло працює - те, що національні академії називають "шляхами токсичності" - ми будемо мати можливість запропонувати прості тести, які показують, наскільки частина певної речовини перешкоджає цим процесам. І якщо ми зможемо швидко запустити сотні цих тестів, ми будемо в змозі мати можливість швидко з'ясувати, наскільки небезпечною та шкідливою скоріш за все може бути ця речовина [1].

Звіт був досить успішним. Настільки, що Агентство з охорони навколишнього середовища, Національний інститут здоров'я та Адміністрація з питань харчових продуктів і медичних препаратів об'єднали і сформували нову ініціативу щодо дослідження токсичності в США. Ця ініціатива називається TOX 21, програма токсикології у 21 столітті (рис. 1.1). В ній приймає активну участь федеральне співробітництво з Національним інститутом здоров'я, Агентством з охорони навколишнього середовища та Адміністрацією з харчових продуктів і медикаментів, спрямоване на розробку кращих методів оцінки токсичності. Мета полягає в тому, щоб швидко та ефективно перевірити, чи є певні хімічні сполуки здатними порушувати процеси в організмі людини, що може призвести до несприятливих наслідків для її здоров'я [6].

Рисунок 1.1 - Співпраця Tox21 об'єднує експериментальну токсикологічну експертизу NTP, технологію скринінгу високої пропускної спроможності в NCGC та обчислювальну токсикологічну експертизу в ЕPА

Спочатку основна увага Tox21 полягає в тому, щоб визначити пріоритетність хімічних речовин для більш широкого тестування за допомогою традиційних методів [6].

Кінцевою метою Tox21 є розробка стратегій агентств для регулювання хімічних речовин та зменшення поточної залежності від тестів на тваринах для токсикологічних оцінок. Програма була запущена з чотирма цілями [6]:

- по-перше, щоб краще зрозуміти процеси або шляхи, які регулюють функціонування нашого організму;

- по-друге, розробити тести для того, щоб з'ясувати, як хімічні речовини перешкоджають цим шляхам;

- по-третє, розробити спосіб прогнозування того, наскільки небезпечними можуть буди певні речовини;

- надалі визначити ті речовини, які найбільше потребують більш детальних досліджень щодо можливої небезпеки.

Консорціум Tox21 використовує ресурси і досвід своїх партнерів для більш ефективного прогнозування того, як колекція зі 10000 з'єднань, яка складається з хімічних речовин і затверджених лікарських засобів, впливатиме на здоров'я людини і навколишнє середовище.

В основі Tox21 лежать дві технології: високопродуктивний скринінг та обчислювальна біологія [6].

Високопродуктивний скринінг - це метод для наукових експериментів, особливо використовуваних для пошуку нових лікарських препаратів і належить до біології та хімії.

Використовуючи робототехніку (рис. 1.2), обробку даних та управління з програмним забезпеченням, пристрої рідинної обробки і чутливі детектори, високопродуктивний скринінг дозволяє досліднику швидко проводити мільйони хімічних, генетичних, або фармакологічних тестів. За допомогою цього процесу можна швидко ідентифікувати активні сполуки.

Рисунок 1.2 - Рукоятка робота (на передньому плані) витягує пластини для аналізу з інкубаторів і розміщує їх на складних станціях перенесення або виводить їх на іншу руку (фон), що обслуговує диспенсери рідини або планшетні пристрої

Результати цих експериментів слугують відправною точкою для розробки ліків і надають розуміння про взаємодію або роль конкретного біохімічного процесу в біології [7].

Високопродуктивний скринінг дозволяє дуже швидко виконувати хімічні випробування. По суті, використовуються роботи для автоматичного розміщення цих речовин у крихітних тестових свердловинах та спостереження за тим, що відбувається далі [7].

Проте високопродуктивний скринінг сама по собі досить марний. Він генерує тону даних, але самі по собі ці тести, які він використовує, не можуть сказати нам, чи справді ця хімічна речовина завдасть нам шкоди.

Для цього нам потрібно інтегрувати високопродуктивний скринінг із деякими передовими науками та деякими потужними обчислювальними методами.

Поєднуючи високопродуктивний скринінг із сучасною обробкою даних та комп'ютерним моделюванням, Tox21 розробляє інструменти, які дозволяють швидко перевіряти тисячі речовин на потенційну токсичність [6].

Звичайно, Tox21 - це лише початок перетворення, яке буде гарантувати безпеку хімічних речовин, які ми використовуємо.

За іронією долі, незважаючи на назву, він фактично не надає інформації про те, наскільки токсичними є речовини, а тільки, як вони можуть вести себе в такій складній біологічній системі, як людський організм.

Сам процес є дуже інноваційним і неймовірно важливим для визначення хімічних речовин, які можуть бути шкідливими.

На жаль ми все ще повинні використовувати тварин, щоб краще зрозуміти фактичні захворювання, які можуть спричинити певні хімічні сполуки. І як завжди, ми також повинні розуміти, наскільки великою може бути спричинена шкода, а не лише знати про потенціал цієї речовини заподіяти її. обчислювальна токсикологія хімічна здоров'я

Але чим більше досліджень ми робимо для прогнозування того, що відбувається з організмом тварин та людей завдяки високопродуктивному скринінгу та обчислювальній біології, тим більше ми можемо удосконалити зниження і в кінцевому підсумку замінити використання тварин при тестуванні токсичності [3].

Тим часом, Tox21 та аналогічні програми поступово перетворюють те, як ми ідентифікуємо хімікати, які потенційно можуть бути шкідливими, і як провести дослідження, необхідне для того, щоб розуміти, що їх використання є абсолютно безпечним, або ж навпаки, яких речовин слід остерігатися.

Висновки до розділу

Так сталося, що неможливо жити в нашому світі, не піддаючись щоденному впливу хімічних речовин. Хімікати знаходяться навколо нас, оточують нас та проникають всередину нашого організму. Деякі з них, такі як кисень і водень, є важливими компонентами для живих істот, включаючи нас - людей. Однак деякі інші хімікати можуть бути шкідливими для нашого здоров'я.

Таким чином, гостро постає задача оцінки впливу хімічних речовин на здоров'я людини.

Було сформульовано основні напрямки роботи. Потрібно розробити метод для кращого розуміння та прогнозування несприятливих наслідків для здоров'я, спричинених хімічними речовинами.

Постановка задачі:

1. Виконати аналіз методів інтелектуального аналізу даних для вирішення задачі оцінки впливу хімічних речовин на здоров'я людини.

2. Розглянути підходи до числового представлення молекулярних властивостей хімічних сполук.

3. Розробити метод для прогнозування несприятливих наслідків для здоров'я, спричинених хімічними речовинами.

4. Виконати порівняльний аналіз отриманих результатів та запропонувати найкращий з розглянутих методів.

5. Виробити рекомендації стосовно можливостей подальшого вдосконалення.

Розділ 2. Токсикологія - базові поняття

2.1 Наука токсикологія

Токсикологія - наука, що вивчає отруйні (токсичні) речовини, потенційну небезпеку їх впливу на організми та екосистеми, механізми токсичної дії, а також методи діагностики, профілактики і лікування захворювань, які розвиваються внаслідок такого впливу [8]. Токсикологія являє собою міждисциплінарний науковий напрямок, що вивчає дію шкідливих хімічних речовин, що знаходяться в навколишньому середовищі, на живі організми і їх популяції, що входять до складу екосистем, - від мікроорганізмів до людини [8].

Токсикологія вивчає вплив хімічних речовин як на індивідуальні організми, так і на їх популяції. Токсикологія користується класичними прийомами, маючи при цьому і свої власні методи і об'єкти досліджень [9].

В останні роки в рамках міжнародного та національного товариств токсикологів регулярно проводяться наукові наради, конференції, симпозіуми. Стосовно проблем токсикології видаються спеціалізовані наукові журнали.

2.1.1 Предмет, мета і завдання токсикології

Токсикологія - розділ медицини, що вивчає властивості отруйних речовин, механізм їх дії на тваринний організм, сутність викликаного ними патологічного процесу (отруєння), методи його лікування та попередження [10].

Термін "токсикологія", який визначає самостійний науковий напрям, введений в 1969 р., коли при Міжнародному науковому комітеті з проблем навколишнього середовища була організована спеціальна комісія з токсикології, котра визначила основні напрямки робіт по токсикології [9].

У 1978 р. було прийнято визначення токсикології як "міждисциплінарного наукового напрямку, пов'язаного з токсичними ефектами хімічних речовин на живі організми, переважно на популяції організмів і біоценози, що входять до складу екосистем. Вона вивчає джерела надходження шкідливих речовин в навколишнє середовище, їх поширення в цьому середовищі, дію на живі організми. Людина, безсумнівно, є найвищою сходинкою в ряді біологічних мішеней" [9].

Предмет токсикології - біологічні системи надорганізмового рівня, схильні до токсичного забруднення [9]. Звичайно, що теоретичною основою токсикології служать фундаментальні закономірності структури і функціонування природних систем популяції і біоценотичного рангу, які активно розробляються сучасною теоретичною екологією. Найважливіше значення має загальна концепція стійкості і стабільності екологічних систем.

2.1.2 Токсичність і специфікація токсинів

Термін токсичність пов'язується з небажаним і біологічно шкідливим впливом хімічних речовин, які потрапляють до живих організмів. Цей вплив ґрунтується на хімічних або фізико-хімічних реакціях між хімічними речовинами, що потрапляють до організму, і біологічною системою. Хімічні сполуки порушують в організмі життєво важливі біохімічні процеси, що виявляється у вигляді симптомів отруєння [9].

Хімічні сполуки, які здійснюють такий вплив, називаються токсинами (ксенобіотиками). Токсини, що впливають на живі організми, спричиняють токсичний ефект. Токсичний ефект, спричинений токсином, разом з іншими чинниками визначається таким фактором, як шлях потрапляння токсину до організму [9].

Токсин може потрапити через шкіру (резорбтивно), через систему дихання (інгаляційно) і через систему травлення (перорально). Форма реалізації хімічної речовини (фізична специфікація), стан її накопичення зумовлюються одним із трьох зазначених шляхів потрапляння токсину до організму. Для сполук металів найчастіше це буде шлях через систему травлення. Наприклад, такі сполуки металів, як солі, що розчинені у воді, разом з нею потрапляють до системи травлення. Сполуки металів, які присутні в повітрі як забруднювачі й адсорбовані на частинках суспендованого пилу або присутні у вигляді пари (леткі алкільні сполуки), поглинаються разом із вдихуваним повітрям. Спосіб потрапляння токсину до організму визначає його транспортування і швидкість дії в організмі. Токсини, що вдихуються разом із повітрям, мають можливість безпосереднього контакту з кров'ю в легенях. Токсини, які потрапляють через систему травлення, мають подолати довгий шлях перед тим, як вони потраплять із системи травлення до крові [9].

2.1.3 Проблеми токсикології

Проблема оцінки прямого токсичного впливу і ефектів непрямих, опосередкованих середовищем існування, - одна з центральних в сучасній токсикологічній науці. Практична неможливість проведення токсикологічних експериментів в природних умовах гостро ставить необхідність екстраполяції даних лабораторних та віварних експериментів на умови існування природних біосистем. Подібні підходи широко використовуються в гігієнічний токсикології та гігієні. Однак відсутність оцінок вкладу в токсикологічну реакцію прямого і непрямого впливу токсичних агентів ускладнює таку екстраполяцію [11].

Будь-який науковий напрям базується на основоположних досягненнях суміжних наук. Мається на увазі, перш за все, фундаментальні закономірності, встановлені в загальній екології і токсикології. Вітчизняні дослідження в галузі екології, охорони природи, токсикології та гігієни ще в 30-40-і роки були не просто на рівні світових, але значною мірою визначали їх. Досить згадати основні роботи С.С. Четверикова з генетики популяцій, Г.Ф. Гаузе по екології популяцій, В.Н. Сукачова і його концепцію біогеоценозу, а також провідного російського токсиколога і гігієніста Н.В. Лазарєва [12].

Під впливом токсичних факторів в екологічних системах проявляються несприятливі ефекти на різних рівнях організації: від молекулярно-генетичного до біоценотичного. Спостерігаються ефекти збільшення хромосомних порушень і мутацій, зміни ферментативної активності окремих систем організму, зниження репродуктивних можливостей і тривалості життя організмів, зміна статевої і вікової структур популяцій, видового складу співтовариств, зміни домінуючих видів, продуктивності біоценозів в цілому. Вивчення такого широкого спектру токсичних проявів можливо лише при комплексному підході за участю широкого кола фахівців, які представляють всі напрямки біологічної і медичної наук [13].

2.1.4 Методи випробувань

Досліди токсичності можуть проводитись in vivo (за допомогою тварин) або in vitro (тестування на ізольованих клітинах або тканинах) або in silico (за допомогою комп'ютерного моделювання) [12].

Випробування на тваринах. Класичний експериментальний інструмент токсикології - тестування на тваринах [14].

Прикладом моделі організму є Gаllеriа mеllonеllа (Велика воскова міль, вогнівка бджолина), яка може замінити маленьких ссавців для вивчення токсикології in vivo [15].

Починаючи з 2014 року, таке тестування на тваринах дає інформацію, недоступну іншими способами про те, як речовини функціонують у живому організмі [16].

Альтернативні методи випробувань. Хоча тестування на тваринах залишається досить ефективним методом оцінки токсичності речовин, існують як етичні, так і технічні проблеми з тестуванням на тваринах [16].

З кінця 1950-х років, в області токсикології були думки про зменшення або усунення взагалі випробувань на тваринах під егідою "Thrее Rs" - зменшити кількість експериментів над тваринами до необхідного мінімуму; удосконалити експерименти, щоб заподіяти менші страждання, і замінити експерименти in vivo на інші типи, або використовувати більш прості форми життя, якщо це можливо ("Thrее Rs" - Rеducе thе numbеr of еxpеrimеnts with аnimаls to thе minimum nеcеssаry; Rеfinе еxpеrimеnts to cаusе lеss suffеring, аnd Rеplаcе in vivo еxpеrimеnts with othеr typеs, or usе morе simplе forms of lifе whеn possiblе) [17].

Комп'ютерне моделювання є прикладом альтернативних методів тестування. Використовуючи комп'ютерні моделі хімічних речовин та білків, можна визначити взаємозв'язок між структурою та активністю та визначити хімічні структури, які, ймовірно, зв'язуються з білками та впливають на їх основні функції. Ця робота вимагає експертних знань у галузі молекулярного моделювання та статистики разом з експертними оцінками в галузі хімії, біології та токсикології [18].

У 2007 році Національна академія наук (thе Nаtionаl Аcаdеmy of Sciеncеs) опублікувала звіт "Тестування токсичності в XXI столітті: бачення та стратегія", що розпочинаєтсья заявою: "Зміна часто включає в себе визначну подію, яка спирається на попередню історію та відкриває двері до нової ери. Тестування токсичності наближається до такого самого повороту наукової точки зору. Воно готове скористатися революціями у біології та біотехнології. Прогрес в токсогеноміці, біоінформатиці, системній біології, епігенетиці та обчислювальній токсикології може трансформувати тестування токсичності з системи, заснованої на випробуваннях на тваринах, до того, що основою стануть методах in vitro, які оцінюють зміни біологічних процесів з використанням клітин, клітинних ліній або клітинних компонентів, переважно людського походження" [18].

У деяких випадках відмова від вивчення тварин визначається законодавством або нормативними актами. Європейський Союз (ЄС) заборонив використовувати тести на тваринах для косметики в 2013 році [19].

2.2 Обчислювальна токсикологія

Обчислювальна токсикологія - це дисципліна, яка розробляє математичні та комп'ютерні моделі для кращого розуміння та прогнозування несприятливих наслідків для здоров'я, спричинених хімічними речовинами, такими як забруднювачі навколишнього середовища та фармацевтичні препарати [20].

Висновки до розділу

В даному розділі буди розглянуті основні поняття науки токсикології, проблеми проведення токсикологічних досліджень та методи випробувань.

Проблема оцінки прямого токсичного впливу і ефектів непрямих, опосередкованих середовищем існування, - одна з центральних в сучасній токсикологічній науці.

Підсумовуючи досліджений матеріал, можна зробити висновки, що хоча тестування на тваринах залишається досить ефективним методом оцінки токсичності речовин, існують як етичні, так і технічні проблеми з тестуванням на тваринах.

Це демонструє нам необхідність застосування сучасних методів інтелектуального аналізу даних для вирішення проблеми оцінки впливу хімічних речовин на здоров'я людини.

Розділ 3. Вибір і опис методів інтелектуального аналізу даних для задачі оцінки впливу хімічних речовин

3.1 Пошук кількісних співвідношень структура-властивість

Пошук кількісних співвідношень структура-властивість - процедура побудови моделей, що дозволяють за структурами хімічних сполук передбачати їх різноманітні властивості [21].

За моделями, що дозволяють прогнозувати кількісні характеристики біологічної активності, історично закріпилася англомовна назва Quаntitаtivе Structurе-Аctivity Rеlаtionship (QSАR). Абревіатура QSАR часто трактується розширено для позначення будь-яких моделей структура-властивість [21].

За моделями, що дозволяють прогнозувати фізичні і фізико-хімічні властивості органічних сполук, закріпилася англомовна назва Quаntitаtivе Structurе-Propеrty Rеlаtionship (QSPR) [21].

При якісному описі співвідношень між структурами хімічних сполук і їх біологічною активністю вживають англомовний термін Structurе-Аctivity Rеlаtionship (SАR) [21].

Методологія QSАR сформувалася в середині 1960-х років. Її засновником вважають американського вченого Корвіна Ганча. Істотний внесок в її створення зробили також науковці Ч. Овертон, Г. Мейер, Г. Фюнер, С. Фрі, Дж. Вільсон, Т. Фуджіта та інші [20].

Пошук кількісних співвідношень структура-властивість заснований на застосуванні методів математичної статистики і машинного навчання для побудови моделей, що дозволяють за описом структур хімічних сполук передбачати їх властивості (фізичні, хімічні, біологічну активність). При прогнозуванні властивостей на якісному рівні (наприклад, чи буде дана хімічна сполука мати даний вид біологічної активності) говорять про розв'язок класифікаційної задачі, тоді як при прогнозуванні числових значень властивостей говорять про розв'язок регресійної задачі [21].

Опис структур хімічних сполук для цих цілей може бути векторним або невекторним (за допомогою графів).

У QSАR виділяють два ключові етапи [21]:

- подання структури молекули речовини набором дескрипторів;

- побудова математичної моделі.

Основним припущенням для всієї молекулярної гіпотези є те, що подібні молекули мають подібну активність. Цей принцип також називають структурно-активними зв'язками (SАR).

Основна проблема полягає в тому, як визначити невелику різницю на молекулярному рівні, оскільки кожен вид діяльності, наприклад здатність до реакції, здатність до біотрансформації, розчинність, цільова активність тощо можуть залежати від іншої різниці [20].

Одним з перших історичних застосувань QSАR було прогнозування температури кипіння. Добре відомо, наприклад, що в межах певної родини хімічних сполук, особливо органічної хімії, існують сильні кореляції між структурою та спостережуваними властивостями [20].

Модель QSАR можна застосовувати для прогнозування будь-якого типу фізичних властивостей та біологічної активності за наявності молекулярних структур та розрахованих дескрипторів.

Приклади QSАR-прогнозів, крiм фармакологічної активності, містять токсичність, канцерогенність, мутагенність та фізико-хімічні властивості (температура кипіння, здатність до розчинення у воді та ліпідах, константи кислотності та основності) [20].

Використання QSАR-моделей дозволяє заздалегідь визначити активність нових, ще не синтезованих сполук, та модифікувати дію вже існуючих речовин шляхом уведення необхідних замісників.

Це дає можливість, користуючись програмами комп'ютерного моделювання, відбирати сполуки для подальшого синтезу без проведення скринінгу на лабораторних тваринах та іn vitro вивчати вплив різних факторів на біологічну активність.

Прогрес в QSАR-моделюванні тісно пов'язаний із розвитком у багатьох сферах: статистиці, комп'ютерних технологіях, математиці тощо.

Модель QSАR - альтернативний поетапний шлях до розрахунку молекулярних властивостей, особливо в тих випадках, коли експериментальні дослідження неможливі або економічно чи етично невиправдані [21].

3.2 Специфікація однозначного опису складу та структури молекули хімічної речовини

SMILЕS (Simplifiеd Molеculаr Input Linе Еntry Systеm, з англ. - "система спрощеного уявлення молекул в рядку введення") - система правил (специфікація) однозначного опису складу та структури молекули хімічної речовини з використанням рядка символів АSCII [22].

Рядок символів, складений за правилами SMILЕS, може бути перетворений багатьма молекулярними редакторами у двовимірну або тривимірну структурну формулу молекули [22].

Початковий варіант специфікації SMILЕS був розроблений Артуром Вейнінгером (Аrthur Wеiningеr) і Девідом Вейнінгером (Dаvid Wеiningеr) в кінці 1980-х [22].

Надалі стандарт був модифікований і розширений; найбільш активну участь в цій роботі взяла компанія Dаylight Chеmicаl Informаtion Systеms, Inc [22].

Серед інших лінійних нотацій варто виділити нотацію Вісвессера (WLN), SMАRTS, ROSDАL і Sybyl Linе Notаtion (Tripos Inc.). Нещодавно IUPАC запропонував InChI в якості стандарту для лінійного представлення формул. SMILЕS має переваги перед InChI, зокрема, краще сприйняття формул людиною, а також більш проста програмна підтримка у зв'язку з наявністю великої теоретичної бази - теорії графів [22].

3.2.1 Основні принципи побудови SMILЕS

У термінах теорії графів SMILЕS являє собою рядок, отриманий шляхом виведення символів вершин молекулярного графа у порядку, відповідному їх обходу в глибину. Первісна обробка графа включає в себе видалення атомів водню і розбивку циклів таким чином, щоб отриманий граф являв собою кістяковий ліс. Місцям розбиття графа ставляться у відповідність числа, що показують наявність зв'язку у вихідній молекулі. Для вказівки точок розгалуження молекули використовуються дужки [22].

Атоми. Атоми позначаються символами хімічних елементів у квадратних дужках, наприклад, золото позначається як [Аu]. Для елементів складових органічних молекул (B, C, N, O, P, S, F, Cl, Br, I) дужки можуть бути опущені. У цьому випадку атоми водню можна не вказувати в явному вигляді, якщо їх кількість відповідає найменшій нормальній валентності відповідно до явно заданих зв'язків. Атоми в складі ароматичних циклів зазвичай записуються рядковими літерами замість прописних (табл. 3.1) [23].

При необхідності вказати формальний заряд частинки атоми водню і символ заряду записуються в явному вигляді. Ізотопи записуються в квадратних дужках із зазначенням атомної ваги перед символом атома, наприклад, ізотоп 13C буде записаний як [13C]. Наприклад, запис SMILЕS для води буде виглядати як O, для етанолу - CCO. Аніон гідроксилу записується [OH-], а іон заліза (II) як [Fе+2] [23].

Таблиця 3.1 - Приклади позначення атомів

Структурна формула

SMILЕS-String

Назва

C

CH4

Метан

CC

CH3-CH3

Етан

CCC

CH3-CH2-CH3

Пропан

Clc(c(Cl)c(Cl)c1C(=O)O)c(Cl)c1Cl

C7HCl5O2

Пентахлорбензойна кислота

Одинарний хімічний зв'язок може бути записаний з використанням символу "-" між атомами, з'єднаними зв'язком, але на практиці це не застосовується, символ дефіса опускають. Позначення ароматичного зв'язку (:) зазвичай теж опускають. Подвійний зв'язок позначається за допомогою знака рівності "=", наприклад, двоокис вуглецю записується у вигляді O = C = O. Потрійний зв'язок позначається за допомогою октоторпу (знаку решітки), наприклад, синильна кислота записується як C # N [23].

Розгалуження молекули. Бічні ланцюги молекули складаються в круглі дужки (табл. 3.2). Наприклад, пропіонова кислота записується як CCC (= O) O. Канонічна форма запису тріфторметана виглядає як C (F) (F) F, проте такий запис незручний для читання через свою перевантаженість дужками, тому ту ж молекулу можна записати в неканонічною формі як FC (F) F [23].

Таблиця 3.2 - Приклади позначення розгалуження молекули

Структурна формула

SMILЕS-String

Назва

CC(C)(C)O

трет-Бутанол

C(C(CO [N+](=O) [O-])O [N+](=O) [O-])O [N+](=O) [O-]

Тринітрат гліцерину

Циклічні сполуки. Атоми, що знаходяться на кінцях розірваної при побудові остовного лісу зв'язку, позначаються одним і тим же номером (табл. 3.3).

Таблиця 3.3 - Приклади позначення циклічних сполук

Структурна формула

SMILЕS-String

Назва

c1ccccc1

Бензол

Cc1c([N+]([O-])=O)cc([N+]([O-])=O)cc1 [N+]([O-])=O

Тринітротолуол

C1=CC=C2C=CC=CC2=C1

Нафталін

Наприклад, циклогексан записується як C1CCCCC1, а бензол - як c1ccccc1 [23].

3.3 Числове представлення молекулярних властивостей хімічних сполук

Основним завданням для вивчення молекулярного машинного навчання є ефективне кодування молекул у рядки фіксованої довжини або вектори.

Незважаючи на те, що записи SMILЕS є унікальними уявленнями молекул, більшість методів вивчення молекулярного машинного навчання потребують додаткової інформації, щоб вивчати складні електронні чи топологічні особливості молекул з обмеженим обсягом даних.

Останні роботи продемонстрували здатність вивчати корисні властивості хімічних речовин з рядків SMILЕS, використовуючи більш складні методи, тому може бути доцільно використовувати рядки SMILЕS для подальших завдань навчання в найближчому майбутньому.

Молекулярний дескриптор є кінцевим результатом логіко-математичної процедури, яка перетворює хімічну інформацію, закодовану в символічному поданні молекули, у корисне число або результат деякого стандартизованого експерименту (рис. 3.1) [24].

Рисунок 3.1 - Молекулярний дескриптор

Іншими словами це числове представлення молекулярних властивостей, включаючи властивості пов'язані з об'ємом (наприклад, logP, молекулярна маса), двовимірні особливості (сполучення атомів), або тривимірні особливості (форма молекули) [24].

Увага приділяється терміну "корисне" з подвійним значенням: це означає, що число може дати більше розуміння інтерпретації молекулярних властивостей та / або може взяти участь у моделі для прогнозування деякої цікавої властивості інших молекул.

Область молекулярних дескрипторів сильно міждисциплінарна і включає масу різних теорій. Для визначення молекулярних дескрипторів зазвичай потрібні знання алгебри, теорії графів, теорії інформації, обчислювальної хімії, теорій органічної реактивності та фізичної хімії, хоча і на різних рівнях.

Для використання молекулярних дескрипторів знання статистики та принципів методів QSАR/QSPR необхідні на додаток до конкретних знань проблеми. Більш того, програмування, складне програмне та апаратне забезпечення часто невіддільні співучасники дослідника в цій галузі [20].

Історичний розвиток молекулярних дескрипторів відображає деякі відмінні характеристики самих творчих вчених, тобто їх здатність одночасно бути залученими та/або відокремленими, раціональними та/або неординарними, серйозними та/або смішними [24].

Будь-яке число, яке можна розрахувати за структурною формулою (кількість певних атомів, зв'язків або функціональних груп, молекулярний об'єм, часткові заряди на атомах та ін.), може бути дескриптором.

Як дескриптори можуть використовуватися різні характеристики молекули, а саме [24]:

- електронні ефекти (впливають на іонізацію або полярність сполуки);

- стеричні особливості структури (відіграють важливу роль при оцінці міцності зв'язування досліджуваної сполуки з біомішенню);

- топологічні параметри, тобто фрагменти структури (індекси атомів і молекулярних зв'язків, каппа-індекси, що описують форму молекули);

- квантові параметри (енергії вищої зайнятої орбіталі HOMO і нижчої незайнятої орбіталі LUMO, заряди на різних атомах, електронна густина, поляризування);

- фізико-хімічні параметри (молярна рефракція, коефіцієнт розподілу октанол - вода).

При побудові моделей "структура-властивість" найчастіше користуються топологічними дескрипторами.

Топологічний дескриптор - це деяка характеристика хімічної структури, яка за задумом дослідника повинна впливати на наявність певної властивості в сполуці. Так, в якості топологічного дескриптора можна використовувати кількість певних функціональних груп в молекулі [24].

При цьому існує градація дескрипторів від 0D до 4D залежно від того, на якому рівні деталізації подається структура молекули (рис. 3.2) [25].

За наявності набору дескрипторів та даних біологічної активності можливе складання рівнянь, що дозволяють установити зв'язки між дескрипторами, відомими як незалежні змінні, та показником біологічної активності, який називають залежною змінною (моделей QSАR) [25].

Рисунок 3.2 - Градація дескрипторів від 0D до 4D

Прикладами дескрипторів можуть бути: 0D - кількість атомів вуглецю, молекулярна вага (рис. 3.3), 1D - кількість гідроксильних груп, 2D - дескриптори, засновані на теорії графів, наприклад індекс Вінера, власні величини матриць суміжності, бінарні відбитки (Binаry Fingеrprints) (рис. 3.4, 3.5), 3D - квантово-хімічні дескриптори, такі як енергія вищої зайнятої молекулярної орбіталі, теплота утворення, а також дескриптори 3D-MoRSЕ, дескриптори WHIM, дескриптори GЕTАWАY, 4D-дескриптори (такі як ті, що отримані методами GRID або CoMFА, Volsurf) [25].

Рисунок 3.3 - Приклад 0D дескриптора (молекулярна вага)

Рисунок 3.4 - Приклад бінарних відбитків (Binаry Fingеrprints)

Рисунок 3.5 - Різниця між класичними молекулярними дескрипторами і бінарними відбитками

Відбитки з розширеними можливостямі з'єднання (Еxtеndеd-Connеctivity Fingеrprints, ЕCFP) - молекулярний дескриптор, який широко використовується в хімічній інформатиці [25].

Під час процесу молекула розкладається на підмодулі, що походять від важких атомів, кожен з яких має унікальний ідентифікатор (рис. 3.6). Ці сегменти та ідентифікатори розширюються за допомогою зв'язків для створення більших підструктур та відповідних ідентифікаторів. Після хешування всіх цих субструктур до фіксованого довгомірного двійкового відбитка, представлення містить інформацію про топологічні характеристики молекули, що дозволяє застосувати його до таких завдань, як пошук подібності та прогнозування хімічної активності [26].

Рисунок 3.6 - Молекулярний дескриптор ЕCFP

Крім топологічних дескрипторів, як характеристик хімічної будови можна використовувати дані квантовохімічних досліджень (енергії граничних молекулярних орбіталей, часткові електричні заряди на атомах, дипольні/мультипольні моменти), фізико-хімічні дескриптори (наприклад, липофільність органічних сполук), інформацію про молекулярні поля [25].

Існуючі набори молекулярних дескрипторів можуть бути умовно розділені на наступні категорії [24]:

- фрагментні дескриптори;

- топологічні індекси;

- фізико-хімічні дескриптори;

- квантово-хімічні дескриптори;

- дескриптори молекулярних полів;

- фармакофорні дескриптори.

Фрагментні дескриптори існують в двох основних варіантах - бінарному і целочисленному. Бінарні фрагментні дескриптори показують, чи міститься даний фрагмент (підструктура) в структурній формулі (тобто міститься даний підграф в молекулярному графі, що описує дана хімічна сполука), тоді як цілочисельні фрагментні дескриптори показують, скільки разів даний фрагмент (підструктура) міститься в структурній формулі (тобто скільки разів міститься даний підграф в молекулярному графі, що описує дана хімічна сполука). Унікальна роль фрагментних дескрипторів полягає в тому, що вони утворюють базис дескрипторного простору, тобто будь-який молекулярний дескриптор (і будь-яка молекулярне властивість), що є інваріантом молекулярного графа, може бути однозначно розкладений по цьому базису. Крім моделювання властивостей органічних сполук, бінарні фрагментні дескриптори в формі молекулярних ключів (скрінов) і молекулярних відбитків пальців застосовуються при роботі з базами даних для прискорення підструктурного пошуку і організації пошуку за подобою [24].

Топологічні індекси - інваріант молекулярного графа в задачах комп'ютерної хімії, деяке (зазвичай числове) значення (або набір значень), що характеризує структуру молекули. Зазвичай топологічні індекси не відображають кратність хімічних зв'язків і типи атомів (C, N, O і.т.д.), атоми водню не враховуються [24].

Фізико-хімічні дескриптори - це числові характеристики, одержувані в результаті моделювання фізико-хімічних властивостей хімічних сполук, або величини, які мають чітку фізико-хімічну інтерпретацію. Найбільш часто використовуються в якості дескрипторів: ліпофільність (LogP), молярна рефракція (MR), молекулярна вага (MW), дескриптори водневого зв'язку, молекулярні обсяги і площі поверхонь [24].

Квантово-хімічні дескриптори - це числові величини, одержувані в результаті квантово-хімічних розрахунків. Найбільш часто в якості дескрипторів використовуються: енергії граничних молекулярних орбіталей (ВЗМО і НСМО), часткові заряди на атомах і часткові порядки зв'язків, індекси реакційної здатності Фукуї (індекс вільної валентності, нуклеофільна і електрофільна суперделокалізуемость), енергії катіонної, аніонної і радикальної локалізації, дипольний і вищі мультипольні моменти розподілу електростатичного потенціалу [24].

Дескриптори молекулярних полів - це числові величини, апроксимуючі значення молекулярних полів шляхом обчислення енергії взаємодії пробного атома, розміщеного в вузол решітки, з поточною молекулою. На побудові кореляцій між значеннями дескрипторів молекулярних полів і числовим значенням біологічної активності за допомогою методу часткових найменших квадратів (Pаrtiаl Lеаst Squаrеs, PLS) засновані методи 3D-QSАR, найбільш відомим з яких є CoMFА [24].

Фармакофорні дескриптори показують, чи можуть найпростіші фармакофори, що складаються з пар або трійок фармакофорних центрів зі специфікованою відстанню між ними, міститися всередині аналізованої молекули [24].

Фармакофор - це набір просторових і електронних ознак, необхідних для забезпечення оптимальних супрамолекулярних взаємодій зі специфічною біологічною мішенню, які можуть викликати (або блокувати) її біологічну відповідь. Під фармакофорними ознаками зазвичай розуміються фармакофорні центри та інтервали відстаней між ними, необхідні для прояву даного типу біологічної активності. Типовими фармакофорними центрами при цьому є: гідрофобні області, ароматичні кільця, донори і акцептори водневого зв'язку, аніонні і катіонні центри [24].

3.4 Методи інтелектуального аналізу даних для прогнозування впливу хімічних речовин

Розглянемо методи, які можна спробувати застосувати для вирішення класифікаційних завдань при векторному описі структур хімічних сполук.

3.4.1 Логістична регресія

Логістична регресія (англ. logistic rеgrеssion) або лоґіт-регресія (англ. logit modеl) - статистичний регресійний метод, що застосовують у випадку, коли залежна змінна є категорійною, тобто може набувати тільки двох значень (чи, загальніше, скінченної множини значень) [27].

Завдання статистичного дослідження, у якому використовується логістична регресія, полягає у визначенні ймовірності того, що певний респондент буде віднесений до тієї чи іншої групи [27]. На практиці, у відповідності зі значеннями одного або декількох незалежних факторів, які можна класифікувати респондентів по двом групам. У цьому випадку має місце бінарна логістична регресія. Також задані параметри можуть використовуватися при розподілі на групи, яких більше двох. У такій ситуації має місце мультиномиальная логістична регресія [27].

3.4.2 Метод опорних векторів

Метод опорних векторів, відомий в англомовній літературі як support vеctor mаchinе (SVM), є машинним алгоритмом, котрий навчається на прикладах та використовується для класифікації об'єктів. SVM широко використовуються в хемоінформатіці [28].

Для розуміння того, як працює SVM, потрібно мати уявлення про чотири ключові поняття [28]:

- відділяюча гіперплощина (thе sеpаrаting hypеrplаnе);

- гіперплощина максимальної межі (thе mаximum-mаrgin hypеrplаnе);

- м'яка межа (thе soft mаrgin);

- функція ядра (thе kеrnеl function).

Відділяюча гіперплощина є математичною сутністю, що відділяє між собою класи об'єктів з однаковими ознаками [28].

Спосіб, яким можна провести відділяючу гіперплощину за методом SVM, не є унікальним. Завжди існує багато різних можливостей розташування гіперплощини [28].

Метод опорних векторів зводить навчання класифікатора до оптимізаційної задачі, яка розв'язується евристичними алгоритмами [28].

Формальніше, опорно-вектора машина будує гіперплощину, або набір гіперплощин у просторі високої або нескінченної вимірності, які можна використовувати для класифікації, регресії та інших задач. Інтуїтивно, добре розділення досягається гіперплощиною, яка має найбільшу відстань до найближчих точок тренувальних даних будь-якого з класів (так зване функційне розділення), оскільки в загальному випадку що більшим є розділення, то нижчою є похибка узагальнення класифікатора.

3.4.3 Rаndom forеst

Rаndom forеst (англ. випадковий ліс) - алгоритм машинного навчання, запропонований Лео Брейманом і Адель Катлер, що полягає у використанні комітету (ансамблю) вирішальних дерев [29]. Алгоритм поєднує в собі дві основні ідеї: метод беггінга Бреймана і метод випадкових підпросторів, запропонований Tin Kаm Ho. Алгоритм застосовується для задач класифікації, регресії і кластеризації [29].

Rаndom Forеst є композицією безлічі вирішальних дерев, що дозволяє знизити проблему перенавчання і підвищити точність в порівнянні з одним деревом [29].

Прогноз виходить в результаті агрегування відповідей безлічі дерев [29]. Тренування дерев відбувається незалежно один від одного (на різних підмножинах), що не просто вирішує проблему побудови однакових дерев на одному і тому ж наборі даних, але і робить цей алгоритм досить зручним для застосування в системах розподілених обчислень [29].

Для беггінга (незалежного навчання алгоритмів класифікації, де результат визначається голосуванням) є сенс використовувати велику кількість дерев рішень з досить великою глибиною. Під час класифікації фінальним результатом буде той клас, за який проголосувало більшість дерев, за умови, що одне дерево має один голос [29].

Переваги:

- здатність ефективно обробляти дані з великим числом ознак і класів;

- нечутливість до масштабування (і взагалі до будь-яких монотонних перетворень) значень ознак;

- однаково добре обробляються як безперервні, так і дискретні ознаки;

- існують методи побудови дерев за даними з пропущеними значеннями ознак;

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.