Система сбора, распознавания и обработки текстовых данных на примере рынка ветеринарных услуг

Основные подходы к сбору и обработке текстовых данных. Подходы к очистке табличных текстовых данных. Скрапинг веб-сайтов и работа с API. Реализация алгоритмов обработки данных ветеринарных сайтов. Сбор источников данных по рынку ветеринарных услуг Москвы.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 07.12.2019
Размер файла 1,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

? парсинг PDF для получения информации по классам: отделение или тип услуги, вид услуги, цена.

Для работы с PDF необходимо установить tabula-py - оболочку для Python, с помощью которой можно прочитать PDF-таблицу, а также конвертировать ее в DataFrame (рис. 14). Стоит отметить, что tabula-py также позволяет конвертировать PDF-файл в файл CSV / TSV / JSON tabula-py 1.3.1 URL: https://pypi.org/project/tabula-py/ (дата обращения: 10.05.2019)..

Рис. 14

Далее необходимо посмотреть на PDF и убедиться, что таблица не нуждается в OCR. Также важно просмотреть сколько страниц в PDF (10). После запускаем парсер (рис. 15).

Рис. 15

Таблица была считана некорректно, часть данных записалась в другой столбец. Необходимо это исправить как показано на рис. 16:

Рис. 16

Далее извлекаются все отделения из строк услуг, а затем необходимо заполнить значения отделений во всех строках и после удалить строки отделений (рис. 17).

Рис. 17

После удаляются сложно чистящиеся данные и именуются необходимые колонки:

? отделение или тип услуги = 'department';

? вид услуги = 'service';

? цена = 'price'.

Рис. 18

На выходе получаем готовую таблицу с ценами, услугами и отделениями (видами манипуляций) как в исходном PDF-файле, размещенном на сайте ветеринарного центра "21 век" (рис. 19).

Рис. 19

2.3 Обработка и создание единой базы данных

Как было описано в главе, посвященной теории баз данных, при процессе проектирования БД могут возникать недопонимания между проектировщиком, программистом и конечными пользователем. Чтобы избежать этого, необходимо начать работу над БД с концептуального проектирования БД агрегатора ветеринарных услуг (рис. 20).

Рис. 20

За основу концептуального проектирования была взята модель "сущность-связь". Сущностями в данной реализации выступают:

? Clinic (ветеринарные клиники) - сильная сущность;

? СlinicService (услуги клиники) - слабая сущность;

? Service (услуги) - слабая сущность;

? ServiceType (тип услуги на уровне подразделения клиники, выполняющих данные услуги) - сильная сущность.

Физическим существованием в данном контексте обладает сущность Clinic. Сущности с концептуальным существованием: Clinic Service, Service и ServiceType.

Сущность Clinic описана такими атрибутами как: id, Name, Address, MetroStation, Phone, Email, RatingNumber. Данные атрибуты содержат в себе значения, которые описывают каждый экземпляр сущности Clinic и составляют основную часть информации, сохраняемой в базе данных. Атрибуты могут быть элементарными и составными. Примером элементарного может быть атрибут Name или Phone сущности Clinic. Однако атрибут Address может быть разделен на более мелкие компоненты: Street, HouseNumber, PostCode и т.д. Решение о моделировании атрибута Address в виде элементарного атрибута или разбиении его на несколько частей зависит от того, как необходимо рассматривать данный атрибут - как единое целое или как набор отдельных компонентов.

После концептуального проектирования, формирования списка ветеринарных клиник, сбора данных по услугам и стоимостям процедур, очистки и нормализации базы, необходимо перейти к этапу суммирования полученных данных, сформировав из них БД.

Для создания базы данных предлагается воспользоваться SQL, применяемой для создания, модификации и управления данными в реляционной базе данных. Для демонстрации кода (рис. 21) воспользуемся приложением для тестирования и обмена запросами SQL - сайтом sqlfiddle.postgrespro.ru (рис.22). Также приведем пример запросу и ответу БД (рис. 23, 24). Подгрузив собранную базу данных можно манипулировать и получать информацию из БД по любым запросам.

Рис. 21

Рис. 22

Рис. 23

Рис. 24

Для корректной работы БД (под корректностью также понимается и актуальность данных) необходима своевременная автоматизация обновлений информации. Для этого будет достаточно сгруппировать все скрипты для всех ветеринарных клиник.

Заключение

Методологическая база, а также разработанные в ходе проекта примеры скриптов и концепт базы данных предоставляют различные возможности для дальнейшего использования их в рамках темы ветеринарных услуг Москвы. В дальнейшем данные о клиниках, услугах и их стоимостях могут быть проанализированы с целью построения работающей системы по поиску необходимых ветеринарных услуг в Москве. Благодаря такому порталу у пользователей сети Интернет появится актуальный и наиболее полный источник данных о ветеринарных клиниках и их услугах. Кроме того, пользователи смогут в режиме онлайн сравнивать цены на одинаковые услуги в разных ветеринарных клиниках. Вышеперечисленные методологии могут послужить основой для дальнейшего сбора и обработки данных, которые можно реализовать в виде агрегатора ветеринарных услуг Москвы. Однако стоит обратить внимание, что примеры кода необходимо модернизировать под каждую новую клинику и ее структуру хранения текстовых данных.

Подводя итоги, стоит отметить, что сбор данных путем написания собственного кода представляет широкие возможности для сбора и анализа данных. Есть основание считать, что данный навык является одним из ключевых в компетенциях не только дата-журналиста, но и любого сотрудника, желающего развивать свои навыки и компетенции. Развитие умений поиска, сбора, анализа, обработки и интерпретации данных дает независимость в собственных проектах. В данной работе было продемонстрировано, как может проводиться сбор и представление информации, основанное на теории и методологии процессов сбора и анализа данных.

Список использованной литературы

1. Database // https://www.britannica.com URL: https://www.britannica.com/technology/database (дата обращения: 01.05.2019).

2. Когаловский М.Р. Энциклопедия технологий баз данных. - М.: Финансы и статистика, 2002.

3. 610.12-1990 - IEEE Standard Glossary of Software Engineering Terminology // https://ieeexplore.ieee.org URL: https://ieeexplore.ieee.org/document/159342 (дата обращения: 05.05.2019).

4. ГОСТ Р ИСО МЭК ТО 10032-2007. Эталонная модель управления данными (идентичен ISO/IEC TR 10032:2003 Information technology Reference model of data management). Введ. 01.09.2008.

5. Голицына О.Л., Максимов Н.В., Попов И.И. Базы данных. - 3-е изд. - М.: Форум, Инфра-М, 2009.

6. Кириллов В.В Введение в реляционные базы данных. - СПб.: БХВ-Петербург, 2009.

7. Мирошниченко Е.А. К формальному определению понятия "база данных": канд. техн. наук - Томск, 2011.

8. Коннолли Т., Бегг К., Страчан А. Базы данных: Проектирование, Реализация и сопровождение. Теория и практика. - 3-е изд. Издательский дом "Вильяме", 2003.

9. Ограничения первичных и внешних ключей // https://docs.microsoft.com URL: https://docs.microsoft.com/ru-ru/sql/relational-databases/tables/primary-and-foreign-key-constraints?view=sql-server-2017#PKeys (дата обращения: 05.05.2019).

10.Стоит ли делать составной первичный ключ? // https://ru.stackoverflow.com URL: https://ru.stackoverflow.com/questions/405909/Стоит-ли-делать-составной-первичный-ключ (дата обращения: 05.05.2019).

1. Коннолли Т., Бегг К., Страчан А. Базы данных: Проектирование, Реализация и сопровождение. Теория и практика. - 3-е изд. Издательский дом "Вильяме", 2003.

12. Коннолли Т., Бегг К., Страчан А. Базы данных: Проектирование, Реализация и сопровождение. Теория и практика. - 3-е изд. Издательский дом "Вильяме", 2003.

13.Игнатюк В.А, Сторожок Е.А. Логическое проектирование реляционной базы данных на основе принципов нормализации: наук: "Автоматика. Вычислительная техника". 2011.

14. Коннолли Т., Бегг К., Страчан А. Базы данных: Проектирование, Реализация и сопровождение. Теория и практика. - 3-е изд. Издательский дом "Вильяме", 2003.

15. Geoff Boeing, Paul Waddell New Insights into Rental Housing Markets across the United States: Web Scraping and Analyzing Craigslist Rental Listings: - Journal of Planning Education and Research, 2016.

16. Райан Митчелл Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета. ДМК-Пресс, 2016.

17. В чем разница между парсингом(parsing) и скрейпингом(Web Scraping)? // https://ru.stackoverflow.com URL: https://ru.stackoverflow.com/questions/590888/В-чем-разница-между-парсингомparsing-и-скрейпингомweb-scraping (дата обращения: 01.05.2019).

18. HTML // Википедия URL: https://ru.wikipedia.org/wiki/HTML (дата обращения: 01.05.2019).

19. Райан Митчелл Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета. ДМК-Пресс, 2016.

20. Типы тегов // http://htmlbook.ru URL: http://htmlbook.ru/samhtml/tipy-tegov (дата обращения: 08.05.2019).

21. Атрибуты тегов // http://htmlbook.ru URL: http://htmlbook.ru/samhtml/tegi/atributy-tegov (дата обращения: 08.05.2019).

22. Requests: HTTP for Humans // https://2.python-requests.org URL: https://2.python-requests.org//en/master/ (дата обращения: 08.05.2019).

23. lxml - XML and HTML with Python // https://lxml.de URL: https://lxml.de/index.html#introduction (дата обращения: 09.05.2019).

24. Grab // Викиучебник URL: https://ru.wikibooks.org/wiki/Grab (дата обращения: 07.03.2019).

25. Beautiful Soup Documentation // www.crummy.com URL: https://www.crummy.com/software/BeautifulSoup/bs4/doc/ (дата обращения: 07.05.2019).

26. Руководство по вэб-скрепингу на Python: приёмы и хитрости // https://techrocks.ru URL: https://techrocks.ru/2018/03/22/web-scraping-python-tutorial/ (дата обращения: 08.05.2019).

27. Райан Митчелл Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета. ДМК-Пресс, 2016.

28. The State of the Octoverse 2017 // https://github.com URL: https://octoverse.github.com/2017/ (дата обращения: 05.03.2019).

29. Thodoris Sotiropoulos, Benjamin Livshits Static Analysis for Asynchronous JavaScript Programs: 11.01.2019.

30. Райан Митчелл Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета. ДМК-Пресс, 2016.

31. Что такое Selenium? // habr.com URL: http://habrahabr.ru/post/152653/ (дата обращения: 10.04.2019).

32. Райан Митчелл Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета. ДМК-Пресс, 2016.

33. Оптическое распознавание символов // Свободная энциклопедия Википедия URL: https://ru.wikipedia.org/wiki/Оптическое_распознавание_символов (дата обращения: 11.05.2019).

34. Райан Митчелл Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета. ДМК-Пресс, 2016.

35. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям. СПб.: Питер, 2013.

36. Очистка данных // Свободная энциклопедия Википедия URL: https://ru.wikipedia.org/wiki/Очистка_данных (дата обращения: 13.05.2019).

37. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям. СПб.: Питер, 2013.

38. О портале // Портал открытых данных Правительства Москвы URL: https://data.mos.ru/about (дата обращения: 11.05.2019).

39. API Портал открытых данных URL: https://apidata.mos.ru/Docs (дата обращения: 10.05.2019).

40. Реестр негосударственных клиник, имеющих соглашение с Комитетом ветеринарии города Москвы на проведение профилактической иммунизации животных // Портал открытых данных Правительства Москвы URL: https://data.mos.ru/opendata/7725570674-reestr-negosudarstvennyh-klinik-imeyushchih-soglashenie-s-komitetom-veterinarii-goroda-moskvy-na-provedenie-profilakticheskoy-immunizatsii-jivotnyh?pageNumber=35&versionNumber=1&releaseNumber=1 (дата обращения: 10.05.2019).

41. tabula-py 1.3.1 URL: https://pypi.org/project/tabula-py/ (дата обращения: 10.05.2019).

Размещено на Allbest.ru

...

Подобные документы

  • Обработка текстовых данных, хранящихся в файле. Задачи и алгоритмы обработки больших массивов действительных и натуральных чисел. Практические задачи по алгоритмам обработки данных. Решение задачи о пяти ферзях. Программа, которая реализует сортировку Шел

    курсовая работа [29,2 K], добавлен 09.02.2011

  • Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.

    реферат [22,5 K], добавлен 05.02.2011

  • Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

    реферат [443,2 K], добавлен 13.02.2014

  • Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.

    реферат [1,3 M], добавлен 25.03.2013

  • Что такое базы данных, визуализация информации базы. Структура и свойства простейшей базы данных. Характеристика определений, типов данных, безопасность, специфика формирования баз данных. Подходы к проектированию технического задания. Работа с таблицами.

    презентация [4,3 M], добавлен 12.11.2010

  • Рассмотрение понятия и методов обработки данных; единицы их представления. Сущность информации; ее основные свойства - объективность, достоверность, доступность и актуальность. Принципы кодирования целых и действительных чисел, а также текстовых данных.

    контрольная работа [432,2 K], добавлен 10.02.2012

  • Создание и редактирование электронных баз данных. Обработка электронных таблиц. Операции изменения формата документа. Основные функции текстовых процессоров. Деловая графика. Построение рисунков, диаграмм, гистограмм различных типов в программе Excel.

    презентация [773,1 K], добавлен 23.12.2013

  • Структура автомата для сбора данных. Программы, реализующие заданный пользователем алгоритм автоматизации процедуры обработки журнальных данных. Описание микропроцессорной системы, ее упрощенная модель, система команд, блок-схема алгоритма обработки.

    контрольная работа [65,8 K], добавлен 14.11.2010

  • Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.

    лекция [15,5 K], добавлен 19.08.2013

  • Автоматизация сбора и обработки данных. Основы, таблицы и средства для работы с базами данных. Инструментальные средства и компоненты. Технология создания приложения. Работа с псевдонимами и со связанными таблицами. Система управления базами данных.

    методичка [1,5 M], добавлен 06.07.2009

  • Определение базы данных и банков данных. Компоненты банка данных. Основные требования к технологии интегрированного хранения и обработки данных. Система управления и модели организации доступа к базам данных. Разработка приложений и администрирование.

    презентация [17,1 K], добавлен 19.08.2013

  • Изучение применяемых в программировании и информатике структур данных, их спецификации и реализации, алгоритмов обработки данных и анализ этих алгоритмов. Программа определения среднего значения для увеличивающегося количества чисел заданного типа.

    контрольная работа [16,0 K], добавлен 19.03.2015

  • Модели информационного процесса обработки данных. Классификация баз данных. Сеть архитектуры и технология клиент-сервер. Создание запросов к реляционным базам данных на SQL. Работа с электронными таблицами MS Excel: форматирование данных, вычисления.

    контрольная работа [17,8 K], добавлен 17.01.2010

  • Рассмотрение общей характеристики данных. Исследование особенностей и назначения линейных, табличных и иерархических структур данных, анализ процесса их упорядочения. Рассмотрение основных режимов обработки данных. Описание алгоритма решения задачи.

    реферат [27,4 K], добавлен 20.04.2019

  • Термины "логический" и "физический" как отражение различия аспектов представления данных. Методы доступа к записям в файлах. Структура систем управления базами данных. Отличительные особенности обработки данных, характерные для файловых систем и СУБД.

    лекция [169,7 K], добавлен 19.08.2013

  • Построение информационно-логической модели базы данных. Корректировка данных средствами запросов. Проектирование алгоритмов обработки данных. Реализация пользовательского интерфейса средствами форм. Разработка запросов для корректировки и выборки данных.

    курсовая работа [680,9 K], добавлен 19.10.2010

  • Понятие медицинской информационной системы, принципы и подходы ее формированию и организации. Структура хранения данных, их ввод и предоставление. Программные способы формализации и проверки. Реализация и концептуальная модель базы данных, ее интерфейс.

    дипломная работа [1,0 M], добавлен 19.06.2015

  • Функциональные зависимости и нормализация отношений. Ограничения целостности данных. Описание таблиц на языке SQL. Интерфейс пользователя и надёжность программ обработки данных. Обработка данных с помощью запросов. Работа с данными из внешних источников.

    дипломная работа [1,6 M], добавлен 25.04.2015

  • Устройства ввода знаковых данных, командного управления, ввода и вывода текстовых, графических, голосовых данных, хранения данных, обмена данными. Формирование оборотной ведомости по движению товара в магазине с помощью табличного процессора MS Excel.

    курсовая работа [383,0 K], добавлен 25.04.2013

  • Процессы обработки информации. Эффективность автоматизированной информационной системы. Система управления базой данных. Локальная и распределенная система банков и баз данных. Этапы проектирования базы данных. Различие уровней представления данных.

    контрольная работа [75,7 K], добавлен 07.07.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.