Генеалогічне товариство ЮТА: еволюція інформаційних технологій
Дослідження еволюції інформаційних технологій Генеалогічного товариства ЮТА. Вивчення досвіду створення, зберігання і використання цифрових архівів. Розроблення прикладного програмного забезпечення та інформаційних технологій у сфері генеалогії.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | украинский |
Дата добавления | 12.09.2023 |
Размер файла | 2,7 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Після успішного започаткування вебсайту GSU лише додавало інформацію на нього і в подальшому мало приділяло уваги розвитку та оновленню FamilySearch Internet, переважно направляючи зусилля на розробку New FamilySearch. У 2005 р. Стів Андерсон здійснив «косметичне» оновлення вебсайту, розробивши нову домашню сторінку, що дозволило покращити рейтинг сайту в пошукових системах і ефективніше доставляти користувачам існуючий контент.
У 2000 р. користувачі плекали надії на швидку появу в Інтернеті цифрових копій генеалогічних джерел, однак наявні на той час технології ще не дозволяли їх справдити. Незважаючи на відсутність ресурсів і можливостей удоступнення цифрових копій через Інтернет, у 2002 р. GSU таки вирішило розпочати проєкти оцифрування архівних документів. Експерименти з цифровими камерами у GSU ще з середини 1990-х років проводив Річард Лаксман. Тоді вимірювана у мегапікселях роздільність камер була занадто малою для оцифрування Mehr K. B. Dawning of the Digital Age in the Family History Department... P. 60-62. документів. Р. Лаксман розробив концепцію системи копіювання архівних документів цифровими камерами. Його метою було створення застосунку, який би керував камерою, зберігав зображення у форматі TIFF і записував метадані файлу. Коли в 1999 р. він урешті розробив застосунок, роздільність цифрової камери досягла 6,3 мегапікселя, що було цілком достатньо для якісного оцифрування документів. GSU придбало таку камеру й, оскільки Архів Шотландії мав намір оцифрувати колекцію заповітів, Р. Лаксман у жовтні 1999 р. поїхав до Європи випробовувати камеру й власний винахід. Архів зібрав камери різних виробників для тестування, під час якого було з'ясовано, що жодна з них не здатна записати метадані, крім камери GSU. Цифрові проєкти спершу приживалися повільно: у 2001 р. було виготовлено всього півмільйона цифрових копій архівних документів, у 2002 та 2003 рр. знято по 1,5 млн копій, у 2004 р. - 4 млн копій. Відразу після Шотландії цифрові проєкти були започатковані в Квебеку (Канада), Польщі, Бельгії, Англії та Техасі (США). У 2003 р. GSU вже мало 18 цифрових камер, у 2004 р. - 37, у 2005 р. - 55. 2006 р. було придбано 50 камер, а у 2007 р. 145 із 216 проєктів вже були цифровими. На початку 2011 р. 84% від усіх проєктів реалізовувалися за допомогою 11або 16-мегапіксельних цифрових камер. У 2009 р. GSU придбало 50-мегапіксельні камери, здатні оцифровувати відразу 2 сторінки документа в одному кадрі. Програмне забезпечення, розроблене для таких камер, отримало назву «DCam, DCam2, DCamX». Воно спрощувало калібровку камери, об'єднувало метадані зображення із самим зображенням. Це дозволяло відразу після передачі цифрових копій документів до штаб-квартири GSU в Солт-Лейк-Сіті розміщувати їх в ІнтернетіP. 66..
Починаючи з 1994 р., фахівці GSU, крім дослідження технології оцифрування паперових документів, наполегливо розвивали ідею сканування мікрофільмів. Незважаючи на здатність плівки до довгострокового зберігання, використання та поширення інформації на мікрофільмах мало обмежені можливості. Оператори сканували мікрофільми по одному кадру, якість сканування була незадовільною. За підрахунками GSU переведення до цифрових форматів усіх мікрофільмів, що зберігалися в сховищі в гранітних горах, потребувало понад 100 років. У 2001 р. GSU неймовірними зусиллями перевело до цифрового формату 7 млн кадрів. Серйозніші дослідження в сфері сканування мікрофільмів розпочалися після відкриття восени 2002 р. у долині Юти дослідницького центру. У 2003 р. Х. Нільсон запропонував концепцію сканування цілої плівки. Замість сканування окремих кадрів, сканер створював цілісний образ усієї мікроплівки, що мала довжину в приблизно 1 300 кадрів.
Програмне забезпечення ідентифікувало й обрамляло кожне окреме зображення (кадр). Оператор для впевненості в якості зображення й правильності оформлення кожного кадру переглядав результати сканування. Після їх схвалення програма розрізала великий скан плівки на окремі зображення, з якими вже далі працював оператор, покращуючи їх якість. Ця технологія пришвидшила сканування мікрофільмів більше ніж у 10 разів44 і, як результат, у 2009 р. було відскановано 69 млн кадрів мікрофільмів.
Технічні вимоги до онлайнової індексації були розроблені у 2001 р., однак цей метод індексації впровадили тільки в 2003 р., коли очільником проєкту онлайнової індексації став С. Валентайн. У якості індексаторів першого проєкту - генеалогічних документів з Архіву штату Джорджія (США) - виступили 450 волонтерів. У роботі вони використовували програму FSI (FamilySearch Indexing). Якщо для екстракції 50 млн імен перепису населення США 1880 р. GSU витратило 17 років, то завдяки онлайновій індексації перепис населення США 1900 р. на 76 млн імен був опрацьований всього за 11 місяців 2006/2007 рр. Більше того, онлайнова індексація вивільнила час у керівників церковних округів, котрі до її запровадження вимушено подорожували й особисто розвозили копії архівних документів волонтерам і збирали виконану роботу. Хоча у 2007 р. GSU оновило виданий ще у 1994 р. «Family Record Extraction Handbook», деякі волонтери все ж не змогли призвичаїтися до нової системи й залишили проєкти індексації.
У 2004 р. GSU вперше вдалося до офшорної індексації (аутсорсингу). У такий спосіб 2005 р. були створені пів мільйона індексів до перепису населення Аргентини 1895 р., у 2008-2009 рр. проіндексували переписи населення Канади та Німеччини, у 2009-2010 рр. офшорні індексатори створили 11,5 млн індексів до угорських метричних записів про хрещення 45.
У 2007 р. GSU розпочало набір індексаторів зі знанням іноземних мов. Тільки для індексації перепису населення Мексики 1930 р. та інших іспаномовних проєктів зібралося 10 тис. волонтерів, у т. ч. до індексації долучилися 2 тис. учасників молодіжної програми «Indexing-mania»46. У 2009 р. програмне забезпечення для індексування було перекладене Barrett A. W., Hutchison F. D. L., Kennard J. D., Nielson E. H., Quass D. Digital Mountain: From Granite Archive to Global Access Introduction to Family History... P. 14-121; Student Manual. Published by The Church of Jesus Christ of Latter-day Saints Salt Lake City, Utah, 2012. P. 52-53. Mehr K. B. Dawning of the Digital Age in the Family History Department. P. 72-74. 10,000 Volunteers Sought to Put Mexican, Other Latin American Family History on Web. News Story. October 11, 2007. URL: https://newsroom. churchofjesuschrist.org/article/10-000-volunteers-sought-to-put-mexican-otherlatin-american-family-history-on-web (дата звернення: 30.10.2022). французькою, німецькою, італійською, португальською, російською та іспанською мовами. А втім, продуктивних індексаторів було не так вже й багато. Відтак GSU почало розробляти заходи їх заохочення та стимулювання. З травня 2010 р. індексатори GSU вже могли брати участь у понад 100 проєктах 11-ма мовами. Протягом 2010 р. 127 тис. волонтерів створили індекси на 186 млн імен. За 5 років (2006-2010 рр.) волонтери проіндексували 542 млн імен, що дозволило GSU створити найбільшу в світі базу даних, у якій довідкова інформація поєднувалася з джерелами її походження (цифровими копіями архівних документів)47. За інформацією, наданою О. Січкаренком, у ті самі роки в Україні над проєктами індексації працювали 1 100 волонтерів.
Нова концепція храмової роботи CJC LDS початку ХХІ ст. полягала у тому, щоб зробити дослідниками всіх членів Церкви, залучивши до генеалогічних і сімейно-історичних студій якомога більше вірян, насамперед тих, хто взагалі не цікавився генеалогією. З цією метою GSU удосконалювало дизайн програмних продуктів, користувацькі інтерфейси, автоматизацію процесів і бізнес-операції. Воно намагалося ще більше спростити процес дослідження і скоротити час, що на нього витрачався. Даллан Куасс очолював спеціальний підрозділ, який розробляв дослідницьку підсистему «Touchstone», пізніше перейменовану на «Digital Pipeline». Власне, підрозділ зосередив зусилля на вже відомих завданнях, як-от: спрощення пошуку предків, сканування мікрофільмів, використання Інтернету для індексації та онлайнової презентації довідників і цифрових копій документів користувачам. Підрозділом спершу була розроблена програма RMOM (Research Model for the Ordinary Member), яка допомагала пересічним вірянам опрацьовувати генеалогічні джерела. Черговий прототип дослідницької підсистеми, створений підрозділом - RSS (Research Strategies and Searching) - використовував комп'ютерні технології, щоб покроково провести початківця шляхом від питання до джерела, яке містило відповідь. Прототип підсистеми, презентований в Канзас-Сіті на початку 2005 р., показав, що використання покрокового методу лише стримує дослідження, оскільки до того часу навички користувачів значно розвинулися. Цей прототип також довів важливість створення якомога більшого контенту з довідників і цифрових копій документів.
Паралельно інші дослідницькі команди працювали над створенням каталога бібліотеки, що тривалий час був єдиним джерелом інформації про наявні в бібліотеці GSU книги й мікрофільми, удоступненням аудіо-, відеозаписів та іншими проєктами. Перший комп'ютеризований бібліотечний каталог, створений ще у 1970-х роках, згодом був опублікований і поширений GSU на компакт-дисках як частина FamilySearch DOS. У 2003 р. пошук у каталозі став можливим за ключовими словами, у 2006 р. каталог удоступнено онлайн, у 2010 р. до OLIB Web catalog включено дані про наявність цифрових копій документів48. Оновлена версія каталога була розміщена на FamilySearch. org у 2011 р., а у 2013 р. у Дубліні (штат Огайо, США) GSU підписало угоду про співпрацю з OCLC (Online Computer Library Center), який створює й підтримує WorldCat - найбільший у світі бібліотечний каталог49.
Інша дослідницька команда GSU на початку 2011 р. розробила пілотну версію програми Community Trees, яка допомагала створювати родоводи родів, пов'язаних із різними географічними спільнотами та історичними періодами50. Розробники Community Trees звернули увагу на спільноти, які зберігали свою історичну пам' ять в усній формі. GSU перші проєкти усної історії реалізувало в південній частині Тихого океану та Південно-Східній Азії ще в 1970-х роках, але до 2004 р. аудіозаписи цих проєктів почали псуватися через природне старіння плівки. У 2003-2004 рр. GSU реалізувало проєкти усної історії в Гані та Нігерії. Це були не тільки аудіота відеозаписи, а й дослівні стенограми і створені на їх основі родоводи. Спенсер Вуд реалізував ідею оцифровки аудіовізуальних записів, створивши 1111 mp3-файлів, стиснув їх для зменшення розміру й записав на компакт-диски51. Результати проєктів усної історії доступні в бібліотеці GSU та на FamilySearch.org.
Врешті GSU назвало створену дослідницьку підсистему DPС (Digital Pipeline), яка мала на меті автоматизувати всі стадії т. зв. цифрового конвеєра: управління наявними колекціями, придбання нових колекцій, юридичні процедури, сканування, описування, індексування, передавання лініями зв'язку, пошук записів і удоступнення їх дослідникам 52. Family History Center Cataloging Training Manual. FH Department, 2015. URL: http://www.jumpjerijump.com/wp-content/uploads/2015/06/071115_ CatTraining-Manual-For-FH-Centers_revised.pdf (дата звернення: 30.10.2022). Murphy N. OCLC and FamilySearch Partnership will Combine Resources for a Richer Genealogy Research Experience. February 1, 2013. URL: https:// www.familysearch.org/en/blog/oclc-and-familysearch-partnership-will-combineresources-for-a-richer-genealogy-research-experience (дата звернення: 30.10.2022). FamilySearch Community Trees Project. URL: https://www.familysearch.
org/en/wiki/FamilySearch_Community_Trees_Project (дата звернення:
30.10.2022). Sperry K. Oral Genealogies in the Pacific Islands // Regional Studies in Latter-day Saint Church History: The Pacific Isles. Provo, UT: Religious Studies Center, Brigham Young University, 2008. P. 75-92. The Digital Pipeline. Last Day of BYU Genealogy and Family History Conference. August 3-24, 2007. URL: http://www.ancestryinsider.org/2007/08/ last-day-of-byu-conference.html (дата звернення: 30.10.2022).
Кілька років поспіль розробка Pipeline відставала від сканування й GSU не встигало опрацьовувати скани документів. Їх перевіряли на якість, надавали ідентифікаційні номери і відправляли до т. зв. «чорної діри» на зберігання та очікування на індексацію і публікацію. Ще у 2003 р. GSU заснувало Центр цифрового опрацювання, але він мав обмежені потужності. 2010 р. DPC була замінена на удосконалену DPC2, що значно прискорило процес опрацювання цифрових копій.
У свій час мікрофільми отримували номери з позначкою GS (Genealogical Society), теки з цифровими образами документів від них відрізняли за позначкою DGS (Digital Genealogical Society). Пізніше GSU почало застосовувати APID (Artifact Persistent Identifier)53 - постійний ідентифікатор, що є важливим засобом для отримання доступу до бібліотечних, архівних і музейних колекцій. За наявності механізму нумерації легше було організовувати контроль за збереженням і поширенням цифрових копій. Камери генерували образи документів у форматі TIFF. Вага файлів була надмірною, але здатність вихідного зображення до рендерингу (комп'ютерної візуалізації) була також високою. У результаті рендерингу зображення створювалося за моделлю, у якій об'єкт представлений у трьох просторових вимірах (3D) і у вигляді структури даних із переліком операцій, виконаних над цими даними. Для поширення через Інтернет TIFF конвертували до JPEG (приблизно 7-8 % від розміру TIFF), а для збереження TIFF'и були конвертовані до JPEG 2000, який уможливлював створення файлів меншого розміру без втрат у якості зображення. Отримані файли записувалися на 2 носії й відкладалися на зберігання в сховищах у гранітних скелях.
Перед впровадженням Pipeline система розроблялася й складалася з окремих компонентів. У 2005-2006 рр. GSU придбало обладнання і програмне забезпечення для створення Pipeline-інфраструктури, а також комплексне рішення компанії Ex Libris «Rosetta», спрямоване на всі етапи роботи з оцифрованими та електронними документами: «deposit-ingest-manage-preserve-publish-deliver»54. Відтоді система за допомогою «travel-програм» управляла різними компонентами: індексами, ієрархіями перегляду, образами у цифрових колекціях. «Travel-програми» визначали образи, які включалися до колекцій, поля, що вимагали індексації, записи, використовувані для перегляду ще не проіндексованих зображень. Різні групи реалізовували ці інструкції, створюючи онлайн-колекції для удоступнення дослідникам. Головні розробники Koster L. Persistent identifiers for heritage objects // Code4Lib, journal. Iss. 47, 2020-02-17. URL: https://journal.code4lib.org/articles/14978 (дата звернення: 30.10.2022). Rosetta ExLibris. URL: https://knowledge.exlibrisgroup.com/Rosetta (дата звернення: 01.11.2022). працювали лише над найважливішими компонентами системи - ініціативою, що отримала назву «thin thread» і врешті мала набути високого ступеня відмовостійкості (надійності). Апробація компонентів системи, що надавала можливість здійснення онлайн-досліджень через Інтернет, відбулася в 2006 р. Першими були завантажені записи й образи документів із Британських островів, Європи, Латинської Америки, Південно-Східної Азії та США. У червні 2007 р. GSU на вебсайті надало публічний доступ до результатів розробки Pipeline під вкладками «Record Search» або «Search». Pipeline розроблялася незалежно від New FamilySearch, а втім обидві системи побачили світ майже одночасно. Якщо на кінець 2007 р. вебсайт містив 13,2 млн образів і 235 млн проіндексованих записів, то станом на кінець 2011 р. він уже пропонував відвідувачам 485 млн образів та 2,7 млрд імен із 1 116 колекцій більше ніж 70 країн світу Mehr K. B. Dawning of the Digital Age in the Family History Department... P. 80. Greighton T. LOC Designing Storage Architectures. URL: https:// digitalpreservation.gov/meetings/DSA2017/Day_1/25_GD_Tom_Creighton_LDS. pdf (дата звернення: 01.11.2022)..
Рис. 2 Спрощена схема «Records Pipeline»
Спершу «Record Search» як інтерфейс Pipeline розміщувався на тестовому вебсайті FamilySearch Lab. У грудні 2010 р. його перемістили на бета-сайт FamilySearch і назвали «Historical Record Collections».
Він був наповнений образами й індексами до документів з архівів 38 країн. Багато образів документів ще не мали індексації, але користувачі отримали можливість їхнього перегляду. Десятьма роками пізніше FamilySearch Internet перетворили на FamilySearch.org, додавши продукти Pipeline на вкладку «Search». З цього приводу К. Б. Меєр зазначив, що об'єднання Digital Pipeline і Family Tree в єдину систему, яке відбулося в 2011 р., створило нову реальність у дослідженні спадку наших предків57. Врешті в листопаді 2012 р. New FamilySearch трансформували на Family Tree of FamilySearch.org.
У 2013 р. на конференції RootsTech58, заснованій у 2011 р. із метою розвитку, поширення та обміну ідеями і досвідом у сфері історико-генеалогічних технологій, Р. Танер (Ron Tanner) представив програмний продукт Family Tree FamilySearch59. До нової системи були включені дані з Ancestral File, IGI, Pedigree Resource File та інших раніших рішень, кожне з яких мало свої особливості та недоліки. Безумовною перевагою нового продукту було об' єднання всіх даних, однак його недоліком стала величезна дублетність записів. На конференції RootsTech 2019 р. Р. Танер презентував програмний продукт New Family Tree V8 Client60, розрахований на більшу доступність послуг GSU користувачам. Завантаження вебсайту https://www.familysearch.org/ пришвидшилося з 16,0 до 4,9 сек., тепер його завантажують на девайси будь-якого розміру та масштабують зображення на екрані без втрати якості. Удосконалення зазнали такі функції сайту: місце події в житті людини (народження, шлюб, смерть) відображається на мапі, дублікати записів з' являються в окремому розділі програми, визначено регіони виявлення людей за одним і тим же прізвищем та здійснено розподіл за місцем зберігання документів про них, додано функцію завантаження фото до My Story, надано можливість користувачам виправляти неправильно внесену індексаторами інформацію, удосконалено директорію ancestors.familysearch.org, розділи формування списку сімейної групи та замовлення храмового таїнства тощо. Під час розробки New Family Mehr K. B. Dawning of the Digital Age in the Family History Department... P. 82. RootsTech розвинулася з конференцій, які організовував і проводив Університет Брігама Янга (Прово, штат Юта, США). З 1998 р. з ініціативи Алана Менна проводилися конференції з комп'ютеризованої генеалогії, які згодом перетворилися на RootsTech. Tanner R. Now You Can Find Historical Records about Your Ancestors Right From Your Own Family Tree. August 6, 2013. URL: https://www.familysearch. org/en/blog/now-you-can-find-historical-records-about-your-ancestors-right-fromyour-own-family-tree (дата звернення: 03.11.2022). Tanner R. Family History Roadmap (2016-2019). URL: https://www. youtube.com/watch?v=grpJP8A8PLU&ab_channel=FamilyHistoryRon (дата звернення: 03.11.2022).
Tree V8 Client використано інновації GEDCOM X61, метою якого є визначення моделі даних і відкритого формату серіалізації (перетворення структури даних у послідовність бітів) для обміну даними, необхідними в генеалогічному дослідженні. Концептуальна модель GEDCOM X визначала типи генеалогічних даних і їхні властивості, завдяки прописаним кодам серіалізації та десеріалізації створюються формати (XML, JSON тощо) для записування даних до файлу або обміну ними через Інтернет. Новий GEDCOM X спирався на філософію SaaS (Software-asa-Service) - «програмного забезпечення як послуги»62.
GSU також використовує Family Search API для узгодженої взаємодії власних програм і використання інноваційних рішень інших розробників. GSU навіть створило директорію FamilySearch Solutions Program та APP Galery 63 з метою залучення інновацій та підтримки сторонніх розробників генеалогічного програмного чи апаратного забезпечення. Непідприємницькі організації, які стають учасниками програми, можуть надавати пропозиції розробок нового програмного забезпечення, технологій і послуг, корисних на ринку генеалогічних інформаційних технологій та таких, що узгоджуються з FamilySearch Family Tree та іншими API. При цьому GSU використовує REST API (Representation state transfer) - архітектурний стиль проєктування API з використанням протоколу HTTP із метою надання даних із сервера користувачам вебпрограм і сайту.
К. Б. Меєр у своїй праці зазначив, що CJC LDS завжди зважала на те, що викарбувані на каміннях записи здатні зберігатися тисячоліттями, паперові документи - століттями, мікрофільми - десятиліттями, а електронні файли - всього кілька років64 Отже, основною проблемою майбутнього GSU визначила створення умов для довгострокового зберігання цифрових архівів і здатних замінити людське око пристроїв для читання цифрових образів. Концептуальне рішення мало подолати нестабільну природу цифрових носіїв і швидкий розвиток технологій, через які формати файлів і комп'ютерні системи швидко застарівають, і гарантувати доступність колекцій у перспективі подальшого їх використання. У 2003 р. GSU ухвалило стратегію довготривалого зберігання інформації, пам'ятаючи про 2 засади: по-перше - майбутні потреби в ресурсах для зберігання завжди в рази перевищуватимуть вже наявні обсяги; по-друге - технологічні рішення мають бути доступними. Серед іншого з 2006 р. GSU досліджувало технології зберігання стрічкових 2019 р. була випущена версія 5.5.1 GEDCOM X Детальніше див.: URL: https://gedcom.io/about/ та http://www.gedcomx.org/About.html Детальніше про SaaS див. у статті: Sandoval N. What Is SaaS (Softwareas-a-Service) and Its Benefits For Enterprises. URL: https://www.emnify.com/blog/ FamilySearch Solutions Program. URL: https://partners.familysearch.org/ programs/s/sp-overview (дата звернення: 03.11.2022). Mehr K. B. Dawning of the Digital Age in the Family History Department...бібліотек. Ключовим розробником технології був Джеймс Шегрен. Ідея досліджувати зберігання стрічкових носіїв виникла внаслідок випадку відключення електроенергії, що створило загрозу їх загибелі. Більше таке не повторювалося, оскільки існували файли резервних копій, але ця подія привернула увагу до необхідності відокремлення низькотемпературних стрічкових бібліотек від високотемпературних комп'ютерних серверів.
Проєктування приміщень для розміщення стрічкових бібліотек розпочалося наприкінці 2007 р. У 2008-2009 рр. GSU консультувалося з кращими експертами із пожежної безпеки у США. У 2009-2010 рр. GSU розпочало співробітництво з компанією Tessella, яка була розробником системи для Національного архіву Великої Британії. У 2010 р. GSU розпочало створювати 2 архіви - «активний» та «віддалений» для резервного копіювання. На той час в експлуатації знаходилися 2 тимчасові стрічкові бібліотеки на 4 петабайти (4 млн гігабайт). К. Б. Меєр зазначив, що будівництво двох постійних приміщень було унікальним рішенням для світу, у якому цифрове зберігання ще перебувало в зародковому стані65.
Верхній рівень - 17749 SF або 1649 м2.
У 2012 р. Н. Шервінтер (Nir Sherwinter) і Г. Т. Райт (Gary T. Wright) на конференціях зі збереження цифрових об'єктів (Університет Торонто, Канада, 2012) Sherwinter N., Wright T. G. Advancing Data Integrity in a Digital Preservation Archive Ex Libris and the Church of Jesus Christ of Latter-day Saints // iPRES2012. Proceeding of the 9th Internationbal Conference on Preservation of Digital Objects. University of Toronto, Faculty of Information. 2012. P. 150-154. та американських споживачів продуктів ізраїльської компанії Ex Libris «ELUNA 2012» Wright T. G. Using Rosetta, StorageGRID, and New IBM Tape Solutions to Implement State-of-the-Art Digital Preservation. URL: http://documents.el-una. org/923/2/ELUNA_Digital_Preservation_at_the_Church_Final_2012_3_7.pdf (дата звернення: 04.11.2022). Детальніше див.: URL: https://www.ibm.com/common/ ssi/cgi-bin/ ssialias?infotype=an&subtype=ca&appname=gpateam&supplier=649&l etternum=ENUSA06-0694 презентували архітектуру системи цифрового зберігання CJC LDS, процеси завантаження, зберігання та валідації цифрових документів.
Доповідачі наголосили на тому, що вартість зберігання сотень петабайт цифрової інформації на стрічкових картриджах складає всього 33,7% від вартості зберігання на дисках. Оскільки затрати на зберігання відігравали чималу роль у виборі технології, GSU зупинилося на IBM 3500 Tape Libraries Детальніше див.: URL: https://www.ibm.com/common/ssi/cgi-bin/ ssiali as?infotype=an&subtype=ca&appname=gpateam&supplier=649&letternum=ENU SA06-0694 із стрічковими накопичувачами IBM LTO-5 та IBM System Storage TS1140.
Важливою вимогою була можливість масштабування під час завантаження, архівного зберігання, удоступнення та періодичної валідації даних. Результатом дискусій і випробувань стало рішення про вибір технології Ex Libris - Rosetta, за допомогою якої був проведений ще один експеримент і створена CHIPS (Church History Interim Preservation System) для архівного зберігання на дисках. Позаяк експеримент із Rosetta виявився успішним, було прийнято рішення про її використання для розроблення системи цифрового зберігання - DRPS (Digital Records Preservation System), яка будувалася з увагою до OAIS (Open Archival Information System). Rosetta забезпечувала робочі процеси зберігання, але створювала лише один примірник АІР (Archival Information Package) на пристрої для постійного зберігання. Відтак для управління життєвим циклом інформації ILM (Information Lifecycle Management) була обрана технологія NetApp StorageGRID, що приваблювала можливостями збереження цілісності, стійкості і реплікації даних. Для підтримання ILM міграції АІР-ів із дисків на стрічки StorageGRID використовує TSM (IBM Tivoli Storage Manager) як технологію управління стрічковою бібліотекою (із захистом даних, резервним копіюванням і аварійним відновленням). DRPS також використовує Storage Extensions (програмні розширення), розроблені програмістами GSU.
Незважаючи на наявність великої кількості пристроїв, створених для мінімізації спотворення даних, уберегтися від помилок у файлах при їх завантаженні, зберіганні, переписуванні чи удоступненні неможливо. Тому DRPS була спроєктована з увагою до застосування алгоритму криптографічного хешування SHA-1 (на сьогодні вже розвинуті SHA-2, SHA-3) та інших алгоритмів, котрі на той час використовували й для захисту інформації в урядових установах США.
Пояснення до Рис. 5:
Рис. 5 Валідація цілісності даних у DRPS
1. Генерація хеш-значення SHA-1 під час поглинання файлів.
2. Триразова перевірка: 1) коли сервер отримує SIP (Submission Information Package); 2) під час валідації SIP; 3) коли об'єкт АІР (Archival Information Package) переміщується у постійне сховище.
3. Плагін Rosetta викликає згенеровані StorageGRID хеш-значення та порівнює їх із зібраними хеш-значеннями в базі даних Rosetta.
4. StorageGRID побудовано навколо концепції зберігання об'єктів (АІР - метадані), яка забезпечує цілісність цих об'єктів, використовуючи багаторівневий набір доменів захисту: 1) хеш значення генерується для кожного об'єкта, який Rosetta записує до StorageGRID; хеш об'єкта перевіряється під час зберігання; 2) StorageGRID також генерує хеш вмісту, щоб забезпечити додатковий захист; хеш вмісту перевіряється під час звернення до об' єкта; 3) використовується CRC (циклічний надлишковий код) та HMAC (хеш-код автентифікації з ключем); CRC перевіряється під час кожної операції з об'єктом, HMAC - лише під час доступу до об'єкта.
5. Забезпечується наскрізний захист логічного блоку TSM під час запису файлу на стрічку та зчитування. Після того, як файл записано на нод-зберігання StorageGRID, вона викликає клієнта TSM, що працює на нод-сервері архіву, для запису файлу на стрічку; клієнт TSM додає значення CRC до даних файлу, які мають бути записаними на сервер TSM під час сеансу клієнта; під час сеансу сервер TSM виконує операцію CRC над даними та порівнює отримане значення зі значенням, обчисленим клієнтом; така перевірка триває, доки файл не буде успішно надіслано через мережу на сервер TSM; далі, перед передачею файлу на стрічковий накопичувач для запису, сервер TSM обчислює та додає значення CRC до кожного логічного блоку файлу - кожен доданий CRC називається «CRC вихідних даних для логічного блоку». Коли стрічковий накопичувач отримує логічний блок, він обчислює власний CRC і порівнює його з «CRC вихідних даних». У разі виявлення помилки генерується умова повторної перевірки або констатується постійна помилка, що гарантує захист логічного блоку під час передачі. Крім цього, коли логічний блок завантажується в основний буфер даних стрічкового накопичувача, відбуваються ще 2 процеси: 1) дані циклічно повертаються через оперативний верифікатор, який ще раз перевіряє їх оригінальний CRC, і будь-яка помилка призводить до повторної перевірки або констатації постійної помилки; 2) паралельно обчислюється та додається до даних ECC-код виправлення помилок Ріда-Соломона (С1), що захищає цілісність даних під час проходження ними додаткових етапів форматування, кожна додаткова перевірка генерує й додає код С2. Врешті дані зчитуються з основного буфера й записуються на стрічку.
Успішна операція зчитування гарантує, що дані не були пошкоджені з моменту передачі логічного блоку від клієнта TSM до запису на стрічку. Коли ж Rosetta отримує доступ до АІР, тобто під час операції зчитування зі стрічки, всі 3 коди - С1, С2 і CRC декодуються та перевіряються, що дозволяє виявити помилку читання. Вихідні дані CRC додаються до логічного блоку під час передавання на сервер для того, щоб він міг їх незалежно перевірити. У такий спосіб завершується наскрізний цикл захисту логічного блоку TSM. Коли сервер TSM надсилає дані через мережу клієнту TSM, перевірка CRC виконується ще раз із метою забезпечення цілісності даних під час їх запису на нод-зберігання StorageGRID. Після цього відбувається перевірка хеш-вмісту та HMAC, доки дані не будуть передані до Rosetta для доставки запитувачу. Таким чином завершується цикл перевірки цілісності даних DRPS.
Отже, на початку розгляду було зазначено, що GSU, а тепер FSI, є одним із лідерів у світі генеалогічних досліджень разом із Ancestry, Findmypast, My Heritage, Geneanet. У результаті проведеного дослідження про нього формується враження як про науково-дослідну світового рівня компанію із розробки прикладного програмного забезпечення. Протягом своєї історії GSU опанувало шлях від паперових технологій, через мікрофільмування до оцифрування, від DOS до Windows, від дисків до Інтернету, від «зависання» вебсайту до його миттєвого реагування, від аутсорсингу до власних цифрових сховищ і стрічкових бібліотек. GSU працювало чи працює у партнерстві з найвизначнішими корпораціями в галузі зберігання та керування інформацією - GeneSys, Equinix, Lavastorm Analytics, Oracle, Tessella, OCLC, IBM, Ex Libris, NetApp, Inc. тощо. За понад пів століття самостійно та у співробітництві GSU було розроблено, апробовано і впроваджено в експлуатацію безліч варіантів комп'ютерних програм і технологій, включаючи загальноприйняту в світі специфікацію для обміну генеалогічними даними між комп'ютерними програмами різних виробників - GEDCOM. В Україні про GSU йдеться як про організатора масштабних проєктів з оцифрування архівних документів генеалогічного характеру. Однак, оцифрування є лише одним із компонентів його діяльності. Насамперед, GSU спрямовувало зусилля на опрацювання й організацію величезних масивів генеалогічної інформації, індексування, пошук, надання розмежованого доступу користувачам через Інтернет і, нарешті, гарантованого зберігання та резервного копіювання. У цих сферах воно творчо застосовувало найсучасніші технології, у т. ч. Pipeline, Rosetta, IBM Tape Libraries, StorageGRID тощо. Заслуговують на увагу організаційні й кадрові рішення GSU, як-от: створення спеціального підрозділу, спорудження власних цифрових сховищ, запрошення висококваліфікованих фахівців і численних волонтерів, організація конференцій і спеціальної платформи на вебсайті для залучення інновацій та підтримки сторонніх розробників генеалогічного програмного забезпечення. Отже, амбітна мега-мета GSU - створення всесвітньої бібліотеки генеалогічних джерел заради дослідження родоводів і з'єднання родів, озвучена 1911 р. секретарем GSU Нефі Андерсоном! The place of Genealogy in the Plan of Salvation. A paper read by Nephi Anderson at the quarterly meeting of the Genealogical Society of Utah, in the Assembly Hall Salt Lake City. October 6, 1911. P. 15. URL: https://babel. hathitrust.org/cgi/pt?id=njp.32101074866938&view=1up&seq=3 (дата звернення: 05.11.2022)., спродукувала безпрецедентний технологічний прогрес і перебуває в процесі досягнення завдяки можливостям людського розуму та інформаційних технологій. Важливо підкреслити, що Genealogical Society of Utah розпочиналося як організація, що мала допомагати членам Церкви Ісуса Христа Святих останніх днів досліджувати родоводи, однак протягом своєї історії розвинулося в міжнародну некомерційну компанію FamilySearch International, яка найсучасніші інформаційні технології ставить на службу інтересам у сфері генеалогії усього людства.
References
1. Allen, B. Ja., Embry, L. Je. & Mehr, K. B. (1995). Hearts Turned to the Fathers: A History of the Genealogical Society of Utah, 1894-1994. Brigham Young University Studies. 392 p. [in English].
2. Barrett, A. W., Hutchison F. D. L., Kennard J. D., Nielson E. H. & Quass D. (2004). Digital Mountain: From Granite Archive to Global Access Introduction to Family History. IEEE Proceedings, International Workshop on Document Image Analysis for Libraries (DIAL 24). Palo Alto, CA. (рр. 14-121). [in English].
3. Bennett, F. A. (1953). The Record Copying Program of the Utah Genealogical Society. The American Archivist, 16(3), 227-232). [in English].
4. Bybee, C. H. (2008). Online Genealogical Research Resources. Brigham Young University Studies, 47(1), 153-164). [in English].
5. Greighton, T. (2017). LOC Designing Storage Architectures. Retrieved from https://digitalpreservation.gov/meetings/DSA2017/Day_1/25_GD_Tom_ Creighton_LDS.pdf [in English].
6. Little, H. (Winter 2008). Microfilm, Mormons and the Technology of the Archive. eSharp Journal, University of Glasgow, 12. Retrieved from https://www. gla.ac.uk/media/Media_102866_smxx.pdf [in English].
7. Lofthouse, S. M. (May 1971). A History of the Genealogical Society of the Church of Jesus Christ of Latter-Day Saints to 1970. A Thesis presented to the Department of Church History and Doctrine Brigham Young University. In Partial Fulfillment of the Requirement for the Degree Master of Arts. [in English].
8. Mehr, K. B. (2014). Dawning of the Digital Age in the Family History Department, 1995-2011. 146 p. [in English].
9. Papakin, H. (2008). Arkhivy Ukrainy v mizhnarodnykh ta mizhrehionalnykh prohramakh zberezhennia kulturnoi spadshchyny: dosvid ta perspektyvy [Archives of Ukraine in international and interregional cultural heritage preservation programs: experience and prospects]. Arkhivy Ukrainy, 1-2, 150-157. [in Ukrainian].
10. Powell, F. T. (1976). Saving the Past for the Future - Tales of International Search and Cooperation. The American Archivist, 39(3), 311-318. [in English].
11. Sherwinter N. & Wright T. G. (2012). Advancing Data Integrity in a Digital Preservation Archive Ex Libris and the Church of Jesus Christ of Latter-day Saints. iPRES2012. Proceeding of the 9th Internationbal Conference on Preservation of Digital Objects. University of Toronto, Faculty of Information. (pp. 150-154). [in English].
12. Wright, T. G. (2012). Using Rosetta, StorageGRID, and New IBM Tape Solutions to Implement State-of-the-Art Digital Preservation. Retrieved from http://documents.el-una.org/92372/ELUNA_Digital_Preservation_at_the_Church_ Final_2012_3_7.pdf [in English].
Размещено на Allbest.ru
...Подобные документы
Використання Інтернет-ресурсів та форми роботи з комп’ютерними навчальними програмами. Підвищення мотивації вивчення англійської мови шляхом використання нових інформаційних технологій у школі. Сучасні підходи до використання інформаційних технологій.
реферат [29,0 K], добавлен 09.12.2010Тенденції розвитку інформаційних технологій, зростання складності інформаційних систем, створюваних у різних галузях. Засоби, що реалізують CASE-технологію створення і супроводу інформаційних систем. Автоматизація розробки програмного забезпечення.
реферат [21,5 K], добавлен 21.03.2011Поняття та властивості інформаційних технологій. Поява персональних комп’ютерів - принципова модернізація ідеї автоматизованого управління. Технічна база і компоненти інформаційних технологій. Завдання сучасних інформаційних технологій, їх класифікація.
реферат [39,1 K], добавлен 16.08.2010Нормативне забеспечення державної політики у сфері інформатизації. Необхідність інтенсифікації процесу використання новітніх інформаційних технологій в державному управлінні. Розробка адресної книги (контактів) в системі групової роботи Simple Groupware.
курсовая работа [4,2 M], добавлен 29.06.2014Поняття інформаційних технологій, їх види та етапи розвитку. Особливості впровадження сучасних інформаційних технологій у різних сферах діяльності: рівні операційної діяльності, у керуванні та прийнятті управлінських рішень. Перспективи їх розвитку.
контрольная работа [21,3 K], добавлен 07.02.2011Поняття про інформаційні технології, етапи розвитку та види. Огляд сучасних інформаційних технологій. Моделювання факторів ризику знищення людства. Загальна характеристика програмного засобу GPPS – World для дослідження локальних моделей розвитку людства.
курсовая работа [1,1 M], добавлен 16.05.2016Створення і реалізація в СУБД MS Access бази даних "Internet-ресурси з інформаційних технологій". Опис предметної області, інфологічне проектування. Побудова ER-діаграми. Даталогічне і фізичне проектування інформаційних систем. Опис роботи програми.
курсовая работа [8,2 M], добавлен 30.05.2013Теоретичні аспекти вивчення інформаційних технологій: поняття та визначення, формування ринку технологій. Поняття, значення і завдання аутсорсінгу, колл-центр як його нова форма. Розвиток аутсорсінгу в світі, проблеми та перспективи розвитку в Україні.
курсовая работа [57,8 K], добавлен 13.10.2012Сучасний стан автоматизації бібліотек різних статусів. Основні шляхи інтеграції інформаційних технологій в систему шкільних бібліотек. Проблеми створення комп'ютеризованих читальних залів. Етапи впровадження довідково-інформаційного обслуговування.
курсовая работа [52,7 K], добавлен 15.03.2011Західний регіональний центр інформаційних технологій - "Інфотехцентр" як один з лідерів ринку комп’ютерної техніки та комп’ютерних інформаційних технологій. Особливості розробки сайту (веб-ресурсу) з інформацією по мовах програмування різних напрямків.
отчет по практике [714,6 K], добавлен 30.03.2010Історія розвитку компанії Wonderware, її популярні розробки у сфері інформаційних технологій. Характеристика програмного забезпечення для систем промислової автоматизації. Призначення технології ArchestrA, її ключові переваги та функціональні можливості.
курсовая работа [1,6 M], добавлен 19.12.2013Вартість інформаційних технологій для бізнесових процесів. Вартість інформації з погляду її специфікації. Визначення ціни інформації виходячи з граничної вартості. Визначення вартості інформації, як суми витрат на її придбання. Сучасні пропозиції.
реферат [22,1 K], добавлен 22.12.2008Комбінація методів ринкового регулювання, заснованих на зворотних зв'язках. Аналіз методологій розробки програмного забезпечення. Порівняльний аналіз програмних технологій. Вибір технології доступу до даних. Компонент взаємодії адмінчастини з базою даних.
дипломная работа [3,0 M], добавлен 02.02.2013Інформаційний простір бізнесу. Нова роль бібліотеки. Інформаційний ринок у країнах Центральної і Східної Європи. Технології комерційного поширення інформації. Правове середовище інформаційної діяльності. Використання сучасних маркетингових технологій.
курсовая работа [30,0 K], добавлен 03.04.2004Оцінювання та засоби підвищення надійності інформаційних технологій протягом усього життєвого циклу програмного забезпечення на основі негомогенного пуасонівського процесу та обчислення її параметрів, з урахуванням сучасних тенденцій тестування.
автореферат [52,0 K], добавлен 10.12.2010Класифікація інформаційних систем. Дослідження особливостей мови UML як засобу моделювання інформаційних систем. Розробка концептуальної моделі інформаційної системи поліклініки з використанням середи редактора програмування IBM Rational Rose 2003.
дипломная работа [930,4 K], добавлен 26.10.2012Дослідження ключових інструментів електронної торгівлі: системи електронних платежів, переказів грошових коштів, обміну даними та глобальної мережі Інтернет. Характеристика використання інформаційних технологій у виробничій та збутовій сфері комерції.
реферат [20,9 K], добавлен 14.05.2011Інформаційна система НБУ грунтується на використанні інформаційних технологій. Основні функції інформаційної системи реалізуються в процесі роботи на автоматизованому робочому місці (АРМ) спеціаліста. Моделі інформаційних систем НБУ та захист інформації.
контрольная работа [23,2 K], добавлен 13.08.2008Основні поняття безпеки інформаційних технологій. Законодавчі вимоги і регулювання інформаційної безпеки в мережах. Класифікація шкідливих програм. Приклади цінності інформації. Методи шахрайства. Програмний захист від витікання інформаційних даних.
курсовая работа [171,9 K], добавлен 08.12.2015Основна мета інформаційних технологій. Реінжиніринг – процес постійного аналізу і впровадження поліпшення. Проект "комплексного впорядкування діяльності". Вибір програмного забезпечення. Застосування реінжинірингу та ознаки інформаційного суспільства.
реферат [16,9 K], добавлен 22.12.2008