Генеалогічне товариство ЮТА: еволюція інформаційних технологій

Дослідження еволюції інформаційних технологій Генеалогічного товариства та досвіду створення, зберігання і використання цифрових архівів. Вивчення процесу розроблення прикладного програмного забезпечення та інформаційних технологій у сфері генеалогії.

Рубрика История и исторические личности
Вид статья
Язык украинский
Дата добавления 07.03.2023
Размер файла 501,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Після успішного започаткування вебсайту GSU лише додавало інформацію на нього і в подальшому мало приділяло уваги розвитку та оновленню FamilySearch Internet, переважно направляючи зусилля на розробку New FamilySearch. У 2005 р. Стів Андерсон здійснив «косметичне» оновлення вебсайту, розробивши нову домашню сторінку, що дозволило покращити рейтинг сайту в пошукових системах і ефективніше доставляти користувачам існуючий контент.

У 2000 р. користувачі плекали надії на швидку появу в Інтернеті цифрових копій генеалогічних джерел, однак наявні на той час технології ще не дозволяли їх справдити. Незважаючи на відсутність ресурсів і можливостей удоступнення цифрових копій через Інтернет, у 2002 р. GSU таки вирішило розпочати проєкти оцифрування архівних документів. Експерименти з цифровими камерами у GSU ще з середини 1990-х років проводив Річард Лаксман. Тоді вимірювана у ме- гапікселях роздільність камер була занадто малою для оцифрування документів. Р. Лаксман розробив концепцію системи копіювання архівних документів цифровими камерами. Його метою було створення застосунку, який би керував камерою, зберігав зображення у форматі TIFF і записував метадані файлу. Коли в 1999 р. він урешті розробив застосунок, роздільність цифрової камери досягла 6,3 мегапікселя, що було цілком достатньо для якісного оцифрування документів. GSU придбало таку камеру й, оскільки Архів Шотландії мав намір оцифру- вати колекцію заповітів, Р. Лаксман у жовтні 1999 р. поїхав до Європи випробовувати камеру й власний винахід. Архів зібрав камери різних виробників для тестування, під час якого було з'ясовано, що жодна з них не здатна записати метадані, крім камери GSU. Цифрові проекти спершу приживалися повільно: у 2001 р. було виготовлено всього півмільйона цифрових копій архівних документів, у 2002 та 2003 рр. знято по 1,5 млн копій, у 2004 р. - 4 млн копій. Відразу після Шотландії цифрові проєкти були започатковані в Квебеку (Канада), Польщі, Бельгії, Англії та Техасі (США). У 2003 р. GSU вже мало 18 цифрових камер, у 2004 р. - 37, у 2005 р. - 55. 2006 р. було придбано 50 камер, а у 2007 р. 145 із 216 проєктів вже були цифровими. На початку 2011 р. 84% від усіх проєктів реалізовувалися за допомогою 11- або 16-мегапіксельних цифрових камер. У 2009 р. GSU придбало 50-мегапіксельні камери, здатні оцифровувати відразу 2 сторінки документа в одному кадрі. Програмне забезпечення, розроблене для таких камер, отримало назву «DCam, DCam2, DCamX». Воно спрощувало калібровку камери, об'єднувало метадані зображення із самим зображенням. Це дозволяло відразу після передачі цифрових копій документів до штаб-квартири GSU в Солт-Лейк-Сіті розміщувати їх в Інтернеті43.

Починаючи з 1994 р., фахівці GSU, крім дослідження технології оцифрування паперових документів, наполегливо розвивали ідею сканування мікрофільмів. Незважаючи на здатність плівки до довгострокового зберігання, використання та поширення інформації на мікрофільмах мало обмежені можливості. Оператори сканували мікрофільми по одному кадру, якість сканування була незадовільною. За підрахунками GSU переведення до цифрових форматів усіх мікрофільмів, що зберігалися в сховищі в гранітних горах, потребувало понад 100 років. У 2001 р. GSU неймовірними зусиллями перевело до цифрового формату 7 млн кадрів. Серйозніші дослідження в сфері сканування мікрофільмів розпочалися після відкриття восени 2002 р. у долині Юти дослідницького центру. У 2003 р. Х. Нільсон запропонував концепцію сканування цілої плівки. Замість сканування окремих кадрів, сканер створював цілісний образ усієї мікроплівки, що мала довжину в приблизно 1 300 кадрів.

Програмне забезпечення ідентифікувало й обрамляло кожне окреме зображення (кадр). Оператор для впевненості в якості зображення й правильності оформлення кожного кадру переглядав результати сканування. Після їх схвалення програма розрізала великий скан плівки на окремі зображення, з якими вже далі працював оператор, покращуючи їх якість. Ця технологія пришвидшила сканування мікрофільмів більше ніж у 10 разів Barrett A. W., Hutchison F. D. L., Kennard J. D., Nielson E. H., Quass D. Digital Mountain: From Granite Archive to Global Access Introduction to Family History... P. 14-121; Student Manual. Published by The Church of Jesus Christ of Latter-day Saints Salt Lake City, Utah, 2012. P. 52-53. Mehr K. B. Dawning of the Digital Age in the Family History Department. P. 72-74. і, як результат, у 2009 р. було відскановано 69 млн кадрів мікрофільмів.

Технічні вимоги до онлайнової індексації були розроблені у 2001 р., однак цей метод індексації впровадили тільки в 2003 р., коли очільни- ком проекту онлайнової індексації став С. Валентайн. У якості індексаторів першого проєкту - генеалогічних документів з Архіву штату Джорджія (США) - виступили 450 волонтерів. У роботі вони використовували програму FSI (FamilySearch Indexing). Якщо для екстракції 50 млн імен перепису населення США 1880 р. GSU витратило 17 років, то завдяки онлайновій індексації перепис населення США 1900 р. на 76 млн імен був опрацьований всього за 11 місяців 2006/2007 рр. Більше того, онлайнова індексація вивільнила час у керівників церковних округів, котрі до її запровадження вимушено подорожували й особисто розвозили копії архівних документів волонтерам і збирали виконану роботу. Хоча у 2007 р. GSU оновило виданий ще у 1994 р. «Family Record Extraction Handbook», деякі волонтери все ж не змогли призвичаїтися до нової системи й залишили проєкти індексації.

У 2004 р. GSU вперше вдалося до офшорної індексації (аутсорсингу). У такий спосіб 2005 р. були створені пів мільйона індексів до перепису населення Аргентини 1895 р., у 2008-2009 рр. проіндексували переписи населення Канади та Німеччини, у 2009-2010 рр. офшорні індексатори створили 11,5 млн індексів до угорських метричних записів про хрещення245.

У 2007 р. GSU розпочало набір індексаторів зі знанням іноземних мов. Тільки для індексації перепису населення Мексики 1930 р. та інших іспаномовних проєктів зібралося 10 тис. волонтерів, у т. ч. до індексації долучилися 2 тис. учасників молодіжної програми «Indexing-mania» 10,000 Volunteers Sought to Put Mexican, Other Latin American Family History on Web. News Story. October 11, 2007. URL: https://newsroom. churchofjesuschrist.org/article/10-000-volunteers-sought-to-put-mexican-other- latin-american-family-history-on-web (дата звернення: 30.10.2022).. У 2009 р. програмне забезпечення для індексування було перекладене французькою, німецькою, італійською, португальською, російською та іспанською мовами. А втім, продуктивних індексаторів було не так вже й багато. Відтак GSU почало розробляти заходи їх заохочення та стимулювання. З травня 2010 р. індексатори GSU вже могли брати участь у понад 100 проектах 11-ма мовами. Протягом 2010 р. 127 тис. волонтерів створили індекси на 186 млн імен. За 5 років (2006-2010 рр.) волонтери проіндексували 542 млн імен, що дозволило GSU створити найбільшу в світі базу даних, у якій довідкова інформація поєднувалася з джерелами її походження (цифровими копіями архівних документів)147. За інформацією, наданою О. Січкаренком, у ті самі роки в Україні над проєктами індексації працювали 1 100 волонтерів.

Нова концепція храмової роботи CJC LDS початку ХХІ ст. полягала у тому, щоб зробити дослідниками всіх членів Церкви, залучивши до генеалогічних і сімейно-історичних студій якомога більше вірян, насамперед тих, хто взагалі не цікавився генеалогією. З цією метою GSU удосконалювало дизайн програмних продуктів, користувацькі інтерфейси, автоматизацію процесів і бізнес-операції. Воно намагалося ще більше спростити процес дослідження і скоротити час, що на нього витрачався. Даллан Куасс очолював спеціальний підрозділ, який розробляв дослідницьку підсистему «Touchstone», пізніше перейменовану на «Digital Pipeline». Власне, підрозділ зосередив зусилля на вже відомих завданнях, як-от: спрощення пошуку предків, сканування мікрофільмів, використання Інтернету для індексації та онлайнової презентації довідників і цифрових копій документів користувачам. Підрозділом спершу була розроблена програма RMOM (Research Model for the Ordinary Member), яка допомагала пересічним вірянам опрацьовувати генеалогічні джерела. Черговий прототип дослідницької підсистеми, створений підрозділом - RSS (Research Strategies and Searching) - використовував комп'ютерні технології, щоб покроково провести початківця шляхом від питання до джерела, яке містило відповідь. Прототип підсистеми, презентований в Канзас-Сіті на початку 2005 р., показав, що використання покрокового методу лише стримує дослідження, оскільки до того часу навички користувачів значно розвинулися. Цей прототип також довів важливість створення якомога більшого контенту з довідників і цифрових копій документів.

Паралельно інші дослідницькі команди працювали над створенням каталогу бібліотеки, що тривалий час був єдиним джерелом інформації про наявні в бібліотеці GSU книги й мікрофільми, удоступнен- ням аудіо-, відеозаписів та іншими проєктами. Перший комп'ютеризований бібліотечний каталог, створений ще у 1970-х роках, згодом був опублікований і поширений GSU на компакт-дисках як частина FamilySearch DOS. У 2003 р. пошук у каталозі став можливим за ключовими словами, у 2006 р. каталог удоступнено онлайн, у 2010 р. до OLIB Web catalog включено дані про наявність цифрових копій документів 48. Оновлена версія каталога була розміщена на FamilySearch. org у 2011 р., а у 2013 р. у Дубліні (штат Огайо, США) GSU підписало угоду про співпрацю з OCLC (Online Computer Library Center), який створює й підтримує WorldCat - найбільший у світі бібліотечний каталог Family History Center Cataloging Training Manual. FH Department, 2015. URL: http://www.jumpjerijump.com/wp-content/uploads/2015/06/071115_ CatTraining-Manual-For-FH-Centers_revised.pdf (дата звернення: 30.10.2022). Murphy N. OCLC and FamilySearch Partnership will Combine Resources for a Richer Genealogy Research Experience. February 1, 2013. URL: https:// www.familysearch.org/en/blog/oclc-and-familysearch-partnership-will-combine- resources-for-a-richer-genealogy-research-experience (дата звернення: 30.10.2022)..

Інша дослідницька команда GSU на початку 2011 р. розробила пі- лотну версію програми Community Trees, яка допомагала створювати родоводи родів, пов'язаних із різними географічними спільнотами та історичними періодами FamilySearch Community Trees Project. URL: https://www.familysearch.

org/en/wiki/FamilySearch_Community_Trees_Project (дата звернення:

30.10.2022). Sperry K. Oral Genealogies in the Pacific Islands // Regional Studies in Latter-day Saint Church History: The Pacific Isles. Provo, UT: Religious Studies Center, Brigham Young University, 2008. P. 75-92.. Розробники Community Trees звернули увагу на спільноти, які зберігали свою історичну пам'ять в усній формі. GSU перші проєкти усної історії реалізувало в південній частині Тихого океану та Південно-Східній Азії ще в 1970-х роках, але до 2004 р. аудіозаписи цих проєктів почали псуватися через природне старіння плівки. У 2003-2004 рр. GSU реалізувало проєкти усної історії в Гані та Нігерії. Це були не тільки аудіо- та відеозаписи, а й дослівні стенограми і створені на їх основі родоводи. Спенсер Вуд реалізував ідею оцифровки аудіовізуальних записів, створивши 1111 mp3-фай- лів, стиснув їх для зменшення розміру й записав на компакт-диски451. Результати проєктів усної історії доступні в бібліотеці GSU та на FamilySearch.org.

Врешті GSU назвало створену дослідницьку підсистему DPС (Digital Pipeline), яка мала на меті автоматизувати всі стадії т. зв. цифрового конвеєра: управління наявними колекціями, придбання нових колекцій, юридичні процедури, сканування, описування, індексування, передавання лініями зв'язку, пошук записів і удоступнення їх дослід- никам The Digital Pipeline. Last Day of BYU Genealogy and Family History Conference. August 3-24, 2007. URL: http://www.ancestryinsider.org/2007/08/ last-day-of-byu-conference.html (дата звернення: 30.10.2022)..

Кілька років поспіль розробка Pipeline відставала від сканування й GSU не встигало опрацьовувати скани документів. Їх перевіряли на якість, надавали ідентифікаційні номери і відправляли до т. зв. «чорної діри» на зберігання та очікування на індексацію і публікацію. Ще у 2003 р. GSU заснувало Центр цифрового опрацювання, але він мав обмежені потужності. 2010 р. DPC була замінена на удосконалену DPC2, що значно прискорило процес опрацювання цифрових копій.

У свій час мікрофільми отримували номери з позначкою GS (Genealogical Society), теки з цифровими образами документів від них відрізняли за позначкою DGS (Digital Genealogical Society). Пізніше GSU почало застосовувати APID (Artifact Persistent Identifier) Koster L. Persistent identifiers for heritage objects // Code4Lib, journal. Iss. 47, 2020-02-17. URL: https://journal.code4lib.org/articles/14978 (дата звернення: 30.10.2022). - постійний ідентифікатор, що є важливим засобом для отримання доступу до бібліотечних, архівних і музейних колекцій. За наявності механізму нумерації легше було організовувати контроль за збереженням і поширенням цифрових копій. Камери генерували образи документів у форматі TIFF. Вага файлів була надмірною, але здатність вихідного зображення до рендерингу (комп'ютерної візуалізації) була також високою. У результаті рендерингу зображення створювалося за моделлю, у якій об'єкт представлений у трьох просторових вимірах (3D) і у вигляді структури даних із переліком операцій, виконаних над цими даними. Для поширення через Інтернет TIFF конвертували до JPEG (приблизно 7-8 % від розміру TIFF), а для збереження TIFF'n були конвертовані до JPEG 2000, який уможливлював створення файлів меншого розміру без втрат у якості зображення. Отримані файли записувалися на 2 носії й відкладалися на зберігання в сховищах у гранітних скелях.

Перед впровадженням Pipeline система розроблялася й складалася з окремих компонентів. У 2005-2006 рр. GSU придбало обладнання і програмне забезпечення для створення Pipeline-інфраструктури, а також комплексне рішення компанії Ex Libris «Rosetta», спрямоване на всі етапи роботи з оцифрованими та електронними документами: «deposit-ingest-manage-preserve-publish-deliver» Rosetta ExLibris. URL: https://knowledge.exlibrisgroup.com/Rosetta (дата звернення: 01.11.2022).. Відтоді система за допомогою «travel-програм» управляла різними компонентами: індексами, ієрархіями перегляду, образами у цифрових колекціях. «Travel-програ- ми» визначали образи, які включалися до колекцій, поля, що вимагали індексації, записи, використовувані для перегляду ще не проіндексо- ваних зображень. Різні групи реалізовували ці інструкції, створюючи онлайн-колекції для удоступнення дослідникам. Головні розробники працювали лише над найважливішими компонентами системи - ініціативою, що отримала назву «thin thread» і врешті мала набути високого ступеня відмовостійкості (надійності). Апробація компонентів системи, що надавала можливість здійснення онлайн-досліджень через Інтернет, відбулася в 2006 р. Першими були завантажені записи й образи документів із Британських островів, Європи, Латинської Америки, Південно-Східної Азії та США. У червні 2007 р. GSU на вебсайті надало публічний доступ до результатів розробки Pipeline під вкладками «Record Search» або «Search». Pipeline розроблялася незалежно від New FamilySearch, а втім обидві системи побачили світ майже одночасно. Якщо на кінець 2007 р. вебсайт містив 13,2 млн образів і 235 млн про- індексованих записів, то станом на кінець 2011 р. він уже пропонував відвідувачам 485 млн образів та 2,7 млрд імен із 1 116 колекцій більше ніж 70 країн світу155.

Рис. 2. Спрощена схема «Records Pipeline» Mehr K. B. Dawning of the Digital Age in the Family History Department... P. 80. Greighton T. LOC Designing Storage Architectures. URL: https:// digitalpreservation.gov/meetings/DSA2017/Day_1/25_GD_Tom_Creighton_LDS. pdf (дата звернення: 01.11.2022)..

Спершу «Record Search» як інтерфейс Pipeline розміщувався на тестовому вебсайті FamilySearch Lab. У грудні 2010 р. його перемістили на бета-сайт FamilySearch і назвали «Historical Record Collections». Він був наповнений образами й індексами до документів з архівів 38 країн. Багато образів документів ще не мали індексації, але користувачі отримали можливість їхнього перегляду. Десятьма роками пізніше FamilySearch Internet перетворили на FamilySearch.org, додавши продукти Pipeline на вкладку «Search». З цього приводу К. Б. Меєр зазначив, що об'єднання Digital Pipeline і Family Tree в єдину систему, яке відбулося в 2011 р., створило нову реальність у дослідженні спадку наших предків Mehr K. B. Dawning of the Digital Age in the Family History Department... P. 82.. Врешті в листопаді 2012 р. New FamilySearch трансформували на Family Tree of FamilySearch.org.

У 2013 р. на конференції RootsTech RootsTech розвинулася з конференцій, які організовував і проводив Університет Брігама Янга (Прово, штат Юта, США). З 1998 р. з ініціативи Алана Менна проводилися конференції з комп'ютеризованої генеалогії, які згодом перетворилися на RootsTech., заснованій у 2011 р. із метою розвитку, поширення та обміну ідеями і досвідом у сфері історико-ге- неалогічних технологій, Р. Танер (RonTanner) представив програмний продукт Family Tree FamilySearch Tanner R. Now You Can Find Historical Records about Your Ancestors Right From Your Own Family Tree. August 6, 2013. URL: https://www.familysearch. org/en/blog/now-you-can-find-historical-records-about-your-ancestors-right-from- your-own-family-tree (дата звернення: 03.11.2022).. До нової системи були включені дані з Ancestral File, IGI, Pedigree Resource File та інших раніших рішень, кожне з яких мало свої особливості та недоліки. Безумовною перевагою нового продукту було об'єднання всіх даних, однак його недоліком стала величезна дублетність записів. На конференції RootsTech 2019 р. Р. Танер презентував програмний продукт New Family Tree V8 Client Tanner R. Family History Roadmap (2016-2019). URL: https://www. youtube.com/watch?v=grpJP8A8PLU&ab_channel=FamilyHistoryRon (дата звернення: 03.11.2022)., розрахований на більшу доступність послуг GSU користувачам. Завантаження вебсайту https://www.familysearch.org/ пришвидшилося з 16,0 до 4,9 сек., тепер його завантажують на девайси будь-якого розміру та масштабують зображення на екрані без втрати якості. Удосконалення зазнали такі функції сайту: місце події в житті людини (народження, шлюб, смерть) відображається на мапі, дублікати записів з'являються в окремому розділі програми, визначено регіони виявлення людей за одним і тим же прізвищем та здійснено розподіл за місцем зберігання документів про них, додано функцію завантаження фото до My Story, надано можливість користувачам виправляти неправильно внесену індексаторами інформацію, удосконалено директорію ancestors.familysearch.org, розділи формування списку сімейної групи та замовлення храмового таїнства тощо. Під час розробки New Family Tree V8 Client використано інновації GEDCOM X 2019 р. була випущена версія 5.5.1 GEDCOM X Детальніше див.: URL: https://gedcom.io/about/ та http://www.gedcomx.org/About.html, метою якого є визначення моделі даних і відкритого формату серіалізації (перетворення структури даних у послідовність бітів) для обміну даними, необхідними в генеалогічному дослідженні. Концептуальна модель GEDCOM X визначала типи генеалогічних даних і їхні властивості, завдяки прописаним кодам серіалізації та десеріалізації створюються формати (XML, JSON тощо) для записування даних до файлу або обміну ними через Інтернет. Новий GEDCOM X спирався на філософію SaaS (Software-as- a-Service) - «програмного забезпечення як послуги» Детальніше про SaaS див. у статті: Sandoval N. What Is SaaS (Software- as-a-Service) and Its Benefits For Enterprises. URL: https://www.emnify.com/blog/.

GSU також використовує Family Search API для узгодженої взаємодії власних програм і використання інноваційних рішень інших розробників. GSU навіть створило директорію FamilySearch Solutions Program та APP Galery FamilySearch Solutions Program. URL: https://partners.familysearch.org/ programs/s/sp-overview (дата звернення: 03.11.2022). з метою залучення інновацій та підтримки сторонніх розробників генеалогічного програмного чи апаратного забезпечення. Непідпри- ємницькі організації, які стають учасниками програми, можуть надавати пропозиції розробок нового програмного забезпечення, технологій і послуг, корисних на ринку генеалогічних інформаційних технологій та таких, що узгоджуються з FamilySearch Family Tree та іншими API. При цьому GSU використовує REST API (Representation state transfer) - архітектурний стиль проєктування API з використанням протоколу HTTP із метою надання даних із сервера користувачам вебпрограм і сайту.

К. Б. Меєр у своїй праці зазначив, що CJC LDS завжди зважала на те, що викарбувані на каміннях записи здатні зберігатися тисячоліттями, паперові документи - століттями, мікрофільми - десятиліттями, а електронні файли - всього кілька років Mehr K. B. Dawning of the Digital Age in the Family History Department... P. 81.. Отже, основною проблемою майбутнього GSU визначила створення умов для довгострокового зберігання цифрових архівів і здатних замінити людське око пристроїв для читання цифрових образів. Концептуальне рішення мало подолати нестабільну природу цифрових носіїв і швидкий розвиток технологій, через які формати файлів і комп'ютерні системи швидко застарівають, і гарантувати доступність колекцій у перспективі подальшого їх використання. У 2003 р. GSU ухвалило стратегію довготривалого зберігання інформації, пам'ятаючи про 2 засади: по-перше - майбутні потреби в ресурсах для зберігання завжди в рази перевищуватимуть вже наявні обсяги; по-друге - технологічні рішення мають бути доступними. Серед іншого з 2006 р. GSU досліджувало технології зберігання стрічкових бібліотек. Ключовим розробником технології був Джеймс Шегрен. Ідея досліджувати зберігання стрічкових носіїв виникла внаслідок випадку відключення електроенергії, що створило загрозу їх загибелі. Більше таке не повторювалося, оскільки існували файли резервних копій, але ця подія привернула увагу до необхідності відокремлення низькотемпературних стрічкових бібліотек від високотемпературних комп'ютерних серверів.

Проєктування приміщень для розміщення стрічкових бібліотек розпочалося наприкінці 2007 р. У 2008-2009 рр. GSU консультувалося з кращими експертами із пожежної безпеки у США. У 2009-2010 рр. GSU розпочало співробітництво з компанією Tessella, яка була розробником системи для Національного архіву Великої Британії. У 2010 р. GSU розпочало створювати 2 архіви - «активний» та «віддалений» для резервного копіювання. На той час в експлуатації знаходилися 2 тимчасові стрічкові бібліотеки на 4 петабайти (4 млн гігабайт). К. Б. Меєр зазначив, що будівництво двох постійних приміщень було унікальним рішенням для світу, у якому цифрове зберігання ще перебувало в зародковому стані Mehr K. B. Dawning of the Digital Age in the Family History Department..

P. 81. Wright T. G. Using Rosetta, StorageGRID, and New IBM Tape Solutions to Implement State-of-the-Art Digital Preservation. URL: http://documents.el- una.org/923/2/ELUNA_Digital_Preservation_at_the_Church_Final_2012_3_7.pdf (дата звернення: 04.11.2022)..

Рис. 3. План віддаленого цифрового сховища. 66 Нижній рівень - 42498 SF або 3985,4 м2.

Рис. 4. План віддаленого цифрового сховища. Верхній рівень - 17749 SF або 1649 м2.

У 2012 р. Н. Шервінтер (Nir Sherwinter) і Г. Т. Райт (Gary T. Wright) на конференціях зі збереження цифрових об'єктів (Університет Торонто, Канада, 2012) Sherwinter N., Wright T. G. Advancing Data Integrity in a Digital Preservation Archive Ex Libris and the Church of Jesus Christ of Latter-day Saints // iPRES2012. Proceeding of the 9th Internationbal Conference on Preservation of Digital Objects. University of Toronto, Faculty of Information. 2012. P. 150-154. та американських споживачів продуктів ізраїльської компанії Ex Libris «ELUNA 2012» Wright T. G. Using Rosetta, StorageGRID, and New IBM Tape Solutions to Implement State-of-the-Art Digital Preservation. URL: http://documents.el-una. org/923/2/ELUNA_Digital_Preservation_at_the_Church_Final_2012_3_7.pdf (дата звернення: 04.11.2022). Детальніше див.: URL: https://www.ibm.com/common/ ssi/cgi-bin/ ssialias?infotype=an&subtype=ca&appname=gpateam&supplier=649&l etternum=ENUSA06-0694 презентували архітектуру системи цифрового зберігання CJC LDS, процеси завантаження, зберігання та валідації цифрових документів.

Доповідачі наголосили на тому, що вартість зберігання сотень петабайт цифрової інформації на стрічкових картриджах складає всього 33,7% від вартості зберігання на дисках. Оскільки затрати на зберігання відігравали чималу роль у виборі технології, GSU зупинилося на IBM 3500 Tape Libraries Детальніше див.: URL: https://www.ibm.com/common/ssi/cgi-bin/ ssiali as?infotype=an&subtype=ca&appname=gpateam&supplier=649&letternum=ENU SA06-0694 із стрічковими накопичувачами IBM LTO-5 та IBM System Storage TS1140.

Важливою вимогою була можливість масштабування під час завантаження, архівного зберігання, удоступнення та періодичної валідації даних. Результатом дискусій і випробувань стало рішення про вибір технології Ex Libris - Rosetta, за допомогою якої був проведений ще один експеримент і створена CHIPS (Church History Interim Preservation System) для архівного зберігання на дисках. Позаяк експеримент із Rosetta виявився успішним, було прийнято рішення про її використання для розроблення системи цифрового зберігання - DRPS (Digital Records Preservation System), яка будувалася з увагою до OAIS (Open Archival Information System). Rosetta забезпечувала робочі процеси зберігання, але створювала лише один примірник АІР (Archival Information Package) на пристрої для постійного зберігання. Відтак для управління життєвим циклом інформації ILM (Information Lifecycle Management) була обрана технологія NetApp StorageGRID, що приваблювала можливостями збереження цілісності, стійкості і реплікації даних. Для підтримання ILM міграції АІР-ів із дисків на стрічки StorageGRID використовує TSM (IBM Tivoli Storage Manager) як технологію управління стрічковою бібліотекою (із захистом даних, резервним копіюванням і аварійним відновленням). DRPS також використовує Storage Extensions (програмні розширення), розроблені програмістами GSU.

Незважаючи на наявність великої кількості пристроїв, створених для мінімізації спотворення даних, уберегтися від помилок у файлах при їх завантаженні, зберіганні, переписуванні чи удоступненні неможливо. Тому DRPS була спроєктована з увагою до застосування алгоритму криптографічного хешування SHA-1 (на сьогодні вже розвинуті SHA-2, SHA-3) та інших алгоритмів, котрі на той час використовували й для захисту інформації в урядових установах США.

Рис. 5 Валідація цілісності даних у DRPS 70

Пояснення до Рис. 5:

1. Генерація хеш-значення SHA-1 під час поглинання файлів.

2. Триразова перевірка: 1) коли сервер отримує SIP (Submission Information Package); 2) під час валідації SIP; 3) коли об'єкт АІР (Archival Information Package) переміщується у постійне сховище.

3. Плагін Rosetta викликає згенеровані StorageGRID хеш-значення та порівнює їх із зібраними хеш-значеннями в базі даних Rosetta.

4. StorageGRID побудовано навколо концепції зберігання об'єктів (АІР+метадані), яка забезпечує цілісність цих об'єктів, використовуючи багаторівневий набір доменів захисту: 1) хеш значення генерується для кожного об'єкта, який Rosetta записує до StorageGRID; хеш об'єкта перевіряється під час зберігання; 2) StorageGRID також генерує хеш вмісту, щоб забезпечити додатковий захист; хеш вмісту перевіряється під час звернення до об'єкта; 3) використовується CRC (циклічний надлишковий код) та HMAC (хеш-код автентифікації з ключем); CRC перевіряється під час кожної операції з об'єктом, HMAC - лише під час доступу до об'єкта.

5. Забезпечується наскрізний захист логічного блоку TSM під час запису файлу на стрічку та зчитування. Після того як файл записано на нод-збері- гання StorageGRID, вона викликає клієнта TSM, що працює на нод-сервері архіву, для запису файлу на стрічку; клієнт TSM додає значення CRC до даних файлу, які мають бути записаними на сервер TSM під час сеансу клієнта; під час сеансу сервер TSM виконує операцію CRC над даними та порівнює отримане значення зі значенням, обчисленим клієнтом; така перевірка триває, доки файл не буде успішно надіслано через мережу на сервер TSM; далі, перед передачею файлу на стрічковий накопичувач для запису, сервер TSM обчислює та додає значення CRC до кожного логічного блоку файлу - кожен доданий CRC називається «CRC вихідних даних для логічного блоку». Коли стрічковий накопичувач отримує логічний блок, він обчислює власний CRC і порівнює його з «CRC вихідних даних». У разі виявлення помилки генерується умова повторної перевірки або констатується постійна помилка, що гарантує захист логічного блоку під час передачі. Крім цього, коли логічний блок завантажується в основний буфер даних стрічкового накопичувача, відбуваються ще 2 процеси: 1) дані циклічно повертаються через оперативний верифікатор, який ще раз перевіряє їх оригінальний CRC, і будь-яка помилка призводить до повторної перевірки або констатації постійної помилки; 2) паралельно обчислюється та додається до даних ECC-код виправлення помилок Ріда-Соломона (С1), що захищає цілісність даних під час проходження ними додаткових етапів форматування, кожна додаткова перевірка генерує й додає код С2. Врешті дані зчитуються з основного буфера й записуються на стрічку.

iPRES2012. Proceeding of the 9th Internationbal Conference on Preservation of Digital Objects. University of Toronto, Faculty of Information. 2012. P. 150154; Wright T. G. Using Rosetta, StorageGRID, and New IBM Tape Solutions to Implement State-of-the-Art Digital Preservation. URL: http://documents.el-una.org/923/2/ELUNA_Digital_Preservation_at_the_Church_Final_2012_3_7.pdf (дата звернення: 05.11.2022).

Успішна операція зчитування гарантує, що дані не були пошкоджені з моменту передачі логічного блоку від клієнта TSM до запису на стрічку. Коли ж Rosetta отримує доступ до АІР, тобто під час операції зчитування зі стрічки, всі 3 коди - С1, С2 і CRC декодуються та перевіряються, що дозволяє виявити помилку читання. Вихідні дані CRC додаються до логічного блоку під час передавання на сервер для того, щоб він міг їх незалежно перевірити. У такий спосіб завершується наскрізний цикл захисту логічного блоку TSM. Коли сервер TSM надсилає дані через мережу клієнту TSM, перевірка CRC виконується ще раз із метою забезпечення цілісності даних під час їх запису на нод-зберігання StorageGRID. Після цього відбувається перевірка хеш-вмісту та HMAC, доки дані не будуть передані до Rosetta для доставки запитувачу. Таким чином завершується цикл перевірки цілісності даних DRPS.

Отже, на початку розгляду було зазначено, що GSU, а тепер FSI, є одним із лідерів у світі генеалогічних досліджень разом із Ancestry, Findmypast, My Heritage, Geneanet. У результаті проведеного дослідження про нього формується враження як про науково-дослідну світового рівня компанію із розробки прикладного програмного забезпечення. Протягом своєї історії GSU опанувало шлях від паперових технологій, через мікрофільмування до оцифрування, від DOS до Windows, від дисків до Інтернету, від зависання вебсайту до його миттєвого реагування, від аутсорсингу до власних цифрових сховищ і стрічкових бібліотек. GSU працювало чи працює у партнерстві з найвизначнішими корпораціями в галузі зберігання та керування інформацією - GeneSys, Equinix, Lavastorm Analytics, Oracle, Tessella, OCLC, IBM, Ex Libris, NetApp, Inc. тощо. За понад пів століття самостійно та у співробітництві GSU було розроблено, апробовано і впроваджено в експлуатацію безліч варіантів комп'ютерних програм і технологій, включаючи загальноприйняту в світі специфікацію для обміну генеалогічними даними між комп'ютерними програмами різних виробників - GEDCOM. В Україні про GSU йдеться як про організатора масштабних проєктів з оцифрування архівних документів генеалогічного характеру. Однак, оцифрування є лише одним із компонентів його діяльності. Насамперед, GSU спрямовувало зусилля на опрацювання й організацію величезних масивів генеалогічної інформації, індексування, пошук, надання розмежованого доступу користувачам через Інтернет і, нарешті, гарантованого зберігання та резервного копіювання. У цих сферах воно творчо застосовувало найсучасніші технології, у т. ч. Pipeline, Rosetta, IBM Tape Libraries, StorageGRID тощо. Заслуговують на увагу організаційні й кадрові рішення GSU, як-от: створення спеціального підрозділу, спорудження власних цифрових сховищ, запрошення висококваліфікованих фахівців і численних волонтерів, організація конференцій і спеціальної платформи на вебсайті для залучення інновацій та підтримки сторонніх розробників генеалогічного програмного забезпечення. Отже, амбітна мега-мета GSU - створення всесвітньої бібліотеки генеалогічних джерел заради дослідження родоводів і з'єднання родів, озвучена 1911 р. секретарем GSU Нефі Андерсоном The place of Genealogy in the Plan of Salvation. A paper read by Nephi Anderson at the quarterly meeting of the Genealogical Society of Utah, in the Assembly Hall Salt Lake City. October 6, 1911. P. 15. URL: https://babel. hathitrust.org/cgi/pt?id=njp.32101074866938&view=1up&seq=3 (дата звернення: 05.11.2022)., спродукувала безпрецедентний технологічний прогрес і перебуває в процесі досягнення завдяки можливостям людського розуму та інформаційних технологій. Важливо підкреслити, що Genealogical Society of Utah розпочиналося як організація, що мала допомагати членам Церкви Ісуса Христа Святих останніх днів досліджувати родоводи, однак протягом своєї історії розвинулося в міжнародну некомерційну компанію FamilySearch International, яка найсучасніші інформаційні технології ставить на службу інтересам у сфері генеалогії усього людства.

References

1. Allen, B. Ja., Embry, L. Je. & Mehr, K. B. (1995). Hearts Turned to the Fathers: A History of the Genealogical Society of Utah, 1894-1994. Brigham Young University Studies. 392 p. [in English].

2. Barrett, A. W., Hutchison F. D. L., Kennard J. D., Nielson E. H. & Quass D. (2004). Digital Mountain: From Granite Archive to Global Access Introduction to Family History. IEEE Proceedings, International Workshop on Document Image Analysis for Libraries (DIAL 24). Palo Alto, CA. (рр. 14-121). [in English].

3. Bennett, F. A. (1953). The Record Copying Program of the Utah Genealogical Society. The American Archivist, 16(3), 227-232). [in English].

4. Bybee, C. H. (2008). Online Genealogical Research Resources. Brigham Young University Studies, 47(1), 153-164). [in English].

5. Greighton, T. (2017). LOC Designing Storage Architectures. Retrieved from https://digitalpreservation.gov/meetings/DSA2017/Day_1/25_GD_Tom_ Creighton_LDS.pdf [in English].

6. Little, H. (Winter 2008). Microfilm, Mormons and the Technology of the Archive. eSharp Journal, University of Glasgow, 12. Retrieved from https://www. gla.ac.uk/media/Media_102866_smxx.pdf [in English].

7. Lofthouse, S. M. (May 1971). A History of the Genealogical Society of the Church of Jesus Christ of Latter-Day Saints to 1970. A Thesis presented to the Department of Church History and Doctrine Brigham Young University. In Partial Fulfillment of the Requirement for the Degree Master of Arts. [in English].

8. Mehr, K. B. (2014). Dawning of the Digital Age in the Family History Department, 1995-2011. 146 p. [in English].

9. Papakin, H. (2008). Arkhivy Ukrainy v mizhnarodnykh ta mizhrehionalnykh prohramakh zberezhennia kulturnoi spadshchyny: dosvid ta perspektyvy [Archives of Ukraine in international and interregional cultural heritage preservation programs: experience and prospects]. Arkhivy Ukrainy, 1 2, 150-157. [in Ukrainian].

10. Powell, F. T. (1976). Saving the Past for the Future - Tales of International Search and Cooperation. The American Archivist, 39(3), 311-318. [in English].

11. Sherwinter N. & Wright T. G. (2012). Advancing Data Integrity in a Digital Preservation Archive Ex Libris and the Church of Jesus Christ of Latter-day Saints. iPRES2012. Proceeding of the 9th Internationbal Conference on Preservation of Digital Objects. University of Toronto, Faculty of Information. (pp. 150-154). [in English].

12. Wright, T. G. (2012). Using Rosetta, StorageGRID, and New IBM Tape Solutions to Implement State-of-the-Art Digital Preservation. Retrieved from http://documents.el-una.org/923Z2/ELUNA_Digital_Preservation_at_the_Church_ Final_2012_3_7.pdf [in English].

Размещено на Allbest.ru

...

Подобные документы

  • Наукова реконструкція, осмислення й комплексний аналіз процесу становлення й особливостей розвитку архівної науки в Україні. Розгляд і вивчення різних технологій збереження документів. Характеристика основних методів зберігання документів і їх опис.

    курсовая работа [37,9 K], добавлен 03.05.2019

  • Аналіз процесу створення та розвитку наукового електронного журналу як виду документа і складової інформаційних ресурсів бібліотеки. Визначення поняття електронного журналу. Передумови виникнення та історія розвитку електронного наукового журналу.

    автореферат [56,6 K], добавлен 27.04.2009

  • Передумови виникнення Кирило-Мефодіївського товариства, наукові дослідження найактивніших членів. Засоби проведення демократичних реформ за Г. Андрузьким. Значення діяльності Кирило-Мефодіївського товариства в розвитку політичної думки ХVIII-XIX ст.

    реферат [36,1 K], добавлен 03.04.2011

  • Дослідження артефактів кам’яної доби. Дослідження обробітку та розколювання кістки. Виготовлення кам’яних знарядь експериментальними методами (досліди О. Матюхіна). Видобуток кременя в піщаних та крейдових відкладах та поклади родовищ кременю в Європі.

    реферат [19,8 K], добавлен 16.05.2012

  • Заснування тіловиховного товариства "Сокіл", яке відіграло значну роль у національному відродженні слов'янських народів. Мета діяльності товариства: виховання в українському народі єдності, народної сили й почуття честі шляхом плекання фізкультури.

    реферат [18,7 K], добавлен 23.01.2015

  • Поняття "архів" і "архівний документ". Аналіз та узагальнення міжнародного й українського досвіду у застосуванні традиційних форм використання документної інформації в архівах. Специфіка роботи архівів міста. Центральний державний історичний архів Львова.

    контрольная работа [69,7 K], добавлен 01.03.2011

  • Соціально-політичне становище в країні на початку XIX ст. Причини зародження Кирило-Мефодіївського товариства. Формування постулатів та ідеологія товариства, його цілі. Крах діяльності братства, глибина його національно-духовного значення для українців.

    курсовая работа [81,3 K], добавлен 12.04.2017

  • Задачі палеонтології. Палеонтологія докембрія, молекулярна палеонтологія, бактеріальна палеонтологія, біосферний напрямок. Дослідження останнього десятиліття. Палеонтологія - матеріал для розробки теоретичних аспектів біології, i теорії еволюції.

    реферат [20,8 K], добавлен 13.11.2008

  • Історія заснування Кирило-Мефодіївського товариства. Його основні задачі: знищення царизму, рівність у правах на розвиток мови. Передумови створення Західноукраїнської Народної Республіки. Ключові положення її внутрішньої та зовнішньої політики.

    контрольная работа [30,4 K], добавлен 31.10.2010

  • Правове забезпечення, напрямки та сучасний стан збереження документних ресурсів в Україні. Характеристика превентивної та фазової консервації як технології зберігання бібліотечних фондів. Основні вимоги, правила та методи реставрації історичних архівів.

    курсовая работа [76,8 K], добавлен 21.01.2011

  • Передумови виникнення та основні напрямки діяльності Кирило-Мефодіївського товариства, розвиток державотворчої ідеї в суспільно-політичному житті України першої половини ХІХ століття. Основні погляди кирило-мефодіївців на історію людського суспільства.

    курсовая работа [60,9 K], добавлен 04.08.2016

  • Передумови виникнення, діяльність та ліквідація Кирило-Мефодіївського товариства. Детальний аналіз програмної документації. Розкриття панславістської ідеї. Характеристика етапів становлення республіканської форми правління серед слов'янських народів.

    реферат [43,1 K], добавлен 23.11.2010

  • Визначення передумов та причин виникнення українського козацтва, еволюції його державних поглядів, правового статусу та впливу на становлення нової моделі соціально-економічних відносин. Вивчення історії утворення, організації та устрою Запорізької Сечі.

    курсовая работа [64,1 K], добавлен 13.06.2010

  • Дослідження основних рис общинної організації давньоруських слов'ян, її еволюції та соціальної структури суспільства ранньофеодальної держави Київська Русь. Причини диференціації суспільства: розвиток ремесла, торгівлі, воєнні заходи, збирання данини.

    курсовая работа [62,3 K], добавлен 13.06.2010

  • Етапи становлення, розгортання та еволюції румунської комуністичної партії. Прихід до влади у 1944-1947 роках за допомогою Радянської армії. Знищення опозиції в усій країні і забезпечення влади комуністичного режиму, встановлення одноосібної диктатури.

    статья [32,8 K], добавлен 11.09.2017

  • Історичні джерела як носії інформації, яка є основою для реконструкції минулого людства, методи отримання, аналізу та зберігання. Археологія та оцінка її значення для вивчення історії стародавнього світу. Етапи дослідження історії Стародавнього Єгипту.

    реферат [28,1 K], добавлен 22.09.2010

  • Дослідження становища українського населення у ХVІІІ столітті. Аналіз змін в гетьманській державі. Причини створення Закону 1743 року. Вивчення особливостей кримінального права та судового процесу. Огляд сфер суспільного життя, які регулював Кодекс.

    курсовая работа [47,4 K], добавлен 25.06.2015

  • Наукова діяльність і історико-культурна спадщина Миколи Петрова. Еволюція правового становища Великого князівства Литовського. Поширення католицизму та польських впливів на терени ВКЛ. Відображення процесу становлення шляхти як окремого соціального стану.

    статья [25,4 K], добавлен 17.08.2017

  • Осмислення місця і ролі ОУН в українському рухові опору тоталітарним режимам в роки Другої світової війни. Висвітлення процесу трансформації поглядів провідників ОУН на основі досвіду діяльності похідних груп на окупованій німцями території України.

    реферат [28,5 K], добавлен 12.06.2010

  • Розробка архівного закону в Панамі. Запровадження наукових методів відбору документів на зберігання та знищення. Створення Національного архіву Ірану та Центру документації. Аналіз формування освіти за картотекою та програм управління даними в установах.

    статья [27,0 K], добавлен 11.09.2017

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.