Zgłoś błąd
X
Zanim wyślesz zgłoszenie, upewnij się że przyczyną problemów nie jest dodatek blokujący reklamy.
Błędy w spisie treści artykułu zgłaszaj jako "błąd w TREŚCI".
Typ zgłoszenia
Treść zgłoszenia
Twój email (opcjonalnie)
Nie wypełniaj tego pola
Załóż konto
EnglishDeutschукраїнськийFrançaisEspañol中国
 

Google Cloud pomaga zeskanować archiwum New York Times

Bogdan Stech | 12-11-2018 10:00 |

Google Cloud pomaga zeskanować archiwum New York TimesGoogle Cloud połączył siły z The New York Times, aby pomóc im w digitalizacji ich ogromnej kolekcji zdjęć. Przez ponad 100 lat The Times zarchiwizował około pięciu do siedmiu milionów starych fotografii w setkach szafek, trzy piętra poniżej poziomu ulicy w pobliżu biur w Times Square w miejscu zwanym "kostnicą". Kostnica zawiera zdjęcia z końca XIX wieku, a wiele z nich ma ogromną wartość historyczną. Skanowanie i opisywanie tego przez człowieka, a następnie wprowadzanie do bazy danych byłoby niezwykle czasochłonne. Narzędzia z Google Cloud Platform pomagają nie tylko skatalogować zbiór, ale także odczytać napisy na zdjęciach np. umieszczone na zegarze i na tej podstawie poprawnie umieścić fotografię w bazie.

Do zmiany rozmiaru obrazów i modyfikacji metadanych The New York Times używa programów open-source ImageMagick i ExifTool

Google Cloud pomaga zeskanować archiwum New York Times [3]

Samo przechowywanie obrazów o wysokiej rozdzielczości nie wystarczy, aby stworzyć system, z którego edytorzy zdjęć mogą z łatwością korzystać. Musi on umożliwiać użytkownikom łatwe przeglądanie i wyszukiwanie zdjęć. The New York Times zbudował cały proces cyfryzacji, który nie tylko koncentruje się na przetwarzaniu i przechowaniu plików, ale także wykorzystuje technologię chmury do przetwarzania i rozpoznawania tekstu, pisma ręcznego i innych szczegółów, które można znaleźć na obrazach. Aby rozpocząć proces przetwarzania, po zaimportowaniu obrazu do Cloud Storage, trafia on następnie Google Cloud Pub/Sub. Rozmiar pliku zmienia się za pomocą usług uruchomionych w Google Kubernetes Engine (GKE), a metadane obrazu są przechowywane w bazie danych PostgreSQL działającej w Cloud SQL. Cloud Pub/Sub pomógł The New York Times stworzyć cały proces bez konieczności budowania złożonych API. Do zmiany rozmiaru obrazów i modyfikacji metadanych The New York Times używa programów open-source ImageMagick i ExifTool. Oba narzędzia udało się uruchomić w GKE.

Samsung Galaxy A9s - smartfon z poczwórnym aparatem

Jak podkreśla Google samo przechowywanie obrazów to tylko połowa historii. Aby archiwum takie jak kostnica The New York Time było jeszcze bardziej dostępne i użyteczne, wykorzystano dodatkowe funkcje GCP. W przypadku The New York Times jednym z większych wyzwań podczas skanowania ich archiwum zdjęć było odczytanie tego co na nich się znajduje, a następnie dodanie tych danych i informacji do bazy danych. Chodzi o przód i tył zdjęcia. Z przodu znajduje się często masa informacji do odczytania - nazwy sklepów, ulic, firm, napisy na samochodach itp.

Google przedstawiło reCAPTCHA v3. Będzie mniej upierdliwy

Google Cloud pomaga zeskanować archiwum New York Times [2]

Co więcej, dawniej normą było umieszczanie na odwrocie fotografii wielu informacji dotyczących okoliczności jej wykonania. Przez lata dochodziły kolejne dopiski. Pisane różnymi charakterami pisma. Nawet kolejne pieczątki mają inne czcionki. jak to wszystko odczytać? Pomógł w tym interfejs API Cloud Vision. Wykorzystywany jest on identyfikowania obiektów, miejsc i obrazów. Na przykład, jeśli uruchomimy Cloud Vision API z funkcją wykrywania logo, znajdzie on na starym zdjęciu dworca napis Pennsylvania Station. Za pośrednictwem interfejsu API Cloud Natural Language, poprawnie zidentyfikuje słowa"Pennsylvania" i "Station" i zapisze zdjęcie do kategorii "podróż" i podkategorii "autobus i kolej".

Źródło: Google
Bądź na bieżąco - obserwuj PurePC.pl na Google News
Zgłoś błąd
Liczba komentarzy: 1

Komentarze:

x Wydawca serwisu PurePC.pl informuje, że na swoich stronach www stosuje pliki cookies (tzw. ciasteczka). Kliknij zgadzam się, aby ta informacja nie pojawiała się więcej. Kliknij polityka cookies, aby dowiedzieć się więcej, w tym jak zarządzać plikami cookies za pośrednictwem swojej przeglądarki.