Web scraping

Podjęliśmy współpracę z dynamicznie rozwijającą się firmą, której trzonem działalności jest emitowanie reklam na portalach branży FMCG oraz sklepów detalicznych. Strony, za które odpowiedzialna jest firma, są zlokalizowane w 25 krajach i zostały przetłumaczone na 27 języków i dialektów. W sumie jest to 38 serwisów, które miesięcznie notują nawet do 50.000.000 odsłon.
Strony firmy są zlokalizowane w 25 krajach
Zostały przetłumaczone na 27 języków i dialektów
W sumie jest to 38 różnych serwisów
Miesięcznie notują one do 50.000.000 odsłon
Strony firmy są zlokalizowane w 25 krajach
Zostały przetłumaczone na 27 języków i dialektów
W sumie jest to 38 różnych serwisów
Miesięcznie notują one do 50.000.000 odsłon
  • 663

    Scraperów Europa
  • 246

    Scraperów Ameryka Południowa
  • 357

    Scraperów Ameryka Północna
  • 47

    Scraperów Australia i Oceania
  • 47

    Scraperów Afryka
  • 663

    Scraperów Europa
  • 246

    Scraperów Ameryka Południowa
  • 357

    Scraperów Ameryka Północna
  • 47

    Scraperów Australia i Oceania
  • 47

    Scraperów Afryka

Problemy i Oczekiwania

Przed rozpoczęciem współpracy nasz klient korzystał z technologii web scrapingu. Zespół korzystał z usług zewnętrznych freelancerów, zdobywając doświadczenie w tworzeniu coraz bardziej zaawansowanych scraperów gazetkowych i apkowych. Współpraca z większą liczbą wykonawców stawiała przed firmą naszego klienta liczne wyzwania. Największym problemem była komunikacja oraz metodologia. Dodatkowo wiele scraperów dostarczonych przez zewnętrznych podwykonawców nie działało poprawnie lub często ulegały awariom, co prowadziło do dodatkowych kosztów.

Firma miała jasno określone cele na przyszłość. Chcieli zautomatyzować proces uzupełniania contentu na ich serwisach, zminimalizować ilość powtarzalnej, mechanicznej pracy w zespole contentowym, zredukować koszty oraz zabezpieczyć się na wypadek chwilowych braków kadrowych. Ponadto cel biznesowy firmy naszego klienta to szybki i dynamiczny wzrost. Tym samym naturalnym było zwiększenie zapotrzebowania na wydajność infrastruktury IT, aby utrzymać większą liczbę automatyzacji bez zaniedbania postanowień SLA.

Współczesne strony internetowe są coraz bardziej zaawansowane, co sprawia, że tradycyjne metody scrapowania mogą być nieskuteczne. Wielu właścicieli stron stosuje mechanizmy zabezpieczające, takie jak CAPTCHA, aby zapobiec automatycznemu scrapowaniu ich zawartości. Ponadto dynamiczna zawartość oraz regularne aktualizacje designu stron mogą powodować, że scrapery przestają działać poprawnie.

Nasze Działania

Podjęliśmy decyzję o wewnętrznym rozwoju narzędzi do web scrapingu. Nasz zespół przeprowadził gruntowną weryfikację błędów w istniejącym systemie i zidentyfikował kluczowe obszary do poprawy. Dzięki temu nasza firma było w stanie dostosować infrastrukturę do potrzeb skalowalności, zwiększyć przepustowość oraz zaktualizować narzędzia do najnowszych standardów technologicznych.

Nasi specjaliści stworzyli dla naszego klienta kilka typów scraperów:

  • pobierające pliki (np. pdf, obrazki),
  • pobierające konkretnie treść ze strony internetowej lub bezpośrednio z obrazków z wykorzystaniem autorskiego narzędzia wykorzystującego technologię OCR,
  • screenshoty – robienie screenshotów wskazanego źródła internetowego.

Z sukcesem stworzyliśmy różne typy scraperów, które były dostosowane do specyficznych potrzeb naszego klienta. Wybór odpowiedniej technologii był kluczowy, aby zapewnić efektywność i wydajność narzędzi. Dzięki temu nasz zespół był w stanie zoptymalizować proces tworzenia scraperów i dostosować się do dynamicznie zmieniającego się środowiska internetowego.

Finalnie na potrzeby projektu utrzymujemy około 3500 scraperów, które kilka razy dziennie wykonują pracę polegającą na automatycznym pobieraniu plików i ich publikacji na zasobach firmy naszego klienta. Zastosowaliśmy rozwiązania chmury AWS, która w relatywnie prosty sposób pozwala na skalowanie rozwiązania wraz ze wzrostem popularności stron klienta.

Testy

Mając na uwadze najwyższe standardy jakości, przeprowadziliśmy szereg testów wewnętrznych przed wdrożeniem nowych scraperów. Współpracując ściśle z zespołem contentu firmy klienta, byliśmy w stanie szybko identyfikować i rozwiązywać problemy. Testy obejmowały symulacje rzeczywistych scenariuszy użytkowania, aby zapewnić, że scrapery działają poprawnie w różnych warunkach. Dzięki temu byliśmy w stanie dostarczyć narzędzia, które były nie tylko wydajne, ale także odporne na błędy.

Wyniki

Dzięki skutecznemu podejściu do web scrapingu Mondono osiągnęło znaczące korzyści. Zmniejszyliśmy czas komunikacji między zespołami, poprawiliśmy jakość zgłoszeń oraz zwiększyliśmy efektywność całego procesu. W ciągu kilku miesięcy po wdrożeniu nasz klient zanotował znaczący wzrost wydajności i redukcję kosztów operacyjnych. Ponadto, dzięki przejrzystemu systemowi zgłaszania problemów, zespół firmy naszego klienta mógł skupić się na innych kluczowych aspektach biznesu.

Na przykładzie sieci sklepów Kroeger w USA: wszystkie sklepy z tej sieci mają taki sam wygląd strony i układ gazetek. Po próbach i analizie udało znaleźć się sposób na bezproblemowe scrapowanie tych gazetek wraz z poprawnymi opisami oraz wszystkimi niezbędnymi atrybutami obiektu do opublikowania na stronie internetowej. Dzięki temu zespół Content Team nie jest zaangażowany w proces przygotowania i publikacji samego obiektu. Czynności niezbędne do wykonania w ramach sklepu Kroeger to weryfikacja jakości oraz ewentualne testy regresywne sklepu. Efekt jest następujący:

zredukowanie czasu dodawania gazetek,
zredukowanie liczby czynności jedynie do sprawdzania poprawności danych to jest dosłownie 2 kliknięć,
udało nam się cały ten proces dla danej sieci sklepów zautomatyzować i wyeliminować potrzebę potwierdzania ręcznego tych gazetek.

Jest to korzystne zwłaszcza przez różnice w strefie czasowej między Polską a USA.

Projekt web scrapingu zrealizowany przez naszą firmę zakończył się sukcesem. Obecnie w ramach zadań wsparcia, dzięki temu, że rozumiemy i czujemy się częścią zespołu firmy naszego klienta, stale „dokręcamy śrubę” jakości. Dostarczyliśmy rozwiązanie, które przyniosło naszemu klientowi znaczące korzyści finansowe oraz operacyjne. Ograniczyliśmy ryzyka wynikające z braków treści, co przełożyło się na znaczący wzrost jakości treści na serwisach. Współpraca między obiema firmami jest kluczem do ich sukcesów, a doświadczenie zdobyte podczas tego projektu stało się cenną lekcją dla obu stron.

  1. 2 kliknięcia

    Zredukowanie liczby czynności do sprawdzania poprawności danych
  2. 3500

    Łączna liczba scraperów