Porównanie klasyfikatorów stron internetowych AI

CASE STUDY

Popularność rozwiązań opartych na AI nie maleje, co więcej z roku na rok jest coraz większa. Klasyfikacja stron internetowych w oparciu o sztuczną inteligencję tworzy wiele zastosowań zarówno w cyberbezpieczeństwie, jak i w zarządzaniu IT.

Porównanie klasyfikatorów stron WWW dostępnych na rynku

Na rynku jest wiele rozwiązań do klasyfikowania treści internetowych za pomocą sztucznej inteligencji. Jakie są najpopularniejsze klasyfikatory stron WWW, czym się różnią, oraz czy są naprawdę skuteczne. W poniższym porównaniu znajdziesz odpowiedzi na te pytania.

BTC jest pionierem na polskim rynku w klasyfikacji stron internetowych przy wykorzystaniu AI, dlatego porównanie dotyczy rozwiązania BTC Website Classification oraz zagranicznych narzędzi WhoisXML i Cyren, Zvelo i Webroot.

BTC Website Classification

BTC Website Classification to kompleksowe rozwiązanie, które umożliwia działom IT szybką i skuteczną klasyfikację stron WWW. Narzędzie szczegółowo analizuje witryny internetowe, by wzmocnić bezpieczeństwo IT i usprawnić kluczowe procesy w organizacji.

Rozwiązanie BTC analizuje strony na podstawie ich rzeczywistej treści, dopasowując je do jednej z 21 kategorii, określanej na podstawie machine learning i deep learning. Informuje o produktywności witryny WWW, a także przedstawia jej szczegółową analizę bezpieczeństwa, wykorzystując do tego zewnętrzne bazy i rejestry. Klasyfikator rozpoznaje ponad 52 języki, trafnie kategoryzując strony zagraniczne.

Katalog sklasyfikowanych stron jest nieustannie rozbudowywany bieżącą klasyfikacją i jest dostępny w chmurze, dzięki czemu można go dowolnie wykorzystać w innych rozwiązaniach poprzez API. BTC Website Classification ma już łącznie skategoryzowanych ponad 9 milionów stron WWW.

WhoisXML

WhoisXML API Website Categorization Solutions to rozwiązanie stworzone do kategoryzowania adresów URL. Rozwiązanie analizuje witryny internetowe i adresy IP, by zwiększyć bezpieczeństwo przedsiębiorstw.

Narzędzie klasyfikuje strony internetowe w oparciu o uczenie maszynowe (ML) i przetwarzanie języka naturalnego (NLP). Kategoryzuje strony na podstawie ich zawartości, dopasowując je do ponad 500+ kategorii IAB i podkategorii. Dodatkowo poza kategorią, WhoisXML podaje wartość procentową, wyrażającą, w jakim stopniu jest pewny swojego wyniku. Klasyfikator nie potrafi kategoryzować stron polskojęzycznych. WhoisXML udostępnia API, które można wykorzystać w innych rozwiązaniach. Łącznie klasyfikator WhoisXML skategoryzował już ponad 480 milionów stron WWW.

Cyren

Cyren Website URL Category Checker to klasyfikator adresów URL pod kątem bezpieczeństwa. Klasyfikator kategoryzuje witryny internetowe i określa, które z nich stanowią zagrożenie dla bezpieczeństwa danych.

Cyren Website URL Category Checker klasyfikuje adresy URL na podstawie ich zawartości. Jego głównym zadaniem jest analiza reputacji IT klasyfikowanych stron, a także sprawdzanie adresów URL oraz plików zawierających złośliwe oprogramowanie. Klasyfikator Cyren monitoruje też, które z adresów WWW mogą być fałszywe i wyłudzać dane. Rozwiązanie dodatkowo podaje informacje o pozycji z Alexa Ranking (ranking popularności, stworzony na podstawie milionów stron WWW). Producent oprogramowania Cyren nie podaje informacji nt. ilości przeanalizowanych witryn internetowych.

Zvelo

ZveloCAT to rozwiązanie przeznaczone do kategoryzacji treści internetowych. Narzędzie umożliwia klasyfikację adresów URL w czasie rzeczywistym.

Klasyfikator ZveloCAT analizuje strony internetowe, zwracając użytkownikowi informacje o jej kategorii, przypisanej grupie docelowej, możliwych zagrożeniach, a także o nielegalnych treściach, takich jak hazard, czy pornografia. Rozwiązanie działa automatycznie. Klasyfikuje treści internetowe w oparciu o 480 kategorii i obsługuje ponad 200 języków. ZveloCAT udostępnia API, które zapewnia bezpośredni dostęp do platformy zveloAI.

Webroot

Webroot BrightCloud Web Classification & Web Reputation to narzędzie umożliwiające szczegółową analizę adresów URL, w tym analizę zagrożeń, treści i reputacji.

Rozwiązanie klasyfikuje strony internetowe w czasie rzeczywistym, wykorzystując do tego uczenie maszynowe. Kategoryzuje witryny WWW w oparciu o 82 kategorie, a także charakteryzuje się wysoką szybkością działania. Klasyfikator Webroot dokonuje 20 tysięcy klasyfikacji na sekundę, a łącznie w swoich zasobach posiada już ponad 32 mld adresów URL. Rozwiązanie zapewnia skuteczną ochronę organizacji i użytkowników przed internetowymi zagrożeniami.

BTC AI Porównanie klasyfikatorów WWW

Porównanie skuteczności kategoryzacji klasyfikatorów

Podstawowe rozwiązania do klasyfikowania treści to obecnie dla większości organizacji za mało. Większość poszukuje sprawdzonych i innowacyjnych narzędzi, które realnie usprawnią pracę w organizacji i zwiększą poziom bezpieczeństwa IT. Przeanalizowaliśmy 5 najpopularniejszych klasyfikatorów stron internetowych, aby sprawdzić ich działanie i skuteczność.

Porównaliśmy strony w języku polskim i angielskim, stronę lotniczą – Wizzair.com, sklep odzieżowy – Zara.pl, portal informacyjny – Wp.pl oraz stronę oprogramowania komputerowego – Office.com.

BTC AI Porównanie skuteczności klasyfikatorów WWW

BTC Website Classification wyróżnia się największą skutecznością klasyfikacji. Każdy z 4 adresów URL bez względu na język strony został sklasyfikowany prawidłowo ze skutecznością bliską 100%. Klasyfikator w wyniku prezentował dwie kategorie uzyskane za pośrednictwem dwóch metod AI.

Równie dobrze w porównaniu wypadło narzędzie Cyren Website URL Category Checker. Klasyfikator skategoryzował prawidłowo 4 adresy WWW w języku polskim i angielskim. Producent nie podaje procentowo wyrażonego wyniku skuteczności kategoryzacji.

Narzędzie WhoisXML API Website Categorization Solutions wypadło w porównaniu najsłabiej. Na 4 strony WWW w obu językach tylko jedna została prawidłowo sklasyfikowana z pewnością wyniku na poziomie 63%. Pozostałe witryny nie zostały przeanalizowane z powodu zbyt małej ilości treści na stronie lub nieobsługiwanego języka.

Rozwiązanie ZveloCAT z większością stron zagranicznych poradziło sobie prawidłowo. Problem pojawił się przy stronie polskojęzycznej sklepu odzieżowego, który klasyfikator skategoryzował jako hazard. Narzędzie ZveloCAT na 4 adresy URL, 3 przeanalizował poprawnie. Producent nie podaje procentowo wyrażonego wyniku skuteczności kategoryzacji.

Klasyfikator Webroot BrightCloud Web Classification & Web Reputation na 4 adresy URL 3 z nich sklasyfikował poprawnie. Nie poradził sobie z kategoryzacją polskiej strony sklepu z ubraniami, którą uznał za stronę o tematyce biznesu i ekonomii. Producent nie podaje procentowo wyrażonego wyniku skuteczności kategoryzacji.

Porównanie skuteczności klasyfikacji stron niebezpiecznych

Aktualnie zagrożenia cybernetyczne są najpoważniejsze od wielu lat. Bezpieczeństwo IT musi być priorytetem dla wszystkich organizacji niezależnie od branży. Innowacyjne rozwiązania AI oferujące klasyfikację stron WWW są w stanie zagwarantować bezpieczeństwo danych, więc warto je posiadać w swoich zasobach.

Strony o kategorii pornografii są szczególnie niebezpieczne, dlatego warto się przed nimi uchronić i odpowiednio zadbać o bezpieczeństwo IT. W poniższym porównaniu sprawdzamy, które z dostępnych klasyfikatorów prawidłowo diagnozują strony o tematyce pornografii.

BTC AI Skuteczność klasyfikacji stron pornograficznych

Rozwiązanie BTC Website Classification w porównaniu wypadło bezbłędnie. Klasyfikator prawidłowo rozpoznał strony pornograficzne, blokując użytkownikowi do nich dostęp. Dodatkowo BTC Website Classification wskazało wynik pewności klasyfikacji dla każdej ze stron na poziomie 100%.

Cyren Website URL Category Checker również prawidłowo wskazał wszystkie analizowane adresy URL jako pornograficzne i niebezpieczne dla użytkownika. Producent nie podaje wyniku pewności poprawności klasyfikacji.

Rozwiązanie WhoisXML błędnie skategoryzowało analizowane strony pornograficzne. Strona Pornhub.com została zdiagnozowana niejednoznacznie, jako wrażliwy temat z pewnością wyniku na poziomie 57%, natomiast stronę xhamster.com jako film z pewnością 58%.

Klasyfikator ZveloCAT poprawnie sklasyfikował wszystkie 3 strony internetowe i skategoryzował jako pornografię. Producent nie podaje na ile procent przydzielona kategoria jest prawidłowa.

Webroot BrightCloud Web Classification & Web Reputation prawidłowo skategoryzował wszystkie analizowane strony i określił je jako pornograficzne strony dla dorosłych. Producent nie podaje na ile procent przydzielona kategoria jest trafna.

O najpopularniejszych metodach sztucznej inteligencji wykorzystywanych w klasyfikacji stron WWW przeczytasz tutaj.

BTC Projekt EU