BTC Website Classification
Klasyfikator stron WWW – Dokumentacja API
Wykorzystujemy metodę machine learning oraz deep learning w celu automatycznej klasyfikacji stron internetowych.
Masz pytania? Skontaktuj się!
Wprowadzenie
BTC Website Classification API umożliwia sprawdzanie kategorii strony (stron) internetowych na podstawie treści. W celu skutecznego sklasyfikowania strona powinna zawierać treść (text). Sklasyfikowanie strony pustej lub zawierających wyłącznie grafikę lub multimedia nie jest możliwe.
Korzyści z klasyfikacji stron www:
- wysoka szybkość, powtarzalność, jakość klasyfikacji,
- niezależność klasyfikacji od uznaniowości operatora,
- klasyfikacja 24h/dobę, 365 dni w roku,
- klasyfikacja stron w języku polskim i angielskim,
- możliwość zmierzenia czasu poświęcanego na przeglądanie wybranych kategorii stron (np. ustalenie czasu nieefektywnego) przez pracowników,
- możliwość zablokowania dostępu do wybranych kategorii stron (np. stron o charakterze erotycznym, pornograficznym itp.),
- niski koszt klasyfikacji,
- szerokie zastosowanie w zarządzaniu infrastrukturą IT oraz zarządzaniu bezpieczeństwem IT (DLP).
Polecenia
[Adres bazowy: https://api.eauditor.eu/ml-web/v1/]
Poświadczenia
Aby połączyć się z API wymagane jest podanie klucza w nagłówku (ang. headers) zapytania oraz określenia typu zawartości poprzez HTTP.
Nagłówki HTTP:
Content-type: application/json
Authorization: key KLUCZ_DO_API
Większość platform programistycznych (ang. frameworks) oraz SDK wspiera wysyłanie tak skonfigurowanych zapytań zwykłym wywołaniem funkcji.
Klasyfikacja adresów
Metoda: POST
Endpoint: /classify
Żądanie musi zawierać nagłówki HTTP.
Treść żądania, np.:
Liczba adresów w jednym żądaniu może być ograniczona.
Odpowiedź:
url – URL
cn – nazwa kategorii.
Myślnik (-) oznacza, że klasyfikator nie znalazł odpowiedniej kategorii dla tego URL lub np. podany URL nie istnieje.
cd – Data nadania kategorii
ed – Data ważności kategorii. Gdy wygaśnie, to dany url zostanie ponownie skategoryzowany
Jeśli w odpowiedzi nie ma adresu, który jest w żądaniu, to znaczy że URL jeszcze nie został skategoryzowany. Można zapytać ponownie za jakiś czas (np. za minutę).
Statusy odpowiedzi HTTP:
200: Ok
400: Błędne żądanie
401: Brak uprawnień
503: Usługa jest chwilowo niedostępna
Poświadczenia
Aby połączyć się z API wymagane jest podanie klucza w nagłówku (ang. headers) zapytania oraz określenia typu zawartości poprzez HTTP.
Nagłówki HTTP:
Content-type: application/json
Authorization: key KLUCZ_DO_API
Większość platform programistycznych (ang. frameworks) oraz SDK wspiera wysyłanie tak skonfigurowanych zapytań zwykłym wywołaniem funkcji.
Klasyfikacja adresów
Metoda: POST
Endpoint: /categorize2
Żądanie musi zawierać nagłówki HTTP.
Treść żądania, np.:
Odpowiedź:
algorithm – Nazwa algorytmu, który kategoryzował stronę.
category – Przewidywana kategoria.
productivity – Informacja, czy sklasyfikowana strona jest produktywna czy nie.
score – Procentowa pewność, o tym jak strona pasuje do podanej kategorii.
cd – Data nadania kategorii.
ed – Data ważności kategorii. Gdy wygaśnie, dany URL zostanie ponownie skategoryzowany.
confidence_score – Parametr, dotyczący pewności poprawności podanych kategorii ze wszystkich algorytmów. Wartość 1 symbolizuje niską pewność poprawności kategorii, a 10 bardzo wysoką.
safety – Wiersz parametrów, dotyczących parametrów bezpieczeństwa danej strony.
CERT – System sprawdza, czy strona występuje w bazie CERT (https://www.cert.pl/).
Hazard – System sprawdza, czy strona występuje w bazie Ministerstwa Finansów stron hazardowych (https://hazard.mf.gov.pl/)
Language – System sprawdza, czy wykryto język strony.
lang – Wykryty język strony.
Malware – System sprawdza, czy strona występuje w bazie URL Haus (https://urlhaus.abuse.ch/)
Redirect – System sprawdza, czy strona zawiera przekierowania.
SSL – System sprawdza, czy strona jest zabezpieczona certyfikatem SSL.
Safety_category – System sprawdza, czy strona ma bezpieczną kategorię.
Safety_struct – System sprawdza, czy struktura strony jest bezpieczna.
Jeśli w odpowiedzi nie ma adresu, który jest w żądaniu, to znaczy że URL jeszcze nie został skategoryzowany. Można zapytać ponownie za jakiś czas (np. za minutę).
Statusy odpowiedzi HTTP:
200: Ok
400: Błędne żądanie
401: Brak uprawnień
503: Usługa jest chwilowo niedostępna