Pewnie już słyszeliście o rewolucji, którą zapoczątkowała sztuczna inteligencja w sieci. Czy zastanawiałeś się jednak nad działaniem mechanizmu AI i nad tym skąd czerpie on swoją wiedzę, tworząc nowe treści i udzielając trafnych odpowiedzi na pytania? Być może również z Twojej strony internetowej!
ChatGPT skanuje strony www aby, dosłownie, się z nich uczyć. Jeśli na Twojej witrynie znajdują się merytoryczne treści, artykuły, opisy, wpisy itd. najprawdopodobniej bot ten odwiedził Cię już kilkukrotnie. Podobnie działają także spidery Google oraz boty wielu innych platform i aplikacji internetowych. Istnieje jednak sposób, dzięki któremu możesz zablokować crawling (indeksowanie) AI skanujące Twoją zawartość i generujące minimalny aczkolwiek dodatkowy transfer serwera.
W jaki sposób chatboty AI uzyskują dostęp do treści internetowych?
Chatboty AI uczą się przy użyciu wielu zestawów danych, z których niektóre są dostępne publicznie jako tzw. open source. Na przykład GPT3 gromadzi dane przy użyciu pięciu kanałów danych:
- Common Crawl (ponad 60% całości)
- WebText2
- Books1
- Books2
- Wikipedia
Indeksowanie obejmuje petabajty (tysiące TB) danych ze stron internetowych skanowanych już od 2008 roku, podobnie działa Google, nieprzerwanie indeksując treści internetowe i zmiany w nich zachodzące. WebText2 to zestaw danych stworzony przez OpenAI, zawierający około 45 milionów stron internetowych.
W przypadku zatem ChatGPT bot AI nie uzyskuje bezpośredniego dostępu do Twoich stron internetowych ani ich nie indeksuje – w każdym razie jeszcze nie. Chociaż ogłoszenie OpenAI dotyczące przeglądarki internetowej obsługiwanej przez ChatGPT wzbudziło obawy, że może się to wkrótce zmienić.
Jednym z najczęściej używanych zestawów danych składających się z treści internetowych jest zestaw danych Common Crawl utworzony przez organizację non-profit o nazwie Common Crawl. Wspólne dane indeksowania pochodzą od bota, który nieustannie przeszukuje całą sieć.
Dlaczego niektórzy właściciele witryn są zaniepokojeni?
Największym zmartwieniem właścicieli witryn jest to, że boty AI, takie jak ChatGPT, Bard i Bing Chat, dewaluują ich zawartość. Boty AI wykorzystują istniejące treści do generowania swoich odpowiedzi, ale także zmniejszają potrzebę dostępu użytkowników do oryginalnego źródła. Zamiast odwiedzać strony internetowe w celu uzyskania dostępu do informacji, mogą po prostu poprosić Google lub Bing o wygenerowanie podsumowania na potrzebny temat.
Dużym zmartwieniem właścicieli witryn jest utrata ruchu. W przypadku Barda, spider AI rzadko umieszcza cytaty w swoich odpowiedziach , nie informując użytkowników, z których stron zaczerpnął informacji. Innymi słowy, można napisać, że obecne narzędzia sztucznej inteligencji wykorzystują pracę twórców treści (ludzi), aby systematycznie zastępować zapotrzebowanie na treści tychże twórców. Tak, brzmi pokrętnie ale to prawda, przeczytaj to jeszcze raz i powoli.
Jak zablokować boty AI w swojej witrynie?
Jeśli nie chcesz, aby boty AI korzystały z Twojej zawartości internetowej, możesz zablokować im dostęp do Twojej witryny za pomocą pliku robots.txt i nie tylko, poniżej Dostrzegani przedstawiają to pierwsze rozwiązanie, alternatywne, uniemożliwiające sprawdzenie dyrektyw przez osoby trzecie, np. Twoją konkurencję, oferujemy tylko w ramach usług pozycjonowania stron internetowych – zapytaj o możliwości SEO w naszej agencji.
Przejdźmy do rozwiązania. Spider Common Crawl przedstawia się w User Agent jako CCBot, możesz go zatem zbanować, dodając następujący kod do pliku robots.txt:
User-agent: CCBot
Disallow: /
Zablokuje to indeksowanie Twojej witryny przez Common Crawl w przyszłości, ale nie usunie danych zebranych podczas poprzednich indeksowań. Jeśli martwisz się, że nowe wtyczki ChatGPT uzyskują dostęp do twoich treści internetowych, OpenAI opublikowało już instrukcje dotyczące blokowania jego bota. W tym przypadku bot ChatGPT nazywa się ChatGPT-User i możesz go wykluczyć, dodając następujący kod do pliku robots.txt:
User-agent: ChatGPT-User
Disallow: /
Wprowadzenie zmian jest dość łatwe, jeśli chcesz upewnić się, że blokada działa, skorzystaj z dostępnych narzędzi online lub poprostu i jak zwykle, skontaktuj się z Dostrzegani, od nas odpowiedzi na pytania techniczne otrzymujesz od ręki.