Jak nadmierna izolacja danych niszczy AI w firmach: 3 realne scenariusze
W ciągu ostatnich 18 miesięcy widziałem w JurskiTech ponad 30 wdrożeń AI w firmach od 10 do 500 osób. W 80% przypadków problemem nie był algorytm, model czy infrastruktura. Problemem były dane – a dokładniej to, jak są odizolowane w różnych działach, systemach i formatach. Firmy inwestują w zaawansowane modele, które potem pracują na 60% swojego potencjału, bo brakuje im pełnego obrazu.
Dlaczego izolacja danych to cichy zabójca AI
W 2023 roku przeprowadziliśmy audyt dla średniej firmy e-commerce (50 osób, obroty 15M zł rocznie). Mieli 7 oddzielnych systemów:
- Shopify dla sklepu
- HubSpot dla marketingu
- Zendesk dla supportu
- Własny system logistyczny
- Tableau dla raportów
- Customowy system CRM
- FreshBooks dla finansów
Każdy z tych systemów miał swoje AI:
- Shopify – rekomendacje produktów
- HubSpot – predykcja leadów
- Zendesk – automatyczne odpowiedzi
Problem? Żaden system nie rozmawiał z innym na poziomie danych. Rekomendacje w sklepie nie wiedziały, co klient pytał na supportcie. Predykcja leadów nie widziała historii zakupów. Automatyczne odpowiedzi nie znały preferencji z newslettera.
Efekt? Klient dostawał rekomendację butów, które właśnie zwrócił. Lead scoring pokazywał „gorącego leada”, który już od 2 lat był klientem. Chatbot proponował pomoc z zamówieniem, które klient anulował godzinę wcześniej.
Scenariusz 1: E-commerce, gdzie każdy dział ma swoje AI
Pracowaliśmy z firmą odzieżową, która wdrożyła 3 różne systemy AI w ciągu roku:
- Personalizacja produktów (frontend)
- Optymalizacja cen (backend)
- Prognozowanie zapasów (logistyka)
Każdy system był kupowany przez inny dział, wdrażany przez innego dostawcę, i pracował na innych danych.
Co poszło nie tak?
System personalizacji polecał klientom kurtki, które były wyprzedane w 90%. System optymalizacji cen obniżał ceny produktów, które i tak miały wysoką rotację. System prognozowania zamawiał za mało rozmiarów, które były najczęściej polecane.
Dane mówią wszystko:
- Współczynnik konwersji z rekomendacji: 1.2% (przy benchmarku 3.5%)
- Marża spadła o 4 punkty procentowe
- Zapasy zalegające wzrosły o 30%
Rozwiązanie nie było techniczne, a organizacyjne:
Stworzyliśmy prosty data lake, który łączył dane z 3 systemów. Nie wymagało to wymiany żadnego z AI – tylko dodania warstwy integracyjnej. W ciągu 3 miesięcy:
- Personalizacja zaczęła uwzględniać dostępność
- Optymalizacja cen widziała rotację
- Prognozowanie znało trendy z rekomendacji
Wynik? Konwersja z rekomendacji wzrosła do 2.8%, marża odzyskała 3 punkty, a zapasy zalegające spadły o 25%.
Scenariusz 2: SaaS, gdzie każdy klient ma inne dane
Platforma B2B do zarządzania projektami (2000 użytkowników) wdrożyła AI do przewidywania opóźnień. Model był trenowany na danych z 50 klientów, ale każdy klient miał:
- Inną strukturę projektów
- Inne metryki
- Inne procesy
- Inny sposób używania platformy
Problem nie był w algorytmie, a w założeniach:
AI zakładało, że wszystkie projekty są podobne. Tymczasem:
- Klient A miał projekty 2-tygodniowe
- Klient B miał projekty 6-miesięczne
- Klient C używał platformy tylko do śledzenia czasu
- Klient D miał złożone zależności między zadaniami
Efekt?
AI przewidywało opóźnienia z 85% dokładnością… ale tylko dla klientów podobnych do tych z danych treningowych. Dla pozostałych klientów dokładność spadała do 40-50%.
Co zrobiliśmy w JurskiTech?
Zamiast jednego dużego modelu, stworzyliśmy:
- Model bazowy (wspólne wzorce)
- Adaptacyjne warstwy dla każdego typu klienta
- System ciągłego uczenia z feedbacku użytkowników
Kluczowe było nie tworzenie lepszego AI, ale lepszej architektury danych. Dane każdego klienta były najpierw kategoryzowane, a dopiero potem używane do trenowania.
Scenariusz 3: Enterprise, gdzie dane są, ale nie można ich użyć
Duża firma produkcyjna (1000+ pracowników) miała 10 lat danych z:
- Produkcji
- Jakości
- Logistyki
- Sprzedaży
- Serwisu
Chcieli wdrożyć AI do przewidywania awarii maszyn. Problem? Dane były:
- W różnych formatach (Excel, PDF, bazy SQL, papierowe raporty)
- W różnych językach (część po polsku, część po angielsku, część w kodach wewnętrznych)
- Z różną częstotliwością (niektóre dane co minutę, niektóre raz na kwartał)
- Z różną jakością (braki, błędy, niekonsekwencje)
Największy błąd:
Firma zaczęła od wyboru zaawansowanego modelu AI, zanim uporządkowała dane. Przez 6 miesięcy zespół data scientistów próbował „wyczarować” dobre przewidywania z chaotycznych danych.
Koszty:
- 6 miesięcy pracy 3 data scientistów
- Koszt licencji na zaawansowane narzędzia AI
- Opóźnienie wdrożenia o 9 miesięcy
- Zero wartości biznesowej przez pół roku
Jak to naprawiliśmy?
Zamiast zaczynać od AI, zaczęliśmy od danych:
- Stworzyliśmy jednolity format dla wszystkich danych
- Zbudowaliśmy prosty pipeline czyszczenia i normalizacji
- Rozpoczęliśmy od prostych modeli statystycznych
- Dopiero po 3 miesiące wdrożyliśmy pierwsze AI
W ciągu 4 miesięcy od rozpoczęcia projektu (a nie 6 miesięcy bez rezultatów) mieliśmy działający system przewidywania awarii z 78% dokładnością.
Jak uniknąć izolacji danych w swojej firmie
Na podstawie tych i innych przypadków, opracowaliśmy w JurskiTech prosty framework:
Krok 1: Mapowanie, nie modelowanie
Zanim pomyślisz o AI, zmapuj:
- Jakie dane masz?
- Gdzie są?
- W jakim formacie?
- Kto ich używa?
- Jakie są luki?
Krok 2: Prosta integracja przed zaawansowanym AI
Zacznij od:
- API do łączenia systemów
- Data warehouse/lake dla kluczowych danych
- Automatyczne pipeline’y aktualizacji
Krok 3: Start small, think big
Nie zaczynaj od najbardziej złożonego przypadku. Wybierz jeden obszar, gdzie:
- Dane są względnie kompletne
- Problem jest istotny biznesowo
- Sukces jest mierzalny
Krok 4: Mierz rzeczywisty wpływ
Nie mierz dokładności modelu. Mierz:
- Wzrost konwersji
- Spadek kosztów
- Oszczędność czasu
- Satysfakcję klientów
Perspektywa na 2024-2025
Trendy, które widzimy:
- Data mesh zamiast data lakes – rozproszona architektura, gdzie każdy dział odpowiada za swoje dane, ale udostępnia je w standardowym formacie
- Real-time data sharing – systemy, które wymieniają dane w czasie rzeczywistym, a nie w batchach
- Federated learning – modele AI, które uczą się na rozproszonych danych bez ich centralizowania
- Data contracts – formalne umowy między działami o formatach, jakości i dostępności danych
Podsumowanie
AI bez dobrych danych to jak samochód wyścigowy bez paliwa – wygląda imponująco, ale nie pojedzie daleko. W ciągu najbliższych 2 lat różnica między firmami, które zrozumieją znaczenie danych, a tymi, które skupią się tylko na algorytmach, będzie się tylko powiększać.
W JurskiTech pomagamy firmom nie tylko wdrażać AI, ale przede wszystkim budować fundamenty danych, które pozwolą tym AI naprawdę działać. Bo najnowocześniejszy model nie zastąpi prostego, ale kompletnego zbioru danych.
Kluczowy wniosek: Zanim zainwestujesz w kolejne AI, zainwestuj czas w zrozumienie swoich danych. To ta inwestycja zwróci się najszybciej i najpewniej.





