Od Amazona do Zillow - czego uczą nas największe porażki AI (i nieliczne sukcesy)
Zillow stracił 304 miliony dolarów w jednym kwartale przez algorytm AI. IBM sprzedał Watson Health za ułamek zainwestowanych 4 miliardów. Amazon porzucił system rekrutacyjny po wykryciu dyskryminacji. To nie wyjątki - to wzorzec.
Głośne porażki
Amazon - rekrutacja z biasem płciowym (2018)
Co zrobili: System AI do automatycznej selekcji CV, trenowany na 10 latach danych rekrutacyjnych.
Co poszło nie tak:
- Model nauczył się preferować mężczyzn (bo historycznie dominowali w tech)
- Penalizował CV z frazą "women's" (np. "women's chess club captain")
- Obniżał oceny absolwentek kobiecych uczelni
Rezultat: Projekt porzucony. Nie dało się naprawić bez wyrzucenia danych historycznych.
Lekcja: Dane historyczne kodują uprzedzenia. AI je wzmacnia.
Zillow - 304 mln USD straty (2021)
Co zrobili: Algorytm do wyceny i automatycznego kupowania nieruchomości.
Co poszło nie tak:
- Model systematycznie przepłacał o 5-10%
- Nie uwzględniał lokalnych mikrotrendów
- Brak human oversight dla decyzji wysokiego ryzyka
- Kupili tysiące domów po zawyżonych cenach
Rezultat: 304 mln USD straty w Q3 2021. 2 000 zwolnień. Zamknięcie programu.
Lekcja: AI nie zastąpi ludzkiej ekspertyzy w złożonych decyzjach.
IBM Watson Oncology - niebezpieczne rekomendacje (2018)
Co zrobili: AI do wspomagania diagnostyki onkologicznej.
Co poszło nie tak:
- Trenowany głównie na danych z jednego szpitala (Memorial Sloan Kettering)
- Rekomendacje nie pasowały do lokalnych standardów leczenia
- Przypadki "niebezpiecznych i nieprawidłowych" sugestii
- Brak transparentności w procesie decyzyjnym
Rezultat: IBM sprzedał Watson Health za ułamek 4 mld USD inwestycji.
Lekcja: Dane z jednego źródła nie generalizują. W healthcare - zero tolerancji dla błędów.
Microsoft Tay - chatbot rasista (2016)
Co zrobili: Chatbot na Twitterze uczący się z interakcji.
Co poszło nie tak:
- W 24h zaczął publikować rasistowskie, antysemickie tweety
- Trollowie celowo "edukowali" bota obraźliwymi treściami
- Brak guardrails i mechanizmów ochrony
Rezultat: Wyłączony po 16 godzinach.
Lekcja: AI wymaga zabezpieczeń przed manipulacją.
Air Canada chatbot - halucynacje (2024)
Co zrobili: Chatbot obsługi klienta.
Co poszło nie tak:
- Obiecał klientowi zniżkę żałobną, która nie istniała
- Firma twierdziła, że chatbot to "odrębny podmiot prawny"
- Sąd orzekł: firma odpowiada za output AI
Lekcja: Prawnie odpowiadasz za to, co mówi Twój chatbot.
Sukcesy (bo też są)
JPMorgan COiN - analiza umów
Co zrobili: AI do analizy umów kredytowych.
Wyniki:
- 12 000 umów analizowanych w sekundy
- 360 000 roboczogodzin rocznie zaoszczędzonych
- Eliminacja błędów ludzkich
Dlaczego zadziałało:
- Wąski, precyzyjnie zdefiniowany problem
- Wysokiej jakości dane
- Human oversight dla edge cases
Siemens - Predictive Maintenance
Co zrobili: AI przewidujące awarie maszyn.
Wyniki:
- 30-50% redukcja nieplanowanych przestojów
- 20% redukcja kosztów utrzymania
- ROI w 12-18 miesięcy
Dlaczego zadziałało:
- Lata zbierania danych z czujników IoT
- Jasne KPI (redukcja downtime)
- Integracja z istniejącymi systemami
Wzorce sukcesu vs porażki
| Czynnik | Porażki | Sukcesy |
|---|---|---|
| Zakres | "Zastąpmy ludzi" | Wąski, konkretny problem |
| Dane | Bias, niereprezentatywne | Lata inwestycji w jakość |
| Human oversight | Brak lub minimalny | Silny human-in-the-loop |
| KPI | Niejasne, techniczne | Jasne, biznesowe |
| Wdrożenie | Big bang | Stopniowe, pilotaże |
Kluczowe wnioski
- Wąski scope > "rewolucja AI" - JPMorgan rozwiązał jeden problem, nie wszystkie
- Dobre dane > najlepszy model - garbage in, garbage out
- Human oversight > pełna automatyzacja - szczególnie dla decyzji wysokiego ryzyka
Ucz się na cudzych błędach - są tańsze. Jeden audyt przed startem projektu może uchronić przed milionowymi stratami.
Zamów audyt przed wdrożeniem AIŹródła: Case studies branżowe, raporty MIT, McKinsey, IBM