Od Amazona do Zillow - czego uczą nas największe porażki AI (i nieliczne sukcesy)

Zillow stracił 304 miliony dolarów w jednym kwartale przez algorytm AI. IBM sprzedał Watson Health za ułamek zainwestowanych 4 miliardów. Amazon porzucił system rekrutacyjny po wykryciu dyskryminacji. To nie wyjątki - to wzorzec.

Głośne porażki

Amazon - rekrutacja z biasem płciowym (2018)

Co zrobili: System AI do automatycznej selekcji CV, trenowany na 10 latach danych rekrutacyjnych.

Co poszło nie tak:

  • Model nauczył się preferować mężczyzn (bo historycznie dominowali w tech)
  • Penalizował CV z frazą "women's" (np. "women's chess club captain")
  • Obniżał oceny absolwentek kobiecych uczelni

Rezultat: Projekt porzucony. Nie dało się naprawić bez wyrzucenia danych historycznych.

Lekcja: Dane historyczne kodują uprzedzenia. AI je wzmacnia.

Zillow - 304 mln USD straty (2021)

Co zrobili: Algorytm do wyceny i automatycznego kupowania nieruchomości.

Co poszło nie tak:

  • Model systematycznie przepłacał o 5-10%
  • Nie uwzględniał lokalnych mikrotrendów
  • Brak human oversight dla decyzji wysokiego ryzyka
  • Kupili tysiące domów po zawyżonych cenach

Rezultat: 304 mln USD straty w Q3 2021. 2 000 zwolnień. Zamknięcie programu.

Lekcja: AI nie zastąpi ludzkiej ekspertyzy w złożonych decyzjach.

IBM Watson Oncology - niebezpieczne rekomendacje (2018)

Co zrobili: AI do wspomagania diagnostyki onkologicznej.

Co poszło nie tak:

  • Trenowany głównie na danych z jednego szpitala (Memorial Sloan Kettering)
  • Rekomendacje nie pasowały do lokalnych standardów leczenia
  • Przypadki "niebezpiecznych i nieprawidłowych" sugestii
  • Brak transparentności w procesie decyzyjnym

Rezultat: IBM sprzedał Watson Health za ułamek 4 mld USD inwestycji.

Lekcja: Dane z jednego źródła nie generalizują. W healthcare - zero tolerancji dla błędów.

Microsoft Tay - chatbot rasista (2016)

Co zrobili: Chatbot na Twitterze uczący się z interakcji.

Co poszło nie tak:

  • W 24h zaczął publikować rasistowskie, antysemickie tweety
  • Trollowie celowo "edukowali" bota obraźliwymi treściami
  • Brak guardrails i mechanizmów ochrony

Rezultat: Wyłączony po 16 godzinach.

Lekcja: AI wymaga zabezpieczeń przed manipulacją.

Air Canada chatbot - halucynacje (2024)

Co zrobili: Chatbot obsługi klienta.

Co poszło nie tak:

  • Obiecał klientowi zniżkę żałobną, która nie istniała
  • Firma twierdziła, że chatbot to "odrębny podmiot prawny"
  • Sąd orzekł: firma odpowiada za output AI

Lekcja: Prawnie odpowiadasz za to, co mówi Twój chatbot.

Sukcesy (bo też są)

JPMorgan COiN - analiza umów

Co zrobili: AI do analizy umów kredytowych.

Wyniki:

  • 12 000 umów analizowanych w sekundy
  • 360 000 roboczogodzin rocznie zaoszczędzonych
  • Eliminacja błędów ludzkich

Dlaczego zadziałało:

  • Wąski, precyzyjnie zdefiniowany problem
  • Wysokiej jakości dane
  • Human oversight dla edge cases

Siemens - Predictive Maintenance

Co zrobili: AI przewidujące awarie maszyn.

Wyniki:

  • 30-50% redukcja nieplanowanych przestojów
  • 20% redukcja kosztów utrzymania
  • ROI w 12-18 miesięcy

Dlaczego zadziałało:

  • Lata zbierania danych z czujników IoT
  • Jasne KPI (redukcja downtime)
  • Integracja z istniejącymi systemami

Wzorce sukcesu vs porażki

CzynnikPorażkiSukcesy
Zakres"Zastąpmy ludzi"Wąski, konkretny problem
DaneBias, niereprezentatywneLata inwestycji w jakość
Human oversightBrak lub minimalnySilny human-in-the-loop
KPINiejasne, techniczneJasne, biznesowe
WdrożenieBig bangStopniowe, pilotaże

Kluczowe wnioski

  • Wąski scope > "rewolucja AI" - JPMorgan rozwiązał jeden problem, nie wszystkie
  • Dobre dane > najlepszy model - garbage in, garbage out
  • Human oversight > pełna automatyzacja - szczególnie dla decyzji wysokiego ryzyka

Ucz się na cudzych błędach - są tańsze. Jeden audyt przed startem projektu może uchronić przed milionowymi stratami.

Zamów audyt przed wdrożeniem AI

Źródła: Case studies branżowe, raporty MIT, McKinsey, IBM