Não, os modelos de inteligência artificial não são neutros. E essa afirmação não é polémica. Na verdade, ela é quase consensual.

A discussão em torno da ética e neutralidade dos modelos de inteligência artificial não é uma novidade. É uma discussão muitas vezes tida sem rigor técnico e apenas no calor da superficialidade das brigas nas redes sociais. Nesta publicação, eu convido Product Managers e UX Designers e também toda a gente interessada em Inteligência Artificial (AI), a fazer uma reflexão mais técnica sobre o assunto.

‍

Não, os modelos de inteligência artificial não são neutros.

‍

E essa afirmação não é polémica. Na verdade, ela é quase consensual. Existem dois motivos pelos quais os modelos de AI não são necessariamente neutros. E o primeiro motivo é o que faz da afirmação um consenso académico: os modelos refletem os dados nos quais foram treinados, como no caso usado em tribunais norte-americanos que discutiremos mais adiante.

‍

Dados ruins = modelo ruim.

‍

Dados enviesados = modelo enviesado.

‍

Dados não representativos, e que de forma enviesada perpetuam discriminações sociais, produzem um modelo injustamente discriminatório.

‍

Podemos ser mais ousados e dizer que mesmo que os nossos dados sejam “limpos”, balanceados, não enviesados, ainda podemos ter modelos enviesados, avançando assim para o nosso segundo motivo: os modelos, em sua essência, não são neutros.

‍

A falácia da neutralidade

‍

Quando um sistema recomenda sempre as mesmas trends a um fã de nicho, quando um utilizador com anos de dados recebe sugestões piores do que um utilizador novo, quando uma plataforma começa a servir toda a gente com o mesmo conteúdo, algo está errado. E esse algo não está apenas nos dados. Está na lógica do próprio algoritmo.

‍

A investigadora Catherine Stinson, da Queen's University, desmonta o mito da neutralidade com um argumento simples: mesmo com dados limpos e boas intenções, a lógica interna de certos algoritmos produz enviesamentos. Não por acidente. Por design.

‍

O exemplo mais claro é a filtragem colaborativa, o mecanismo por trás das recomendações da Netflix, Spotify ou YouTube.

‍

Os vieses que ninguém te ensinou

‍

Estes sistemas de recomendação carregam pelo menos quatro tipos de viés estrutural. Não são bugs. São consequências inevitáveis da forma como estes sistemas funcionam.

‍

Cold-start: quando um novo item entra no sistema, não tem histórico. Sem ratings, sem dados de interação, o algoritmo não sabe o que fazer com ele e não o recomenda. Itens mais antigos, com mais ratings acumulados, têm uma vantagem sistemática sobre conteúdo novo. O algoritmo é, por natureza, conservador.

‍

Viés de popularidade: itens muito populares tendem a ser recomendados a toda a gente, independentemente das preferências individuais.

‍

A ironia é que quanto mais um item é recomendado, mais ratings acumula, o que aumenta ainda mais a probabilidade de voltar a ser recomendado. Um ciclo que amplifica o que já é mainstream e empurra o resto para as margens.

‍

Sobre-especialização: quando o algoritmo se foca demasiado nas preferências passadas, o utilizador fica preso num loop das mesmas categorias.

‍

Incapaz de descobrir coisas novas de que poderia gostar. Não estamos a falar de bolhas ideológicas. Estamos a falar de variedade. E a falta dela destrói o engagement a longo prazo.

‍

Homogeneização: o viés mais silencioso. Com o tempo, o conteúdo recomendado a todos os utilizadores converge. A variação entre feeds diminui. Toda a gente começa a ver as mesmas coisas. Uma plataforma onde isso acontece perde identidade, profundidade e razão de existir.

‍

E há um paradoxo que deve preocupar qualquer Product Manager e Designer: os utilizadores com perfis mais ricos, os mais fiéis, os que mais interagem, podem receber recomendações piores do que os utilizadores novos. O motivo é o viés de seleção.

‍

O algoritmo aprende apenas com os itens que ele próprio recomendou. Com o tempo, o leque de dados vai-se estreitando. O utilizador de nicho deixa de receber recomendações relevantes porque o sistema não tem dados nessas categorias. E como não recomenda, não gera dados. O ciclo fecha-se.

‍

São os primeiros a perceber que o produto já não os serve. E os primeiros a sair.

‍

O que isto significa para o teu trabalho

‍

Reconhecer estes vieses é o primeiro passo. O segundo é perceber que não são problemas exclusivos de engenharia. PMs e UX Designers têm influência direta sobre eles, e responsabilidade de os endereçar.

‍

Para PMs, o viés algorítmico é um risco de produto tão concreto como um bug crítico ou uma queda de conversão. Aqui estão três perguntas para incluir nas tuas sessões de discovery:

O nosso sistema serve igualmente utilizadores de nicho e utilizadores mainstream?
Medimos a diversidade das recomendações, não apenas a precisão?
Quando foi a última vez que auditámos o nosso algoritmo?

‍

Para UX Designers, a interface pode mitigar ou amplificar o que o algoritmo faz. Três abordagens concretas:

Serendipidade controlada: carrosséis que misturam conteúdo popular com conteúdo de nicho, baseado no perfil do utilizador. Não é ruído. É curadoria intencional.
Botões de exploração: features simples como "mostra-me algo diferente" dão agência e controlo ao utilizador e reduzem a sobre-especialização sem sacrificar relevância.
Transparência nas recomendações: explicar por que um item foi sugerido aumenta a confiança do utilizador e permite-lhe corrigir o algoritmo quando este está errado.

‍

Queres aprofundar conceitos e práticas de desenhar experiências e interações com Inteligência Artificial? Na TheStarter temos um curso online, ao vivo e em inglês sobre isso mesmo: Human-Centered AI Experiences (HAX). Fazemos várias turmas por ano. Inscreve-te!

‍

Como medir a saúde das tuas recomendações

‍

Precisão mede se o utilizador clicou no que foi sugerido. Não mede se o sistema está a servir bem a longo prazo. Estas quatro métricas complementam o que já monitorizas:

‍

Diversidade entre utilizadores: mede o quanto os feeds de utilizadores diferentes variam entre si. Se o desvio padrão dos itens recomendados for baixo, a plataforma está a homogeneizar. No Spotify, isso significa que um utilizador que só ouve jazz experimental e outro que só ouve pop mainstream estão a receber as mesmas sugestões no Discover Weekly. O historial existe. O algoritmo simplesmente ignora-o.
Diversidade interna: mede a variedade de categorias no historial de cada utilizador. O índice de Shannon é uma métrica de entropia, originalmente da teoria da informação, que quantifica diversidade numa distribuição. Quanto mais equilibrada for a distribuição de categorias, maior o índice. Quanto mais concentrada numa só categoria, mais próximo de zero. Um valor abaixo de 0,8 é um sinal de alerta. Na Amazon, traduz-se nisto: um utilizador que compra regularmente livros técnicos, equipamento de cozinha e produtos de jardim passa a receber apenas recomendações de livros, porque foi essa a última categoria com que interagiu. O algoritmo esqueceu o resto.
Churn por tipo de utilizador: segmenta a taxa de abandono entre utilizadores de nicho e utilizadores mainstream. Se o primeiro grupo sai significativamente mais, o algoritmo está a falhá-los. Na Netflix, os fãs de cinema de autor ou documentários políticos tendem a sair primeiro. O sistema continua a empurrar produções mainstream que já ignoraram dezenas de vezes. Nunca ajusta. Nunca aprende.
Taxa de exploração: a percentagem de cliques em itens fora do historial habitual. Entre 15% e 20% sugere um equilíbrio saudável entre relevância e descoberta. No YouTube, abaixo desse valor o utilizador está fechado num loop dos mesmos criadores. Acima de 30%, o algoritmo perdeu o fio condutor. Está a recomendar ao acaso, o que é igualmente mau para o produto.

Ética não é um módulo extra. É o produto.

‍

Os vieses descritos aqui não surgem de má vontade. Surgem de escolhas de design que não questionaram os seus próprios pressupostos. E quando não são questionados, os custos são reais.

‍

O algoritmo COMPAS, usado em tribunais norte-americanos para prever a probabilidade de reincidência criminal, foi investigado pelo ProPublica em 2016. A conclusão foi que o sistema classificava réus negros como de alto risco com o dobro da frequência em relação a réus brancos com perfis semelhantes. Ninguém programou discriminação explicitamente. O viés estava na lógica do modelo e nos dados históricos que o alimentavam.

‍

Em 2019, um algoritmo usado por hospitais americanos para gerir o acesso a cuidados de saúde foi considerado sistematicamente enviesado contra doentes negros. O sistema usava o custo histórico dos cuidados como proxy para a necessidade clínica. Como doentes negros historicamente tiveram menos acesso a cuidados, o modelo interpretava isso como menor necessidade, e não como desigualdade estrutural.

‍

O Amazon Rekognition, ferramenta de reconhecimento facial da Amazon, identificava rostos de mulheres negras como masculinos em 31% dos casos. Para rostos de homens brancos, a taxa de erro era inferior a 1%. A ferramenta foi vendida a forças policiais.

‍

O algoritmo COMPAS é um caso de viés duplo. Os dados históricos do sistema judicial americano refletem décadas de discriminação estrutural. Mas o viés não para aí: a escolha de quais variáveis incluir no modelo é uma decisão de design. Ninguém programou discriminação explicitamente. Programaram um sistema que a perpetua porque nunca questionaram os seus pressupostos. O resultado, investigado pelo ProPublica em 2016, foi que réus negros eram classificados como de alto risco com o dobro da frequência em relação a réus brancos com perfis semelhantes.

‍

O algoritmo de acesso a cuidados de saúde identificado em 2019 é um caso quase puro de viés algorítmico. O problema não estava nos dados, estava na decisão de usar o custo histórico dos cuidados como proxy para a necessidade clínica. Como doentes negros historicamente tiveram menos acesso a cuidados, o modelo interpretava essa ausência como menor necessidade médica, e não como desigualdade estrutural. O viés estava na lógica de quem desenhou o sistema.

‍

O Amazon Rekognition é o caso mais claro de viés de dados. A ferramenta identificava rostos de mulheres negras como masculinos em 31% dos casos. Para rostos de homens brancos, a taxa de erro era inferior a 1%. A causa foi a sub-representação de rostos de pele escura nos dados de treino, um problema documentado desde 2018. O algoritmo não era discriminatório por design. Foi treinado num mundo onde certos rostos simplesmente não existiam em quantidade suficiente. A ferramenta foi vendida a forças policiais.

‍

Estes não são casos extremos ou distantes. São consequências diretas de sistemas construídos sem questionar os seus pressupostos. A neutralidade é um mito que protege quem toma essas decisões de as examinar.

‍

O trabalho de PMs e UX Designers não acontece nesse nível de escala, mas a lógica é a mesma. Quem é penalizado pelo teu sistema de recomendações? Quem fica sistematicamente fora das sugestões de emprego na tua plataforma? Que utilizadores estão a receber uma experiência pior sem que nenhum dashboard esteja a medir isso?

‍

Produtos que ignoram estas perguntas perdem utilizadores importantes e, a prazo, perdem também confiança. Produtos que as endereçam ganham retenção, diferenciação e algo mais difícil de construir: credibilidade.

‍

Agora a pergunta é para ti.

‍

Consegues identificar, nos produtos em que já trabalhaste, algum padrão destes? Um grupo de utilizadores que abandonou mais cedo do que esperavas. Uma feature de recomendação que funcionava bem nos números, mas que na prática servia sempre os mesmos. Um algoritmo que nunca foi auditado porque os resultados "pareciam razoáveis".

‍

Se a resposta for sim, o próximo passo não é técnico. É fazer a pergunta em voz alta na próxima reunião de produto.

‍

Que utilizadores estás a ignorar sem saber?

‍

A ética não é uma restrição ao produto. É o que distingue produtos que duram de produtos que escalam rápido e colapsam com o mesmo ritmo.

‍

Quer aprofundar estas temáticas? Na TheStarter temos cursos práticos de UX para Inteligência Artificial, Product Analytics & A/B Testing e Human-Centered AI Experiences (HAX).

Abel Rodrigues

Investigador em Ciência de Dados e Cofounder @ TheStarter

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat. Aenean faucibus nibh et justo cursus id rutrum lorem imperdiet. Nunc ut sem vitae risus tristique posuere.

Heading 1

Heading 2

Heading 3

Heading 4

Heading 5

Heading 6

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.

Block quote

Ordered list

Item 1
Item 2
Item 3

Unordered list

Item A
Item B
Item C

Text link

Bold text

Emphasis

^Superscript

_Subscript

Algoritmos e Neutralidade: Uma Reflexão para PMs e UX Designers

Table of contents

Heading 2

Heading 3

Heading 4

Heading 5

Heading 6