Salesforce cria 'simulador de voo' para agentes de IA, já que 95% dos pilotos corporativos não chegam à produção

Quer insights mais inteligentes na sua caixa de entrada? Assine nossas newsletters semanais para receber apenas o que importa para líderes empresariais em IA, dados e segurança. Assine agora
A Salesforce está apostando que testes rigorosos em ambientes de negócios simulados resolverão um dos maiores problemas da inteligência artificial empresarial: agentes que trabalham em demonstrações, mas falham na realidade confusa das operações corporativas.
A gigante do software em nuvem revelou três grandes iniciativas de pesquisa em IA esta semana, incluindo o CRMArena-Pro , o que chama de " gêmeo digital " das operações comerciais, onde agentes de IA podem ser submetidos a testes de estresse antes da implantação. O anúncio ocorre em um momento em que as empresas enfrentam falhas generalizadas em pilotos de IA e novas preocupações com a segurança após violações recentes que comprometeram centenas de instâncias de clientes do Salesforce.
“Pilotos não aprendem a voar em uma tempestade; eles treinam em simuladores de voo que os estimulam a se preparar para os desafios mais extremos”, disse Silvio Savarese, cientista-chefe e chefe de pesquisa de IA da Salesforce, durante uma coletiva de imprensa. “Da mesma forma, agentes de IA se beneficiam de testes e treinamentos de simulação, preparando-os para lidar com a imprevisibilidade dos cenários de negócios diários antes de sua implantação.”
O impulso da pesquisa reflete a crescente frustração das empresas com as implementações de IA. Um relatório recente do MIT constatou que 95% dos pilotos de IA generativa em empresas não conseguem atingir a produção, enquanto estudos da própria Salesforce mostram que grandes modelos de linguagem, por si só, alcançam taxas de sucesso de apenas 35% em cenários de negócios complexos.
O escalonamento da IA atinge seus limites
Limites de energia, aumento nos custos de tokens e atrasos na inferência estão remodelando a IA empresarial. Participe do nosso salão exclusivo para descobrir como as principais equipes estão:
- Transformando energia em vantagem estratégica
- Arquitetando inferência eficiente para ganhos reais de produtividade
- Desbloqueando o ROI competitivo com sistemas de IA sustentáveis
Garanta sua vaga e fique na frente : https://bit.ly/4mwGngO
O CRMArena-Pro representa a tentativa da Salesforce de preencher a lacuna entre a promessa e o desempenho da IA. Diferentemente dos benchmarks existentes que testam capacidades genéricas, a plataforma avalia agentes em tarefas empresariais reais, como escalonamentos de atendimento ao cliente, previsão de vendas e interrupções na cadeia de suprimentos, usando dados comerciais sintéticos, porém realistas.
“Se os dados sintéticos não forem gerados com cuidado, eles podem levar a resultados enganosos ou muito otimistas sobre o desempenho real do seu agente no ambiente real”, explicou Jason Wu , gerente de pesquisa da Salesforce que liderou o desenvolvimento do CRMArena-Pro.
A plataforma opera em ambientes de produção reais da Salesforce, em vez de configurações simuladas, utilizando dados validados por especialistas com experiência comercial relevante. Ela suporta cenários B2B e B2C, e pode simular conversas multi-turno que capturam a dinâmica real das conversas.
A Salesforce vem se utilizando como "cliente zero" para testar essas inovações internamente. "Antes de lançar qualquer coisa no mercado, colocamos a inovação nas mãos da nossa própria equipe para testá-la", disse Muralidhar Krishnaprasad , presidente e CTO da Salesforce, durante a coletiva de imprensa.
Juntamente com o ambiente de simulação, a Salesforce introduziu o Agentic Benchmark for CRM , projetado para avaliar agentes de IA em cinco métricas empresariais críticas: precisão, custo, velocidade, confiança e segurança e sustentabilidade ambiental.
A métrica de sustentabilidade é particularmente notável, ajudando as empresas a alinhar o tamanho do modelo com a complexidade das tarefas para reduzir o impacto ambiental e, ao mesmo tempo, manter o desempenho. "Ao eliminar o ruído da sobrecarga do modelo, o benchmark oferece às empresas uma maneira clara e baseada em dados de combinar os modelos certos com os agentes certos", afirmou a empresa.
O esforço de benchmarking aborda um desafio prático enfrentado pelos líderes de TI: com novos modelos de IA lançados quase diariamente, determinar quais são adequados para aplicações comerciais específicas se tornou cada vez mais difícil.
A terceira iniciativa concentra-se em um pré-requisito fundamental para uma IA confiável: dados limpos e unificados. O recurso de Correspondência de Contas da Salesforce utiliza modelos de linguagem aprimorados para identificar e consolidar automaticamente registros duplicados em todos os sistemas, reconhecendo que "The Example Company, Inc." e "Example Co." representam a mesma entidade.
O trabalho de consolidação de dados surgiu de uma parceria entre as equipes de pesquisa e produto da Salesforce. "O que a resolução de identidades no Data Cloud implica é, essencialmente, que, se você pensar em algo tão simples quanto um usuário, ele terá muitos, muitos, muitos IDs em muitos sistemas dentro de qualquer empresa", explicou Krishnaprasad.
Um grande cliente provedor de nuvem atingiu uma taxa de correspondência de 95% usando a tecnologia, economizando 30 minutos por conexão para os vendedores ao eliminar a necessidade de fazer referência cruzada manual de várias telas para identificar contas.
Os anúncios ocorrem em meio a preocupações crescentes com a segurança após uma campanha de roubo de dados que afetou mais de 700 organizações clientes da Salesforce no início deste mês. De acordo com o Threat Intelligence Group do Google, hackers exploraram tokens OAuth do agente de bate-papo Drift da Salesloft para acessar instâncias do Salesforce e roubar credenciais da Amazon Web Services, Snowflake e outras plataformas.
A violação destacou vulnerabilidades em integrações de terceiros das quais as empresas dependem para o engajamento do cliente com tecnologia de IA. A Salesforce removeu o Salesloft Drift de seu marketplace AppExchange enquanto aguarda investigação.
As iniciativas de simulação e benchmarking refletem um reconhecimento mais amplo de que a implantação de IA empresarial exige mais do que vídeos de demonstração impressionantes. Ambientes de negócios reais apresentam software legado, formatos de dados inconsistentes e fluxos de trabalho complexos que podem inviabilizar até mesmo sistemas de IA sofisticados.
“Os principais aspectos que queremos discutir hoje são o aspecto da consistência, então como garantir que passaremos desses desempenhos insatisfatórios, se você apenas conectar um LM em casos de uso corporativo, para algo que atinge desempenhos muito mais altos”, disse Savarese durante a coletiva de imprensa.
A abordagem da Salesforce enfatiza a necessidade de agentes de IA trabalharem de forma confiável em diversos cenários, em vez de se destacarem em tarefas específicas. O conceito de " Inteligência Geral Empresarial " (EGI) da empresa concentra-se na construção de agentes que sejam capazes e consistentes na execução de tarefas empresariais complexas.
À medida que as empresas continuam investindo em tecnologias de IA, o sucesso de plataformas como a CRMArena-Pro pode determinar se a atual onda de entusiasmo pela IA se traduzirá em transformação empresarial sustentável ou se se tornará outro exemplo de promessa tecnológica que excede a entrega prática.
As iniciativas de pesquisa serão apresentadas na conferência Dreamforce da Salesforce em outubro , onde a empresa deverá anunciar desenvolvimentos adicionais de IA enquanto busca manter sua posição de liderança no mercado de IA empresarial cada vez mais competitivo.
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e obter o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais newsletters do VB aqui .
Ocorreu um erro.

venturebeat