Microsoft dobra AI com novos recursos do Bing
[ad_1]
Microsoft está embarcando na próxima fase da expansão do Bing. E – sem surpresa – gira fortemente em torno da IA.
Em um evento de pré-visualização nesta semana na cidade de Nova York, executivos da Microsoft, incluindo Yusuf Mehdi, o CVP e diretor de marketing do consumidor, deram aos membros da imprensa, incluindo este repórter, uma olhada na variedade de recursos que chegarão ao Bing nos próximos dias, semanas. e meses.
Eles não reinventam a roda, mas desenvolvem o que a Microsoft injetou na experiência do Bing nos últimos três meses. Desde o lançamento do Bing Chat, seu chatbot com inteligência artificial desenvolvido pelos modelos GPT-4 e DALL-E 2 da OpenAI, a Microsoft diz que os visitantes do Bing – que cresceu para exceder 100 milhões de usuários ativos diários – se envolveram em mais de meio bilhão de chats e criou mais de 200 milhões de imagens.
Olhando para o futuro, o Bing se tornará mais visual, graças a mais respostas centradas em imagens e gráficos no Bing Chat. Ele também se tornará mais personalizado, com recursos que permitirão aos usuários exportar seus históricos do Bing Chat e extrair conteúdo de plug-ins de terceiros (mais sobre isso posteriormente). E vai abraçar a multimodalidade, pelo menos no sentido de que o Bing Chat será capaz de responder a perguntas dentro do contexto das imagens.
“Acho que é seguro dizer que estamos em andamento com a transformação da busca”, disse Mehdi em comentários preparados. “Em nossas mentes, pensamos que hoje será o início da próxima geração desta ‘missão de busca’.”
Aberto e visual
A partir de hoje, o novo Bing – aquele com o Bing Chat – está disponível sem lista de espera. Qualquer pessoa pode experimentá-lo entrando com uma conta da Microsoft.
É mais ou menos a experiência lançada há vários meses. Mas, como mencionado anteriormente, o Bing Chat logo responderá com imagens – pelo menos onde fizer sentido. As respostas às perguntas (por exemplo, “Onde fica machu picchu?”) serão acompanhadas por imagens relevantes, se houver, muito parecidas com o fluxo de pesquisa padrão do Bing, mas condensadas em uma interface semelhante a um cartão.
Em uma demonstração no evento, um porta-voz digitou a pergunta “O cacto saguaro produz flores?” e o Bing Chat obteve uma resposta de um parágrafo ao lado de uma imagem do cacto em questão. Para mim, evocou o “painéis de conhecimento” na Pesquisa Google.
A Microsoft não está dizendo quais categorias de conteúdo, exatamente, podem acionar uma imagem. Mas ele possui filtragem para impedir que imagens explícitas apareçam – ou assim afirma.
Sarah Bird, chefe de IA responsável da Microsoft, me disse que o Bing Chat se beneficia da filtragem e moderação já existentes na pesquisa do Bing. Além disso, o Bing Chat usa uma combinação de “classificadores de toxicidade” ou modelos de IA treinados para detectar solicitações potencialmente prejudiciais e listas negras para manter o bate-papo relativamente limpo.
Essas medidas não impediram que o Bing Chat saísse dos trilhos quando foi lançado pela primeira vez no início de fevereiro, vale a pena notar. Nossa cobertura encontrou o chatbot jorrando desinformação sobre a vacina e escrevendo um discurso odioso da perspectiva de Adolf Hitler. Outros repórteres conseguiram fazer ameaças, reivindicar identidades múltiplas e até envergonhá-los por adverti-lo.
Em outro golpe contra a Microsoft, a empresa há apenas alguns meses demitiu a equipe de ética e sociedade de sua organização de IA maior. A mudança deixou a Microsoft sem uma equipe dedicada para garantir que seus princípios de IA estejam intimamente ligados ao design do produto.
Bird, no entanto, afirma que um progresso significativo foi feito e que esses tipos de problemas de IA não são resolvidos da noite para o dia – por mais público que o Bing Chat possa ser. Entre outras medidas, uma equipe de moderadores humanos está no local para observar abusos, disse ela, como usuários que tentam usar o Bing Chat para gerar e-mails de phishing.
Mas – como os membros da imprensa não tiveram a chance de interagir com a versão mais recente do Bing além das demonstrações selecionadas – não posso dizer até que ponto tudo isso fez diferença. Sem dúvida, ficará claro quando mais pessoas colocarem as mãos nele.
Um aspecto do Bing Chat que é melhorar é a transparência em torno de suas respostas – especificamente respostas de natureza baseada em fatos. Em breve, quando solicitado a resumir um documento ou sobre o conteúdo de um documento (por exemplo, “o que esta página diz sobre a ponte do Brooklyn?”), seja um PDF de 20 páginas ou um artigo da Wikipedia, o Bing Chat incluirá citações indicando de onde em o texto de onde veio a informação. Clicar neles destacará a passagem correspondente.
Produtividade emergente
Em outro novo recurso na frente visual, o Bing Chat poderá criar tabelas e gráficos quando alimentado com o prompt e os dados corretos. Anteriormente, perguntar algo como “Quais são as cidades mais populosas do Brasil?” produziria uma lista básica de resultados. Mas em uma prévia em um futuro próximo, o Bing Chat apresentará esses resultados visualmente e no tipo de gráfico escolhido pelo usuário.
Isso aparentemente representa um passo para o Bing em direção a uma plataforma de produtividade completa, especialmente quando combinada com os recursos aprimorados de geração de texto para imagem que estão por vir.
Nas próximas semanas, o Bing Image Creator – ferramenta da Microsoft que pode gerar imagens a partir de prompts de texto, com tecnologia DALL-E 2 – entenderá mais idiomas além do inglês (mais de 100 no total). Assim como acontece com o inglês, os usuários poderão refinar as imagens geradas com instruções de acompanhamento (por exemplo, “Faça a imagem de um coelhinho”, seguido de “agora deixe o pelo rosa”).
A IA de arte generativa tem estado muito nas manchetes ultimamente – e não necessariamente pelos motivos mais otimistas.
Os demandantes abriram vários processos contra a OpenAI e seus fornecedores rivais, alegando que dados protegidos por direitos autorais – principalmente arte – foram usados sem sua permissão para treinar modelos generativos como DALL-E 2. Modelos generativos “aprendem” a criar arte e muito mais “treinando” em amostras de imagens e texto, geralmente extraídas indiscriminadamente da web pública.
Perguntei a Bird se a Microsoft está explorando maneiras de compensar os criadores cujo trabalho foi absorvido em dados de treinamento, mesmo que a posição oficial da empresa seja que é uma questão de uso justo. Várias plataformas que lançam ferramentas de IA generativas, incluindo a Shutterstock, iniciaram os fundos dos criadores nesse sentido. Outros, como Spawning, estão criando mecanismos para permitir que os artistas optem por não participar do treinamento de modelos de IA.
Bird deu a entender que esses problemas eventualmente terão que ser enfrentados – e que os criadores de conteúdo merecem alguma forma de recompensa. Mas ela não estava disposta a se comprometer com nada concreto esta semana.
pesquisa multimodal
Em outro lugar na frente da imagem, o Bing Chat está ganhando a capacidade de entender as imagens e também o texto. Os usuários poderão fazer upload de imagens e pesquisar na web por conteúdo relacionado, por exemplo, copiando um link para uma imagem de um polvo de crochê e perguntando ao Bing Chat a pergunta “como faço isso?” para obter instruções passo a passo.
A multimodalidade capacita a nova função de contexto de página no aplicativo Edge para dispositivos móveis também. Os usuários poderão fazer perguntas no Bing Chat relacionadas à página móvel que estão visualizando.
A Microsoft não diria de qualquer maneira, mas parece provável que essas novas habilidades multimodais sejam derivadas do GPT-4, que pode entender imagens além de texto. Quando a OpenAI anunciou o GPT-4, ela não disponibilizou os recursos de compreensão de imagem do modelo para todos os clientes – e ainda não o fez. Aposto que a Microsoft, sendo um grande investidor e colaborador próximo da OpenAI, tem algum tipo de acesso privilegiado.
Qualquer ferramenta de upload de imagem pode ser abusada, é claro, e é por isso que a Microsoft está empregando filtragem automatizada e hash para bloquear uploads ilícitos, de acordo com Bird. O júri decidiu quão bem eles funcionam – não tivemos a chance de testar os uploads de imagens por conta própria.
Novos recursos de bate-papo
Multimodalidade e novos recursos visuais não são tudo o que está chegando ao Bing Chat.
Em breve, o Bing Chat armazenará os históricos de bate-papo dos usuários, permitindo que eles continuem de onde pararam e retornem aos bate-papos anteriores quando desejarem. É uma experiência semelhante ao recurso de histórico de bate-papo que o OpenAI trouxe recentemente para o ChatGPT, mostrando uma lista de bate-papos e as respostas do bot para cada um desses bate-papos.
As especificidades do recurso de histórico de bate-papo ainda precisam ser resolvidas, como por quanto tempo os bate-papos serão armazenados exatamente. Mas os usuários poderão excluir seu histórico a qualquer momento, independentemente, diz a Microsoft – abordando as críticas que vários governos da União Europeia fizeram contra o ChatGPT.
O Bing Chat também ganhará funcionalidades de exportação e compartilhamento, permitindo que os usuários compartilhem conversas nas mídias sociais ou em um documento do Word. Dena Saunders, GM parceira da equipe de experiências na Web da Microsoft, disse ao TechCrunch que um sistema de copiar e colar mais robusto está em andamento – mas ainda não está em pré-visualização – para gráficos e imagens criados por meio do Bing Chat.
Talvez a adição mais transformadora ao Bing Chat, no entanto, sejam os plug-ins. De parceiros como OpenTable e Wolfram Alpha, os plug-ins ampliam muito o que o Bing Chat pode fazer, por exemplo, ajudando os usuários a fazer uma reserva ou criar visualizações e obter respostas para questões desafiadoras de ciências e matemática.
Como o histórico de bate-papo, a funcionalidade de plug-ins ainda não ativos está em estágios preliminares. Não há mercado de plugins para falar; os plug-ins podem ser ativados ou desativados na interface da Web do Bing Chat.
Saunders insinuou, mas não quis confirmar, que o esquema de plug-ins do Bing Chat estava associado – ou talvez idêntico ao – recentemente introduzido pelo OpenAI plugins para ChatGPT. Isso certamente faria sentido, dadas as semelhanças entre os dois.
Borda, atualizado
O Bing Chat está disponível no Edge e também na Web, é claro. E o Edge está recebendo uma nova camada de tinta ao lado do Bing Chat.
Apresentado pela primeira vez em fevereiro, o novo e aprimorado Edge apresenta cantos arredondados de acordo com a filosofia de design do Windows 11 da Microsoft. Os elementos no navegador agora estão mais “contêineres”, como disse um porta-voz da Microsoft, e há ajustes sutis por toda parte, como a imagem da conta da Microsoft movendo-se para a esquerda do centro.
No Compose, a ferramenta baseada no Bing Chat do Edge que pode escrever e-mails e muito mais com um prompt básico (por exemplo, “escrever um convite para a festa de aniversário do meu cachorro”), uma nova opção permite que os usuários ajustem o comprimento, frase e tom do texto gerado para quase tudo que eles gostariam. Digite o tom desejado e o Bing Chat escreverá uma mensagem para corresponder – Bird diz que os filtros estão em vigor para evitar o uso de tons claramente problemáticos, como “odioso” ou “racista”.
Muito mais intrigante do que o Compose – pelo menos para mim – são as ações no Edge, que traduzem certos prompts do Bing Chat em automações.
Digitar um comando como “trazer minhas senhas de outro navegador” no Bing Chat na barra lateral do Edge abre a página de configurações de dados de navegação do Edge, enquanto o prompt “play ‘The Devil Wears Prada’” abre uma lista de opções de streaming, incluindo Vudu e (previsivelmente ) na Microsoft Store. Existe até uma ação que organiza automaticamente – e coordena as cores – as guias de navegação.
As ações estão em um estágio primitivo no momento. Mas está claro para onde a Microsoft está indo, aqui. Imagina-se que as ações se expandam além do Edge para alcançar outros produtos da Microsoft, como o Office 365, e talvez um dia toda a área de trabalho do Windows.
Saunders não confirmou ou negou que este é o fim do jogo. “Fique atento ao Microsoft Build”, ela me disse, referindo-se à próxima conferência de desenvolvedores da Microsoft. Nós devemos.
Comentários 0