O Gen-2 da Runway mostra as limitações da tecnologia atual de texto para vídeo
Em uma recente entrevista ao Collider, Joe Russo, diretor de filmes da Marvel uma vez que “Vingadores: Ultimato”, previu que dentro de dois anos, a IA será capaz de gerar um filme completo. Eu diria que é um cronograma bastante otimista. Mas estamos nos aproximando.
Esta semana, Runway, um apoiado pelo Google A startup de IA que ajudou a desenvolver o gerador de imagens de IA Stable Diffusion lançou o Gen-2, um protótipo que gera vídeos a partir de prompts de texto ou de uma imagem existente. (O Gen-2 estava anteriormente com aproximação restringido e em lista de espera.) A prolongação do protótipo Gen-1 da Runway lançado em fevereiro, o Gen-2 é um dos primeiros modelos de texto para vídeo disponíveis comercialmente.
“Comercialmente disponível” é uma saliência importante. Text-to-video, sendo a próxima fronteira lógica em IA generativa depois de imagens e texto, está se tornando uma dimensão de foco maior, mormente entre os gigantes da tecnologia, vários dos quais demonstraram modelos de texto para vídeo no ano pretérito. Mas esses modelos permanecem firmes nos estágios de pesquisa, inacessíveis a todos, exceto a alguns poucos cientistas e engenheiros de dados.
Simples, primeiro não é necessariamente melhor.
Por curiosidade pessoal e serviço a vocês, queridos leitores, executei alguns prompts no Gen-2 para ter uma noção do que o protótipo pode – e não pode – realizar. (Atualmente, a Runway oferece murado de 100 segundos de geração de vídeo gratuita.) Não havia muito método para minha loucura, mas tentei conquistar uma variedade de ângulos, gêneros e estilos que um diretor, profissional ou poltrona, gostaria de ver na tela prateada – ou em um laptop, conforme o caso.
Uma limitação do Gen-2 que se tornou imediatamente aparente é a taxa de quadros dos vídeos de quatro segundos que o protótipo gera. É bastante ordinário e perceptível, a ponto de ser quase uma vez que uma apresentação de slides em alguns lugares.
O que não está simples é se isso é um problema com a tecnologia ou uma tentativa da Runway de poupar nos custos de computação. De qualquer forma, isso torna o Gen-2 uma proposta pouco interessante para os editores que desejam evitar o trabalho de pós-produção.
Além do problema da taxa de quadros, descobri que os clipes gerados pela geração 2 tendem a compartilhar uma certa granulação ou imprecisão em geral, uma vez que se tivessem qualquer tipo de filtro macróbio do Instagram aplicado. Outros artefatos também ocorrem em alguns lugares, uma vez que a pixelização em torno de objetos quando a “câmera” (por falta de uma termo melhor) os circula ou rapidamente se aproxima deles.
Assim uma vez que muitos modelos generativos, o Gen-2 também não é particularmente consistente em relação à física ou à anatomia. Uma vez que um pouco criado por um surrealista, os braços e as pernas das pessoas nos vídeos produzidos pela Gen-2 se fundem e se separam novamente enquanto os objetos derretem no soalho e desaparecem, seus reflexos deformados e distorcidos. E – dependendo do prompt – os rostos podem parecer de boneca, com olhos brilhantes e sem emoção e pele pastosa que evoca um plástico barato.
Para aumentar ainda mais, há a questão do teor. O Gen-2 parece ter dificuldade em entender as nuances, apegando-se a determinados descritores em prompts enquanto ignora outros, aparentemente de forma aleatória.
Uma das sugestões que tentei – “Um vídeo de uma utopia subaquática, filmada com uma câmera antiga, no estilo de um filme de ‘filmagem encontrada’” – não trouxe tal utopia, somente o que parecia ser um mergulho em primeira pessoa através um recife de coral anônimo. O Gen-2 também lutou com meus outros prompts, falhando em gerar uma foto de zoom para um prompt que pedia especificamente um “zoom lento” e não conseguiu concertar a fisionomia de um astronauta geral.
Os problemas podem estar no conjunto de dados de treinamento do Gen-2? Talvez.
Gen-2, uma vez que Stable Diffusion, é um protótipo de divulgação, o que significa que aprende uma vez que subtrair gradualmente o rumor de uma imagem inicial feita inteiramente de rumor para aproximá-la, passo a passo, do prompt. Os modelos de divulgação aprendem por meio de treinamento em milhões a bilhões de exemplos; em um acadêmico papel detalhando a arquitetura do Gen-2, a Runway diz que o protótipo foi treinado em um conjunto de dados interno de 240 milhões de imagens e 6,4 milhões de videoclipes.
A multiplicidade nos exemplos é fundamental. Se o conjunto de dados não contiver muita filmagem de, digamos, animação, o protótipo – sem pontos de referência – não será capaz de gerar animações de qualidade razoável. (Simples, sendo a animação um campo largo, mesmo que o conjunto de dados fez tem clipes de anime ou animação desenhada à mão, o protótipo não necessariamente generalizaria muito para todos tipos de animação.)
No lado positivo, o Gen-2 passa em um teste de viés no nível da superfície. Enquanto modelos generativos de IA uma vez que o DALL-E 2 reforçam preconceitos sociais, gerando imagens de posições de poder – uma vez que “CEO ou “diretor” – que retratam principalmente homens brancos, o Gen-2 foi um pouco mais diversificado no teor. gerou – pelo menos nos meus testes.
Nutrido com o prompt “Um vídeo de um CEO entrando em uma sala de conferência”, o Gen-2 gerou um vídeo de homens e mulheres (embora mais homens do que mulheres) sentados em torno de um pouco uma vez que uma mesa de conferência. A saída para o prompt “Um vídeo de um médico trabalhando em um escritório”, enquanto isso, mostra uma médica de fisionomia vagamente asiática detrás de uma mesa.
Os resultados para qualquer prompt contendo a termo “enfermeira” foram menos promissores, porém, consistentemente mostrando jovens mulheres brancas. O mesmo vale para a frase “uma pessoa servindo mesas”. Evidentemente, há trabalho a ser feito.
A peroração de tudo isso, para mim, é que o Gen-2 é mais uma novidade ou brinquedo do que uma instrumento genuinamente útil em qualquer fluxo de trabalho de vídeo. As saídas poderiam ser editadas em um pouco mais harmónico? Talvez. Mas, dependendo do vídeo, exigiria potencialmente mais trabalho do que filmar em primeiro lugar.
Isso não é para ser também desconsiderando a tecnologia. É impressionante o que a Runway fez cá, superando efetivamente os gigantes da tecnologia no soco de texto para vídeo. E tenho certeza de que alguns usuários encontrarão usos para o Gen-2 que não requerem fotorrealismo – ou muita personalização. (CEO da passarela, Cristóbal Valenzuela recentemente disse à Bloomberg que vê o Gen-2 uma vez que uma forma de oferecer aos artistas e designers uma instrumento que pode ajudá-los em seus processos criativos.)
eu mesmo fiz. Gen-2 pode de indumentária entender uma variedade de estilos, uma vez que anime e claymation, que se prestam à taxa de quadros mais baixa. Com um pouco de trabalho de manipulação e edição, não seria impossível juntar alguns clipes para gerar uma peça narrativa.
Para que o potencial de deepfakes não o preocupe, a Runway diz que está usando uma combinação de IA e moderação humana para impedir que os usuários gerem vídeos que incluam pornografia ou teor violento ou que violem direitos autorais. Posso confirmar que existe um filtro de teor – um excessivamente zeloso, na verdade. Mas é simples que esses métodos não são infalíveis, logo teremos que ver uma vez que eles funcionam na prática.
Mas, pelo menos por enquanto, cineastas, animadores e artistas CGI e especialistas em moral podem permanecer tranquilos. Levará pelo menos algumas iterações antes que a tecnologia da Runway chegue perto de gerar imagens com qualidade de filme – supondo que chegue lá.
[ad_2]
Comentários 0