Avaliação de LLMs

https://is1-ssl.mzstatic.com/image/thumb/Podcasts126/v4/47/69/af/4769af25-7c50-e32f-b2c7-47037c798a83/mza_6529807163417821391.jpg/600x600bb.jpg

Building The Future - AI Portugal Podcast

Building The Future

107 episodes

2 days ago

Este podcast nasce no seguimento do evento anual Building the Future onde são discutidas em palco as tecnologias, ideias e iniciativas que transformam o nosso mundo. Pegando em particular na temática da Inteligencia Artificial, junta em cada episódio uma equipa fantástica composta por Marco António Silva, José António Silva e Vitor Santos para uma conversa descontraída e em Português sobre diferentes tópicos ligados à Inteligência Artificial. Caso tenham sugestões, ideias, comentários ou questões podem nos enviar para: podcast@buildingthefuture.pt

Technology

RSS

All content for Building The Future - AI Portugal Podcast is the property of Building The Future and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Technology

https://d3t3ozftmdmh3i.cloudfront.net/production/podcast_uploaded_nologo/4912728/4912728-1635204011143-53a10616c11dd.jpg

Avaliação de LLMs

Building The Future - AI Portugal Podcast

55 minutes 36 seconds

3 months ago

Avaliação de LLMs

Hoje vamos explorar um tema essencial na atualidade da inteligência artificial: como avaliar e medir o desempenho dos grandes modelos de linguagem, os chamados Large Language Models (LLMs). Com o crescimento exponencial de ferramentas como o ChatGPT, GPT-4 ou Bard, surge a questão fundamental: Como sabemos se um modelo realmente compreende o que diz, ou se está apenas a reproduzir padrões previamente decorados? Para responder a isto, vamos analisar a importância dos benchmarks—testes padronizados que avaliam diferentes capacidades dos modelos, desde conhecimentos gerais até ao raciocínio lógico, passando pela capacidade de tomar decisões autónomas e executar tarefas práticas.

Ao longo do episódio, vamos ainda descobrir as métricas-chave que determinam a qualidade destes modelos, perceber porque é que algumas das ferramentas mais avançadas falham quando confrontadas com problemas ligeiramente diferentes dos habituais, e examinar estudos recentes—como o da Apple, que questiona seriamente se osmodelos realmente “pensam” ou se apenas simulam essa capacidade. Vamos também discutir as forças e limitações dos atuais métodos de avaliação, abordando as diferenças entre modelos de código aberto e fechado, e apresentar sugestões para melhorar a forma como medimos o verdadeiro potencial da IA.

AI News:

Email us at podcast@buildingthefuture.pt

Produção:

Beatriz Herrera González - https://www.linkedin.com/in/beahgonzalez/

Hosts:

Marco António Silva: https://www.linkedin.com/in/marconsilva/

José António Silva: https://www.linkedin.com/in/canoas/

Vitor Santos: https://www.linkedin.com/in/vitor-santos-ab87662/