Members-Only
Recent Talks & Demos are for members only
You must be an AI Tinkerers active member to view these talks and demos.
llama-cpp Agents: Local Search
This talk demonstrates building local high-performance search agents using llama-cpp-agents, integrating DuckDuckGo and Google, optimizing memory for large context windows, and reducing latency by 60%.
Demostraré cómo crear agentes de búsqueda de alto rendimiento con inferencia LLM local usando llama-cpp-agents. Esta sesión de programación en vivo mostrará cómo implementar integraciones de búsqueda de DuckDuckGo y Google, optimizar la gestión de memoria para ventanas de contexto grandes (32 000 tokens) y lograr una latencia un 60 % menor que las alternativas en la nube. Verá técnicas prácticas para el uso eficiente de tokens, la aceleración de GPU con flash attention y la gestión de citas de fuentes. La demostración incluirá métricas de rendimiento en tiempo real que comparan ambos motores de búsqueda en los modelos open source
Hugging Face Space hosts a DuckDuckGo web search chat agent.
Local LLM web search agent via Gradio/llama.cpp.