
O que o Smol LM um modelo diferenciado tem incomum com o ModerAÍ
O projeto Smol LM provou uma coisa que muita gente ainda ignora: não é preciso a internet inteira pra treinar um modelo bom.Com um conjunto enxuto e bem selecionado de dados, além de um trabalho...
O projeto Smol LM provou uma coisa que muita gente ainda ignora: não é preciso a internet inteira pra treinar um modelo bom.
Com um conjunto enxuto e bem selecionado de dados, além de um trabalho humano minucioso na engenharia do modelo, o Smol LM conseguiu entregar resultados surpreendentes para seu tamanho. Nada de scraping massivo, nada de exageros, só foco em qualidade nos dados e decisões técnicas inteligentes.
Esse tipo de abordagem tem tudo a ver com o que estou construindo no ModerAÍ.
O ModerAÍ é um sistema de moderação de conteúdo ofensivo, pensado tanto pra desenvolvedores quanto pra quem quer proteger sua comunidade online sem depender de soluções genéricas e caras.
Assim como no Smol LM, o coração do ModerAÍ está nos dados certos e bem usados. A moderação acontece em três camadas complementares:
Um algoritmo baseado em Jaro Similarity, apoiado por um dataset construído com cuidado.
Uma etapa de busca vetorial com similaridade de cosseno, que identifica xingamentos disfarçados ou variações criativas.
E por fim, uma LLM brasileira, que entra em ação para entender frases complexas, com ironia ou contexto mais profundo.
E de onde vêm esses dados? Eu mesmo construo o dataset com palavras que ouço no mercado, no caminho da escola com meu filho, em vídeos no YouTube de pessoas de outros estados. É por isso também está sendo tão trabalhoso e demorado eu lançar um chat pras pessoas poderem testar.
Mas dia 15 sai uma versão em chat, pra vocês conversarem da forma mais desonesta possível kkkkkk
No fim, tanto o Smol LM quanto o ModerAÍ mostram a mesma verdade:
dados bons, escolhidos com intenção, valem mais do que força bruta.
E quando há cuidado no processo, até soluções pequenas conseguem entregar resultado grande.
LP (temp): https://ddiidev.github.io/ModerAI-Web/
YT: https://www.youtube.com/@mais.foco42
IN: https://www.linkedin.com/in/andreluizss/
TN: https://www.tabnews.com.br/Andreldev
X: https://x.com/luizdidev
#moderai #ai #novibecoding #cachorrocaramelo #programing #indiehack #buildinpublic #buildinpublicbr #construindoempublico #melhormoderador #melhorqueopenai #rag #finetunning #smollm