Inevitavelmente, muito progresso importante foi feito tanto em nossos algoritmos quanto em nosso entendimento. E, é claro, ainda não esgotamos o enorme estoque de novas idéias que estão sempre surgindo de nossas discussões com nossa comunidade.
No Avance Network, sabemos o quão importante é o compartilhamento interno de conhecimento e experiência - mas também acreditamos que é crucial compartilhar conhecimento com a comunidade em geral. E em nossas aspirações, entre outros projetos, também iniciamos grupos de Ciência da computação.
Grupo de Ciência de Dados
Entre muitos candidatos, selecionamos um grupo de usuarios perspicazes e os convidamos a se juntar a nós para uma semana de atividades com ciência de computação, onde aprenderam como aplicamos ciência de computação e aprendizado de máquina nesse setor rico em dados.
A estrutura da escola de verão
O currículo de uma semana foi definido para ser muito prático e prático, mas também com aulas teóricas entrelaçadas. Os participantes aprenderam primeiro sobre as ferramentas e técnicas que estamos usando no nosso dia-a-dia como cientistas de dados no setor. Eles aprenderam como usar ferramentas como o git para controle de versão, configurar corretamente os ambientes python, usar algumas bibliotecas python como numpy, pandas para processar dados, matplotlib para visualização e aprender com o scikit para criar alguns preditores básicos.
Depois de configurar o ambiente, eles se molharam participando de um desafio do Kaggle. Alguns participantes já haviam participado dos desafios do Kaggle antes, então eles compartilharam suas experiências e conhecimentos e, para alguns, foi a primeira vez que tentaram obter o máximo de informações possível.
Por fim, fornecemos a eles um enorme conjunto de dados reais extraídos da produção, nos quais eles tiveram a chance de criar seus próprios preditores para estimar as probabilidades de cliques (CTR). Após um exame cuidadoso e análise de mais de 50 recursos fornecidos, eles tiveram a oportunidade de usar uma ferramenta de sua escolha para fazer previsões - alguns exploraram o scikit-learn com mais detalhes, enquanto outros escolheram várias bibliotecas como o XGBoost para árvores com aumento de gradiente, o XLearn para fatoração máquinas ou TensorFlow para redes neurais. Por fim, todas as equipes apresentaram seu trabalho e compartilharam o conhecimento adquirido.
Misturados entre experimentação prática, eles participaram de muitas conversas e discussões interessantes sobre tópicos que variam de como a publicidade programática funciona, o que é lances em tempo real, leilões de teorias e que tipo de algoritmos e sistemas estamos desenvolvendo em Zemanta; até a análise de dados, implantando modelos de aprendizado de máquina na produção e alguns de nossos cenários e histórias da vida real.
O que os participantes tinham a dizer
Depois de concluir com êxito o grupo de uma semana, os participantes receberam seus certificados e preencheram formulários de feedback anônimos, dizendo coisas como “Ótima maneira de passar uma semana - a atmosfera era excelente!”, “As conversas foram especialmente interessantes, pois fornecem uma boa visão da empresa "," Trabalhar com dados reais me deu a oportunidade de experimentar em primeira mão os problemas com os quais os cientistas estão trabalhando "- para que possamos dizer com muita certeza que os participantes aprenderam muito e se divertiram muito fazendo isso.
Conclusão
Esta foi a segunda iteração com nossa comunidade, Nos divertimos muito compartilhando conhecimento com os alunos, que obtiveram informações importantes sobre os processos por trás da aplicação da ciência de computação e do aprendizado de máquina para resolver problemas reais do setor, por isso estamos muito animados em hospedar mais eventos futuros.