Conjunto de dados (30,000) mapeando pessoas para renda (número inteiro, algum número) cada instância tem 15 recursos, de acordo com idade, educação. Gostaria de alguns assessores sobre o melhor classificador de aprendizado de máquinas para a minha tarefa. A implementar em Java para treinar. Eu tenho três escolhas de decisão principal, baías da maria ou uma percepção, mas não tenho certeza qual seria o meu melhor problema. Quaisquer implementações de java que eu poderia ser apontado na direção também seria ótimo. Obrigado perguntou 8 de março às 14:00 Antes de selecionar o algoritmo de aprendizagem, você precisa responder a várias perguntas (o programa real e os nomes das bibliotecas seguem a longa introdução): quão bem você precisa entender o modelo resultante. Qual a diferença entre o teste (desconhecido? ) Casos a partir do conjunto de treinamento A primeira questão é muito importante nos casos em que você precisa fornecer um mecanismo ou explicação de causalidade dos resultados (ou seja, quanto mais educada é uma pessoa, maior é a renda). Nessas questões, você pode manter modelos simples, como regressão logística ou árvores de decisão podadas. Se tudo o que você precisa é previsões precisas, então você pode tentar mais métodos de caixa preta, como redes neurais, florestas aleatórias, etc. Note-se que, nesses casos, você ganha flexibilidade, mas perde a capacidade de depurar e solucionar problemas de seus modelos. O que nos leva a uma segunda pergunta: quão diferente você espera que os casos de teste sejam do conjunto de treinamento. Se a resposta é praticamente ou eu não sei, então você precisa se limitar a modelos menos flexíveis, pois suas chances de superar seu O modelo aumenta exponencialmente com a flexibilidade (número de parâmetros e descritores de descritor) em seu modelo. Você também precisa formular como você compara a performance do classificador. Este hangout fornece um bom plano de fundo sobre esse problema. Outra questão crucial é a natureza dos dados. Os classificadores bayesianos, por exemplo, são mais adequados para dados discretos, de modo que a discretização adequada é um problema, as redes neurais que perceptrons do usuário manipulam valores contínuos e discretos, mas você deve ter cuidado com a codificação de valores nominais. Que programas prontos para usar para usar o Weka é um programa baseado em java cheio com cargas prontas para usar algoritmo de aprendizado de máquina, métodos de avaliação, etc. Também existe um excelente livro de mineração de dados que usa Weka para todos os exemplos: Mineração de Dados: Máquina Prática Ferramentas e técnicas de aprendizagem O Knime é um pouco semelhante ao Weka (usa o Eclipse), também possui um livro complementar: Guia de análise de dados inteligentes O Jubaus é uma estrutura de aprendizado de máquina (sem GUI) com ligações Java (entre outras). Ponteiros para código fácil de entender para fins de aprendizagem Se você quiser implementar um algoritmo sozinho ou estudar a partir de um código-fonte, eu recomendo a programação da inteligência coletiva. Embora ele use Python e não Java, e também tenha sido criticado pelo estilo de codificação e por um fundo teórico muito superficial, ele mostra como os algoritmos de aprendizado populares são implementados de forma fácil para compreender a maneira passo a passo. Se você está tentando aprender um mapeamento entre recursos de pessoas para seus rendimentos, então você não tem um problema de classificação binária, você tem um problema de regressão. Você pode começar a experimentar regressão linear, regressão polinomial, e se eles falharem, mova-se para redes neuronais perceptron de várias camadas (com uma função de ativação da camada de saída ilimitada) ou registem a regressão da máquina vetorial. Tenha em mente que, se seu conjunto de dados vem de uma amostra aleatória da população, a renda será distribuída de acordo com uma distribuição de cauda pesada (por exemplo, Pareto), ou seja, haverá um número pequeno, mas não negligenciável, de pessoas Com uma renda muito maior (ordens de grandeza) do que a média. Isso é problemático para os algoritmos de regressão típicos, porque torna os problemas de otimização subjacentes rígidos, resultando em uma velocidade fraca ou até mesmo uma instabilidade numérica. Além disso, avaliar a precisão de seus algoritmos de regressão com medidas de erro padrão, como o erro quadrático médio, pode ser enganador, porque o algoritmo tipicamente tipificará erroneamente essas instâncias de alta renda (uma vez que provavelmente serão intrinsecamente difíceis de prever dados os recursos de entrada) e estes Terá um efeito desproporcionalmente alto na medida de erro geral. Sugiro que você possa tentar pré-processar seus dados aplicando um log ou uma transformação de log de log para os rendimentos e, em seguida, normalizá-los e todos os seus recursos de entrada numéricos, para cair aproximadamente dentro de algum pequeno intervalo (por exemplo, -1..1 ou 0 .. 1). Respondeu 8 de março às 16:54. Suas aulas são uma discretização binária da renda, de modo que isso torna um problema de classificação (na questão de modelar isso como regressão ou classificação, há uma grande discussão aqui). Se ele escolher o limiar para a discretização correta, ele pode até resolver o problema da cauda pesada que você menciona (faça a distribuição da classe cinquenta e cinquenta). Ndash Peter Mar 8 13 às 18:07 O OP não mencionou classes discretas na pergunta ndash Antonio Valerio Miceli-Barone 9 de março às 22:21 (número ltsome, número gtsome) Eu interpretei como uma discretização da renda em duas classes . Ndash Peter Mar 10 13 às 13: 07Hi, eu sou novo aqui. Apenas terminando a Classe de Aprendizado de Máquinas de Andrew Ng e estou interessado em escrever alguns Algos de Aprendizado de Máquinas. Eu não tenho muito dinheiro que estou disposto a arriscar agora, mas estou perguntando se seria possível configurar algum tipo de negociação de Opções Binárias. O Nadex, embora limitado aos investidores norte-americanos gt :( parece ser ideal para um pequeno investidor porque você pode trocar pequenas quantias de dinheiro (como lt 100). Acho que se você tiver o fundo das estatísticas para preço das opções melhor do que o IG , Vá para ele. Os spreads parecem muito amplos, porém você deve ter uma grande vantagem para superar os custos de negociação.
Preço médio móvel O preço médio móvel (MAP) é um procedimento de avaliação em que o preço de estoque pode mudar em função de determinadas transações comerciais (recebimento de mercadorias, compensação GRIR com materiais adquiridos externamente e limpeza WIP com materiais fabricados internamente). Pré-requisitos Você especificou para cada material que seu preço de estoque pode mudar como um preço médio móvel. Com o procedimento de avaliação do MAP, os valores externos das transações comerciais são atribuídos aos objetos de inventário. A quantidade e o valor do recibo de inventário são adicionados ao inventário existente. Em seguida, um novo MAP é calculado com base na relação entre a nova quantidade de inventário e o valor do inventário. As receitas de inventário, portanto, afetam o preço. As diferenças de liquidação são atribuídas ao inventário. Isso depende da cobertura das ações. Os pagamentos apenas alteram o valor do inventário, nunca a quantidade de inventário. Os assentamentos, p...
Comments
Post a Comment