Jump to content

User:Lixinso/datamining

From Wikipedia, the free encyclopedia

Fundamentals

Matrices & Linear Algebra Fundamentals

Hash Functions, Binary Tree O(n)

Relational Algebra, DB Basics

Inner,Outer,Cross,Theta Join

CAP Theorem

Tabular Data

Data Frames & Series

Sharding

OLAP

Multidimensional Data Model

ETL

Reporting Vs BI Vs Analytics

JSON & XML

NoSQL

Regex

Vendor Landscape

Env Setup

Statistics

Exploratory Data Analysis

Histograms

Percentiles & Outliers

Probability Theory

Bayes Theorem

Random Variables

Cumul Dist Fn(CDF)

Continuos Distributions(Normal,Poison,Gaussian)

Skewness

ANOVA

Prob Den Fn (PDF)

Central Limit Theorem

Monte Carlo Method

Hypothesis Testing

p-Value

Chi^2 Test

Estimation

Confid int(CI)

MLE

Kernel Density Estimate

Regression

Covariance

Correlation

Pearson Coeff

Causation

Least^2 Fit

Euclidean Distance

Programming

Install Pkgs

Factor Analysis

Functions

Manipulate Data Frames

Subsetting Data

Reading Raw Data

Reading CSV Data

Data Frames

Lists

Factors

Arrays

Matrices

Vectors

Variables

Expressions

R Basics

R Setup

R Studio

Working in Excel

Python Basics

Rapid Miner

IBM SPSS

Machine Learning

What's ML

Numberical Var

Categorical Var

Supervised Learning

Unsupervised Learning

Concepts, Inputs & Attributes

Training & Testing Data

Classifier

Predication

Lift

OverFitting

Bias & Variance

Trees & Classification

Classification Rate

Decision Trees

Boosting

Naive Bayes Classifier

K-Nearest Neighbor

Regression

Ranking

Linear Regression

Perceptron

Hierarchical Clustering

K-Means Clustering

Neural Networks

Sentiment Analysis

Collaborative Filtering

Tagging

Vocabulary Mapping

Text Mining / NLP

Classify Text

Using NLTK

Using WEKA

Feature Extraction

Market Based Analysis

Association Rules

Support Vector Machines

Term Frequency & Weight

Term Document Matrix

UIMA

Text Analysis

Named Entity Recognition

Corpus

Big Data

Map Reduce Fundamentals

Hadoop Components

HDFS

==Data Replication Principles ==Setup Hadoop (IBM / Cloudera / HortonWorks)

Name & Data Nodes

Job & Task Tracker

MR Programming

Sqoop : Loading Data in HDFS

Flume , Scribe: For Unstruct Data

SQL with Pig

DWH with Hive

Scribe , Chukwa For Weblog

Using Mahout

Zookeeper Avro

Storm : Hadoop Realtime

RHadoop RHIPE

rmr

Cassandra

MongoDB,Neo4j

Visualization

Tableau

IBM ManyEyes

InfoVis

D3.js

Decision Tree

Timeline

Survey Plot

Spatial Charts

Line Charts(BI)

Scatter Plot(BI)

Tree & Tree Map

==Histogram & Pie (Uni)

ggplot2

==Uni,BI&Multivariate Viz

Data Exploration in R(Hist, Boxplot etc

ToolBox

MS Excel w/ Analysis ToolPak

Java , Python

R,R-Studio,Rattle

Weka,Knime,RapidMiner

Hadoop Dist of Choice

Spark,Storm

Flume,Scribe,Chukwa

Nutch,Talend,Scraperwiki

Webscraper,Flume,Sqoop

tm,RWeka,NLK

RHIPE

D3.js,ggplot2,Shiny

IBM Lanuageware

Cassandra MongoDB

Data Ingestion

Summary of Data Formats

Data Discovvery

Data Sources & Acquisition

Data Integration

Data Fusion

Transformation & Enrichment

Data Survey

Google OpenRefine

How much Data ?

Using ETL

Data Munging

Dimensionality & Numerosity

Normalization

Data Scrubbling

Handling Missing Values

Unbiased Estimators

Binning Sparse Values

Feature Extraction

Denosing

Sampling

Stratified Sampling

Principle Component Analysis

Retrieved from "https://en.wikipedia.org/w/index.php?title=User:Lixinso/datamining&oldid=577038333"