Дали науката за данни и големи данни hadoop са еднакви? Има ли разлика между тях или и двете означават едно и също?


Отговор 1:

Не, определено не.

Нека обсъдим този проблем в три части:

Data Science е специализация за решаване на различни проблеми, като се използват различни методи от статистиката, комбинаториката, математиката и компютърните науки и т.н.)

Големи данни: Големите данни в широк изглед са концепция за работа с огромни данни (Терминът огромно е относително) извън традиционните методи.

Hadoop: Hadoop е рамка или можем да кажем среда, която може да се използва за управление и анализ на огромни набори от данни с помощта на различни инструменти (PIG, HIVE, Scoop, Fume и т.н.)

Препратки :

Учебник Hadoop

Науката за данните

Голяма информация


Отговор 2:

Предполагам, че сте мислили, че „Science Science” и „Big Data Hadoop” са две различни неща, но всъщност са три. Data Science, Big Data и Hadoop имат различни значения.

Да предположим, че сте ученик в 10 клас. Получили са ви задача да намерите средната оценка по всеки предмет, оценена от вашите съученици. Имате 50 ученици от вашия клас, които изучават по 5 предмета всеки. Намирането на средното не е ракетна наука, така че го правите всичко в екселски лист. Сега вашият учител ви моли да направите едно и също изчисление за всички секции A, B и C от около 150 ученици. Листът на Excel отново е достатъчен. Сега искате да знаете какви биха били средните оценки за науката, получени от ученици от десети клас в цялата страна, което е около 14 311 861 ученици през 2016 г. Възможно е да не съхранявате толкова много данни в лист excel, така че да ги съхранявате в база данни като MySQL или Oracle. Пускате SQL заявка, за да намерите средната стойност. Сега ви е любопитно да знаете тенденцията как се движат средните стойности след последните 20 години в Science за клас 10, което е около 3000000 записа. Ако откриете средната стойност на всичките 5 предмета, а не само науката, ще обработвате 30000000 х 5 записа. Данните вече са големи, което се нарича още „Големи данни“.

Големи данни - изключително големи масиви от данни, които могат да бъдат анализирани изчислително, за да разкрият модели, тенденции и асоциации, особено свързани с човешкото поведение и взаимодействия.- От Уикипедия

Вероятно не трябва да съхранявате толкова много данни във вашия MySQL или Oracle и да изпълнявате SQL заявката си на милиони записи. Никога не съм работил с толкова много данни в SQL база данни, така че няма да коментирам неговата ефективност, но използвах Hadoop за обработка на огромно количество набори от данни, много по-голямо от базата данни за студенти, за която говорим. Hadoop е рамка, която разпределя данните в множество системи, така че всички системи могат да правят изчисления паралелно, като по този начин увеличават общата скорост на изчисления, наричана още разпределено изчисление. Hadoop има собствена файлова система, която е система за съхранение на данни за Big Data.

Науката за данните в непрофесионално отношение е наука за разбиране какво да правим с данните, големи или малки. До този момент ние само се опитвахме да намерим средната оценка, но учен с данни ще надхвърли и ще търси начини да намери какво може да се направи със средната стойност. За организация той ще им помогне да вземат бизнес решения и да намерят модели, които биха помогнали на шефовете да вземат по-добри решения и да разпределят ресурси за увеличаване на печалбата. Повечето учени за данни могат дори да не използват Hadoop, ако не се занимават с големи данни, обикновено използват R lang или Python за своите изчисления.

Big Data е концепция. Hadoop е инструмент. Данните са област на компютърните науки.


Отговор 3:

Предполагам, че сте мислили, че „Science Science” и „Big Data Hadoop” са две различни неща, но всъщност са три. Data Science, Big Data и Hadoop имат различни значения.

Да предположим, че сте ученик в 10 клас. Получили са ви задача да намерите средната оценка по всеки предмет, оценена от вашите съученици. Имате 50 ученици от вашия клас, които изучават по 5 предмета всеки. Намирането на средното не е ракетна наука, така че го правите всичко в екселски лист. Сега вашият учител ви моли да направите едно и също изчисление за всички секции A, B и C от около 150 ученици. Листът на Excel отново е достатъчен. Сега искате да знаете какви биха били средните оценки за науката, получени от ученици от десети клас в цялата страна, което е около 14 311 861 ученици през 2016 г. Възможно е да не съхранявате толкова много данни в лист excel, така че да ги съхранявате в база данни като MySQL или Oracle. Пускате SQL заявка, за да намерите средната стойност. Сега ви е любопитно да знаете тенденцията как се движат средните стойности след последните 20 години в Science за клас 10, което е около 3000000 записа. Ако откриете средната стойност на всичките 5 предмета, а не само науката, ще обработвате 30000000 х 5 записа. Данните вече са големи, което се нарича още „Големи данни“.

Големи данни - изключително големи масиви от данни, които могат да бъдат анализирани изчислително, за да разкрият модели, тенденции и асоциации, особено свързани с човешкото поведение и взаимодействия.- От Уикипедия

Вероятно не трябва да съхранявате толкова много данни във вашия MySQL или Oracle и да изпълнявате SQL заявката си на милиони записи. Никога не съм работил с толкова много данни в SQL база данни, така че няма да коментирам неговата ефективност, но използвах Hadoop за обработка на огромно количество набори от данни, много по-голямо от базата данни за студенти, за която говорим. Hadoop е рамка, която разпределя данните в множество системи, така че всички системи могат да правят изчисления паралелно, като по този начин увеличават общата скорост на изчисления, наричана още разпределено изчисление. Hadoop има собствена файлова система, която е система за съхранение на данни за Big Data.

Науката за данните в непрофесионално отношение е наука за разбиране какво да правим с данните, големи или малки. До този момент ние само се опитвахме да намерим средната оценка, но учен с данни ще надхвърли и ще търси начини да намери какво може да се направи със средната стойност. За организация той ще им помогне да вземат бизнес решения и да намерят модели, които биха помогнали на шефовете да вземат по-добри решения и да разпределят ресурси за увеличаване на печалбата. Повечето учени за данни могат дори да не използват Hadoop, ако не се занимават с големи данни, обикновено използват R lang или Python за своите изчисления.

Big Data е концепция. Hadoop е инструмент. Данните са област на компютърните науки.