دیتاست متن ۳۰ هزار مقاله پزشکی
#dataset
#bigdata
مقدار زیادی مقاله پژوهشی در حوزهی زیست پزشکی هر روزه در سراسر جهان منتشر میشود که جمع آوری اطلاعات غنی، مانند تنوع ژنتیکی، ژنها، فنوتیپ، بیماری و درمان با استفاده از دادهکاوی میتواند سریعتر و موثرتر صورت گیرد. یکی از حوزههای دادهکاوی که در سالهای اخیر به سبب پیشرفتهای زیاد در فناوریهای سختافزاری و نرمافزاری رشد و توسعه پیدا کرده، متنکاوی است. در حوزهی زیست پزشکی، با استفاده از متن کاوی در مقالات میتوان به درک بهتری نسبت به بیماریها دست یافت که این موضوع سبب بهبود کیفیت در تشخیص بیماریها، پیشگیری و درمان آنها میشود. با توجه به درخواست کاربران مبنی قرار دادن مجموعه دادهای در حوزهی Big Data، این مجموعه داده عظیم برای علاقهمندان این حوزه تدارک دیده شده که امیدواریم موردتوجه واقع گردد.
این مجموعه داده شامل متن کامل مقالات مرتبط با بیماریهای سرطان سینه، پروستات و ریه است که از پاپ مد سنترال (Pubmed Central) استخراج شده است.
نمونههایی از قابلیتهای استفادهی دیتاست:
طبقهبندی متون بر اساس محتوا
ارزیابی دقت پیشبینی سرطانهای مطرح شده با استفاده از محتوای متون
http://www.datapool.ir/beta/2016/09/05/articles/
#dataset
#bigdata
مقدار زیادی مقاله پژوهشی در حوزهی زیست پزشکی هر روزه در سراسر جهان منتشر میشود که جمع آوری اطلاعات غنی، مانند تنوع ژنتیکی، ژنها، فنوتیپ، بیماری و درمان با استفاده از دادهکاوی میتواند سریعتر و موثرتر صورت گیرد. یکی از حوزههای دادهکاوی که در سالهای اخیر به سبب پیشرفتهای زیاد در فناوریهای سختافزاری و نرمافزاری رشد و توسعه پیدا کرده، متنکاوی است. در حوزهی زیست پزشکی، با استفاده از متن کاوی در مقالات میتوان به درک بهتری نسبت به بیماریها دست یافت که این موضوع سبب بهبود کیفیت در تشخیص بیماریها، پیشگیری و درمان آنها میشود. با توجه به درخواست کاربران مبنی قرار دادن مجموعه دادهای در حوزهی Big Data، این مجموعه داده عظیم برای علاقهمندان این حوزه تدارک دیده شده که امیدواریم موردتوجه واقع گردد.
این مجموعه داده شامل متن کامل مقالات مرتبط با بیماریهای سرطان سینه، پروستات و ریه است که از پاپ مد سنترال (Pubmed Central) استخراج شده است.
نمونههایی از قابلیتهای استفادهی دیتاست:
طبقهبندی متون بر اساس محتوا
ارزیابی دقت پیشبینی سرطانهای مطرح شده با استفاده از محتوای متون
http://www.datapool.ir/beta/2016/09/05/articles/
دیتاست احساسات کاوی
#dataset
افکار و عقاید بیان شده در شبکههای اجتماعی نقش مهمی در تاثیرگذاری بر رفتار افکار عمومی در زمینههای متنوعی چون خرید محصول، گرفتن نبض بازارهای سهام و گرفتن رأی برای ریاست جمهوری ایفا می کنند. عقاید و افکار تولید شده به وسیلهی وب در وبلاگها و شبکههای اجتماعی به تازگی به منبع ارزشمندی برای کاوش احساسات کاربر برای مقاصدی چون مدیریت ارتباط با مشتری، پیگیری افکارعمومی و فیلترینگ متن تبدیل شده است. این اساسا یک برنامهی نرم افزاری پردازش طبیعی زبان (NLP) است که از زبان شناسی محاسباتی و متن کاوی برای شناسایی احساس متن ، معمولا مثبت، خنثی یا منفی بهره می برد. از این رو، SA را میتوان به عنوان تکنیک کشف خودکار دانش در نظر گرفت که هدفش یافتن الگوهای پنهان در تعداد زیادی از نظرات، وبلاگ ها یا توئیت ها است. به همین منظور دیتاستی در این رابطه برای عزیزان تدارک دیده شده است که امیدواریم مورد توجه واقع گردد.
این دیتاست شامل پستهای مرتبط با اعتصاب معلمان و بسته شدن مدارس شیکاگو در تمامی رسانههای اجتماعی نظیر: وبلاگ، فیسبوک، توییتر،فروم و کامنت ها است که از ۸ تا ۱۲ دسامبر سال ۲۰۱۲ ( دو روز قبل و دو روز بعد از حادثه) جمعآوری شده است.
نمونههایی از قابلیتهای استفادهی این دیتاست:
تحلیل افکار عمومی در فضای مجازی درباره اعتصاب رخ داده در شیکاگو
متن کاوی، عقیده کاوی، نظرکاوی
http://www.datapool.ir/beta/2016/06/26/sentiment/
#dataset
افکار و عقاید بیان شده در شبکههای اجتماعی نقش مهمی در تاثیرگذاری بر رفتار افکار عمومی در زمینههای متنوعی چون خرید محصول، گرفتن نبض بازارهای سهام و گرفتن رأی برای ریاست جمهوری ایفا می کنند. عقاید و افکار تولید شده به وسیلهی وب در وبلاگها و شبکههای اجتماعی به تازگی به منبع ارزشمندی برای کاوش احساسات کاربر برای مقاصدی چون مدیریت ارتباط با مشتری، پیگیری افکارعمومی و فیلترینگ متن تبدیل شده است. این اساسا یک برنامهی نرم افزاری پردازش طبیعی زبان (NLP) است که از زبان شناسی محاسباتی و متن کاوی برای شناسایی احساس متن ، معمولا مثبت، خنثی یا منفی بهره می برد. از این رو، SA را میتوان به عنوان تکنیک کشف خودکار دانش در نظر گرفت که هدفش یافتن الگوهای پنهان در تعداد زیادی از نظرات، وبلاگ ها یا توئیت ها است. به همین منظور دیتاستی در این رابطه برای عزیزان تدارک دیده شده است که امیدواریم مورد توجه واقع گردد.
این دیتاست شامل پستهای مرتبط با اعتصاب معلمان و بسته شدن مدارس شیکاگو در تمامی رسانههای اجتماعی نظیر: وبلاگ، فیسبوک، توییتر،فروم و کامنت ها است که از ۸ تا ۱۲ دسامبر سال ۲۰۱۲ ( دو روز قبل و دو روز بعد از حادثه) جمعآوری شده است.
نمونههایی از قابلیتهای استفادهی این دیتاست:
تحلیل افکار عمومی در فضای مجازی درباره اعتصاب رخ داده در شیکاگو
متن کاوی، عقیده کاوی، نظرکاوی
http://www.datapool.ir/beta/2016/06/26/sentiment/
کاربرد کلان داده ها در صنعت تولید
#BigData
🔵مدیریت دوره عمر محصول
🔵طراحی ارزشمندترین کالا
🔵نوآوری آزاد
🔵پیش تقاضا و برنامه ریزی تولید
🔵کارخانه دیجیتال
🔵هدایت فعالیت ها با سنسور
🔵خدمات پس از فروش از طریق سنسورها
در ادامه هر یک شرح داده می شود...
منبع:
کتاب مدیریت کلان داده ها در بخش های خصوصی و عمومی ،تالیف دکتر بابک سهرابی و حمیده ایرج
#BigData
🔵مدیریت دوره عمر محصول
🔵طراحی ارزشمندترین کالا
🔵نوآوری آزاد
🔵پیش تقاضا و برنامه ریزی تولید
🔵کارخانه دیجیتال
🔵هدایت فعالیت ها با سنسور
🔵خدمات پس از فروش از طریق سنسورها
در ادامه هر یک شرح داده می شود...
منبع:
کتاب مدیریت کلان داده ها در بخش های خصوصی و عمومی ،تالیف دکتر بابک سهرابی و حمیده ایرج
#معرفی_کتاب
🔵Hadoop,The definitive Guid,Tom White,O'Reilly
🔵Hadoop Operations,Eric Sammer,O'Reilly Media
🔵Real-World Hadoop,Ted Dunning,O'Reilly Media
🔵Professional Hadoop Soultions,Boris Lublinsky,Wrox
🔵Hadoop,The definitive Guid,Tom White,O'Reilly
🔵Hadoop Operations,Eric Sammer,O'Reilly Media
🔵Real-World Hadoop,Ted Dunning,O'Reilly Media
🔵Professional Hadoop Soultions,Boris Lublinsky,Wrox
مایکروسافت SQL Server 2012 در هدوپ
🔵The SQL Server-Hadoop Connector
🔵Downloading the SQL Server-Hadoop Connector
🔵Installing the SQL Server-Hadoop Connector
🔵The Sqoop import/export tool
🔵Using the Hive ODBC Driver
🔵Creating the project
🔵Creating the DataFlow
🔵Creating the Source Hive Connection
🔵Creating the destination SQL Connection
🔵Mapping the columns
🔵Creating a Data Model with SQL Server Analysis Services
🔵Using self service BI tools
برای یادگیری موارد فوق به پی دی اف کتاب مراجعه فرمایید.
🔵The SQL Server-Hadoop Connector
🔵Downloading the SQL Server-Hadoop Connector
🔵Installing the SQL Server-Hadoop Connector
🔵The Sqoop import/export tool
🔵Using the Hive ODBC Driver
🔵Creating the project
🔵Creating the DataFlow
🔵Creating the Source Hive Connection
🔵Creating the destination SQL Connection
🔵Mapping the columns
🔵Creating a Data Model with SQL Server Analysis Services
🔵Using self service BI tools
برای یادگیری موارد فوق به پی دی اف کتاب مراجعه فرمایید.
Forwarded from کانال تخصصی امنیت سایبری «کتاس»
امنیت و حریم خصوصی در کلان داده (BigData)
در حال حاضر،بسیاری از تکنیک های امنیت و حريم خصوصی برای سناريو های کلان داده وجود دارند.اين تکنیک ها برای کلان داده کافی و مناسب نمی باشند،زيرا عمدتاً برای داده های کوچک سنتی طراحی شده اند.بنابراين،تلاشهای تحقیقاتی مورد انتظار هستند که به چالش های امنیت و حريم خصوصی در کلان داده اختصاص داده شوند.تحقیقات حريم خصوصی کلان داده هنوز در مراحل اولیه خودش است.در اين مقاله به بررسی مختصری بر امنیت و حريم خصوصی کلان داده و تکنیک ها و روش های معرفی شده برای آن مانند،رمز گذاری مجدد،حريم خصوصی ديفرانسیلی پرداخته شده است و اين روش ها از نظر کارايی زمان، مقیاس پذيری و حريم خصوصی بررسی شده است.
روش های ذکر شده حفظ حريم خصوصی را بهبود بخشیدند،اما هنوز به علت حجم فزاينده مجموعه داده ها چالشهايی در اين زمینه وجود دارد.با توجه به ضعف اين روش ها جا دارد تا مورد بررسی دقیق تری قرار گیرند.و روش های جديدی با توجه به چالش های موجود ايجاد شود تا با اطمینان بیشتری بتوان از آنها استفاده نمود.همواره يک تناقض آشکار بین امنیت و حريم خصوصی،و استفاده گسترده از کلان داده وجود دارد.استفاده از داده های کاربران باعث پیشرفت کلان داده می شود.
اما از طرفی در بین مردم نگرانی نسبت به افشاء اطلاعاتشان وجود دارد.که خود يک چالش در زمینه رفاه مصرف کنندگان ايجاد می کند.کلان داده نیاز به وضع قوانین و سیاست های استواری دارد که بر اساس آن سطح حساسیت اطلاعات مشخص شود.تا اطلاعات حساس شناسايی و با روش هايی مانند رمز نگاری يا گذاشتن نويز حفاظت شوند.تعدادی از تکنیک های امنیت و حريم خصوصی برای کلان داده مطرح شد.هر کدام از اين روش هابخشی از ويژگی های کلان داده را در نظر گرفته اند ولی به طور کامل مفید نیستند.بنابراين ارائه يک روش جديد برای امنیت و حريم خصوصی کلان داده که از هر لحاظ مناسب بوده و کارايی کلان داده را دچار مشکل نکند،ضروری به نظر می رسد.
منبع : چکیده ای از مقاله مریم چوپانی شیرزی در کنفرانس بین المللی پژوهش های کاربردی در فناوری اطلاعات،کامپیوتر و مخابرات
〰〰〰〰〰
منبع:nis_ict
📌کانال تخصصی امنیت سايبري
📢 باذکرمنبع نشر دهید.
@ict_security
🛡🎯لینک عضویت:
https://telegram.me/joinchat/BaPoBjumXnAJvmKuYQQQbQ
در حال حاضر،بسیاری از تکنیک های امنیت و حريم خصوصی برای سناريو های کلان داده وجود دارند.اين تکنیک ها برای کلان داده کافی و مناسب نمی باشند،زيرا عمدتاً برای داده های کوچک سنتی طراحی شده اند.بنابراين،تلاشهای تحقیقاتی مورد انتظار هستند که به چالش های امنیت و حريم خصوصی در کلان داده اختصاص داده شوند.تحقیقات حريم خصوصی کلان داده هنوز در مراحل اولیه خودش است.در اين مقاله به بررسی مختصری بر امنیت و حريم خصوصی کلان داده و تکنیک ها و روش های معرفی شده برای آن مانند،رمز گذاری مجدد،حريم خصوصی ديفرانسیلی پرداخته شده است و اين روش ها از نظر کارايی زمان، مقیاس پذيری و حريم خصوصی بررسی شده است.
روش های ذکر شده حفظ حريم خصوصی را بهبود بخشیدند،اما هنوز به علت حجم فزاينده مجموعه داده ها چالشهايی در اين زمینه وجود دارد.با توجه به ضعف اين روش ها جا دارد تا مورد بررسی دقیق تری قرار گیرند.و روش های جديدی با توجه به چالش های موجود ايجاد شود تا با اطمینان بیشتری بتوان از آنها استفاده نمود.همواره يک تناقض آشکار بین امنیت و حريم خصوصی،و استفاده گسترده از کلان داده وجود دارد.استفاده از داده های کاربران باعث پیشرفت کلان داده می شود.
اما از طرفی در بین مردم نگرانی نسبت به افشاء اطلاعاتشان وجود دارد.که خود يک چالش در زمینه رفاه مصرف کنندگان ايجاد می کند.کلان داده نیاز به وضع قوانین و سیاست های استواری دارد که بر اساس آن سطح حساسیت اطلاعات مشخص شود.تا اطلاعات حساس شناسايی و با روش هايی مانند رمز نگاری يا گذاشتن نويز حفاظت شوند.تعدادی از تکنیک های امنیت و حريم خصوصی برای کلان داده مطرح شد.هر کدام از اين روش هابخشی از ويژگی های کلان داده را در نظر گرفته اند ولی به طور کامل مفید نیستند.بنابراين ارائه يک روش جديد برای امنیت و حريم خصوصی کلان داده که از هر لحاظ مناسب بوده و کارايی کلان داده را دچار مشکل نکند،ضروری به نظر می رسد.
منبع : چکیده ای از مقاله مریم چوپانی شیرزی در کنفرانس بین المللی پژوهش های کاربردی در فناوری اطلاعات،کامپیوتر و مخابرات
〰〰〰〰〰
منبع:nis_ict
📌کانال تخصصی امنیت سايبري
📢 باذکرمنبع نشر دهید.
@ict_security
🛡🎯لینک عضویت:
https://telegram.me/joinchat/BaPoBjumXnAJvmKuYQQQbQ
کلان داده ها در تامین منافع عموم مردم
#bigdata
🔵موارد بحرانی و اضطراری
🔵کمک به رشد توسعه
🔵شناسایی نقاط جرم خیز
🔵کمک به آتش نشانی ها در امداد و نجات
🔵داده نگاری
کلان داده ها علاوه بر ایجاد کسب و کارهای جدید،خلق ارزش برای صنایع مختلف و بالا بردن سودآوری شرکت ها میتواند زیربنای آگاهی بخشی به مردم برای کمک به تصمیم گیری های آگاهانه تر و کمک به مردم حادثه دیده در مواقع خطر و بحران باشد.
با تحلیل شبکه های اجتماعی، نقشه های جغرافیایی، داده های بانک های جهانی، سیستم داده های جمع اوری شده گزارشات جرم، دیتابیس های گزارشات امداد نجات و ساختمان های در معرض حریق و جمع آوری اطلاعات خبری، میتوان به عنوان پشتیبانی برای تصمیم گیری و با پیوستن به طرح داده های آزاد از توان عموم مردم برای حل مشکلات استفاده کرد.
@BigDataTechnology
منبع:
کتاب مدیریت کلان داده ها
#bigdata
🔵موارد بحرانی و اضطراری
🔵کمک به رشد توسعه
🔵شناسایی نقاط جرم خیز
🔵کمک به آتش نشانی ها در امداد و نجات
🔵داده نگاری
کلان داده ها علاوه بر ایجاد کسب و کارهای جدید،خلق ارزش برای صنایع مختلف و بالا بردن سودآوری شرکت ها میتواند زیربنای آگاهی بخشی به مردم برای کمک به تصمیم گیری های آگاهانه تر و کمک به مردم حادثه دیده در مواقع خطر و بحران باشد.
با تحلیل شبکه های اجتماعی، نقشه های جغرافیایی، داده های بانک های جهانی، سیستم داده های جمع اوری شده گزارشات جرم، دیتابیس های گزارشات امداد نجات و ساختمان های در معرض حریق و جمع آوری اطلاعات خبری، میتوان به عنوان پشتیبانی برای تصمیم گیری و با پیوستن به طرح داده های آزاد از توان عموم مردم برای حل مشکلات استفاده کرد.
@BigDataTechnology
منبع:
کتاب مدیریت کلان داده ها
دیتاست جرم شناسی
#dataset
سیستمهای پیشبینی جرم به طور کلی با یادگیری از دادههای جرمهای رخ داده در یک شهر در یک بازه زمانی به پیشبینی مناطقی که احتمال وقوع جرم در آن بیشتر است میپردازد. این سیستمها قادر به پیشبینی هویت سارق نیستند بلکه نوع جرم، مکان و زمان احتمالی وقوع آن را پیشبینی می کند. دادهها شامل جرمهایی است که از تاریخ ۲۰۰۳/۱/۱ تا ۲۰۱۵/۵/۱۳ توسط سازمان پلیس سانفرانسیکو ثبت شده است.
هر سطر از جدول دادگان شامل اطلاعات زیر است:
🔵تاریخ و زمان دقیق وقوع جرم
🔵روز وقوع جرم در هفته
🔵نام واحد پلیس منطقه
🔵آدرس وقوع جرم
🔵عرض جغرافیایی وقوع جرم
🔵طول جغرافیایی وقوع جرم
🔵دستهای که جرم در آن قرار میگیرد.
🔵شرح کوتاهی از جرم
🔵شرح کوتاهی از اقدام پلیس و مقامات قضایی با جرم
لینک دانلود رایگان دیتاست :
http://www.datapool.ir/beta/2016/04/05/predicting-crime/
#dataset
سیستمهای پیشبینی جرم به طور کلی با یادگیری از دادههای جرمهای رخ داده در یک شهر در یک بازه زمانی به پیشبینی مناطقی که احتمال وقوع جرم در آن بیشتر است میپردازد. این سیستمها قادر به پیشبینی هویت سارق نیستند بلکه نوع جرم، مکان و زمان احتمالی وقوع آن را پیشبینی می کند. دادهها شامل جرمهایی است که از تاریخ ۲۰۰۳/۱/۱ تا ۲۰۱۵/۵/۱۳ توسط سازمان پلیس سانفرانسیکو ثبت شده است.
هر سطر از جدول دادگان شامل اطلاعات زیر است:
🔵تاریخ و زمان دقیق وقوع جرم
🔵روز وقوع جرم در هفته
🔵نام واحد پلیس منطقه
🔵آدرس وقوع جرم
🔵عرض جغرافیایی وقوع جرم
🔵طول جغرافیایی وقوع جرم
🔵دستهای که جرم در آن قرار میگیرد.
🔵شرح کوتاهی از جرم
🔵شرح کوتاهی از اقدام پلیس و مقامات قضایی با جرم
لینک دانلود رایگان دیتاست :
http://www.datapool.ir/beta/2016/04/05/predicting-crime/
۱۳ چارچوب منبعباز برای کسب مهارت در یادگیری ماشینی
@BigDataTechnology
▫ApacheSpark MLib
▫Apache Singa
▫Caffe
▫Microsoft Azure ML Studio
▫Amazon Machine Learning
▫Microsoft Distributed Machine Learning Toolkit
▫Google TensorFlow
▫ Microsoft Computational Network Toolkit
▫Veles (Samsung)
▫Brainstorm
▫mlpack 2
▫Marvin
▫Neon
http://www.bigdata.ir/1395/06/۱۳-چارچوب-منبعباز-برای-کسب-مهارت-در-ی/
@BigDataTechnology
▫ApacheSpark MLib
▫Apache Singa
▫Caffe
▫Microsoft Azure ML Studio
▫Amazon Machine Learning
▫Microsoft Distributed Machine Learning Toolkit
▫Google TensorFlow
▫ Microsoft Computational Network Toolkit
▫Veles (Samsung)
▫Brainstorm
▫mlpack 2
▫Marvin
▫Neon
http://www.bigdata.ir/1395/06/۱۳-چارچوب-منبعباز-برای-کسب-مهارت-در-ی/
Microsoft Distributed Machine Learning Toolkit
BIG DATA, BIG MODEL, FLEXIBILITY, EFFICIENCY
بیشتر کامپیوترهایی که امروزه کاربران استفاده میکنند، مشکل عمدهای در ارتباط با یادگیری ماشینی دارند. توان پردازشی یک کامپیوتر منفرد برای سازماندهی و مدیریت برنامههای یادگیری ماشینی کافی نیست. برای حل این مشکل میتوان از ترفند خاصی استفاده کرد؛ به طوری که این کامپیوترها گردهم آمده و به یکدیگر متصل شوند. آنگاه برنامههای یادگیری ماشینی بر مبنای آنها طراحی شده و اجرا شوند.
ابزار یادگیری ماشینی توزیعشده DMTK، سرنام Distributed Machine Learning Toolkit، در اصل چارچوبی است که اسباب و وسایل لازم برای این مسئله را ارائه کرده است.
چارچوب DMTK به جای آنکه راهحل کامل و جامعی را ارائه کند، سعی میکند از تعدادی از الگوریتمهای واقعی در اندازه کوچکتر استفاده کند. DMTK به گونهای طراحی شده است که میتوان بهراحتی در آینده آن را توسعه داد. این چارچوب برای کاربرانی که با منابع محدود روبهرو هستند، راهکار ایدهآلی به شمار میرود. برای مثال، هر گره در یک کلاستر، کش محلی خود را دارد. همین موضوع باعث میشود به میزان قابل توجهی ترافیکی که برای گره سرور مرکزی ارسال میشود، کم شود.
https://www.dmtk.io
BIG DATA, BIG MODEL, FLEXIBILITY, EFFICIENCY
بیشتر کامپیوترهایی که امروزه کاربران استفاده میکنند، مشکل عمدهای در ارتباط با یادگیری ماشینی دارند. توان پردازشی یک کامپیوتر منفرد برای سازماندهی و مدیریت برنامههای یادگیری ماشینی کافی نیست. برای حل این مشکل میتوان از ترفند خاصی استفاده کرد؛ به طوری که این کامپیوترها گردهم آمده و به یکدیگر متصل شوند. آنگاه برنامههای یادگیری ماشینی بر مبنای آنها طراحی شده و اجرا شوند.
ابزار یادگیری ماشینی توزیعشده DMTK، سرنام Distributed Machine Learning Toolkit، در اصل چارچوبی است که اسباب و وسایل لازم برای این مسئله را ارائه کرده است.
چارچوب DMTK به جای آنکه راهحل کامل و جامعی را ارائه کند، سعی میکند از تعدادی از الگوریتمهای واقعی در اندازه کوچکتر استفاده کند. DMTK به گونهای طراحی شده است که میتوان بهراحتی در آینده آن را توسعه داد. این چارچوب برای کاربرانی که با منابع محدود روبهرو هستند، راهکار ایدهآلی به شمار میرود. برای مثال، هر گره در یک کلاستر، کش محلی خود را دارد. همین موضوع باعث میشود به میزان قابل توجهی ترافیکی که برای گره سرور مرکزی ارسال میشود، کم شود.
https://www.dmtk.io
Forwarded from BigData
اگر علاقه به تبادل نظر و گفتگو پیرامون فریم ورک هدوپ دارید به گروه «هدوپ ایران» بپیوندید.
لینک عضویت: https://telegram.me/joinchat/An8qwj6CGwg0WS-2dTi-Dw
مرجع هدوپ ایران
www.hadoop.ir
@hadoop
لینک عضویت: https://telegram.me/joinchat/An8qwj6CGwg0WS-2dTi-Dw
مرجع هدوپ ایران
www.hadoop.ir
@hadoop
هدوپ ورژن ۳
تغییرات عمده در Apache Hadoop
ورژن 3.0.0-alpha1
@BigDataTechnology
🔵 Minimum required Java version increased from Java 7 to Java 8
🔵 Support for erasure encoding in HDFS
🔵 YARN Timeline Service v.2
🔵 Shell noscript rewrite
🔵 MapReduce task-level native optimization
🔵 Support for more than 2 NameNodes.
🔵 Default ports of multiple services have been changed
🔵 Support for Microsoft Azure Data Lake filesystem connector
🔵 Intra-datanode balancer
🔵 Reworked daemon and task heap management
http://hadoop.apache.org/docs/r3.0.0-alpha1/
@BigDataTechnology
تغییرات عمده در Apache Hadoop
ورژن 3.0.0-alpha1
@BigDataTechnology
🔵 Minimum required Java version increased from Java 7 to Java 8
🔵 Support for erasure encoding in HDFS
🔵 YARN Timeline Service v.2
🔵 Shell noscript rewrite
🔵 MapReduce task-level native optimization
🔵 Support for more than 2 NameNodes.
🔵 Default ports of multiple services have been changed
🔵 Support for Microsoft Azure Data Lake filesystem connector
🔵 Intra-datanode balancer
🔵 Reworked daemon and task heap management
http://hadoop.apache.org/docs/r3.0.0-alpha1/
@BigDataTechnology
با سلام و احترام
ساعات پاسخ گویی به سوالات و نظرات شما عزیزان، فقط روز چهارشنبه ساعت ۲۲ الی ۲۳ از طریق تلگرام امکان پذیر است.
با کمال پوزش به پیام های خارج از زمان تعیین شده پاسخ داده نمی شود.
با تشکر
گلناز اردشیری
معرفی کلان داده ها و فناوری های مرتبط
📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
https://telegram.me/BigDataTechnology
ساعات پاسخ گویی به سوالات و نظرات شما عزیزان، فقط روز چهارشنبه ساعت ۲۲ الی ۲۳ از طریق تلگرام امکان پذیر است.
با کمال پوزش به پیام های خارج از زمان تعیین شده پاسخ داده نمی شود.
با تشکر
گلناز اردشیری
معرفی کلان داده ها و فناوری های مرتبط
📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
https://telegram.me/BigDataTechnology
Telegram
BigData
معرفی کلان داده ها و فناوری های مرتبط
📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
راه اندازی کلاستر هدوپ ورژن ۳
Hadoop Cluster Setup
(version 3.0.0 alpha 1)
@BigDataTechnology
▫Purpose
▫Prerequisites
▫Installation
▫Configuring Hadoop in Non-Secure Mode
▫Configuring Environment of Hadoop Daemons
▫Configuring the Hadoop Daemons
▫Monitoring Health of NodeManagers
▫Slaves File
▫Hadoop Rack Awareness
▫Logging
▫Operating the Hadoop Cluster
▫Hadoop Startup
▫Hadoop Shutdown
▫Web Interfaces
@BigDataTechnology
http://hadoop.apache.org/docs/r3.0.0-alpha1/hadoop-project-dist/hadoop-common/ClusterSetup.html
Hadoop Cluster Setup
(version 3.0.0 alpha 1)
@BigDataTechnology
▫Purpose
▫Prerequisites
▫Installation
▫Configuring Hadoop in Non-Secure Mode
▫Configuring Environment of Hadoop Daemons
▫Configuring the Hadoop Daemons
▫Monitoring Health of NodeManagers
▫Slaves File
▫Hadoop Rack Awareness
▫Logging
▫Operating the Hadoop Cluster
▫Hadoop Startup
▫Hadoop Shutdown
▫Web Interfaces
@BigDataTechnology
http://hadoop.apache.org/docs/r3.0.0-alpha1/hadoop-project-dist/hadoop-common/ClusterSetup.html
دیتاست علوم کامپیوتر در توییتر
در دنیای امروزی افراد زمان بیشتری را در شبکههای اجتماعی سپری میکنند، به همین علت این شبکهها معیاری برای مطالعه رفتار و اندیشههای افراد محسوب میشوند. یکی از این شبکهها که جای خود را بین عموم مردم جهان باز کرده است شبکه اجتماعی توییتر است. این شبکه اجتماعی به عنوان یکی از پرجمعیتترین شبکههای اجتماعی جهان شناخته میشود و روزانه حجم وسیعی از پیامها در این شبکه رد و بدل میشود که به طبع آن شاهد تبادل اندیشهها خواهیم بود. دانشمندان رشتههای مختلف نیز برای ارتباط با محققان دیگر، تبادل نظر حول مقالات و یا به اشتراک گذاری آنها و به دست آوردن اطلاعات مربوطه در حوزه مورد علاقهشان از این شبکهی اجتماعی استفاده میکنند. پیدا کردن جوامع رشتههای مختلف در شبکههای اجتماعی جذابیت خاصی برای محققان دارد.
این مجموعه داده شامل ۹۸۹۵۲۹ توییت از ۶۲۷۱ کاربر فعال در حوزه علوم کامپیوتر است که در سال ۲۰۱۴ جمعآوری شده است و شامل موارد زیر است :
▫زمان توییت
▫شناسنده توییت
▫شناسنده کاربر
▫لینک
نمونههایی از قابلیتهای استفادهی این دیتاست:
▫شناسایی جامعه مهندسان کامپیوتر
لینک دریافت:
http://www.datapool.ir/beta/2016/10/29/computer-scientists/
در دنیای امروزی افراد زمان بیشتری را در شبکههای اجتماعی سپری میکنند، به همین علت این شبکهها معیاری برای مطالعه رفتار و اندیشههای افراد محسوب میشوند. یکی از این شبکهها که جای خود را بین عموم مردم جهان باز کرده است شبکه اجتماعی توییتر است. این شبکه اجتماعی به عنوان یکی از پرجمعیتترین شبکههای اجتماعی جهان شناخته میشود و روزانه حجم وسیعی از پیامها در این شبکه رد و بدل میشود که به طبع آن شاهد تبادل اندیشهها خواهیم بود. دانشمندان رشتههای مختلف نیز برای ارتباط با محققان دیگر، تبادل نظر حول مقالات و یا به اشتراک گذاری آنها و به دست آوردن اطلاعات مربوطه در حوزه مورد علاقهشان از این شبکهی اجتماعی استفاده میکنند. پیدا کردن جوامع رشتههای مختلف در شبکههای اجتماعی جذابیت خاصی برای محققان دارد.
این مجموعه داده شامل ۹۸۹۵۲۹ توییت از ۶۲۷۱ کاربر فعال در حوزه علوم کامپیوتر است که در سال ۲۰۱۴ جمعآوری شده است و شامل موارد زیر است :
▫زمان توییت
▫شناسنده توییت
▫شناسنده کاربر
▫لینک
نمونههایی از قابلیتهای استفادهی این دیتاست:
▫شناسایی جامعه مهندسان کامپیوتر
لینک دریافت:
http://www.datapool.ir/beta/2016/10/29/computer-scientists/