Data lake

http://dbpedia.org/resource/Data_lake an entity of type: Work

データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ（列と行）や、半構造化データ（CSV、ログ、XML、JSON）、非構造化データ（Eメール、ドキュメント、PDF）、バイナリデータ（画像、音声、映像）を含めることができる。適切に管理されておらず、ユーザが意図するデータへのアクセシビリティが低く、小さな価値しか提供できない低品質のデータレイクはデータの沼と表現される。 rdf:langString

数据湖（英語：data Lake），是指使用大型二进制对象或文件这样的自然格式储存数据的系统。它通常把所有的企业数据统一存储，既包括源系统中的原始副本，也包括转换后的数据，比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV，日志，XML, JSON)，非结构化数据 (电子邮件、文件、PDF)和二进制数据(图像、音频、视频)。储存数据湖的方式包括 Apache Hadoop 分布式文件系统， Azure 数据湖或 's云存储服务，以及诸如 Alluxio 虚拟数据湖之类的解决方案。一个数据沼泽是一个劣化的数据湖，用户无法访问，或是没什么价值。 rdf:langString

Un llac de dades (data lake en anglès) és un sistema o dipòsit de dades emmagatzemades en el seu format natural / en brut, normalment objectes binaris o fitxers. Un llac de dades és en general un únic magatzem de dades, incloent-hi còpies de dades de sistema base, font de dades de sensors, dades socials, etc., i dades transformades utilitzades per a tasques com ara la presentació d'informes, la visualització, anàlisi avançat i aprenentatge automàtic. Un llac de dades pot incloure dades estructurades de bases de dades relacionals (files i columnes), dades semiestructurades (CSV, registres, XML, JSON), dades no estructurades (correus electrònics, documents, PDF) i dades binàries (imatges, àudio, vídeo). Es pot establir un llac de dades "local" (dins dels centres de dades d'una organització) rdf:langString

Ein Data Lake (wörtlich übersetzt "Datensee") ist in der Wirtschaftsinformatik ein System oder ein Repository von Daten, die im Rohdatenformat gespeichert sind, normalerweise Blobs oder Dateien. Ein Data Lake ist in der Regel ein einziger Speicher für alle Unternehmensdaten, einschließlich Rohkopien von Quellsystemdaten und transformierten Daten, die für Aufgaben wie Berichterstellung, Visualisierung, erweiterte Analysen und maschinelles Lernen verwendet werden. Ein Data Lake kann strukturierte Daten aus relationalen Datenbanken (Zeilen und Spalten), aus CSV-, XML- oder JSON-Formaten oder unstrukturierte Daten zum Beispiel E-Mails, Dokumente, PDF-Dateien und binäre Daten (Bild, Ton, Speicherabbilder) enthalten. rdf:langString

A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files. A data lake is usually a single store of data including raw copies of source system data, sensor data, social data etc., and transformed data used for tasks such as reporting, visualization, advanced analytics and machine learning. A data lake can include structured data from relational databases (rows and columns), semi-structured data (CSV, logs, XML, JSON), unstructured data (emails, documents, PDFs) and binary data (images, audio, video). A data lake can be established "on premises" (within an organization's data centers) or "in the cloud" (using cloud services from vendors such as Amazon, Microsoft, or Google). rdf:langString

Un lac de données (en anglais data lake) est une méthode de stockage de données massives utilisée par le big data (mégadonnées en français). Ces données sont gardées dans leurs formats originaux ou sont très peu transformées. Le lac de données donne la priorité au stockage rapide et volumineux de données hétérogènes en adoptant une architecture en cluster. Il n'est pas optimisé pour les requêtes SQL comme les SGBD relationnels classiques, et s'écarte des Propriétés ACID traditionnelles. On parle depuis 2010 de SGBD NoSQL. Articles détaillés : Big Data et NoSQL. rdf:langString

Data lake é um repositório utilizado para armazenar todos os dados estruturados e não estruturados. Ao armazená-los de forma não estruturada pode-se realizar diferentes tipos de análise, incluindo processamento de big data, análise em tempo real e machine learning, a fim de adquirir melhores decisões. Além disso, o data lake aproveita mais dados, de mais fontes, em menos tempo e todos os dados são mantidos, mesmo depois de finalizados eles ficam armazenados para próximas análises. rdf:langString

rdfs:label

rdf:langString Llac de dades

rdf:langString Data Lake

rdf:langString Lago de datos

rdf:langString Data lake

rdf:langString Lac de données

rdf:langString データレイク

rdf:langString Data Lake

rdf:langString 数据湖

dbpedia-owl:wikiPageID

xsd:integer 46626475

dbpedia-owl:wikiPageRevisionID

xsd:integer 1118313118

dbpedia-owl:abstract

rdf:langString Un llac de dades (data lake en anglès) és un sistema o dipòsit de dades emmagatzemades en el seu format natural / en brut, normalment objectes binaris o fitxers. Un llac de dades és en general un únic magatzem de dades, incloent-hi còpies de dades de sistema base, font de dades de sensors, dades socials, etc., i dades transformades utilitzades per a tasques com ara la presentació d'informes, la visualització, anàlisi avançat i aprenentatge automàtic. Un llac de dades pot incloure dades estructurades de bases de dades relacionals (files i columnes), dades semiestructurades (CSV, registres, XML, JSON), dades no estructurades (correus electrònics, documents, PDF) i dades binàries (imatges, àudio, vídeo). Es pot establir un llac de dades "local" (dins dels centres de dades d'una organització) o "al núvol" (mitjançant serveis de núvol de proveïdors com Amazon, Microsoft o Google ). Un pantà de dades (o data swamp en anglès) és un llac de dades deteriorat i no gestionat que és inaccessible per als usuaris previstos o que aporta poc valor.

rdf:langString Ein Data Lake (wörtlich übersetzt "Datensee") ist in der Wirtschaftsinformatik ein System oder ein Repository von Daten, die im Rohdatenformat gespeichert sind, normalerweise Blobs oder Dateien. Ein Data Lake ist in der Regel ein einziger Speicher für alle Unternehmensdaten, einschließlich Rohkopien von Quellsystemdaten und transformierten Daten, die für Aufgaben wie Berichterstellung, Visualisierung, erweiterte Analysen und maschinelles Lernen verwendet werden. Ein Data Lake kann strukturierte Daten aus relationalen Datenbanken (Zeilen und Spalten), aus CSV-, XML- oder JSON-Formaten oder unstrukturierte Daten zum Beispiel E-Mails, Dokumente, PDF-Dateien und binäre Daten (Bild, Ton, Speicherabbilder) enthalten. Data Lakes werden in Branchen wie Einzelhandel, Bankwesen oder Hotel- und Gastgewerbe und sogar in der Reisebranche verwendet, für die Verfolgung und die Vorhersage von Kundenvorlieben und die Verbesserung der gesamten Kundenerfahrung. Neben den Daten werden auch generische Analysemethoden abgelegt, sodass diese ebenfalls für die zentral gespeicherten Daten zur Verfügung stehen und nicht im Vorfeld jedes Analyseprozesses zusammengetragen werden müssen. Daher benötigen Data Lakes normalerweise viel mehr Speicherkapazität als Data Warehouses. Darüber hinaus sind unverarbeitete Rohdaten formbar, lassen sich schnell für die unterschiedlichsten Zwecke analysieren und sind ideal für maschinelles Lernen. Ein Datensumpf (data swamp) ist ein nicht verwalteter Data Lake, der entweder für die vorgesehenen Benutzer nicht zugänglich ist oder wenig Wert bietet. Datensümpfe entstehen, wenn keine angemessenen Datenqualitäts- und Data-Governance-Maßnahmen durchgeführt werden.

rdf:langString A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files. A data lake is usually a single store of data including raw copies of source system data, sensor data, social data etc., and transformed data used for tasks such as reporting, visualization, advanced analytics and machine learning. A data lake can include structured data from relational databases (rows and columns), semi-structured data (CSV, logs, XML, JSON), unstructured data (emails, documents, PDFs) and binary data (images, audio, video). A data lake can be established "on premises" (within an organization's data centers) or "in the cloud" (using cloud services from vendors such as Amazon, Microsoft, or Google). Poorly-managed data lakes have been facetiously called data swamps.

rdf:langString Un lac de données (en anglais data lake) est une méthode de stockage de données massives utilisée par le big data (mégadonnées en français). Ces données sont gardées dans leurs formats originaux ou sont très peu transformées. Le lac de données donne la priorité au stockage rapide et volumineux de données hétérogènes en adoptant une architecture en cluster. Il n'est pas optimisé pour les requêtes SQL comme les SGBD relationnels classiques, et s'écarte des Propriétés ACID traditionnelles. On parle depuis 2010 de SGBD NoSQL. Articles détaillés : Big Data et NoSQL. On trouve donc dans un lac de données des données de natures et de sources différentes, telles que : * des données structurées issues notamment de bases de données relationnelles (lignes et colonnes) ; * des données variées issues de bases NoSQL ; * des données semi-structurées (fichiers CSV, journaux, XML, JSON...) ; * des données non structurées (emails, documents, PDF) ; * des fichiers de type blob (images, audio, vidéo notamment). Ces données sont conservées dans le lac de données pour analyse ultérieure. Il s’agit d’une solution de gestion de données hybrides et variées ayant pour objectif de stocker de manière rapide et peu chère une grande quantité de données brutes. La principale qualité du lac de données réside en sa flexibilité. Il doit pouvoir stocker les données, quel que soit leur format. Lorsqu’une donnée est intégrée au sein du Data Lake, elle se voit attribuer un identifiant unique et est marquée au moyen d'un jeu de balises de métadonnées étendues. Lorsqu'un besoin se présente, le Data Lake est parcouru pour y rechercher des informations pertinentes. L'analyse de ces données permet alors d'apporter de la valeur et de répondre à ce besoin.

rdf:langString データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ（列と行）や、半構造化データ（CSV、ログ、XML、JSON）、非構造化データ（Eメール、ドキュメント、PDF）、バイナリデータ（画像、音声、映像）を含めることができる。適切に管理されておらず、ユーザが意図するデータへのアクセシビリティが低く、小さな価値しか提供できない低品質のデータレイクはデータの沼と表現される。

rdf:langString Data lake é um repositório utilizado para armazenar todos os dados estruturados e não estruturados. Ao armazená-los de forma não estruturada pode-se realizar diferentes tipos de análise, incluindo processamento de big data, análise em tempo real e machine learning, a fim de adquirir melhores decisões. Além disso, o data lake aproveita mais dados, de mais fontes, em menos tempo e todos os dados são mantidos, mesmo depois de finalizados eles ficam armazenados para próximas análises. Dessa forma, as empresas podem utilizar os dados da maneira que preferem e estão investindo no Data Lake cada vez mais.

rdf:langString 数据湖（英語：data Lake），是指使用大型二进制对象或文件这样的自然格式储存数据的系统。它通常把所有的企业数据统一存储，既包括源系统中的原始副本，也包括转换后的数据，比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV，日志，XML, JSON)，非结构化数据 (电子邮件、文件、PDF)和二进制数据(图像、音频、视频)。储存数据湖的方式包括 Apache Hadoop 分布式文件系统， Azure 数据湖或 's云存储服务，以及诸如 Alluxio 虚拟数据湖之类的解决方案。一个数据沼泽是一个劣化的数据湖，用户无法访问，或是没什么价值。

dbpedia-owl:wikiPageLength

xsd:nonNegativeInteger 8715

rdf:type

dbpedia-owl:Work

dcterms:subject

dbpedia:Category:Cloud_storage

dbpedia:Category:Data_management

dbpedia-owl:wikiPageWikiLink

dbpedia:Cambridge_Semantics

dbpedia:Cardiff_University

dbpedia:PricewaterhouseCoopers

dbpedia:Hadoop_distributed_file_system